数据嗨客 | 第10期:模型选择与评价

0.引言

机器学习过程中,存在不同的任务,针对具体任务进行分析的时候,需要使用不同的评价指标。

  • 分类模型是通过训练数据建立预测模型,并利用模型将需要预测的数据样本划分到已知的几个类别中的过程。
  • 回归模型通过数据构建自变量与因变量之间的定量映射关系。与分类模型不同的是,回归模型的自变量是连续型变量。
  • 聚类是将数据分到不同的类或者簇的过程,使得同一个类中的样本相似性大,而不同类间的样本相似性小。聚类模型与分类模型的不同点在于,聚类模型要求所划分的类是未知的。

1. 二分类模型评价指标

机器学习中存在各种不同的分类模型,如逻辑回归决策树、朴素贝叶斯和支持向量机等。评估不同分类模型性能的方法是相通的。

在分类问题中,每一个样本都存在两种角度的标签: 一个是样本真实的标签,一个是模型预测的标签。根据每一个样本的两种角度的标签,可以得到一个混淆矩阵(Confusion Matrix)。混淆矩阵中的每一列代表预测类别 ,每一列的总数表示预测为该类别的样本的数目。每一行代表了样本的真实归属类别 ,每一行的数据总数表示该类别的样本的数目。分类模型的评价指标主要基于混淆矩阵,下面将介绍二分类模型和多分类模型的性能评价指标。

二分类模型评价指标

对于二分类问题,每一个样本可以划分到以下四种类中。

  • True Positive (TP): 样本真实类别是正向的,模型预测的类别也是正向的。
  • True Negative (TN): 样本真实类别是负向的,模型预测的类别也是负向的。
  • False Positive (FP): 样本真实类别是负向的,模型预测的类别是正向的。
  • False Negative (FN): 样本真实类别是正向的,模型预测的类别是负向的。

对应的混淆矩阵如下表所示:

正确率

在分类问题中最常见的指标是正确率(Accuracy),它表示模型预测正确的样本比例。正确率的定义如下:

在不均衡数据中,正确率无法很好地度量模型的好坏。例如在文本情感分类数据集中,正面的样本占比为80%,负面的内容占比只有20%。如果一个分类模型将所有的样本都预测为正面,这个模型显然是一个无用的模型,但是它的正确率却可以达到80%。对于不平衡数据,精度和召回率是比正确率更好的性能评价指标。

精度

精度(Precision)是指正确预测的正样本占所有预测为正样本的比例。

召回率

召回率(Recall),又称灵敏度和命中率,是指正样本中被正确预测的样本比例。

从上述定义公式可见,精度和召回率指标的分子一样,不同的是分母。对比混淆矩阵可以看出,精度的计算可以理解为首先将模型预测为正向的样本抽取出来(TP + FP), 然后进一步审查这些样本中有多少样本真实标签也是正向(TP)。召回率则是以真实标签为正向的样本作为参考基准(TP+FN),审查这些样本中有多少是模型预测正确的(TP)。

F1值

从上述定义中可以看出,单独考虑精度和召回率是片面的,那么有没有一个比较好的综合指标呢?答案是肯定的!在二分类问题中,可以定义一个综合考虑精度和召回率的指标,这个指标为F值。广义上的 F 值定义如下:

其中为ββ正数,其作用是调整精度和召回率的权重。ββ越大,召回率的权重更大;ββ越小,则精度的权重更大。当β=1β1时,精度和召回率的权重一样,此时称为F1值,它是精度和召回率的调和平均数

ROC曲线和AUC

ROC(Receiver operator characteristic )曲线和AUC(Area under the ROC curve)是一个从整体上评价二分类模型优劣的指标,其中AUC是ROC曲线与横轴之间的面积。相比于其他评价指标,ROC曲线具有一定的稳定性,它不会因为正负样本分布的变化而产生不同的曲线。现实状况中,正负样本分布不均衡的情况比较普遍,所以ROC曲线和AUC是一个重要的评价指标。

ROC曲线通过真阳率(True Positive Rate, TPR)和假阳率(False Positive Rate, FPR)两个指标进行绘制。真阳率又称为敏感度(Sensitivity), 表示真实标签为正向的样本中,模型预测也是正向的样本比例。可见,真阳率和召回率是等价的指标。假阳率表示真实标签是负向的样本中,模型预测为正向的比例。真阳率和假阳率的定义为:

通过调整模型的阈值,我们可以得到一组TPR和FPR。以FPR作为横轴,TPR作为纵轴,可以针对一个模型绘制ROC曲线。ROC曲线下面积(Area Under Curve, AUC)代表了模型性能的好坏。
一个随机的模型在ROC曲线中是一条直线(下图中的虚线),ROC曲线下面积为0.5。而一个完美模型的 ROC 曲线经过(0,0),(0,1),(1,1)三个点的曲线,此时ROC曲线下面积为1。

AUC的数值范围是[0,1],值越大说明模型越好。一般来说,AUC大于0.75可以认为是一个比较理想的模型。

  • AUC = 0.5: 说明模型与偶然造成的结果效果差不多
  • AUC < 0.5:说明模型不如偶然造成的效果
  • AUC > 0.5:说明模型较好

2. 回归模型评价指标

区别于分类模型,回归模型的预测值一般都是连续的。评价模型的指标没有统一的标准。本文将介绍三个常用的方法。

平均绝对误差

平均绝对误差(Mean Absolute Error, MAE)是所有单个观测值与算术平均值的偏差的绝对值的平均。

均方误差

均方误差(Mean Squared Error, MSE)是衡量“平均误差”的一种较方便的方法,可以评价数据的变化程度。均方根误差是均方误差的算术平方根。

其中 SST 表示总误差平方和,SSE 表示残差平方和

3. 聚类模型评价指标

聚类模型的性能指标主要分为内部指标(Internal Index)和外部指标(External Index)两类。内部指标适用于无标注数据,根据聚类结果中簇内相似度和簇间分离度进行聚类质量评估;而外部指标适用于有标注数据,将聚类结果与已知类标签进行比较。

3.1 内部指标

DB 指数

聚类模型的目标是使得簇内数据尽量相似,不同簇之间的数据尽量不相似。DB 指数正是基于这个思想所构建的指标,它表示簇内距离与簇间距离之比,DB 的值越小说明聚类效果越好。

轮廓系数

轮廓系数(Silhouette Coefficient)综合了簇的凝聚度和分离度两个指标。

3.2 外部指标

根据这种关系,我们能得到四种不同可能性:

基于这四种可能性,我们可以定义出不同的评价指标,常见的指标有 Rand 指数和调整 Rand系数。

Rand指数

Rand指数( Rand Index, RI)类似于分类模型中的准确度指标,其具体定义如下:

Rand指数取值范围为[0,1],取值越大意味着聚类结果与真实情况越吻合。

调整Rand指数

对于随机结果,Rand指数并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近0”,调整Rand系数(Adjusted Rand Index,ARI)被提出,它具有更高的区分度:

ARI取值范围为[-1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。

本文由 普林科技(微信公众号:普林科技) 投稿 数据分析网 发表,并经数据分析网编辑。版权归作者所有,转载此文请与作者联系。

注:数据分析网遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏,请联系主编邮箱:afenxi@afenxi.com

爱分析
管理员

群众的智慧是无穷的,欢迎广大数据从业者分享你们的观察和看法!!

分享到:更多

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址