分享

机器学习教程 九-二元分类效果的评估方法

PeersLee 发表于 2016-7-6 11:25:12 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 12470
问题导读:
1.如何评估真阳性?
2.如何评估真阴性?
3.如何评估假阳性?
4.如何评估假阴性?
5.如何评估准确率?
6.如何评估精确率?
7.如何评估召回率?
8.如何评估召回率?
9.如何评估误警率?
10.如何评估ROC?
11.如何评价AUC?







解决方案:


上一篇:
机器学习教程 八-用scikit-learn做特征提取
http://www.aboutyun.com/thread-19095-1-1.html
(出处: about云开发)


效果评估是模型选择和算法设计的重要步骤,知道评估优劣才能选择最佳的模型和算法,本节介绍一些有关评估方法的定义,凡是在统计或大数据领域都用得到

真阳性
true positives, TP

真阴性
true negatives, TN

假阳性
false positives, FP

假阴性
false negatives, FN)



准确率
分类器预测正确性的比例,可以通过LogisticRegression.score() 来计算准确率



精确率
分类器预测出的脏话中真的是脏话的比例

P=TP/(TP+FP)



召回率
也叫灵敏度。所有真的脏话被分类器正确找出来的比例。

R=TP/(TP+FN)



综合评价指标
F-measure,精确率和召回率的调和均值。精确率和召回率都不能从差的分类器中区分出好的分类器,综合评价指标平衡了精确率和召回率。

1/F+1/F=1/P+1/R即

F=2*PR/(P+R)



误警率
假阳性率,所有阴性样本中分类器识别为阳性的样本所占比例

F=FP/(TN+FP)




ROC(Receiver Operating Characteristic)
ROC曲线画的是分类器的召回率与误警率(fall-out)的曲线





AUC(Area Under Curve)
ROC曲线下方的面积,它把ROC曲线变成一个值,表示分类器随机预测的效果

scikit-learn画ROC曲线和AUC值的方法如下:


[mw_shl_code=python,true]import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc
false_positive_rate, recall, thresholds = roc_curve(pred, predictions)
roc_auc = auc(false_positive_rate, recall)
plt.plot(false_positive_rate, recall, 'b', label='AUC = %0.2f' % roc_auc)
plt.show()[/mw_shl_code]



相关文章

机器学习教程 一-不懂这些线性代数知识 别说你是搞机器学习的
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18997



机器学习教程 二-安装octave绘制3D函数图像
http://www.aboutyun.com/thread-19006-1-1.html


机器学习教程 三-用scikit-learn求解一元线性回归问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19020


机器学习教程 四-用scikit-learn求解多元线性回归问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19042


机器学习教程 五-用matplotlib绘制精美的图表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19060


机器学习教程 六-用scikit-learn求解多项式回归问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19073


机器学习教程 七-用随机梯度下降法(SGD)做线性拟合
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19086


机器学习教程 八-用scikit-learn做特征提取
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19095


机器学习教程 九-二元分类效果的评估方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19107


机器学习教程十-用scikit-learn的网格搜索快速找到最优模型参数
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19120


机器学习教程 十一-用scikit-learn做聚类分析大数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19129


机器学习教程 十二-神经网络模型的原理 大数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19339






没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条