本帖最后由 desehawk 于 2018-5-21 18:26 编辑
上一篇
吴恩达《Machine_Learning_Yearning》中文版 第7章开发集和测试集应有多大?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=24510
问题导读
1.多值评估指标为什么使使算法之间的优劣比较变得更加困难?
2.在多个分类器之间进行抉择时,什么方法可以更快的做出决定?
所谓的单值评估指标(single-number evaluation metric)有很多,分类准确率就是其中的一种:你在开发集(或测试集)上运行分类器后,它将返回单个的数据值,代表着被正确分类的样本比例。根据这个指标,如果分类器 A 的准确率为 97%,而分类器 B 的准确率为 90%,那么我们可以认为分类器 A 更优秀。
相比之下,查准率(Precision,又译作精度)和查全率(Recall,又译作召回率)均不是单值评估指标,因为它给出了两个值来对你的分类器进行评估。多值评估指标将使算法之间的优劣比较变得更加困难,假设你的算法表现如下:
猫分类器的查准率指的是在训练集(或者测试集)被预测为猫的图片中,实际类别是猫的样本比例。而查全率指的是在训练集(或者测试集)所有实际类别为猫的图片中,被正确预测为猫的样本比例。人们常常在查准率和查全率之间权衡取舍。
根据上面表格的数值进行比较,两个分类器都没有较为明显的优势,因此也无法引导你立即做出选择。
你的团队在进行开发时往往会尝试许多的算法架构、模型参数、特征选择,或者是其它的想法。使用单值评估指标(如准确率)可以让你将所有的模型根据在此指标上的表现进行排序,从而快速确定哪一个模型的性能表现最好。 如果你认为查准率和查全率很关键,可以参考其他人的做法,将这两个值合并为一个值来表示。例如取二者的平均值,或者你可以计算 “F1分数(F1 score)” ,这是一种经过修正的平均值计算方法,比进行简单取平均的效果会好一些。
因此,当你在多个分类器之间进行抉择时,使用单值评估指标将帮助你更快速地作出决定。它能给出一个清楚的分类器性能排名,从而帮助明确团队后续的处理方向。 最后补充一个例子,假设你在“美国”、“印度”、“中国”和“其它地区”,这四个关键市场跟踪你的猫分类器的准确率,并且获得了四个指标。通过对这四个指标取平均值或进行加权平均,你将得到一个单值指标。取平均值或者加权平均值是将多个指标合并为一个指标的最常用方法之一。
原文链接
|