2019年4月19日 上午10:27
2019年5月27日 下午10:36补充
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率 - 简书
- 其实我认为多个角度的评价,这几个评价标准基本上可以认为是正相关关系
- 只不过不同的评价方法更注重的角度不同,我们根据自己的需要选取自己的评价标准就可以了
AUC概念:
- 个例:一对
- 随机给定一个正样本和一个负样本,分类器输出该 正样本为正的那个概率值 比 分类器输出 该负样本为正的那个概率值 要大的可能性。
- 注意:
- 只有一对数据
- 求的是:大的可能性
- 总体:从一对 扩展到 M*N对
- 一个正样本要和N个负样本匹配成N对
- 那么:将M+N个样本按照概率由大到小排序后,对于任意的一个正样本,计算比它概率小的负样本的个数
- 因为我们求的是大的可能性
- 对每一个正样本这样处理后: 然后求和,除以M*N,即为AUC
特性:
- AUC应该反映的是分类器对样本的排序能力,另外,AUC对样本类别是否均衡并不敏感,这也是不均衡样本通常采用AUC评价分类性能的原因
- 还有一些其他的特性:我还没有研究:
为什么使用ROC曲线
因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。