a08.Andrew-ML0602-偏斜类数据误差度量

2018-08-21  本文已影响11人  Xylia_Yang

Building a Spam Classifier

01. 优先考虑做什么


  1. 收集大量数据
  2. 生成复杂的函数
  3. 训练算法来以不同的方式处理输入(比如处理单词拼写错误等)

02. 错误分析


  1. 以一个简单、不太完美的算法快速实现
  2. 画出学习函数曲线来判断是数据更多、特征更多还是其他问题
  3. 用交叉验证的方式人为的检测出训练误差是由什么原因造成的

处理偏斜类数据(skewed data)

01. 偏斜类的误差度量


  1. 精确率(Precision)-预测为正中的正确率
  2. 召回率(Recall)-预测结果中的正确率

Accuracy = (true positives + true negatives) / (total examples)
Precision = (true positives) / (true positives + false positives)
Recall = (true positives) / (true positives + false negatives)

02. 权衡准确率和召回率


上一篇 下一篇

猜你喜欢

热点阅读