机器学习入门(四) — 分类模型
2018-12-08 本文已影响20人
紫霞等了至尊宝五百年
1 分类-分析情感
2 从主题预测情感:智能餐厅评价系统
2.1 今天是个好日子,我想在一家日本餐厅预订一个座位
2.2 正面的评价不能代表所有方面都是正面的
2.3 从评价到主题情感
2.4 智能餐厅评价系统
核心构造模块
3 分类器应用
3.1 分类器
示例多元分类器:输出 y 多于两类
垃圾邮件过滤
图像分类
个性化医学诊断
读懂你的心
4 线性分类器
表示分类器
阈值分类器的问题
(线性)分类器
给句子打分
5 决策边界
假如只有两个非零权重的词语
决策边界示例
决策边界区分了正面和负面的预测
6 训练和评估分类器
训练分类器 = 学习权重
分类误差
分类误差 / 精度
7 什么是好的精度
如果忽略句子直接猜测,会发生什么?
90%精度的分类器足够好么/这取决于问题
所以,一定要对报告出的精度问问题和进行深度研究
8 混淆矩阵
False positive,False negative
混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总
以二元分类问题为例,数据集存在肯定类别和否定类别两类记录,而分类模型对记录分类可能作出阳性判断(判断记录属于肯定类别)或阴性判断(判断记录属于否定类别)两种判断
混淆矩阵是一个2 × 2的情形分析表,显示以下四组记录的数目:作出正确判断的肯定记录(真阳性)、作出错误判断的肯定记录(假阴性)、作出正确判断的否定记录(真阴性)以及作出错误判断的否定记录(假阳性)
错误的分类
根据以上的混淆矩阵可以推导出
- 数据集中的记录总数=TP+FP+FN+TN
- 数据集中肯定记录数=TP+FN
- 数据集中否定记录数=FP+TN
- 分类模型作出阳性判断的记录数=TP+FP
- 分类模型作出阴性判断的记录数=FN+TN
- 分类模型作出正确分类的记录数=TP+TN
- 分类模型作出错误分类的记录数=FP+FN
混淆矩阵是对分类模型进行性能评价的重要工具。由混淆矩阵可以计算真阳性率、假阳性率、真阴性率、假阴性率、准确率、精确率和F指标等各种评价指标。特别是混淆矩阵区分了假阳性和假阴性两种不同性质的误判,可以用来估计分类模型误判造成的期望损失。当分类模型返回各记录属于肯定类别的概率或评分时,指定阈值,对所有概率或评分在阈值以上的记录作阳性判断,可以得到一个混淆矩阵。通过连续改变阈值,可以得到不同的混淆矩阵,从而绘制ROC曲线、期望利润曲线和提升系数曲线,更全面地评价和比较分类模型的性能。
表1中给出的二元分类问题混淆矩阵结构可以很容易地推广到多元分类问题。对于存在n 个类别的分类问题,混淆矩阵是个n ×n的情形分析表,每一列对应一个真实的类别,而每一行对应分类模型判断的一个类别 (混淆矩阵的行和列互换没有实质影响)
不同应用中不同类型的错误的成本也会不同
以筛检化验为例,真阳性和假阳性分别是病人和健康人的结果阳性,而真阴性和假阴性分别是健康人和病人的结果阴形。显然,分类模型对在混淆矩阵对角线上的真阳性和真阴性记录组作出了正确的分类,而对反对角线上的假阳性和假阴性记录组发生了误判。
混淆矩阵-二元分类
g
9 学习曲线
9.1 模型需要多少数据
学习曲线
曲线是否存在极限
越复杂的模型的偏差越小
小偏差的模型如果有更多的数据会学习的更好
10 类别概率
你的预测有多可信
11 分类总结
- 训练数据
评论内容 - 对某评论进行特征提取
得到算法的输入 x : 单词计数 - 机器模型接收输入计数及其他参数
w 冒 - 计算出预测结果 y 冒
反复评估并优化参数