Udacity 数据分析进阶课程笔记L32:朴素贝叶斯
2018-04-15 本文已影响5人
有刺客
- Google 无人驾驶汽车中的机器学习
- 通过Google的无人驾驶例子,简要介绍监督学习和非监督学习;
- 本章介绍的算法均为监督学习;
- 区分监督学习和非监督学习的小测试
- 特征(features)和标签(label)
- 特征作为输入,标签作为输出
- 通过散点图进行特征的可视化,小测试
- 特征与标签
- 无人驾驶汽车Stanly地形分类简介
- 特征散点图的练习
- 散点图的预测练习,通过未知点在散点图中的位置,直观判断所属分类(label)
- 机器学习算法的目的,是寻找一个决策面(decision surface),用于判断数据点的所属类别。
- 线性决策面,以及通过图形化直观判断线性决策面的优劣
-
决策面
线性决策面
- 朴素贝叶斯算法(Naive Bayes)
- 一种用于寻找决策面的常用算法
- sklearn使用入门,通过文档获取示例代码
- 典型代码:定义分类器 -> 拟合 -> 预测
- 评估算法准确性:accuracy_score(pred, labels_test)
- sklearn中的朴素贝叶斯算法
-
训练数据和测试数据
-
贝叶斯规则——深入理解朴素贝叶斯算法
- 贝叶斯规则和癌症测试(一个经典例子,建议Google之) 癌症问题
- 先验、后验、全概率之间的一些推导过程 推导过程
-
练习:已知两个人(lable)邮件习惯(词频),给出一段邮件,推算出该邮件出自谁人之手。
- 由此引出朴素贝叶斯的局限性:忽略了词频
-
朴素贝叶斯算法的有点和缺点:
- 优点:易于执行,效率高,特征空间很大
- 缺点:在应用于文本搜索时,可能出现毫无关系的结果
-
通过课程迷你项目联系朴素贝叶斯算法