数据分析产品数据分析数据分析

Udacity 数据分析进阶课程笔记L32:朴素贝叶斯

2018-04-15  本文已影响5人  有刺客
  1. Google 无人驾驶汽车中的机器学习
    • 通过Google的无人驾驶例子,简要介绍监督学习和非监督学习;
    • 本章介绍的算法均为监督学习;
    • 区分监督学习和非监督学习的小测试
  2. 特征(features)和标签(label)
    • 特征作为输入,标签作为输出
    • 通过散点图进行特征的可视化,小测试
    • 特征与标签
  1. 无人驾驶汽车Stanly地形分类简介
    • 特征散点图的练习
    • 散点图的预测练习,通过未知点在散点图中的位置,直观判断所属分类(label)
    • 机器学习算法的目的,是寻找一个决策面(decision surface),用于判断数据点的所属类别。
    • 线性决策面,以及通过图形化直观判断线性决策面的优劣
    • 决策面
      线性决策面
  1. 朴素贝叶斯算法(Naive Bayes)
    • 一种用于寻找决策面的常用算法
  2. sklearn使用入门,通过文档获取示例代码
    • 典型代码:定义分类器 -> 拟合 -> 预测
    • 评估算法准确性:accuracy_score(pred, labels_test)
    • sklearn中的朴素贝叶斯算法
  1. 训练数据和测试数据

  2. 贝叶斯规则——深入理解朴素贝叶斯算法

    • 贝叶斯规则和癌症测试(一个经典例子,建议Google之) 癌症问题
    • 先验、后验、全概率之间的一些推导过程 推导过程
  3. 练习:已知两个人(lable)邮件习惯(词频),给出一段邮件,推算出该邮件出自谁人之手。

    • 由此引出朴素贝叶斯的局限性:忽略了词频
  4. 朴素贝叶斯算法的有点和缺点:

    • 优点:易于执行,效率高,特征空间很大
    • 缺点:在应用于文本搜索时,可能出现毫无关系的结果
  5. 通过课程迷你项目联系朴素贝叶斯算法

上一篇下一篇

猜你喜欢

热点阅读