贝叶斯推理
1. 朴素贝叶斯公式?有什么不同?
2. 联合概率的分解 p(x,y,z) = p(x) p(y) p(z) = П p(Xi)
3. 长得像π的那个符号,是П,大写的π,是连乘的意思
4. 基于贝叶斯的分类,对不同类别分别计算概率,找到argmax最大后验类,就是分类结果。
5. 朴素贝叶斯这节的计算很牛逼,基于给出的不同属性的概率值(那个树图,每个属性有两个概率),通过贝叶斯算法计算假设下的概率,以及得出分类结果
6. 基于上边的公式,根据不同属性的已知数据,比如垃圾邮件有0.3包含“加微信”,垃圾邮件邮件有0.0001包含“学习”;正常邮件有0.2包含“学习”.....等等,就可以根据上边的公式,通过计算样本邮件中符合的条件,分别得出是垃圾邮件的概率、是正常邮件的概率,归一化以后得出最终概率,用于分类。 因为要归一化,所以这里边是可以忽略先验概率Z的。
7. 在文本学习时,可以分词以后,统计垃圾、正常情况下的各词的概率,用于对待分类邮件,做6中的计算。
8. 朴素贝叶斯的两个问题。
(1) 过于相信每个属性的概率,当属性集合不完全、或实际属性间非独立而是存在关系时,容易得出偏差很大的结果。需要考虑属性的选择和对关联的处理,比如词的顺序、远近?
(2) 当训练集中没有某属性,会让p(x)=0,最终整个结果都是0。需要进行归纳偏置,提高模型的泛化能力。
9. 基于贝叶斯取样,没有太理解
10. 所以,假设属性之间独立的贝叶斯算法,就是朴素贝叶斯,就是上边那个图的计算方法。从这个角度看确实naive。
11. 朴素贝叶斯算法,基于所有可能属性集合的子集,就能计算结果。相比之下,决策树遇到缺失属性,就会让某些条件无法判断。所以适用场景是有区别的。
12. 处理连续缺少两个词的文本时,可以先计算概率最大的第一个词,再用第一个词计算第二个词;也可以直接计算第一个词的每一种可能性对应的第二个词,两级概率相乘,累加出概率最高的第二个词。不过第二种方法的好处是?
13. 领域知识对predict很重要,能把领域知识转换为程序和模型更重要。