朴素贝叶斯原理
2018-03-16 本文已影响5人
灵妍
1、贝叶斯定理
背景:有两台生产起子的机器
我们要根据贝叶斯公式计算其中一台机器生产次品的概率
已知两台机器的生产效率,次品率,次品来自于两台机器的概率,求机器2生产次品的概率。
在文字叙述的这一题目中,我们可以分段列出条件,使条件更加清晰。
然后将条件转换成对应的数学公式
可以用大写字母简化公式表达
根据求解内容去掉多余的条件公式
根据贝叶斯公式求解
其实要求解机器2生产次品的概率有一种更直接的方式,就是直接在机器2生产的起子里次品的概率。这里假设生产了1000个产品,机器2生产了400个,由10个次品,5个来自于机器。
既然由更直接的方法,为什么我们还要用到贝叶斯公式呢?
实际中,我们会统计次品的个数,但不会统计来自机器2的次品的数目,原因在于我们不可能将每一件产品标记。利用贝叶斯公式更加简便,我们不用一步一步的计算,保留中间结果,只需要一个公式就可以了。
2、朴素贝叶斯原理
likelihood似然可能性,中文翻译的难以理解,就只有二次翻译
我们要经过三步,求解分类问题,第一步只计算后验概率,第二步是计算另一个后验概率,其实可以通过1-第一个后验概率得到,第三步是比较哪个后验概率打,判断数据类别。
我们根据收入和年龄判断用户是步行还是开车
特征就是用户的年龄和收入
类别就是步行还是开车
先验概率,是指类别,也就是所求的两,似然是指特征的可能性,边际似然是指已知类别下的特征概率。
可以根据训练集的类别求解
可以在新的特征点周围画一个小圈求解。
先排除干扰样本或者说是无关样本再求解。
得到最大可能后验概率,或者说是最大似然概率,似然翻译成可能更方便理解。
朴素贝叶斯是一种简单贝叶斯,这类问题,我们要求特征具有独立性,这个例子里面假设年龄和薪水独立,但是在实际问题中,我们可以看出年龄和薪水是不独立的。在概率统计这类问题中,我们有许多假设,这不是严谨的,但能够帮助我们更好的解决问题,我们在求解似然概率时还假设圈内的点与新的样本点有相似的特征。
我们可以看出似然概率在比较中可消去,但这样得出的只是正比于后验概率的值,而不是后验概率。
对于多类问题,选最大概率即可。