machine learning学习笔记一

2018-07-29  本文已影响0人  吃面米糕

朴素贝叶斯分类器 classifier

supervised 

naive bayes 

1.为什么叫朴素贝叶斯,因为它假设被分类的对象的不同属性是独立的( assumption:attribute conditional independent )

2. 过程

第一步:function set.  the classifier based on probability used P(x1|c1) P(x2|c1) P(x1|c2) P(x2|c2) to help convert the problem of solving P(c1|x1). 把X分解成许多个点(我们的样本空间), 通过将大事件分为界为许多个小事件,求小事件的概率,相加求得X的概率。求解小事件的概率是我们假设小事件发生在不同的class中的概率服从高斯分布(正态分布),概率问题转化为求分布的参数问题。不同的参数对应不同的function,从而组成function set。

第二步,评判goodness of function。在regression中,评判function的优劣用损失函数最小化来做。用的是拟合值和实际值之差的平方的求和。在概率问题中,损失函数的形式为P(y≠ci),即判断错了的概率。通过数学推导,最小化损失函数的期望=最大化概率=最大似然。即找到最优的分布可以使改分布能够最大likelyhood sample出我们样本中的点。问题转化为条件概率的极大似然参数估计。两个参数即是高斯分布的(μ,covariance)。

第三步,找到最优function后,就进行classify. P>0.5即class1,<0.5即class2。然后用test data计算accuracy。一般来说,数据的维度越高,可能分类得更准确。

3.一些补充:“如何求类条件概率密度: 

我们知道贝叶斯决策中关键便在于知道后验概率,那么问题便集中在求解类条件概率密度!那么如何求呢?答案便是:将类条件概率密度进行参数化。

最大似然估计和贝叶斯估计参数估计: 

鉴于类条件概率密度难求,我们将其进行参数化,这样我们便只需要对参数进行求解就行了,问题难度将大大降低!比如:我们假设类条件概率密度p(x|w)是一个多元正态分布,那么我们就可以把问题从估计完全未知的概率密度p(x|w)转化成估计参数:均值u、协方差ε

所以最大似然估计和贝叶斯估计都属于参数化估计!”

4.为什么分类问题不用回归问题解决?:

如果遇到新分类,regression无法识别这些和原有class异常的值,会拉低分类的准确度。

对于catogory,如果不同的catogory之间没有顺序关系,难以用于回归。

5.朴素贝叶斯与逻辑特回归的区别与联系

logit是对linear regression的一种函数变换。

https://blog.csdn.net/chlele0105/article/details/38922551这篇文章对nb和lr的区别讲的很好。

(1)假设不同:logit的假设中不要求 attribute是条件独立的,而nb要求。

(2) nb比较严格也比较理想化,适用于数据集小一些的数据,因为需要从训练数据集中先计算先验概率,才能算到后验概率。但是rl是不需要先验概率的,是对整个参数空间进行线性搜索的,需要的数据集更大。

(3) lr是判别模型(0,1),nb是生成模型。

6.朴素贝叶斯的应用:

文本分类,垃圾邮件过滤。

上一篇下一篇

猜你喜欢

热点阅读