machine learning学习笔记一

2018-07-29 本文已影响0人吃面米糕

朴素贝叶斯分类器 classifier

supervised

naive bayes

1.为什么叫朴素贝叶斯，因为它假设被分类的对象的不同属性是独立的（ assumption：attribute conditional independent )

2. 过程

第一步：function set. the classifier based on probability used P(x1|c1) P(x2|c1) P(x1|c2) P(x2|c2) to help convert the problem of solving P(c1|x1). 把X分解成许多个点（我们的样本空间), 通过将大事件分为界为许多个小事件，求小事件的概率，相加求得X的概率。求解小事件的概率是我们假设小事件发生在不同的class中的概率服从高斯分布（正态分布），概率问题转化为求分布的参数问题。不同的参数对应不同的function，从而组成function set。

第二步，评判goodness of function。在regression中，评判function的优劣用损失函数最小化来做。用的是拟合值和实际值之差的平方的求和。在概率问题中，损失函数的形式为P(y≠ci)，即判断错了的概率。通过数学推导，最小化损失函数的期望=最大化概率=最大似然。即找到最优的分布可以使改分布能够最大likelyhood sample出我们样本中的点。问题转化为条件概率的极大似然参数估计。两个参数即是高斯分布的（μ，covariance)。

第三步，找到最优function后，就进行classify. P>0.5即class1,<0.5即class2。然后用test data计算accuracy。一般来说，数据的维度越高，可能分类得更准确。

3.一些补充：“如何求类条件概率密度：

我们知道贝叶斯决策中关键便在于知道后验概率，那么问题便集中在求解类条件概率密度！那么如何求呢？答案便是：将类条件概率密度进行参数化。

最大似然估计和贝叶斯估计参数估计：

鉴于类条件概率密度难求，我们将其进行参数化，这样我们便只需要对参数进行求解就行了，问题难度将大大降低！比如：我们假设类条件概率密度p(x|w)是一个多元正态分布，那么我们就可以把问题从估计完全未知的概率密度p(x|w)转化成估计参数：均值u、协方差ε

所以最大似然估计和贝叶斯估计都属于参数化估计！”

4.为什么分类问题不用回归问题解决？：

如果遇到新分类，regression无法识别这些和原有class异常的值，会拉低分类的准确度。

对于catogory，如果不同的catogory之间没有顺序关系，难以用于回归。

5.朴素贝叶斯与逻辑特回归的区别与联系

logit是对linear regression的一种函数变换。

https://blog.csdn.net/chlele0105/article/details/38922551这篇文章对nb和lr的区别讲的很好。

(1）假设不同：logit的假设中不要求 attribute是条件独立的，而nb要求。

(2) nb比较严格也比较理想化，适用于数据集小一些的数据，因为需要从训练数据集中先计算先验概率，才能算到后验概率。但是rl是不需要先验概率的，是对整个参数空间进行线性搜索的，需要的数据集更大。

(3) lr是判别模型（0,1），nb是生成模型。

6.朴素贝叶斯的应用：

文本分类，垃圾邮件过滤。

”

machine learning学习笔记一

猜你喜欢

热点阅读