贝叶斯

朴素贝叶斯法

2019-01-28  本文已影响1人  千与千与

朴素贝叶斯法

朴素贝叶斯实现


朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y

朴素贝叶斯法的学习与分类

  1. 设输入空间 X_i \subseteq R^n,输出空间 Y_o =\{c_1,c_2,...,c_k\}X 是定义在输入空间 X_i 上的随机向量,Y 是定义在输出空间 Y_o 上的随机变量。P(X,Y)XY 的联合概率分布。训练数据集
    T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
    P(X,Y) 独立同分布产生。

  2. 朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y)
    具体的,学习先验概率
    P(Y=c_k),\ \ \ \ k=1,2,...K
    条件概率分布
    P(X=x\mid Y=c_k) = P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}\mid Y=c_k), \ \ \ \ \ k=1,2,...,K
    于是学习到联合概率分布 P(X,Y)

  3. 朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。具体地,条件独立性假设是
    \begin{array}\ P(X=x\mid Y=c_k) & = & P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}\mid Y=c_k) \\ & = & \prod_{j=1}^nP(X^{(j)}=x^{(j)} \mid Y=c_k) \end{array}
    条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。

  4. 朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布 P(Y=c_k \mid X=x),将后验概率最大的类作为 x 的类输出。后验概率计算根据贝叶斯定理进行:
    \begin{array}\ P(Y=c_k \mid X=x) & = &\frac{P(X=x\mid Y=c_k)P(Y=c_k)}{\sum_kP(X=x\mid Y=c_k)P(Y=c_k)} \\ & = & \frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)} ,& k=1,2,3,... K \end{array}
    于是贝叶斯分类器可表示为
    y = f(x) = arg\ max_{c_k} \frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)}
    其中分母对所有 C_k 都是相同的,所以
    y = arg\ max_{c_k} P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)

  5. 朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。

朴素贝叶斯法的参数估计

  1. 先验概率的极大似然估计是
    P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)}{N}, \ \ \ \ \ k=1,2,..., K

  2. 设第 j 个特征 x^{(j)} 可能取值的集合为 \{a_{j1},a_{j2},...,a_{jS}\},条件概率的极大似然估计是
    P(X^{(j)} = a_{jq} \mid Y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jq}, y_i = c_k)}{\sum_{i=1}^N I(y_i=c_k)} \\ j = 1,2,...,n; \ \ \ \ \ q = 1,2,...,S; \ \ \ \ \ k=1,2,...,K

  3. 用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。
    具体地,条件概率的贝叶斯估计是
    P(X^{(j)} = a_{jq} \mid Y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jq}, y_i = c_k) + \lambda }{\sum_{i=1}^N I(y_i=c_k) + S \lambda} \\ j = 1,2,...,n; \ \ \ \ \ q = 1,2,...,S; \ \ \ \ \ k=1,2,...,K
    同样,先验概率的贝叶斯估计是
    P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k) + \lambda}{N + K\lambda}, \ \ \ \ \ k=1,2,..., K
    式中 \lambda \ge 0。等价于在随机变量各个取值的频数上赋予一个正数 \lambda>0。当 \lambda=0 时就是极大似然估计。常取 \lambda=1,这时称为拉普拉斯平滑(Laplace smoothing)。

朴素贝叶斯实现

高斯朴素贝叶斯实现

特征分布服从高斯分布,其概率密度函数为
P(x_i\mid y_k)=\frac{1}{\sqrt{2\pi\sigma^2_{y_k}}}\exp(-\frac{(x_i-\mu_{y_k})^2}{2\sigma^2_{y_k}})
其中,数据期望(mean)为 \mu, 方差为 \sigma^2=\frac{\sum{(x-\mu)^2}}{N}

import math
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from collections import Counter


class NaiveBayes(object):
    def __init__(self):
        self.model = None
    
    # 数学期望
    def mean(self, x):
        return sum(x) / float(len(x))
    
    # 标准差(方差)
    def stdev(self, x):
        mean = self.mean(x)
        return math.sqrt(sum([pow(_x - mean, 2) for _x in x]) / float(len(x)))
    
    # 高斯概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(pow(x - mean, 2) / (2 * pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent
    
    # 处理训练集生成期望与方差
    def summarize(self, train):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train)]
        return summaries
    
    # 分别求出数学期望和标准差
    def fit(self, x, y):
        data = {}
        for f, label in zip(x, y):
            data.setdefault(label, []).append(f)
        self.model = {label: self.summarize(value) for label, value in data.items()}
        print('MODEL:%s' % self.model)
    
    # 概率计算
    def calculate_probabilities(self, data):
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(data[i], mean, stdev)
        return probabilities
    
    # 预测类别
    def predict(self, test):
        label = sorted(self.calculate_probabilities(test).items(), key=lambda x: x[-1])[-1][0]
        return label
    
    # 计算准确率
    def score(self, x_test, y_test):
        right = 0
        for x, y in zip(x_test, y_test):
            label = self.predict(x)
            if label == y:
                right += 1
        return right / float(len(x_test))


if __name__ == '__main__':
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, :])
    x_data, y_data = data[:,:-1], data[:,-1]
    x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3)
    
    bayes =  NaiveBayes()
    bayes.fit(x_train, y_train)
    print('predict result:', bayes.predict([4.4,  3.2,  1.3,  0.2]))
    print('bayes score:', bayes.score(x_test, y_test))
运行结果

使用 sklearn 实现朴素贝叶斯

from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
# GaussianNB: 高斯模型
# BernoulliNB: 伯努利模型
# MultinomialNB: 多项式模型
bayes = GaussianNB()
bayes.fit(x_train, y_train)
print('predict result:', bayes.predict([[4.4,  3.2,  1.3,  0.2]]))
print('bayes score:', bayes.score(x_test, y_test))
上一篇 下一篇

猜你喜欢

热点阅读