机器学习第7天：深入了解逻辑回归

2019-02-01 本文已影响12人 K同学啊

一、逻辑回归是什么

简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。

逻辑回归是为了解决分类问题，根据一些已知的训练集训练好模型，再对新的数据进行预测属于哪个类。

逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。

二、逻辑回归的代价函数

1. 公式：

综合起来为：

其中

2. 公式推导过程：

代价函数的推导分两步进行：

寻找一个合适的预测函数，一般表示为h函数。
构造一个cost函数，该函数表示预测的输出（h）与训练数据的类别（y）之间的偏差。

2.1. 寻找预测函数

Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种），显然，预测函数的输出必须是两个值（分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数）。

sigmoid函数是一个s形的曲线，它的取值在[0, 1]之间，在远离0的地方函数的值会很快接近0或者1。它的这个特性对于解决二分类问题十分重要。

Sigmoid函数：

接下来需要确定数据划分的边界类型，对于图1和图2中的两种数据分布，显然图1需要一个线性的边界，而图2需要一个非线性的边界。接下来我们只讨论线性边界的情况。

图1

图2

对于线性边界的情况，边界形式如下：

构造预测函数为：

hθ(x)函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

2.2. 构造代价函数

上面的n改成m，笔误。

三、梯度下降法求J(θ)的最小值

θ更新过程可以写成：

四、代码展示

def LogisticRegression():
    data = loadtxtAndcsv_data("data2.txt", ",", np.float64) 
    X = data[:,0:-1]
    y = data[:,-1]
    
    plot_data(X,y)  # 作图
    
    X = mapFeature(X[:,0],X[:,1])           #映射为多项式
    initial_theta = np.zeros((X.shape[1],1))#初始化theta
    initial_lambda = 0.1                    #初始化正则化系数，一般取0.01,0.1,1.....
    
    J = costFunction(initial_theta,X,y,initial_lambda)  #计算一下给定初始化的theta和lambda求出的代价J
    
    print(J)  #输出一下计算的值，应该为0.693147
    #result = optimize.fmin(costFunction, initial_theta, args=(X,y,initial_lambda))    #直接使用最小化的方法，效果不好
    '''调用scipy中的优化算法fmin_bfgs（拟牛顿法Broyden-Fletcher-Goldfarb-Shanno）
    - costFunction是自己实现的一个求代价的函数，
    - initial_theta表示初始化的值,
    - fprime指定costFunction的梯度
    - args是其余测参数，以元组的形式传入，最后会将最小化costFunction的theta返回 
    '''
    result = optimize.fmin_bfgs(costFunction, initial_theta, fprime=gradient, args=(X,y,initial_lambda))    
    p = predict(X, result)   #预测
    print(u'在训练集上的准确度为%f%%'%np.mean(np.float64(p==y)*100))   # 与真实值比较，p==y返回True，转化为float   
    
    X = data[:,0:-1]
    y = data[:,-1]    
    plotDecisionBoundary(result,X,y)    #画决策边界

感觉有困难可以先放着，后期会进行更加具体的介绍，知道这么几个公式就好了。

我的CSDN技术专栏：【机器学习100天】、【K童鞋的爬虫笔记】

参考文章：
Logistic回归计算过程的推导
 逻辑回归（Logistic Regression）
Coursera ML笔记 - 逻辑回归
 逻辑回归 - 理论篇