ML 监督学习分类逻辑回归

2020-03-16 本文已影响0人 XinY_VV

逻辑回归（logistic regression）又称“对数几率回归。虽然它的名字是回归，但却是一种分类学习方法。逻辑回归也可以从二元分类扩展到多分类，这就是多项式回归。

1.构造预测函数h(x)

Sigmoid Function

对数几率函数是一种“Sigmoid"函数，Sigmoid的函数输出是介于（0,1）之间，中间值是0.5。sig(t)<0.5则说明当前数据属于反类/0类；sig(t)>0.5则说明当前数据属于正类/1类。所以可以将sigmoid函数看成样本数据的概率密度函数。

2.构造损失函数
用最大似然法估计参数，优点：大样本数据中参数的估计稳定，偏差小，估计方差小。
概率函数：

因为样本数据（m个）独立，取似然函数为：

取对数似然函数：

基于最大似然估计推导得到Cost函数和J函数：

3.梯度下降求最小值

模型的改进

避免过拟合---正则化
让准确率最大化---SVM

Kernal Logistics Regression

请参考别人写的文章https://blog.csdn.net/qq_34993631/article/details/79345889
配视频
https://www.youtube.com/watch?v=AbaIkcQUQuo

L1,L2正则化比较

L2是收缩，L2稀疏性
L2比L1要快
建议用逻辑回归是至少用一个正则化，特征要标准化。

线性回归与逻辑回归的比较

逻辑回归与朴素贝叶斯的比较

因为朴素贝叶斯对数据做出了更强的假设，但需要更少的示例来估计参数

例子

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve,roc_auc_score,accuracy_score,confusion_matrix
from sklearn.linear_model import LogisticRegression

candidates = {'gmat': [780,750,690,710,680,730,690,720,740,690,610,690,710,680,770,610,580,650,540,590,620,600,550,550,570,670,660,580,650,660,640,620,660,660,680,650,670,580,590,690],
              'gpa': [4,3.9,3.3,3.7,3.9,3.7,2.3,3.3,3.3,1.7,2.7,3.7,3.7,3.3,3.3,3,2.7,3.7,2.7,2.3,3.3,2,2.3,2.7,3,3.3,3.7,2.3,3.7,3.3,3,2.7,4,3.3,3.3,2.3,2.7,3.3,1.7,3.7],
              'work_experience': [3,4,3,5,4,6,1,4,5,1,3,5,6,4,3,1,4,6,2,3,2,1,4,1,2,6,4,2,6,5,1,2,4,6,5,1,2,1,4,5],
              'admitted': [1,1,1,1,1,1,0,1,1,0,0,1,1,1,1,0,0,1,0,0,0,0,0,0,0,1,1,0,1,1,0,0,1,1,1,0,0,0,0,1]
              }

df = pd.DataFrame(candidates,columns= ['gmat', 'gpa','work_experience','admitted'])

X = df[['gmat', 'gpa','work_experience']]
y = df['admitted']  

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)  #train is based on 75% of the dataset, test is based on 25% of dataset

logistic_regression= LogisticRegression()  #逻辑回归
logistic_regression.fit(X_train,y_train)   #训练
y_pred=logistic_regression.predict(X_test) #预测

print (X_test) #test dataset
print (y_pred) #predicted values

print(confusion_matrix(y_test, y_pred))
print("Accuracy:",accuracy_score(y_test, y_pred))

#Plot ROC curve
y_pred_proba = logistic_regression.predict_proba(X_test)[::,1]
fpr, tpr, _ = roc_curve(y_test,  y_pred_proba)
auc = roc_auc_score(y_test, y_pred_proba)
plt.plot(fpr,tpr,label="data 1, auc="+str(auc))
plt.legend(loc=4)
plt.show()

ROC Curve

ROC曲线的纵轴是“真正例率”，横轴是“假正例率”。

总结

Conclusion

ML 监督学习分类逻辑回归

模型的改进

Kernal Logistics Regression

L1,L2正则化比较

线性回归与逻辑回归的比较

逻辑回归与朴素贝叶斯的比较

例子

总结

猜你喜欢

热点阅读

ML 监督学习 分类 逻辑回归

模型的改进

Kernal Logistics Regression

L1,L2正则化比较

线性回归与逻辑回归的比较

逻辑回归与朴素贝叶斯的比较

例子

总结

猜你喜欢

热点阅读

ML 监督学习分类逻辑回归