逻辑斯蒂回归Logistic Regression

2018-05-16  本文已影响0人  Vince_zzhang

Logistic回归:是广义线性回归的特例,利用Logistic函数将y的取值控制在[0,1], 表示取值为1的概率。

设因变量Y等于1的概率为p, 则Y=0的概率为1-p

事件优势比odds 取对数 Logistic方程

当p在(0,1)之间变化时,odds的取值范围是(0,+∞),则z的取值范围是(-∞,+∞)。

Logistic模型:

建模步骤:

1.根据分析目的设置自变量x因变量y,然后收集数据,根据收集到的数据,对特征再次筛选

3.模型检验:检验指标有准确率(accuracy),混淆矩阵(confusion matrix),ROC曲线(receiver operating characteristic),KS值

4.模型应用:输入自变量即可得到预测变量的值

*注:

Feature selection: 可以通过F检验(f-regression)提取特征的F值和p值,选择F较大,p较小的特征。还有递归特征消除(recursive feature elimination,RFE)和稳定性选择(stability selection)。

递归特征消除:通过反复构建模型(SVM or Regression)然后选出最好或者最差的特征,把选出来的特征放到一边,在剩余的特征中继续重复这个过程,直到遍历所有特征。递归过程中特征被消除的次序就是特征的排序

稳定性选择:通过重复在不同的数据子集和特征子集上运行特征选择算法(SVM,regression),然后最终汇总特征选择结果。汇总方法例:统计某个特征被选择为重要特征的频率。Sklearn在随机LassoRegression和随机LogisticRegression中有队稳定性选择的实现。

Logistic的本质是线性模型,所以有效性检验本质上还是在做线性相关检验,因此能说明筛选出的变量跟结果有较强的线性相关性,然后被筛掉的变量并不一定跟结果无关,可能是非线性关系,可用决策树和神经网络筛选。


上一篇下一篇

猜你喜欢

热点阅读