(一)逻辑回归结果 —— 回归系数表
2017-12-29 本文已影响1056人
WooWoods
——本系列翻译自某大佬博客,是我看到很通俗易懂的逻辑回归结果解读的文章了,在此首先向大佬献上膝盖。
由于工作中经常用到逻辑回归,也看过不少相关文章,自己照猫画虎写过脚本,但一直停留在一知半解的程度,尤其对于p值如何计算,如何解释,哪些自变量是与因变量相关的,不知所以,一脸懵逼。数学早还给老师了。直到读到这位大佬的博客,真是开我茅塞。遂决定翻译过来,主要是做一个备忘,方便以后翻阅。
The KidCreative Logistic Regression
KidCreative数据集将作为我讲解逻辑回归结果解读的例子,贯穿整个系列。通过这个数据集,我们将尝试预测某个消费者回应e-maile并购买儿童杂志“Kid Creative”的可能性。我们通过实验收集了673组观看了“Kid Creative”广告的消费者的观测数据,其中每组观测数据记录了消费者是否会购买,以及性别、收入等一系列变量。由于因变量(是否购买杂志)是二元的数据,因此适用于逻辑回归分析。
逻辑回归分析结果的系数表如下:
根据逻辑回归的定义,预测一个消费者是否购买:
我们将在后续的文章中关注这个逻辑回归方程,当前我们主要讨论逻辑回归系数表。
逻辑回归的系数表和最小二乘回归的系数表有很多相同之处:
- 都将自变量的名字列在表的最左侧
- 都在第二列回归系数的估计值列
- 都在下一列列出了回归系数估计值的标准差
- 在第四列,两个表都计算了一个用于估计回归系数p值的统计量,这里的逻辑回归结果中,该统计量称作“z值”,而在最小二乘回归中,该统计量称作“t值”,但它们都服务于同一个目的。
- 随后的列中,两个表都计算了回归系数的p值,此处展示的逻辑回归结果中,p值用概率记法 Pr(> | z |)表示;最小二乘回归的结果中它被记作"p-value",
在对最小二乘回归的简短回顾中,我简要概述了回归系数表的四个主要用途:
- 评价哪个变量是与因变量相关的
- 评价各自变量的影响大小
- 对结果作出预测
- 评价不确定性
对于逻辑回归的结果,只有其中一条是与最小二乘回归有很大区别的,那就是评估各自变量的影响。在随后的文章中我将逐个讨论回归系数表的这四个用途。