大师兄的应用回归分析学习笔记(三十一):含定性变量的回归模型(四
2025-06-12 本文已影响0人
superkmi
大师兄的应用回归分析学习笔记(三十):含定性变量的回归模型(三)
大师兄的应用回归分析学习笔记(三十二):含定性变量的回归模型(五)
四、Logistic回归模型
1. 分组数据的Logistic回归模型
- 针对0-1型因变量产生的问题,对回归模型应该做两个方面的改进:
- 回归函数应该改用限制在[0,1]区间内的连续曲线,而不能再沿用直线回归方程。Logistic函数的形式为:
![]()
- 因变量
本身只取0,1两个离散值,不适合直接作为回归模型中的因变量。由于回归函数
表示在自变量为
的条件下
的平均值,而
是0-1型随机变量,因此
就是在自变量为
的条件下
等于1的比例。
2. 案例
- 再一次住房展览会上,与房地产商签订初步购房意向书的共有n=313名顾客,在随后的3个月内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买的顾客记为0。以顾客的年家庭收入为自变量x,建立Logistic回归模型:
| 序号 | 年家庭收入(万元) |
签订意向书人数 |
实际购房人数 |
实际购房比例 |
逻辑变换 |
权重 |
|---|---|---|---|---|---|---|
| 1 | 1.5 | 25 | 8 | 0.320000 | -0.75377 | 5.440 |
| 2 | 2.5 | 32. | 13 | 0.406250 | -0.37949 | 7.719 |
| 3 | 3.5 | 58 | 26 | 0.448276 | -.020764 | 14.345 |
| 4 | 4.5 | 52 | 22 | 0.423077 | 0.31015 | 12.692 |
| 5 | 5.5 | 43 | 20 | 0.465116 | -0.13976 | 10.698 |
| 6 | 6.5 | 39 | 22 | 0.564103 | 0.257829 | 9.590 |
| 7 | 7.5 | 28 | 16 | 0.571429 | 0.287682 | 6.857 |
| 8 | 8.5 | 21 | 12 | 0.571429 | 0.287682 | 5.143 |
| 9 | 9.5 | 15 | 10 | 0.666667 | 0.693147 | 3.333 |
- Logistic回归方程为:
- c为分组数据的组数,本例c=9
- 通过logit变换(令
),线性回归模型为
![]()
- 回归方程
![]()
- 决定系数
,显著性
,高显著度
- 还原式的Logistic回归方程为:
![]()
- 用方程做预测,例如
,可知年收入8万元的家庭预计实际购房比例为59%。
- 但上面没有解决异方差性,应该用加权最小二乘估计。
-
较大时,
的近似方差为:
,选取权数为
- 利用加权最小二乘法的道德Logistic回归方程为: