2. 线性回归与逻辑回归

2019-07-05 本文已影响0人博士伦2014

1. 什么是线性回归？

线性回归是利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的方法。
它的数学定义是

线性回归的数学定义
它的解析解是

解析解

2. 线性回归的应用有哪些？

-  吸烟对发病率和死亡率的影响
-  资本资产定价模型利用线性回归，分析和计算投资的系统风险
- 预测消费支出

3. 解析解的推导

解析解推导

解析解

4. 说一下什么是逻辑回归？

逻辑回归虽然叫回归，但是却是一个用于分类问题的方法，可以解决二元(0/1)分类问题
其数学表达式是

数学表达式

这里面

各元素含义
当的值大于0.5时，输出1，否则输出0.

示例

5. 什么是损失函数

损失函数（Loss function）又叫做误差函数，用来衡量算法的运行情况的好坏的，计算模型的预测值与真实值的不一致程度，是一个非负实值函数,损失函数越小，模型的鲁棒性就越好。常见的损失函数有0-1损失函数，绝对值损失函数，平方损失函数，对数损失函数，指数损失函数，合页损失函数。逻辑回归使用的是对数损失函数。

损失函数

损失函数与梯度

6. 什么是梯度下降

机器学习的目标是最小化损失函数，从优化的角度看，函数的梯度方向代表了函数值增长最快的方向，那梯度的反方向就是函数值减少最快的方向，要最小化损失函数，就朝着梯度下降的方向走，理论上就能找到最优的一组模型参数。
梯度下降的更新过程是：1. 每次用全部的训练集样本计算损失函数的梯度。 2. 然后用学习率朝着梯度相反的方向去更新全部模型参数。
每次都计算所有样本的梯度好处是每次都朝着正确的方向前进，但是数据集很大时，时间空间代价太大。所以就有人提出了随机梯度下降，就是每次随机从训练集中选择一个样本来更新。随机梯度下降和梯度下降属于两种极端情况，最好的是折中的方案：批量梯度下降：每次从训练集中取出一个mini-batch来更新。既提高了速度，有降低了内存消耗。

梯度下降

6. 为啥叫最小二乘

最小二乘法的二乘是什么:

最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.
这里的“二乘”指的是用平方来度量观测点与估计点的远近（在古汉语中“平方”称为“二乘”）
“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小..

为什么要二乘:

因为观测点和估计点之差可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度.