统计学讨论-基于R应用_学习笔记(1)

2020-04-04  本文已影响0人  东方不赞

统计,从总体(具有多种属性)中选取样本,根据样本去获得对总体的认识。

1.1 两大基本问题

1.1.1 预测

预测是根据输入值(X)来预测输出值(Y)
\hat{Y}=\hat{f}(X)+\epsilon
这类问题下,X是容易测的的,但是输出Y是不容易获得的,不关心f的具体结构

1.1.2 推断

推断是研究f的具体结构,即因变量Y与自变量YX_{1}X_{2}X_{3}...的关系

1.2. 对f的估计

1.2.1 参数方法

基于模型估计的两阶段方法。

优点: 计算简单

这种方法把估计f的问题简化为对一组参数的估计。

缺点: 精确度低

选定的模型并非与真正的f一致,当拟合效果差时,会通过增加参数(也即增加了模型的复杂度)以拟合f,容易拟合了噪声(noise),导致过拟合(overfiting)。

适用-->推断

1.2.2 非参数方法

优点: 精确度高

不需要对f的形式做明确的假设,即不限定f的具体形式,于是可以在更大的范围上选择更适宜f的估计.

缺点: 计算复杂

需要获取大量的观测点

1.3 指导学习与无指导学习

指导学习

对每一个预测变量观测值x_{i}都有相应的响应变量的观测y_{i}与之对应. 许多传统的统计学习方法都属于指导学习: 如线性回归, logistic回归, 广义可加模型(GAM),支持向量机(SVM)等.

无指导学习

只有预测变量观测值x_{i}可以得到,但是相应的响应变量的观测y_{i}不容易获得, 无法与之对应. 如:
聚类分析(cluster analysis)

1.4 回归与分类问题

通过研究响应变量(Y)的类型,可以指导我们选择相应的选择模型。

1.4.1 定性变量和定量变量

定性变量也称分类变量,如性别,品牌,肿瘤类型等。
定量变量呈现数值性,如年龄,身高等。

1.4.2 回归与分类

习惯上将响应变量(Y)为定量的问题成为回归分析问题,为定性的变量称为分类问题

2. 模型精度的评价

2.1 拟合效果检验

对于给定的观测,需要定量测量预测的Y与实际观测Y的接近程度。

2.1.1 MSE

均方误差(mean squared error, MSE)公式如下:
MSE=\frac{1}{n}\sum_{i=1}^n(y_{i}-\hat{f}(x_{i}))^2

2.1.2 自由度

自由度(degree of freedom)是一个用来描述曲线光滑程度的量。限制性强且曲线平坦的模型比锯齿形曲线具有更小的自由度

2.1.3 训练集的MSE和测试集的MSE

2.2 偏差-方差权衡

2.2.1 期望测试MSE

期望测试均方误差可以分解为\hat{f}(x_{0})的方差、\hat{f}(x_{0})偏差的平方和、误差项\varepsilon.
E(y_{0}-\hat{f}(x_{0})=Var(\hat{f}(x_{0}))+[Bias(\hat{f}(x_{0}))]^{2}+Var(\varepsilon)

CN EN Math
期望测试均方误差 expected test MSE E(y_{0}-\hat{f}(x_{0}))^2
平均测试均方误差 average test MSE 所有可能的期望测试MSE取平均

2.2.2 方差与偏差

2.3 分类模型

贝叶斯分类器

K最邻近方法

上一篇 下一篇

猜你喜欢

热点阅读