Intel-ML笔记02 训练集分割验证&线性规划
2018-05-25 本文已影响0人
SilentDawn
欠拟合(Underfitting)和过拟合(Overfitting)
欠拟合:拟合函数与训练集误差较大
过拟合:拟合函数与训练集完美匹配
underfitting vs overfitting.png
偏差(Bias)和方差(Variance)平衡
偏差:与真实值的偏离程度
方差:真实值与期望值之间距离的波动程度
Bias-Variance Tradeoff.png
训练集和测试集
将数据分割为训练集和测试集,训练集用户训练模型,测试集用于对训练的模型进行测试
交叉验证(cross validation)
在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。
-
训练误差和验证误差
error.png
线性规划(Linear Regression)
-
线性规划
Linear Regresssion.png -
残差(residuals)
Redisuals.png -
均方误差(mean squared error)
mean squared error.png -
最小均方误差
minimum mean squared error.png -
成本函数
cost function.png -
其他衡量错误的方式
-
Sum of Squared Error(SSE)
SSE.png -
Total Sum of Squares(TSS)
TSS.png-
Correlation Coefficient(R2)
R2.png
-
-
线性规划与KNN对比
compare LR and KNN.png特征缩放
缩放是对特征的变换。
线性规划模型的预测假设残差是正态分布的,但通常是偏斜的,因此使用缩放解决该问题。
feature type.png