03-09:梳理常见机器学习面试题
大概思路:
1.手推公式部分
2.机器学习通用问题部分
3.常见机器学习、深度学习算法部分
一、模型偏差/方差问题对于模型的意义:
1、偏差:描述的是模型预测值和真实值之间差值的平方,是单个模型的学习能力。
2、方差:描述的是同一个模型在不同数据集上的稳定性。
在数据集大小不同进行模型选择时:
训练集小:低方差/高偏差的模型,比如朴素贝叶斯,否则容易过拟合
LR是一个简单的模型,是一个高偏差/低方差的模型,但是我们数据集比较大。。。
训练集大:高方差/低偏差的模型,比如KNN
通常情况下,如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的优势大(例如,KNN),因为后者会发生过拟合(overfiting)。然而,随着你训练集的增长,模型对于原数据的预测能力就越好,偏差就会降低,此时低偏差/高方差的分类器就会渐渐的表现其优势(因为它们有较低的渐近误差),而高偏差分类器这时已经不足以提供准确的模型了。
参考资料:
1、偏差(Bias)与方差(Variance)
https://zhuanlan.zhihu.com/p/38853908
2、朴素贝叶斯是高偏差低方差
https://blog.csdn.net/wangweiboss/article/details/46118493
3、CTR 预测理论(一):机器学习算法优缺点对比及选择(汇总篇)
https://blog.csdn.net/Dby_freedom/article/details/83033476
4、梳理常见机器学习面试题
https://zhuanlan.zhihu.com/p/82105066?utm_source=wechat_session&utm_medium=social&utm_oi=941089121578500096&wechatShare=1&s_r=0