面试 - 特征工程
2025-07-29 本文已影响0人
Kevin不会创作
-
数据归一化
通过梯度下降法求解的模型通常需要归一化:线性回归、逻辑回归、支持向量机、神经网络。数据归一化可以加速搜索最优解。
决策树模型并不适用归一化,因为归一化并不会改变样本在某一特征上的信息增益。
零均值归一化:
-
类别型特征
序号编码:通常用于处理类别间具有大小关系的特征。
独热编码:通常用于处理类别间不具有大小关系的特征。 -
过拟合的处理方法
基于模型的方法:
- 简化模型,如将非线性模型简化为线性模型,减少神经网络层数与节点数。
- 添加正则项(L1/L2正则项)
- 集成学习(Bagging/Boosting)
- 添加Dropout超参数
基于数据的方法
- 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转。
- 对图像中的像素添加噪声扰动,比如椒盐噪声、高斯白噪声等。
- 改变图像的亮度、清晰度、对比度、锐度等。
- 对图片进行特征提取,然后在图像 的特征空间内进行变换,利用一些通用的数据扩充或上采样技术,例如SMOTE算法。
- 生成式对抗网络(GAN)
- 迁移学习,借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调(fine-tune)。
-
L1和L2正则项的区别
L1正则(Lasso Regression)会使特征矩阵变得稀疏,自动进行特征选择,也就是将这些特征对应的权重置为0。适用于特征之间有关联的情况。
L2正则(Ridge Regression)让所有特征的系数都缩小,但是不会减为0,它会使优化求解稳定快速。适用于特征之间没有关联的情况。