面试 - 特征工程

2025-07-29 本文已影响0人 Kevin不会创作

数据归一化

通过梯度下降法求解的模型通常需要归一化：线性回归、逻辑回归、支持向量机、神经网络。数据归一化可以加速搜索最优解。
决策树模型并不适用归一化，因为归一化并不会改变样本在某一特征上的信息增益。
零均值归一化:
$z=\frac{x-\mu}{\sigma}$
类别型特征

序号编码：通常用于处理类别间具有大小关系的特征。
独热编码：通常用于处理类别间不具有大小关系的特征。
过拟合的处理方法

基于模型的方法：
- 简化模型，如将非线性模型简化为线性模型，减少神经网络层数与节点数。
- 添加正则项（L1/L2正则项）
- 集成学习（Bagging/Boosting）
- 添加Dropout超参数
基于数据的方法
- 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转。
- 对图像中的像素添加噪声扰动，比如椒盐噪声、高斯白噪声等。
- 改变图像的亮度、清晰度、对比度、锐度等。
- 对图片进行特征提取，然后在图像的特征空间内进行变换，利用一些通用的数据扩充或上采样技术，例如SMOTE算法。
- 生成式对抗网络（GAN）
- 迁移学习，借用一个在大规模数据集上预训练好的通用模型，并在针对目标任务的小数据集上进行微调（fine-tune）。
L1和L2正则项的区别

L1正则（Lasso Regression）会使特征矩阵变得稀疏，自动进行特征选择，也就是将这些特征对应的权重置为0。适用于特征之间有关联的情况。

L2正则（Ridge Regression）让所有特征的系数都缩小，但是不会减为0，它会使优化求解稳定快速。适用于特征之间没有关联的情况。

面试 - 特征工程

猜你喜欢

热点阅读