面试 - 特征工程

2025-07-29  本文已影响0人  Kevin不会创作
  1. 数据归一化

    通过梯度下降法求解的模型通常需要归一化:线性回归、逻辑回归、支持向量机、神经网络。数据归一化可以加速搜索最优解。
    决策树模型并不适用归一化,因为归一化并不会改变样本在某一特征上的信息增益。
    零均值归一化:
    z=\frac{x-\mu}{\sigma}

  2. 类别型特征

    序号编码:通常用于处理类别间具有大小关系的特征。
    独热编码:通常用于处理类别间不具有大小关系的特征。

  3. 过拟合的处理方法

    基于模型的方法:

    • 简化模型,如将非线性模型简化为线性模型,减少神经网络层数与节点数。
    • 添加正则项(L1/L2正则项)
    • 集成学习(Bagging/Boosting)
    • 添加Dropout超参数

    基于数据的方法

    • 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转。
    • 对图像中的像素添加噪声扰动,比如椒盐噪声、高斯白噪声等。
    • 改变图像的亮度、清晰度、对比度、锐度等。
    • 对图片进行特征提取,然后在图像 的特征空间内进行变换,利用一些通用的数据扩充或上采样技术,例如SMOTE算法。
    • 生成式对抗网络(GAN)
    • 迁移学习,借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调(fine-tune)。
  4. L1和L2正则项的区别

    L1正则(Lasso Regression)会使特征矩阵变得稀疏,自动进行特征选择,也就是将这些特征对应的权重置为0。适用于特征之间有关联的情况。

    L2正则(Ridge Regression)让所有特征的系数都缩小,但是不会减为0,它会使优化求解稳定快速。适用于特征之间没有关联的情况。

上一篇 下一篇

猜你喜欢

热点阅读