面试:一.特征工程与模型评估

2020-06-06  本文已影响0人  李涛AT北京

  俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征便是“米”,模型和算法则是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。正如一句业界经典的话所说,“Garbage in,garbage out”。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。

  特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

1.为什么需要对数值类型的特征做归一化?

2.常用的归一化手段有哪些?

3.哪些算法适合归一化,哪些不适合归一化?

4.在对数据进行预处理时,应该怎样处理类别型特征?

5.什么是组合特征?如何处理高维组合特征?

6.怎样有效地找到组合特征?

7.有哪些评估指标?

8.准确率(Accuracy)的局限性?

9.精确率与召回率的权衡

10.平方根误差的“意外”。

11.什么是ROC曲线?

12.如何绘制ROC曲线?

13.如何计算AUC?

14.ROC曲线相比P-R曲线有什么特点?

15.为什么在一些场景中要使用余弦相似度而不是欧氏距离?

16.余弦距离是否是一个严格定义的距离?

17.在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?

18.如何进行线上A/B测试?

19.如何划分实验组和对照组?

20.模型评估的方法

21.降低“过拟合”风险的方法

22.降低“欠拟合”风险的方法

上一篇 下一篇

猜你喜欢

热点阅读