特征工程

2020-06-14 本文已影响0人凌晨的月亮圆又亮

做多模态融合需要特征工程知识，所以来学特征工程，最近还要学深度学习算法，统计学方法，好多东西要学！
特征工程入门的介绍：
机器学习中，有哪些特征选择的工程方法？ - 城东的回答 - 知乎
 机器学习中，有哪些特征选择的工程方法？ - SAMshare的回答 - 知乎
 【机器学习】特征选择(Feature Selection)方法汇总 - 孙佳伟的文章 - 知乎
 机器学习中的特征——特征选择的方法以及注意点

数据降维(feature extraction)和特征选择(feature selection)的区别

在多模态融合中，往往先经过数据预处理、模态转换等步骤后，需要用到特征选择或者数据降维来进行特征融合。对于数据降维和特征选择一直存在疑惑不明白二者的区别，所以来学习。

二者的目标都是使得特征维数减少。但是方法不一样。数据降维，一般说的是维数约简（Dimensionality reduction）。它的思路是：将原始高维特征空间里的点向一个低维空间投影，新的空间维度低于原特征空间，所以维数减少了。在这个过程中，特征发生了根本性的变化，原始的特征消失了（虽然新的特征也保持了原特征的一些性质）。而特征选择，是从 n 个特征中选择 d (d<n) 个出来，而其它的 n-d 个特征舍弃。所以，新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。
作者：Jason Gu
链接：https://www.zhihu.com/question/29262795/answer/43742530

申明：

目前在看的一本书，是爱丽丝·郑阿曼达·卡萨丽的《精通特征工程》，听说特别好，期待。以下内容为阅读《精通特征工程》所作的笔记，或为原文摘抄，或为自己理解，如有侵权，删，特此申明。
引用：“Feature Engineering for Machine Learning by Alice Zheng and Amanda Casri(O'Reilly).Copyright 2018 Alice Zheng and Amanda Casari,978-1-491-95324-2."

1.机器学习流程

1.1数据-1.2任务-1.3模型

略过

1.4特征

特征：原始数据的数值表示。
特征工程：在给定数据、模型和任务的下设计出最合适的特征的过程。

2.简单而又奇妙的数值

2.1标量、向量和空间

标量：单独的数值型特征称为标量。
向量：标量的有序列表。

2.2处理计数

当数据无限度地增大，必须要对数据进行一定的处理，从而更好找出其中的规律或者更好地处理。

2.2.1二值化

（1）二值化
（2）区间量化

固定宽度分箱
分位数分箱

2.3对数变换

对数变换可以对大数值的范围进行压缩，对小数值得范围进行扩展。x越大，log(x)增长得越慢。对数变换更适合处理具有重尾分布得正数值。
指数变换是对数变换的推广。

2.4特征缩放/归一化

特征缩放会改变特征的尺度，通常对每个特征独立仅从。

2.4.1min-max缩放

$\tilde x ={x-min(x)\over max(x)-min(x)}$

2.4.2特征标准化/方差缩放

$\tilde x={x-mean(x)\over sqrt(var(x))}$
缩放后的特征均值为0，方差为1。
以上两种缩放的实施对象如果是稀疏数据，那么一定要小心，因为稀疏数据以0居多，经过min-max缩放/标准化以后，就会使得所有的数据特征平移一定的数据量，此时的稀疏数据将不再稀疏，计算量变得很大。

2.4.3 $l^2$ 归一化

这种归一化技术是将初始特征值除以一个称为 $l^2$ 范数的量， $l^2$ 范数又称为欧几里得范数，定义如下：
$\tilde x={x\over||x||_2}$
$||x||_2 =\sqrt{x_1^2+x_2^2+···+x_m^2}$
当一组输入特征的尺度相差很大时，就需要进行特征缩放。

2.5交互特征

两个特征的乘积可以组成一对简单的交互特征，这种相乘关系可以用逻辑操作符AND来类比。

2.6特征选择

目的：精简掉无用的特征，以降低最终模型的复杂性，最终目的是得到一个简约模型，同时提高计算速度。
（1）过滤filter
（2）打包方法Wrapper
（3）嵌入式方法Embedded
嵌入式方式将特则会给你选择作为模型训练过程的一部分。它们不如大爆发强大，但成本没有打包法高，与过滤技术相比，嵌入式方法可以选择出特别适合某种模型的特征。
关于特征选择的部分是我这次重点要学习的内容，但是看了后面部分都是关于信息检索课程相关的知识了，作者也说了特征选择的更细致内容超出本书范围，因此，这本书的学习目前先放下，先去做更要紧的事。