特征工程

2020-06-14  本文已影响0人  凌晨的月亮圆又亮

做多模态融合需要特征工程知识,所以来学特征工程,最近还要学深度学习算法,统计学方法,好多东西要学!
特征工程入门的介绍:
机器学习中,有哪些特征选择的工程方法? - 城东的回答 - 知乎
机器学习中,有哪些特征选择的工程方法? - SAMshare的回答 - 知乎
【机器学习】特征选择(Feature Selection)方法汇总 - 孙佳伟的文章 - 知乎
机器学习中的特征——特征选择的方法以及注意点

数据降维(feature extraction)和特征选择(feature selection)的区别

在多模态融合中,往往先经过数据预处理、模态转换等步骤后,需要用到特征选择或者数据降维来进行特征融合。对于数据降维和特征选择一直存在疑惑不明白二者的区别,所以来学习。

二者的目标都是使得特征维数减少。但是方法不一样。数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。而特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。
作者:Jason Gu
链接:https://www.zhihu.com/question/29262795/answer/43742530

申明:

目前在看的一本书,是爱丽丝·郑 阿曼达·卡萨丽的《精通特征工程》,听说特别好,期待。以下内容为阅读《精通特征工程》所作的笔记,或为原文摘抄,或为自己理解,如有侵权,删,特此申明。
引用:“Feature Engineering for Machine Learning by Alice Zheng and Amanda Casri(O'Reilly).Copyright 2018 Alice Zheng and Amanda Casari,978-1-491-95324-2."

1.机器学习流程

1.1数据-1.2任务-1.3模型

略过

1.4特征

特征:原始数据的数值表示。
特征工程:在给定数据、模型和任务的下设计出最合适的特征的过程。

2.简单而又奇妙的数值

2.1标量、向量和空间

标量:单独的数值型特征称为标量。
向量:标量的有序列表。

2.2处理计数

当数据无限度地增大,必须要对数据进行一定的处理,从而更好找出其中的规律或者更好地处理。

2.2.1二值化

(1)二值化
(2)区间量化

2.3对数变换

对数变换可以对大数值的范围进行压缩,对小数值得范围进行扩展。x越大,log(x)增长得越慢。对数变换更适合处理具有重尾分布得正数值。
指数变换是对数变换的推广。

2.4特征缩放/归一化

特征缩放会改变特征的尺度,通常对每个特征独立仅从。

2.4.1min-max缩放

\tilde x ={x-min(x)\over max(x)-min(x)}

2.4.2特征标准化/方差缩放

\tilde x={x-mean(x)\over sqrt(var(x))}
缩放后的特征均值为0,方差为1。
以上两种缩放的实施对象如果是稀疏数据,那么一定要小心,因为稀疏数据以0居多,经过min-max缩放/标准化以后,就会使得所有的数据特征平移一定的数据量,此时的稀疏数据将不再稀疏,计算量变得很大。

2.4.3l^2归一化

这种归一化技术是将初始特征值除以一个称为l^2范数的量,l^2范数又称为欧几里得范数,定义如下:
\tilde x={x\over||x||_2}
||x||_2 =\sqrt{x_1^2+x_2^2+···+x_m^2}
当一组输入特征的尺度相差很大时,就需要进行特征缩放。

2.5交互特征

两个特征的乘积可以组成一对简单的交互特征,这种相乘关系可以用逻辑操作符AND来类比。

2.6特征选择

目的:精简掉无用的特征,以降低最终模型的复杂性,最终目的是得到一个简约模型,同时提高计算速度。
(1)过滤filter
(2)打包方法Wrapper
(3)嵌入式方法Embedded
嵌入式方式将特则会给你选择作为模型训练过程的一部分。它们不如大爆发强大,但成本没有打包法高,与过滤技术相比,嵌入式方法可以选择出特别适合某种模型的特征。
关于特征选择的部分是我这次重点要学习的内容,但是看了后面部分都是关于信息检索课程相关的知识了,作者也说了特征选择的更细致内容超出本书范围,因此,这本书的学习目前先放下,先去做更要紧的事。

上一篇下一篇

猜你喜欢

热点阅读