生物信息学:研一本体与机器学习

机器学习-特征工程

2019-02-15  本文已影响37人  neo_ng

outline

概念

数据集由数据对象组成,一个数据对象代表一个实体
属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。
属性的分类:

数据清洗

清洗标注数据,主要是数据采样和样本过滤

数据增强( Data Augmentation)

数据增强是指从给定数据导出的新数据的添加
如CV领域中的图像增广技术

预处理

缺失值的处理

(1)丢弃
(2)均值
(3)上下数据填充
(4)插值法 线性插值
(5)随机森林拟合

标准化和归一化

可以使用sklearn中的preproccessing库来进行数据预处理

特征选择

定义: 从给定的特征集合中选择出相关特征子集的过程
两个关键问题:

特征选择方法 = 子集搜索机制 + 子集评价机制

特征选择的作用

过滤式(filter)

特点:特征选择过程和学习器无关
通过特征的某个统计量值来进行排序,选择Top K特征
from sklearn.feature_selection import SelectKBest

ID3算法在选择节点对应的特征时也是使用信息增益
对于决策树来说,树节点的划分属性所组成的集合就是选择出的特征子集

wrapper

特点:将后续学习器的性能作为特征子集的评价准则
将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较
启发式算法

from sklearn.feature_selection import RFE

embedding

特点:特征选择过程与学习训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择
from sklearn.feature_selection import SelectFromModel

L1和L2范数都有助于降低过拟合风险

L1正则化/Lasso

L1正则化将系数w的l1范数作为惩罚项加到损失函数上,由于正则项非零,这就迫使那些弱的特征所对应的系数变成0
防止过拟合
更容易获得系数解


image.png
L2正则化/Ridge regression岭回归

L2正则化对于特征理解来说更加有用:表示能力强的特征对应的系数是非零

降维

定义:通过某种数学变化将原始高维属性空间转变为低维子空间(subspace)
低维嵌入(三维-->二维):


image.png

降维方法分类


image.png
PCA

from sklearn.decomposition import PCA

参考资料

<机器学习>第10章降维与度量学习-周志华
<机器学习>第11章特征选择和稀疏学习-周志华
结合Scikit-learn介绍几种常用的特征选择方法
机器学习之特征选择
Sklearn数据预处理:scale, StandardScaler, MinMaxScaler, Normalizer
机器学习中,有哪些特征选择的工程方法?
知乎特征工程总结

上一篇下一篇

猜你喜欢

热点阅读