特征工程是啥米

2017-11-22  本文已影响0人  RaferYY

基本分类

1、One-Hot Encoding——转化n分类变量为n个二元特征稀疏结构

2、Hash Encoding——转化分类变量为固定长度的哈希向量

3、计数型Encoding——跟全局统计有线性关系

4、Embedding——高维向量投影到低维

5、缺失数据处理——平均值、中位值、模值、模型生成值

6、对数组做标准化——例如向量归一化

自然语言处理的特征工程

1、Bag of words——One-Hot encoding的一种表达

2、TF-IDF——过滤常见词,保留重要词

上一篇 下一篇

猜你喜欢

热点阅读