特征工程

2019-06-11  本文已影响0人  小猪Piglet

1 特征提取

1.1 定义

将任意数据(文本或者图像)转换为可以用于寄去学习的数字特征。特征值话是为了让计算机更好的理解数据。

1.2 特征提取API

sklearn.feature_extraction

2 字典特征值提取

作用:对字典数据进行特征值化

sklearn.feature_extraction.DictVectorizer(sparse=True,...)
#注意sparse参数的设置
DictVectorizer.fit_transform(X)
#X:字典或者包含字典的迭代器返回值
#返回sparse矩阵
DictVectorizer.get_feature_names()返回特征名

2.3 总结

对于特征中存在类别信息的,做one-hot编码处理

3 文本特征提取

作用:对文本数据进行特征值化

3.1 应用

1.英文分词
2.中文分词(不支持单个字)需要下载jieba,利用jieba.cutfanhui 词语组成的生成器
3.Tf-idf文本特征提取

3.5.1 公式

最终得出结果可以理解为重要程度。


tfidf公式.png
举例:
假如一篇文章的总词语数是100个,而词语"非常"出现了5次,那么"非常"一词在该文件中的词频就是5/100=0.05。
而计算文件频率(IDF)的方法是以文件集的文件总数,除以出现"非常"一词的文件数。
所以,如果"非常"一词在1,0000份文件出现过,而文件总数是10,000,000份的话,
其逆向文件频率就是lg(10,000,000 / 1,0000)=3。
最后"非常"对于这篇文档的tf-idf的分数为0.05 * 3=0.15
上一篇下一篇

猜你喜欢

热点阅读