4.文本预处理

2020-08-10 本文已影响0人空无_ae80

文本数据的基本体征提取

词汇数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)

字符数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)

平均字长(所有单词的长度然后除以每条推文单词的个数，即可作为平均词汇长度)

停用词数量

特殊字符数量(提取“#”和“@”符号的数量。这也有利于我们从文本数据中提取更多信息)

数字数量(数字数量是一个比较有用的特征)

大写字母数量

文本数据的基本预处理

小写转换

去除标点符号

去除停用词

去除频现词

去除稀疏词

拼写校正

分词(tokenization)

词干提取(stemming)

词形还原(lemmatization)

高级文本处理

N-grams语言模型

词频

逆文档频率

TF-IDF

词袋

情感分析

词嵌入

上一篇下一篇

猜你喜欢

热点阅读