文本分类和情感分类（1）

2019-04-08 本文已影响0人刘亭_6d15

一、文本分类

1554706625(1).png

如图所示，文本分类的大体流程如上：

文本的预处理
本文不涉及（能考虑到的会涉及，标点符号处理、停用词处理、中文分词等等）
文本表示
如何将文本表示为计算机可以计算的数值。（这些数值应体现文档相关的一些特性，或者由于目的是应用于分类，则这些数值也应该具有不同文档间的区分性。）
主要的思想是，在一个特征空间中，针对不同的特征（作为坐标轴）对文档进行相关的表示（各个点的值），利用表示后的向量，可以计算向量间的距离（内积、余弦值等）从而对文档的相似度进行度量。
文档的向量空间表示如下图所示：

image.png

其中tj则是特征，wij为对应的点。
从上面的表述可知，文本的表示涉及两点，一个是空间中坐标轴的选取（特征的选取），再就是向量空间中的点（在对应坐标轴上的大小）-特征权重。
特征选择——选定利于文档分类的坐标轴
就是选取哪些词或者短语
选取的依据：文档频率、信息增益、卡方统计量、互信息
特征权重——对应坐标轴上的点（值的大小）
大小的依据：tf，idf tf-idf等等
分类器
1）朴素贝叶斯
基于DF（特征是否在文档中出现）
基于TF（特征在文档中出现的次数）
2）SVM

二、情感分类
1.依据机器学习进行分类（针对文中提到的小点子进行总结）
1）有监督的分类
加入主观句摘要，加入其中（增加了特征的维度）
2）半监督分类
针对标注较少的文本，加入了协同过滤（稍后文章分析下这种方法）
3）无监督分类
利用种子词（应该是已经有情感倾销的词语），计算文档中词语与种子词的点信息（度量词的情感倾向），然后通过词语计数，来计算文档的情感性倾向。
通过Hownet的语义分析抽取单词的情感信息。
利用LDA进行浅层的语义分析。
情感分析相关的评测涉及观点抽取和要素抽取。

文本分类和情感分类（1）

猜你喜欢

热点阅读