文本分类和情感分类(1)

2019-04-08  本文已影响0人  刘亭_6d15

一、文本分类


1554706625(1).png

如图所示,文本分类的大体流程如上:

  1. 文本的预处理
    本文不涉及(能考虑到的会涉及,标点符号处理、停用词处理、中文分词等等)
  2. 文本表示
    如何将文本表示为计算机可以计算的数值。(这些数值应体现文档相关的一些特性,或者由于目的是应用于分类,则这些数值也应该具有不同文档间的区分性。)
    主要的思想是,在一个特征空间中,针对不同的特征(作为坐标轴)对文档进行相关的表示(各个点的值),利用表示后的向量,可以计算向量间的距离(内积、余弦值等)从而对文档的相似度进行度量。
    文档的向量空间表示如下图所示:


    image.png

    其中tj则是特征,wij为对应的点。
    从上面的表述可知,文本的表示涉及两点,一个是空间中坐标轴的选取(特征的选取),再就是向量空间中的点(在对应坐标轴上的大小)-特征权重。
    特征选择——选定利于文档分类的坐标轴
    就是选取哪些词或者短语
    选取的依据:文档频率、信息增益、卡方统计量、互信息
    特征权重——对应坐标轴上的点(值的大小)
    大小的依据:tf,idf tf-idf等等

  3. 分类器
    1)朴素贝叶斯
    基于DF(特征是否在文档中出现)
    基于TF(特征在文档中出现的次数)
    2)SVM

二、情感分类
1.依据机器学习进行分类(针对文中提到的小点子进行总结)
1)有监督的分类
加入主观句摘要,加入其中(增加了特征的维度)
2)半监督分类
针对标注较少的文本,加入了协同过滤(稍后文章分析下这种方法)
3)无监督分类
利用种子词(应该是已经有情感倾销的词语),计算文档中词语与种子词的点信息(度量词的情感倾向),然后通过词语计数,来计算文档的情感性倾向。
通过Hownet的语义分析抽取单词的情感信息。
利用LDA进行浅层的语义分析。
情感分析相关的评测涉及观点抽取和要素抽取。

上一篇 下一篇

猜你喜欢

热点阅读