文本分析——准备工作
0 使用python进行文本分析
分词:安装jieba分词包
https://blog.csdn.net/zhuoyue65/article/details/80295096
下载NLTK语料库
https://blog.csdn.net/dengjiaxing0321/article/details/78678629
哈尔滨工业大学社会计算与信息检索研究中心,语言云,里面可能会有有帮助的东西
哈工大语言技术平台云:
开放工具:
百度AI开放平台,情感倾向分析
http://ai.baidu.com/tech/nlp/sentiment_classify
知乎回答:https://www.zhihu.com/question/20631050/answer/23454243
1 分词
下载jieba包,http://pypi.python.org/pypi/jieba/
解压文件包,在其目录下输入,以安装jieba
python setup.py install

运行示例:


2 词频统计
可以利用python进行词频统计
统计某个词在该文档中出现的次数

3 词云
词云(Word Cloud):是对文本中词频较高的分词,给与视觉上的突出,形成“关键词渲染”,从而过滤掉大量的文本信息,使浏览者一眼扫过就可以领略文本的主旨。
4 云服务器——Linux系统的熟悉—cygwin,Docker
安装cygwin,熟悉Linux命令行
在cygwin官网下载安装包,运行exe程序,选择download from Internet。在进行下载时,选择一个镜像网站。这里选择了国际的镜像网站,教程见https://blog.csdn.net/chunleixiahe/article/details/55666792


如上图所示,下载进行中。按照教程选择安装包进行安装。
5 情感极性分析
情感极性分析是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。基于新闻评论的情感分析,多用于舆情监控和信息预测。
目前常见的情感极性分析方法主要有两种:基于情感词典的方法和基于机器学习的方法。
5.1 基于情感词典的情感极性分析
5.1.1 情感词典
1. DOSON网站可下载情感词典:https://bosonnlp.com/dev/resource
BosonNLP情感词典是从微博、新闻、论坛等数据来源的上百万篇情感标注数据当中自动构建的情感极性词典。因为标注包括微博数据,该词典囊括了很多网络用语及非正式简称,对非规范文本也有较高的覆盖率。该情感词典可以用于构建社交媒体情感分析引擎,负面内容发现等应用。
使用python进行词典调试的教程链接:http://docs.bosonnlp.com/sentiment.html
python调用示例:
# -*- encoding: utf-8 -*-
from __future__ import print_function, unicode_literals
import json
import requests
SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis'
# 注意:在测试时请更换为您的API Token
headers = {
'X-Token': 'YOUR_API_TOKEN',
'Content-Type': 'application/json'
}
s = ['他是个坏蛋', '美好的世界']
data = json.dumps(s)
resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8'))
print(resp.text)
2. 知网情感分析用语语集下载: http://www.keenage.com/download/sentiment.rar