中文分词情感分析

中文Wiki语料获取

2016-08-23 本文已影响1547人 Yuxuanxuan

1. 数据下载#

wiki中文数据的下载地址是：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
需对其进行繁简转换，中文分词，去除非utf-8字符等处理。

2. 文本预处理#

执行：python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text 将这个XML压缩文件转换为txt文件。
执行：opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini, 将繁体字转换为简体字。
调用LTP进行分词
执行：iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8，将非utf-8格式字符转换为utf-8格式
调用word2vec：python train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector

更多请参考《维基百科简体中文语料的获取》中的方法

相关文章#

斯坦福大学深度学习与自然语言处理第三讲：高级的词向量表示
 斯坦福大学深度学习与自然语言处理第二讲：词向量
 如何计算两个文档的相似度（二）
微软：Web N-gram Services
Beautiful Data-统计语言模型的应用三：分词7
如何计算两个文档的相似度（三）
用MeCab打造一套实用的中文分词系统(二)
Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”
Beautiful Data-统计语言模型的应用三：分词3
MIT自然语言处理第三讲：概率语言模型（第三部分）

上一篇下一篇

猜你喜欢

热点阅读