中文分词情感分析

中文Wiki语料获取

2016-08-23  本文已影响1547人  Yuxuanxuan

1. 数据下载#

wiki中文数据的下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
需对其进行繁简转换,中文分词,去除非utf-8字符等处理。

2. 文本预处理#

更多请参考《维基百科简体中文语料的获取》中的方法

相关文章#

斯坦福大学深度学习与自然语言处理第三讲:高级的词向量表示
斯坦福大学深度学习与自然语言处理第二讲:词向量
如何计算两个文档的相似度(二)
微软:Web N-gram Services
Beautiful Data-统计语言模型的应用三:分词7
如何计算两个文档的相似度(三)
用MeCab打造一套实用的中文分词系统(二)
Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”
Beautiful Data-统计语言模型的应用三:分词3
MIT自然语言处理第三讲:概率语言模型(第三部分)

上一篇 下一篇

猜你喜欢

热点阅读