中文维基百科语料的Word2vec训练-gensim

2017-05-22 本文已影响0人 c9c574caa6d5

语料获取

预处理数据

将xml的压缩文件处理成text格式

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

将wiki.zh.text中的繁体字转化为简体字，利用开源项目opencc

opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json

分词，利用jieba分词

python -m jieba wiki.zh.jian.text > wiki.zh.jian.seg.text -d ' '

训练word2vec模型

python train_word2vec_gensim.py wiki.zh.jian.seg.text zhwiki.model zhwiki.vector

用gensim加载和简单测试一下得到的vector的效果

>>> import gensim
>>> model = gensim.models.Word2Vec.load_word2vec_format("zhwiki.vector", binary=False)
#model = gensim.models.Word2Vec.load("zhwiki.model")
>>> result = model.most_similar(u"足球")
>>> for e in result:
...     print e[0], e[1]
...
足球运动 0.542515218258
国际足球 0.529274106026
足球队 0.515214025974
篮球 0.507430315018
足球联赛 0.501194238663
国家足球队 0.490789890289
体育 0.486750543118
足球比赛 0.482675015926
男子篮球 0.478844285011
世界足球 0.475564420223
>>>

中文维基百科语料的Word2vec训练-gensim

语料获取

预处理数据

猜你喜欢

热点阅读