基于jieba和doc2vec的中文情感语料分类

2017-12-01  本文已影响0人  lybroman

Chinese-sentiment-analysis-with-Doc2Vec

简介

中文语料的情感分析基本步骤如下:

开发环境Python-v3(3.6)

        gensim==3.0.1
        jieba==0.39
        scikit-learn==0.19.1
        tensorflow==1.2.1
        numpy==1.13.1+mkl

示例代码参考Chinese-sentiment-analysis-with-Doc2Vec
https://github.com/lybroman/Chinese-sentiment-analysis-with-Doc2Vec

在repo中有两个zip文件分别为train.ziptest.zip数据,当然你也可以直接在加载语料时将部分数据用作测试数据(详见后文)。

数据预处理(preprocess.py)

分词(words_segment.py)

    filter_chars = "\r\n,。;!,.:;:、"
    trans_dict = dict.fromkeys((ord(_) for _ in filter_chars), '')
    line = line.translate(trans_dict)

文本向量化模型(main.py:step 1-3)

训练分类器(main.py:step 4-5)

    train, test, train_label, test_label = ms.train_test_split(
        train_arrays, train_labels, test_size=0.2)

新样本预测(prediction.py)

后续工作

上一篇 下一篇

猜你喜欢

热点阅读