上市公司历史新闻数据分析（二）

2018-08-10 本文已影响0人 Rethinkpossible

今天小编打算补充一下上一篇上市公司历史新闻数据分析（一）的部分内容，以及进一步阐述如何利用SVM和RandomForest做文本分类及效果对比。

上一篇文章有提到用LDA主题模型做文本特征抽取，其实LDA主要是将“Document x Word”矩阵分解为“Document x Topic”矩阵和“Topic x Word”矩阵。通俗的说，LDA是为了说明某一系列的Words放在一起构成的Document很有可能在描述某一类Topic。下图显示了在实验中，将文本集转为lsi向量或lda向量的大致流程：

这里顺便说一下word2vec和doc2vec，两者都可以做特征抽取，但实验效果都没有LDA好，因此也就不描述实验。word2vec也叫word embeddings，就是根据词语与上下文词语的关系（相关情况），将已分词的文本进行训练，得到每个词的向量表示，即词向量（稠密向量，distributed representation），并且其中相近意义的词语将被映射到向量空间中相近的位置。主要有以下几点应用：（1）计算词语间的相似度，比如同样在城市主题下，衡量“北京”更接近“上海”还是“广州”；（2）计算词语的类比关系，比如“King”+“Woman”-“man”近似于“Queen”；（3）计算文本间的相似度。word2vec有两种训练算法，一个是CBOW模型，一个是skip-gram模型，详细解释可参考链接<1>。doc2vec又叫做paragraph2vec或者sentenceembeddings，是一种非监督式算法，可以获得句子/段落/文档的向量表达，是word2vec的拓展，详细解释可参考链接<2>。

在进行文本特征选择后，接下来就是文本表示，也就是把非结构化的文本转为计算机可以处理的结构化数据形式。在Gensim的官方教程（参考链接<3>）中有提到如何将Gensim类型数据转为Numpy和Scipy类型数据，转换的目的自然是为了适应更多机器学习库。在模型上，我选择了scikit-learn的SVM和RandomForest做对比。下面是一部分简约代码展示如何用GridSearchCV做参数优化：

fromsklearnimportsvm

fromsklearn.ensembleimportRandomForestClassifier

fromsklearn.externalsimportjoblib

fromsklearn.model_selectionimportGridSearchCV

fromsklearn.metricsimportclassification_report

scores = ['precision']#['precision','recall']

tuned_parameters_svm = {'kernel': ['rbf'],'gamma': [10,20,50,100,150,200], \

'C': [10,15,20,30,50,100]}

tuned_parameters_rdf = {"n_estimators": [10,20,50,80,100],"criterion": ["gini","entropy"], \

"min_samples_leaf": [2,4,6,10,20]}

forscoreinscores:

ifnotos.path.exists('./svm.pkl'):#或'./randomforest.pkl'

clf = GridSearchCV(svm.SVC(), tuned_parameters_svm, cv=5, scoring='%s_weighted'% score)# 构造这个GridSearch的分类器,5-fold

# clf = GridSearchCV(RandomForestClassifier(random_state=14), tuned_parameters_rdf, cv=5, scoring='%s_weighted' % score) # 构造这个GridSearch的分类器,5-fold

clf.fit(train_X, train_Y)# 只在训练集上面做k-fold,然后返回最优的模型参数

joblib.dump(clf,'./svm.pkl')#或'./randomforest.pkl'

else:

clf = joblib.load('./svm.pkl')

print(clf.best_params_)# 输出最优的模型参数

# for params, mean_score, scores in clf.grid_scores_:

# print("%0.3f (+/-%0.03f) for %r" % (mean_score, scores.std() * 2, params))

train_pred = clf.predict(train_X)

test_pred = clf.predict(test_X)# 在测试集上测试最优的模型的泛化能力.

print(classification_report(test_Y, test_pred))

其中，scores是优化目标，可以按照准确率（precision）或者召回率（recall），当然还有别的；tuned_parameters_svm（tuned_parameters_rdf）表示选择的参数以及参数优化范围；训练好的模型最好还是用joblib给保存起来；最后用classification_report打印结果，如下图：

依然用山西焦化（600740）作为测试股票。首先从所收集的新闻数据中抽取与600740相关的新闻存到新的数据，并且依据这些数据生成600740的新闻字典以及bow向量，然后用LDA抽取主题模型向量，并保存。最后设置30个Epoch，来对比SVM和RandomForest在测试集的分类效果，如下图：

可见SVM在实验表现优于RandomForest。

模型训练好了，当然得测试一下实际效果。由于新闻数据的收集只是到最近的2月3日，所以用2月3日之后的关于山西焦化的新闻数据进行测试。这里选了新浪财经在2月6日的一篇新闻（网址是参考链接<5>），标题是《中央、地方支持政策频出煤炭行业站上了风口》，和金融界在2月5日的一篇新闻（网址是参考链接<6>），标题是《[山西焦化]郭文仓到终点工程项目督导检查》，下面是一段简约代码和输出结果：

Obj = TextMining(IP="localhost",PORT=27017)

doc = ['中央、地方支持政策频出,煤炭行业站上了风口券商研报浩如烟海，投资线索眼花缭乱，第一财经推出\

《一财研选》产品，挖掘研报精华，每期梳理5条投资线索，便于您短时间内获取有价值的信息。专业团队\

每周日至每周四晚8点准时“上新”，...'

'郭文仓到重点工程项目督导检查 2月2日,公司党委书记、董事长、总经理郭文仓,公司董事,股份公司副\

总经理、总工程师、郭毅民,股份公司副总经理张国富、柴高贵 ...'

]

token = Obj.ge2.jieba_tokenize(doc)#分词

dictionary = corpora.Dictionary.load('./600740_dict.dict')#加载历史文档字典

bowvec_doc = [dictionary.doc2bow(text)fortextintoken]#生成新文档的bow向量

bowvec_all = list(corpora.MmCorpus('D:\\stock_dict_file\\600740\\600740_bowvec.mm'))#加载历史文档bow向量

bowvec_all.extend(bowvec_doc)#更新历史文档bow向量

_, NewmodelVec = Obj.ge2.CallTransformationModel(dictionary,bowvec_all,modelType='lda',\

tfDim=200,renewModel=False,modelPath='D:\\stock_dict_file\\600740\\')#生成新的lda向量

NewCSRMatrix = Obj.ConvertToCSRMatrix(NewmodelVec)#将新的lda向量转为scipy类型的稀疏矩阵

clf = joblib.load('D:\\stock_dict_file\\600740\\600740_svm.pkl')#加载训练好的svm模型进行分类预测

fori, newsinenumerate(doc):

ifclf.predict(NewCSRMatrix[i-2,:])[0] ==1:

print('《'+ news.split(' ')[0] +"》"+'是利好消息 ...')

elifclf.predict(NewCSRMatrix[i-2,:])[0] ==-1:

print('《'+ news.split(' ')[0] +"》"+'是利空消息 ...')

else:

print('《'+ news.split(' ')[0] +"》"+'是中立消息 ...')

下面是山西焦化（600740）最近几天的股票价格，可见2月5日之后股票价格下跌，当然也不排除这几天的下跌多数是由系统性风险造成。但总的来说，这次的研究还是蛮具有实战价值。

参考链接：

<1> http://blog.csdn.net/u014595019/article/details/51884529

<2> https://www.cnblogs.com/maybe2030/p/5427148.html

<3> https://radimrehurek.com/gensim/tut1.html#compatibility-with-numpy-and- scipy

<4> http://blog.csdn.net/lixiaowang_327/article/details/53434744

<5> http://finance.sina.com.cn/stock/hyyj/2018-02-04/doc- ifyreyvz9053830.shtml

<6> http://stock.jrj.com.cn/2018/02/05000024071826.shtml

上市公司历史新闻数据分析（二）

猜你喜欢

热点阅读