数据分析曾国藩家书都写了啥

2020-01-17  本文已影响0人  狼性刀锋

近日研究爬虫,于是闲着无聊爬了一下古诗文网,有了数据索性再来分析一波。目标选定了曾国藩家书

首先使用jieba分词对其进行分词,分词后使用wordcloud生出词云,看一下那些词使用的最多

wordcloud.png

拥有哪些信息呢?

好了再看一下曾国藩提及最多的是谁?
这里专对书中出现的人名进行统计。

name第一版没有加载自定义词典.png

果然兄弟情深,国藩诸弟出现的是最多的,在加上各种各样的其他弟弟更加不得了了,不过这里也出现了一些问题: 比如 万福金安 显然是个问候语, 金陵应该是个地名, 高丽参 是一种人参之类的药物,显然分词不够准确, 于是改进一下。

name.png

这些好多了,比之前的更加合理。这里冯树堂出现的频率居然如此之高,害得我赶紧查一下到底是何许人也,居然在曾国藩的心中占有如此重要的位置,

待解决的问题

对于人名的解析不够准确,主要是信中会出现代词之类,比如: , 等,只是简单的对名字进行解析无法真实反应其出现的频率,需要进一步的解决这个问题

上一篇 下一篇

猜你喜欢

热点阅读