数据透视之——李白诗集
2018-07-22 本文已影响69人
f2891238320d
上周看到产品经理用excel做的数据透视图很高大上,于是自己学了一下,并顺便用李白诗集做了原始数据,进行了分析。以下是整个过程。
1,下载网络上流传的李白诗集的原始文件txt。
2,使用Python,使用了结巴分词,对每一句话进行了分词处理。
3,将所有分词处理,去除符号等脏数据。
4,导入excel,进行数据透视。
以下是分析出来的统计图:

图1——三字以上词语频次
图1为李白诗集中三字以上的词语出现频率前10名,第一的曲歌辞是诗名(没错,就是写了那么多首),其他如“君不见”,“天地间”,“悲来乎”“望长安”也很轻松的进了前十。这很李白。

图2.1——两字词语出现频次

图2.2——两字词语出现频次
图2.1图2.2 为两字词语,“相思”排名第一,“明主”,“何时”“何处”各出现近40次,看得出来李白对明主的渴望很迫切。不过呢,美酒是排在明主前面的,哈哈,诗仙李白,岂能无酒?

图3——关于月份的频次
图3,写五月的诗远超其他,难道是五月天气好,不冷不热,正适合写诗?
“猿啸千溪合,松风五月寒。他年一携手,摇艇入新安。”

图4——单字出现频次
单字中,出现最多是“不”,接着的“山天云风月”全是风景类词语,诗人李白先说不,其次再观天下景(我做的诗,哈哈)
“安能摧眉折腰事权贵,使我不得开心颜”

图5——来与去的出现频次
来和去基本持平,有来有往。

图6——东南西北方向词出现的频次
“东”和“西”最多,看来日出与日落的方向果然是比较容易让人有感而发。

图7——天与地的出现频次
“天”的出现次数远高于“地”。想不到啥好的解释了。
以上,纯属自己玩玩,分析的可能没那么准确,看看就好~