上海市政府工作报告词云图
2019-01-27 本文已影响0人
丁嵩冰
话说手里有个锤子,看什么都像钉子。上午一边听着政府工作报告,一边看着手里好像有好几把小锤子,就在想,除了一堆给力的数据,怎么用数据分析的方式从不同角度看报告。
晚上回家,开工:
先找到官方全文:https://baijiahao.baidu.com/s?id=1623778868224158198&wfr=spider&for=pc
第一把锤子:emeditor,全文复制粘贴:
![](https://img.haomeiwen.com/i8580737/f46ab51290662418.png)
Ctrl+H 调出替换窗口,用\n替换[^\x{4e00}-\x{9fa5}],分句,这里用到一把万能螺丝刀-正则表达式:
![](https://img.haomeiwen.com/i8580737/ac795310ac722dd9.png)
![](https://img.haomeiwen.com/i8580737/241d294d3252c69b.png)
再用\n替换掉\n\n,多点几遍替换全部,去掉空行:
![](https://img.haomeiwen.com/i8580737/d2154d57b7055e12.png)
保存到桌面,命名“gzbg.txt”
第二把锤子,python:
![](https://img.haomeiwen.com/i8580737/b97db353ea133584.png)
屏幕一闪,结果出来了:
![](https://img.haomeiwen.com/i8580737/840ae15616b5e5f8.png)
第三把锤子,Excel,copy过去,排序整理,取前50高频词
![](https://img.haomeiwen.com/i8580737/85c2a7b2671c8dca.png)
最后上第四把锤子,echarts的词云工具wordcloud.js:
![](https://img.haomeiwen.com/i8580737/2fa3ef4b98d0e1e1.png)
高频词串成不重词一句话,就是:加快推进发展综合服务建设,全面加强实施城市管理改革
闲着的锤子,还可以试试中央政府和各省市区的政府工作报告,高频词关联分析下,看看哪家与总报告的关联度最高。