我用python学习了党的十九大报告

2018-03-12  本文已影响0人  朱根

       最近在自学python,经过前期的基础知识学习后,便开始用简单的代码完成自己喜欢的小项目,聊以自娱。

      党的十九大是我们党在关键时期召开的一次关键会议,标志着我国社会主义事业进入了新时代,那么党的十九大报告,到底强调了那些呢。我用python学习了十九大报告告诉你:

       我们政协网上找到了十九大报告全文,网址(http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm)。

接下来,我们就是要爬取这份干货满满的报告,并对它进行简单文本分析。

抓取文本,提取关键词的代码实现如下:

from lxmlimport etree

import jieba,jieba.analyse

v_sorce = pd(url='http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm',encoding ='utf-8')

for iin v_sorce('p'):

with open('sjd.txt','a+',encoding='utf-8')as f:

f.write(pd(i).text())

f.close()

with open('sjd.txt','r',encoding='utf-8')as t:

text = t.read()

t.close()

keyword = jieba.analyse.extract_tags(text,topK=50,withWeight=False)

print(keyword)

运行结果:

十九大提的最多的词汇(50个):

['社会主义', '人民', '坚持', '发展', '建设', '特色', '中国', '全面', '推进', '制度', '政治', '伟大', '体系', '实现', '加强', '国家', '社会', '时代', '中华民族', '文化', '现代化', '民主', '完善', '必须', '法治', '安全', '创新', '深化', '复兴', '推动', '我国', '治理', '生态', '更加', '改革', '依法治国', '增强', '全党', '文明', '我们', '经济', '坚决', '战略', '加快', '领导', '健全', '构建', '不断', '工作', '思想']

我们可以看出,近些年我们党重点的工作领域都一涵盖在内,所有关键词get.

文字展示还是不太直观,于是想到了python 的wordcloud库:

conment_text= codecs.open('sjd.txt','r',encoding='utf-8').read()

cut_text =" ".join(jieba.cut(conment_text))

n = jieba.analyse.extract_tags(conment_text)

print(n)

color_mask = imread("timg.jpg")

d = path.dirname(__file__)

cloud = WordCloud(font_path=path.join(d,'simsun.ttc'),

                      background_color='white',

                      mask=color_mask,

                      max_words=2000,

                      max_font_size=40)

word_cloud = cloud.generate(cut_text)

word_cloud.to_file('sjd.jpg')

plt.imshow(word_cloud)

plt.axis('off')

plt.show()

这就生成了十九大报告的词云图,形状为党徽:之前抓取的关键词,都清晰罗列,字体越大说明报告提到的次数就越多。这样看起来就更加直观方便。

十九大关键词都已呈现在词云图中,这张图展现了我们党未来的工作方向,也是党治理国家的美好蓝图。

这是自学python 以来第一次写分享文章,水平有限,如有不足,请一笑了之。。

上一篇下一篇

猜你喜欢

热点阅读