我用python学习了党的十九大报告
最近在自学python,经过前期的基础知识学习后,便开始用简单的代码完成自己喜欢的小项目,聊以自娱。
党的十九大是我们党在关键时期召开的一次关键会议,标志着我国社会主义事业进入了新时代,那么党的十九大报告,到底强调了那些呢。我用python学习了十九大报告告诉你:
我们政协网上找到了十九大报告全文,网址(http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm)。
接下来,我们就是要爬取这份干货满满的报告,并对它进行简单文本分析。
抓取文本,提取关键词的代码实现如下:
from lxmlimport etree
import jieba,jieba.analyse
v_sorce = pd(url='http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm',encoding ='utf-8')
for iin v_sorce('p'):
with open('sjd.txt','a+',encoding='utf-8')as f:
f.write(pd(i).text())
f.close()
with open('sjd.txt','r',encoding='utf-8')as t:
text = t.read()
t.close()
keyword = jieba.analyse.extract_tags(text,topK=50,withWeight=False)
print(keyword)
运行结果:
十九大提的最多的词汇(50个):
['社会主义', '人民', '坚持', '发展', '建设', '特色', '中国', '全面', '推进', '制度', '政治', '伟大', '体系', '实现', '加强', '国家', '社会', '时代', '中华民族', '文化', '现代化', '民主', '完善', '必须', '法治', '安全', '创新', '深化', '复兴', '推动', '我国', '治理', '生态', '更加', '改革', '依法治国', '增强', '全党', '文明', '我们', '经济', '坚决', '战略', '加快', '领导', '健全', '构建', '不断', '工作', '思想']
我们可以看出,近些年我们党重点的工作领域都一涵盖在内,所有关键词get.
文字展示还是不太直观,于是想到了python 的wordcloud库:
conment_text= codecs.open('sjd.txt','r',encoding='utf-8').read()
cut_text =" ".join(jieba.cut(conment_text))
n = jieba.analyse.extract_tags(conment_text)
print(n)
color_mask = imread("timg.jpg")
d = path.dirname(__file__)
cloud = WordCloud(font_path=path.join(d,'simsun.ttc'),
background_color='white',
mask=color_mask,
max_words=2000,
max_font_size=40)
word_cloud = cloud.generate(cut_text)
word_cloud.to_file('sjd.jpg')
plt.imshow(word_cloud)
plt.axis('off')
plt.show()
这就生成了十九大报告的词云图,形状为党徽:之前抓取的关键词,都清晰罗列,字体越大说明报告提到的次数就越多。这样看起来就更加直观方便。
十九大关键词都已呈现在词云图中,这张图展现了我们党未来的工作方向,也是党治理国家的美好蓝图。
这是自学python 以来第一次写分享文章,水平有限,如有不足,请一笑了之。。