#充实自己21#--跟着Professor Lei学Python

2020-05-01  本文已影响0人  sjnfy

这两天一直在跟着professor Lei学Python,由于课程讲解是以实际的商务应用为基础的,所以,内容讲得倒是不枯燥,很有趣。今天professor Lei讲到如何使用Python来进行自然语言的分词处理。由于只学到如何分词,还没有学如何去停止词以及如何添加本地词库,所以,今天记录一下学到的技能。

内容:构建中文分词类。

要求:1.实现中文分词;2.统计词频,并降序排列

基本思路:1.该类中有两个方法:中文分词(cut),返回分词列表;2.词频统计(mum),返回”关键词-词频“列表;2.再构造方法”__init__()”中对字符串赋值。

利用以上的内容,随手从网上抓取了一段文字进行练习。内容为:“为国家谋发展,为人民谋幸福,习近平总书记提醒我们始终要有一种“等不起”的紧迫感和“慢不得”的危机感。 在抗击疫情的关键阶段,习近平总书记启动了争分夺秒的中国加速度。他反复强调,同时间赛跑,与病魔较量。 当时间进入脱贫攻坚收官之年,习近平已在多个场合发出冲锋号令,表明坚决打赢脱贫攻坚战的决心。在3月6日召开的决战决胜脱贫攻坚座谈会上,他亲自数算着时间:“今年满打满算还有不到10个月的时间,按日子算就是300天……” 时间不等人,分分秒秒都很珍贵。 第二季度,是抢时间、赶进度、补损失的关键时期。只有千方百计把落下的进度赶回来,把疫情造成的损失夺回来,才能确保各项目标任务如期完成。 直面挑战、迅速行动;必须尽早再动员、再部署;复工复产提速扩面;生产生活秩序加快恢复……习近平总书记以超乎寻常的紧迫感和时间感指导工作,目标就是要把“失去的时间夺回来”。 奋力追赶,但脱贫的成色不能减,经济社会发展的质量不能降。 中国人民就是在追赶时间中不断创造历史的。习近平总书记坚定表示,“我们必须同时间赛跑、同历史并进。”“我们必须走在时间前面”。 ”练习的结果如下:

[(',', 17),

('的', 15),

('。', 12),

('时间', 11),

('“', 6),

('习近平', 5),

('”', 5),

('在', 5),

('、', 5),

('总书记', 4),

('脱贫', 4),

('…', 4),

('我们', 3),

(' ', 3),

('同', 3),

('就是', 3),

('把', 3),

(';', 3),

('必须', 3),

('为', 2),

('人民', 2),

('要', 2),

('等', 2),

('紧迫感', 2),

('和', 2),

('疫情', 2),

('中国', 2),

('他', 2),

('赛跑', 2),

('攻坚', 2),

('月', 2),

('进度', 2),

('损失', 2),

('夺回来', 2),

('目标', 2),

('再', 2),

('追赶', 2),

('不能', 2),

('历史', 2),

('国家', 1),

('谋发展', 1),

('谋', 1),

('幸福', 1),

('提醒', 1),

('始终', 1),

('有', 1),

('一种', 1),

('不起', 1),

('慢', 1),

('不得', 1),

('危机感', 1),

('抗击', 1),

('关键', 1),

('阶段', 1),

('启动', 1),

('了', 1),

('争分夺秒', 1),

('加速度', 1),

('反复强调', 1),

('与', 1),

('病魔', 1),

('较量', 1),

('当', 1),

('进入', 1),

('收官', 1),

('之', 1),

('年', 1),

('已', 1),

('多个', 1),

('场合', 1),

('发出', 1),

('冲锋', 1),

('号令', 1),

('表明', 1),

('坚决', 1),

('打赢', 1),

('攻坚战', 1),

('决心', 1),

('3', 1),

('6', 1),

('日', 1),

('召开', 1),

('决战', 1),

('决胜', 1),

('座谈会', 1),

('上', 1),

('亲自', 1),

('数算', 1),

('着', 1),

(':', 1),

('今年', 1),

('满打满算', 1),

('还有', 1),

('不到', 1),

('10', 1),

('个', 1),

('按', 1),

('日子', 1),

('算', 1),

('300', 1),

('天', 1),

('不', 1),

('人', 1),

('分分秒秒', 1),

('都', 1),

('很', 1),

('珍贵', 1),

('第二季度', 1),

('是', 1),

('抢', 1),

('赶', 1),

('补', 1),

('关键时期', 1),

('只有', 1),

('千方百计', 1),

('落下', 1),

('赶回来', 1),

('造成', 1),

('才能', 1),

('确保', 1),

('各项', 1),

('任务', 1),

('如期完成', 1),

('直面', 1),

('挑战', 1),

('迅速行动', 1),

('尽早', 1),

('动员', 1),

('部署', 1),

('复工', 1),

('复产', 1),

('提速', 1),

('扩面', 1),

('生产', 1),

('生活', 1),

('秩序', 1),

('加快', 1),

('恢复', 1),

('以', 1),

('超乎寻常', 1),

('感', 1),

('指导', 1),

('工作', 1),

('失去', 1),

('奋力', 1),

('但', 1),

('成色', 1),

('减', 1),

('经济社会', 1),

('发展', 1),

('质量', 1),

('降', 1),

('中', 1),

('不断', 1),

('创造', 1),

('坚定', 1),

('表示', 1),

('并进', 1),

('走', 1),

('前面', 1)]

由以上的结果可知,这里面还有很多没有实际意义的词语和标点符号,所以,如果要想把抓取的内容为自己所用,除了把没有实际意义的词和标点符号排除在统计结果之外,还需要自己建立一个本地词库,用于存储一些自己有特殊用处且不想被拆分的词,比如一些特殊名称等,因此,以上的结果并不满意。

后续,将继续学习中文分词、词频统计以及排序和词云等使用。

上一篇 下一篇

猜你喜欢

热点阅读