jieba简单应用
2018-11-16 本文已影响1人
她即我命
统计排序一篇文章中出现的词
import jieba
from collections import Counter
# 打开文件
# 先准备好一篇文章,保存为.txt文件,复制文件路径,绝对路径记得加转义符‘\’。
with open('C:\\Program Files\\Notepad++\\words.txt', 'r', encoding='utf8') as f:
word = f.read()
f.close()
# 把整个文本根据分词表切出来
cut = jieba.cut(word)
l = list(cut)
# print(l)
num = []
for i in l:
# 过滤掉一些无关紧要的语气词以及标点符号并且词的长度必须大于2
if i not in [' ',',','。','!','?','吗','啊','哦','嗯',':','“','…','的','了','”','\u3000','\n'] and len(i)>1 :
num.append(i)
# 统计相同词出现的次数并且降序排序
c = Counter(num).most_common(100)
print(c)
运行结果