jieba简单应用

2018-11-16  本文已影响1人  她即我命

统计排序一篇文章中出现的词

import jieba
from collections import Counter

# 打开文件
# 先准备好一篇文章,保存为.txt文件,复制文件路径,绝对路径记得加转义符‘\’。
with open('C:\\Program Files\\Notepad++\\words.txt', 'r', encoding='utf8') as f:
    word = f.read()
    f.close()
    
# 把整个文本根据分词表切出来
cut = jieba.cut(word)
l = list(cut)
# print(l)
num = []
for i in l:
    # 过滤掉一些无关紧要的语气词以及标点符号并且词的长度必须大于2
    if i not in [' ',',','。','!','?','吗','啊','哦','嗯',':','“','…','的','了','”','\u3000','\n'] and len(i)>1 :
        num.append(i)
        # 统计相同词出现的次数并且降序排序
        c = Counter(num).most_common(100)

print(c)
运行结果
上一篇下一篇

猜你喜欢

热点阅读