文本分析-关键词提取

2016-06-15 本文已影响2317人阿达t

1.概念理解：
词频（TF）：指某一个给定词在该文档出现的次数
逆文档频率（IDF）：IDF指每个词的权重，他的大小和词的常见程度成反比
TF-IDF：权衡某个分词是否是关键词指标，该值越大，是关键词的可能性越大。
计算公式：TF-IDF=TF*IDF,其中，IDF=log(文档总数/包含该词的文档数+1)

2.提取关键词python包：jieba.analyse.extract_tags(content.tooK=n)
.content:文章内容
.提取n个关键词

案例代码：

import os,codecs,pandas
import jieba.analyse
#创建一个数据框存储数据
tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
for root,dirs,files in os.walk('文件夹路径')：
      for name in files:
            filepath=root+'/'+name
            f=codecs.open(filepath,'r','utf-8')
            content=f.read()
            f.close()
            tags=jieba.analyse.extract_tags(content,topK=4)
            tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]

代码输出结果

文本分析-关键词提取

猜你喜欢

热点阅读