文本分析-关键词提取
2016-06-15 本文已影响2317人
阿达t
1.概念理解:
词频(TF):指某一个给定词在该文档出现的次数
逆文档频率(IDF):IDF指每个词的权重,他的大小和词的常见程度成反比
TF-IDF:权衡某个分词是否是关键词指标,该值越大,是关键词的可能性越大。
计算公式:TF-IDF=TF*IDF,其中,IDF=log(文档总数/包含该词的文档数+1)
2.提取关键词python包:jieba.analyse.extract_tags(content.tooK=n)
.content:文章内容
.提取n个关键词
案例代码:
import os,codecs,pandas
import jieba.analyse
#创建一个数据框存储数据
tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
for root,dirs,files in os.walk('文件夹路径'):
for name in files:
filepath=root+'/'+name
f=codecs.open(filepath,'r','utf-8')
content=f.read()
f.close()
tags=jieba.analyse.extract_tags(content,topK=4)
tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]
代码输出结果