1. NLTK 基本操作
from __future__ import divisionimport nltkfrom nltk.book import *
#print(text1.concordance('monstrous')) KWID 操作
#print(text1.similar('monstrous')) 同义词
#print(text2.common_contexts(['monstrous','very'])) 相同意场
#print(text2.dispersion_plot(['Elinor','Marianne','Edward','Willoughby'])) 离散分布
#print(sorted(set(text1))) 集合之后按字母顺序排序
#print(len(set(text1))) 词的个数
#print(len(text1)/len(set(text1))) 词的重复使用频率
#print(text1.count('monstrous')) 数某个单词的数量
#print(100*text1.count('monstrous')/len(text1)) 某个单词出现的比例
#fdist1 =FreqDist(text1) 对文章内的词计数,并生成字典
#print(fdist1.N()) 总样本数
#print(fdist1.max()) 最多
# print(len(fdist1.keys()))
# print(len(set(text1))) 两个值相同
#print (fdist1.plot(50)) 频率图
#print(fdist1.hapaxes()) 只出现一次的单词
#long_words = [w for w in set(text1) if len(w)>15 and fdist1[w]>2] 长词表
#print(len(long_words))
#print(sorted(long_words))
#print(text5.collocations()) 二元组合
#a=''.join(sent1) 列表元素合并
#print(a.split()) 列表元素分离
#print(len(sent1+sent2))
#print(len(sent1)+len(sent2)) 结果一样
#print(sent1[2][2]) 单词
#print(sent3.index('the')) the出现的第一次的位置
#print([i for i,v in enumerate(sent3) if v=='the']) 所有the的位置
#print(sorted([w for w in text5 if w.startswith('b')])) 以b 开头的单词
#print(text9.index('sunset'))
# list4=[w for w in text5 if len(w)==10 and w.isalpha()] 长度为10的单词
# freqdist4=FreqDist(list4)
# sorteddict = sorted(freqdist4.items(), key=lambda item:item[1],reverse=True) 用出现频率排列
# for item in sorteddict: 只输出单词,不输出其出现的频率
# print (item[0])