1. NLTK 基本操作

2017-11-23 本文已影响0人 shashaslife

from future import divisionimport nltkfrom nltk.book import *

#print(text1.concordance('monstrous')) KWID 操作

#print(text1.similar('monstrous')) 同义词

#print(text2.common_contexts(['monstrous','very'])) 相同意场

#print(text2.dispersion_plot(['Elinor','Marianne','Edward','Willoughby'])) 离散分布

#print(sorted(set(text1))) 集合之后按字母顺序排序

#print(len(set(text1))) 词的个数

#print(len(text1)/len(set(text1))) 词的重复使用频率

#print(text1.count('monstrous')) 数某个单词的数量

#print(100*text1.count('monstrous')/len(text1)) 某个单词出现的比例

#fdist1 =FreqDist(text1) 对文章内的词计数，并生成字典

#print(fdist1.N()) 总样本数

#print(fdist1.max()) 最多

# print(len(fdist1.keys()))

# print(len(set(text1))) 两个值相同

#print (fdist1.plot(50)) 频率图

#print(fdist1.hapaxes()) 只出现一次的单词

#long_words = [w for w in set(text1) if len(w)>15 and fdist1[w]>2] 长词表

#print(len(long_words))

#print(sorted(long_words))

#print(text5.collocations()) 二元组合

#a=''.join(sent1) 列表元素合并

#print(a.split()) 列表元素分离

#print(len(sent1+sent2))

#print(len(sent1)+len(sent2)) 结果一样

#print(sent1[2][2]) 单词

#print(sent3.index('the')) the出现的第一次的位置

#print([i for i,v in enumerate(sent3) if v=='the']) 所有the的位置

#print(sorted([w for w in text5 if w.startswith('b')])) 以b 开头的单词

#print(text9.index('sunset'))

# list4=[w for w in text5 if len(w)==10 and w.isalpha()] 长度为10的单词

# freqdist4=FreqDist(list4)

# sorteddict = sorted(freqdist4.items(), key=lambda item:item[1],reverse=True) 用出现频率排列

# for item in sorteddict: 只输出单词，不输出其出现的频率

# print (item[0])

1. NLTK 基本操作

from future import divisionimport nltkfrom nltk.book import *

#print(text1.concordance('monstrous')) KWID 操作

#print(text1.similar('monstrous')) 同义词

#print(text2.common_contexts(['monstrous','very'])) 相同意场

#print(text2.dispersion_plot(['Elinor','Marianne','Edward','Willoughby'])) 离散分布

#print(sorted(set(text1))) 集合之后按字母顺序排序

#print(len(set(text1))) 词的个数

#print(len(text1)/len(set(text1))) 词的重复使用频率

#print(text1.count('monstrous')) 数某个单词的数量

#print(100*text1.count('monstrous')/len(text1)) 某个单词出现的比例

#fdist1 =FreqDist(text1) 对文章内的词计数，并生成字典

#print(fdist1.N()) 总样本数

#print(fdist1.max()) 最多

# print(len(fdist1.keys()))

# print(len(set(text1))) 两个值相同

#print (fdist1.plot(50)) 频率图

#print(fdist1.hapaxes()) 只出现一次的单词

#long_words = [w for w in set(text1) if len(w)>15 and fdist1[w]>2] 长词表

#print(len(long_words))

#print(sorted(long_words))

#print(text5.collocations()) 二元组合

#a=''.join(sent1) 列表元素合并

#print(a.split()) 列表元素分离

#print(len(sent1+sent2))

#print(len(sent1)+len(sent2)) 结果一样

#print(sent1[2][2]) 单词

#print(sent3.index('the')) the出现的第一次的位置

#print([i for i,v in enumerate(sent3) if v=='the']) 所有the的位置

#print(sorted([w for w in text5 if w.startswith('b')])) 以b 开头的单词

#print(text9.index('sunset'))

# list4=[w for w in text5 if len(w)==10 and w.isalpha()] 长度为10的单词

# freqdist4=FreqDist(list4)

# sorteddict = sorted(freqdist4.items(), key=lambda item:item[1],reverse=True) 用出现频率排列

# for item in sorteddict: 只输出单词，不输出其出现的频率

# print (item[0])

猜你喜欢

热点阅读

1. NLTK 基本操作

from __future__ import divisionimport nltkfrom nltk.book import *

#print(text1.concordance('monstrous')) KWID 操作

#print(text1.similar('monstrous')) 同义词

#print(text2.common_contexts(['monstrous','very'])) 相同意场

#print(text2.dispersion_plot(['Elinor','Marianne','Edward','Willoughby'])) 离散分布

#print(sorted(set(text1))) 集合之后按字母顺序排序

#print(len(set(text1))) 词的个数

#print(len(text1)/len(set(text1))) 词的重复使用频率

#print(text1.count('monstrous')) 数某个单词的数量

#print(100*text1.count('monstrous')/len(text1)) 某个单词出现的比例

#fdist1 =FreqDist(text1) 对文章内的词计数，并生成字典

#print(fdist1.N()) 总样本数

#print(fdist1.max()) 最多

# print(len(fdist1.keys()))

# print(len(set(text1))) 两个值相同

#print (fdist1.plot(50)) 频率图

#print(fdist1.hapaxes()) 只出现一次的单词

#long_words = [w for w in set(text1) if len(w)>15 and fdist1[w]>2] 长词表

#print(len(long_words))

#print(sorted(long_words))

#print(text5.collocations()) 二元组合

#a=''.join(sent1) 列表元素合并

#print(a.split()) 列表元素分离

#print(len(sent1+sent2))

#print(len(sent1)+len(sent2)) 结果一样

#print(sent1[2][2]) 单词

#print(sent3.index('the')) the出现的第一次的位置

#print([i for i,v in enumerate(sent3) if v=='the']) 所有the的位置

#print(sorted([w for w in text5 if w.startswith('b')])) 以b 开头的单词

#print(text9.index('sunset'))

# list4=[w for w in text5 if len(w)==10 and w.isalpha()] 长度为10的单词

# freqdist4=FreqDist(list4)

# sorteddict = sorted(freqdist4.items(), key=lambda item:item[1],reverse=True) 用出现频率排列

# for item in sorteddict: 只输出单词，不输出其出现的频率

# print (item[0])

猜你喜欢

热点阅读

from future import divisionimport nltkfrom nltk.book import *