2021-04-10 ch6 文本处理绪论

2021-04-10 本文已影响0人柠樂helen

文本分析流程

分词

image.png

分词效果怎么评价？

有语料集来算准召率
下游任务来评价

单词纠错

第一步:找到拼写错误的单词
第二步:生成跟上述单词类似的其他单词，当作是候选集
第三步:根据单词在上下文中的统计信息来排序并选出最好的。

# 例子：提取词干的方法来纠错
from nltk.stem.porter import *
stemmer = PorterStemmer()
test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',
    'died', 'agreed', 'owned', 'humbled', 'sized',
    'meeting', 'stating', 'siezing', 'itemization',
    'sensational', 'traditional', 'reference', 'colonizer',
    'plotted']
singles = [stemmer.stem(word) for word in test_strs]
print(' '.join(singles)) # doctest: +NORMALIZE_WHITESPACE

# 结果： caress fli die mule deni die agre own humbl 
# size meet state siez item sensat tradit refer colon plot

2021-04-10 ch6 文本处理绪论

分词

单词纠错

猜你喜欢

热点阅读