2021-04-10 ch6 文本处理绪论
2021-04-10 本文已影响0人
柠樂helen
文本分析流程
分词
image.png分词效果怎么评价?
- 有语料集来算准召率
- 下游任务来评价
单词纠错
第一步:找到拼写错误的单词
第二步:生成跟上述单词类似的其他单词,当作是候选集
第三步:根据单词在上下文中的统计信息来排序并选出最好的。
# 例子:提取词干的方法来纠错
from nltk.stem.porter import *
stemmer = PorterStemmer()
test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',
'died', 'agreed', 'owned', 'humbled', 'sized',
'meeting', 'stating', 'siezing', 'itemization',
'sensational', 'traditional', 'reference', 'colonizer',
'plotted']
singles = [stemmer.stem(word) for word in test_strs]
print(' '.join(singles)) # doctest: +NORMALIZE_WHITESPACE
# 结果: caress fli die mule deni die agre own humbl
# size meet state siez item sensat tradit refer colon plot