關於英文預處理

2016-12-21 本文已影响127人阿o醒

分詞 tokenize

不要想當然使用split()進行分詞，這樣的分詞並不會去掉標點符號。
常用的分詞工具在nltk中就有。

tokenizer

from nltk import word_tokenize
content = word_tokenize(html_doc.decode('utf8'))

但是這個就不能去除標點符號了

RegexpTokenizer

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
content = tokenizer.tokenize(html_doc.decode('utf8'))

保留詞乾 Stemming

# cdoe for stemming
from nltk.stem.porter import PorterStemmer 
porter_stemmer = PorterStemmer()
porter_stemmer.stem(word.lower().decode('utf-8'))

上一篇下一篇

猜你喜欢

热点阅读