關於英文預處理
2016-12-21 本文已影响127人
阿o醒
分詞 tokenize
不要想當然使用split()
進行分詞,這樣的分詞並不會去掉標點符號。
常用的分詞工具在nltk
中就有。
- tokenizer
from nltk import word_tokenize
content = word_tokenize(html_doc.decode('utf8'))
但是這個就不能去除標點符號了
- RegexpTokenizer
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
content = tokenizer.tokenize(html_doc.decode('utf8'))
保留詞乾 Stemming
# cdoe for stemming
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
porter_stemmer.stem(word.lower().decode('utf-8'))