Python + 自然语言 + 分类

2018-12-21  本文已影响0人  RunicBean

两点前置知识

Python包的实现

在sklearn.feature_extraction.text中存在CountVectorizer的类,实现了tokenization (词语切分)和 occurrence counting (出现频数统计),并且可以使用n-gram。

class sklearn.feature_extraction.text.CountVectorizer(
input=u'content', 
encoding=u'utf-8', 
decode_error=u'strict', 
strip_accents=None, 
lowercase=True, 
preprocessor=None, 
tokenizer=None, 
stop_words=None, 
token_pattern=u'(?u)\b\w\w+\b', 
ngram_range=(1, 1), 
analyzer=u'word', 
max_df=1.0, 
min_df=1, 
max_features=None, 
vocabulary=None, 
binary=False, 
dtype=<type 'numpy.int64'>)

参数解释

假设一个实例化之后的CountVectorizer,名为vectorizer。

vectorizer实例方法

上一篇下一篇

猜你喜欢

热点阅读