tfidf与CountVectorizer详解

2018-05-29 本文已影响0人灰化肥发黑会挥发

使用 CountVectorizer 计算字数

CountVectorizer不同于bagofword的地方在于其不光对单词索引编码，还统计每一个单词出现的次数，提供了一个简单的方法，既可以标记文本文档的集合, 也可以生成每个已知单词的索引, 还可以使用这一套索引对新文档进行编码。

下面是一种使用方法：

实例化一个CountVectorizer类。

调用fit()函数以从一个或多个文档中建立索引。

根据需要在一个或多个文档中调用transform()函数，将每个文档编码为一个向量。

最终会返回一个已编码的向量, 其长度为索引的个数，该向量还携带有文档中每个单词出现的次数信息。

包含很多零的向量被称为稀疏向量。Python 的scipy.sparse包中提供了一种处理稀疏向量的有效方法。

调用 transform() 返回的向量是稀疏向量，这里可以通过调用 toarray() 函数将它们转换回 numpy 数组以便查看并更好地理解这个过程。

下面是使用 CountVectorizer 标记，构建索引，然后编码文档的示例。

from sklearn.feature_extraction.text import CountVectorizer

# 下面是一个文本文档的列表

text = ["The quick brown fox jumped over the lazy dog."]

# 实例化 CountVectorizer 类

vectorizer = CountVectorizer()

# 标记并建立索引

vectorizer.fit(text)

# 查看结果

print(vectorizer.vocabulary_)

# 编码文档

vector = vectorizer.transform(text)

# 查看编码后的向量

print(vector.shape)

print(type(vector))

print(vector.toarray())

在上面的代码中，如下一行是用来帮助我们访问这个索引并查看标记的结果的：

print(vectorizer.vocabulary_)

我们可以看到，所有的单词默认都是小写字母，标点符号也被忽略了。标记的许多方面都是可以配置的，您可以查看API文档中的所有选项。

运行示例之后，首先输出的是索引，然后输出的是编码文档的结构。我们可以看到索引中有8个词，因此编码向量长度为 8。

从接下来输出的类型中可以看出，编码向量是一个稀疏向量。而最后的输出是编码向量的数组版本，其表达的含义是，索引值为 7 的单词出现次数为 2，其余单词出现次数为 1。

{‘dog‘:1,‘fox‘:2,‘over‘:5,‘brown‘:0,‘quick‘:6,‘the‘:7,‘lazy‘:4,‘jumped‘:3}

(1,8)[[11111112]]

重要的是，同一个矢量化器可以用在包含词汇表中没有包括的单词的文档上。不过，没有包括的词会被忽略，并且不会在结果向量中计数。

举个例子，下面是使用上述向量化器对另一个文档进行编码的例子。这个文本文档包含两个词，一个词包含在索引中，另一个不包含在索引中。