tfidf与CountVectorizer详解
使用 CountVectorizer 计算字数
CountVectorizer不同于bagofword的地方在于其不光对单词索引编码,还统计每一个单词出现的次数,提供了一个简单的方法,既可以标记文本文档的集合, 也可以生成每个已知单词的索引, 还可以使用这一套索引对新文档进行编码。
下面是一种使用方法:
实例化一个CountVectorizer类。
调用fit()函数以从一个或多个文档中建立索引。
根据需要在一个或多个文档中调用transform()函数,将每个文档编码为一个向量。
最终会返回一个已编码的向量, 其长度为索引的个数,该向量还携带有文档中每个单词出现的次数信息。
包含很多零的向量被称为稀疏向量。Python 的scipy.sparse包中提供了一种处理稀疏向量的有效方法。
调用 transform() 返回的向量是稀疏向量,这里可以通过调用 toarray() 函数将它们转换回 numpy 数组以便查看并更好地理解这个过程。
下面是使用 CountVectorizer 标记,构建索引,然后编码文档的示例。
from sklearn.feature_extraction.text import CountVectorizer
# 下面是一个文本文档的列表
text = ["The quick brown fox jumped over the lazy dog."]
# 实例化 CountVectorizer 类
vectorizer = CountVectorizer()
# 标记并建立索引
vectorizer.fit(text)
# 查看结果
print(vectorizer.vocabulary_)
# 编码文档
vector = vectorizer.transform(text)
# 查看编码后的向量
print(vector.shape)
print(type(vector))
print(vector.toarray())
在上面的代码中,如下一行是用来帮助我们访问这个索引并查看标记的结果的:
print(vectorizer.vocabulary_)
我们可以看到,所有的单词默认都是小写字母,标点符号也被忽略了。标记的许多方面都是可以配置的,您可以查看API文档中的所有选项。
运行示例之后,首先输出的是索引,然后输出的是编码文档的结构。我们可以看到索引中有8个词,因此编码向量长度为 8。
从接下来输出的类型中可以看出,编码向量是一个稀疏向量。而最后的输出是编码向量的数组版本,其表达的含义是,索引值为 7 的单词出现次数为 2,其余单词出现次数为 1。
{‘dog‘:1,‘fox‘:2,‘over‘:5,‘brown‘:0,‘quick‘:6,‘the‘:7,‘lazy‘:4,‘jumped‘:3}
(1,8)[[11111112]]
重要的是,同一个矢量化器可以用在包含词汇表中没有包括的单词的文档上。不过,没有包括的词会被忽略,并且不会在结果向量中计数。
举个例子,下面是使用上述向量化器对另一个文档进行编码的例子。这个文本文档包含两个词,一个词包含在索引中,另一个不包含在索引中。