nlp学习笔记-task3

2020-07-25 本文已影响0人 Demon4smart

学习目标

将每一个单词使用一个离散的向量表示

词袋表示, 也称为Count Vectors, 每个文档的字/词可以使用其出现次数来表示

对比Bag of Words加入了相邻单词组成新的单词, n代表相邻几个单词组成新的单词

用于评估一个字词对于一个文件集或一个语料库的其中一份文件的重要程度. 粗略的理解就是, 一个词只在一个文本集合中出现频率高未必重要, 还要看在整个文本库的出现频率.

截屏2020-07-25 下午11.49.55.png