nlp学习笔记-task3

2020-07-25  本文已影响0人  Demon4smart

学习目标

文本表示方法

One-hot

将每一个单词使用一个离散的向量表示

Bag of Words

词袋表示, 也称为Count Vectors, 每个文档的字/词可以使用其出现次数来表示

N-gram

对比Bag of Words加入了相邻单词组成新的单词, n代表相邻几个单词组成新的单词

TF-IDF

TF 词语频率(Term Frequency) TF = 该词语在当前文档出现的次数 / 当前文章中词语的总数

IDF = log e(文档总数 / 出现该词语的文档总数)

用于评估一个字词对于一个文件集或一个语料库的其中一份文件的重要程度. 粗略的理解就是, 一个词只在一个文本集合中出现频率高未必重要, 还要看在整个文本库的出现频率.

课后实操

截屏2020-07-25 下午11.49.55.png
上一篇下一篇

猜你喜欢

热点阅读