TF-IDF 怎样将用单词权重的向量表示一个文档

2023-09-26  本文已影响0人  孙庚辛

TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法,它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下:

\text{TF-IDF} (w, d) = \text{TF} (w, d) \times \text{IDF} (w)

其中,\text{TF} (w, d) 表示单词 w 在文档 d 中的词频,即出现的次数。\text{IDF} (w) 表示单词 w 的逆文档频率,即所有文档的数量除以包含单词 w 的文档的数量的对数。\text{IDF} (w) 的作用是降低常见单词的权重,提高稀有单词的权重。

例如,假设我们有以下三个文档:

• 文档 1:This is a good book.

• 文档 2:This is a bad book.

• 文档 3:This book is not good.

我们可以用 TF-IDF 来将每个文档表示为一个单词权重的向量,首先我们需要计算每个单词的 TF 和 IDF 值:

单词 TF(文档 1) TF(文档 2) TF(文档 3) IDF
this 1/5 1/5 1/5 log(3/3) = 0
is 1/5 1/5 1/5 log(3/3) = 0
a 1/5 1/5 0/5 log(3/2) = 0.176
good 1/5 0/5 1/5 log(3/2) = 0.176
bad 0/5 1/5 0/5 log(3/1) = 0.477
book 1/5 1/5 1/5 log(3/3) = 0
not 0/5 0/5 1/5 log(3/1) = 0.477

然后我们可以用 TF-IDF 公式来计算每个单词在每个文档中的权重,例如:

\text{TF-IDF} (\text{good}, \text{文档 1}) = \frac{1}{5} \times \log \frac{3}{2} = 0.035

\text{TF-IDF} (\text{bad}, \text{文档 2}) = \frac{1}{5} \times \log \frac{3}{1} = 0.095

\text{TF-IDF} (\text{not}, \text{文档 3}) = \frac{1}{5} \times \log \frac{3}{1} = 0.095

最后我们可以将每个文档表示为一个由单词权重组成的向量,例如:

• 文档 1:[0, 0, 0.035, 0.035, 0, 0, 0]

• 文档 2:[0, 0, 0.035, 0, 0.095, 0, 0]

• 文档 3:[0, 0, 0, -0.035, -0.095, -0.095]

这样,我们就可以用 TF-IDF 将一个文档表示为一个单词权重的向量

上一篇 下一篇

猜你喜欢

热点阅读