SEO算法之TF-IDF算法

2018-05-04 本文已影响0人老朱seo

　　SEO算法之TF-IDF算法

　　1、TF-IDF算法概念：

　　TF-IDF(term frequency–inverse document

frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

　　TF-IDF(词频-逆文档频率)算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用，如从一篇文章中找到它的关键词。

　　TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上就是

TF*IDF，其中 TF(Term Frequency)，表示词条在文章Document 中出现的频率;IDF(Inverse Document

Frequency)，其主要思想就是，如果包含某个词 Word的文档越少，则这个词的区分度就越大，也就是 IDF

越大。对于如何获取一篇文章的关键词，我们可以计算这边文章出现的所有名词的 TF-IDF，TF-IDF越大，则说明这个名词对这篇文章的区分度就越高，取

TF-IDF 值较大的几个词，就可以当做这篇文章的关键词。

　　2、TF-IDF算法原理

　　在一份给定的文件里，词频 (term frequency, TF)

指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母

区别于IDF)，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)

　　逆向文件频率 (inverse document frequency, IDF)

是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

　　某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

　　TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF

* IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document

Frequency)。TF表示词条在文档d中出现的频率(另一说：TF词频(Term

Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大(见后续公式)，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。(另一说：IDF反文档频率(Inverse

Document

Frequency)是指果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。)但是实际上，有时候，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

　　在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term

count)的归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)对于在某一特定文件里的词语