文本挖掘: 词语关联挖掘之平行关系发现
一. 概率知识回顾
-
联合概率
表示两个事件共同发生的概率
如果两个事件相互独立, 则P(x, y) = P(x) · P(y) , 比如 P(第一次正面, 第二次正面) = 0.5 x 0.5 = 0.25 -
条件概率
表示已知事件b (base)发生的情况下, 事件a (action)发生的概率P(a|b) = P(a, b) / P(b)
解释: 已知b发生, a的发生概率 = a, b联合发生概率 / base发生的概率
那么, 怎么如果有条件概率了, 我们怎么算联合概率呢? 可以倒腾一下条件概率公式, 得到 P(a, b) = P(b) · P(a|b), 也就是说两个事件ab共同发生的概率 = a发生的概率 x 已知a发生条件下b发生的概率;
于是, 我们得到了
-
链式规则
P(x1, x2, ..., xn ) = P(x1) · P(x2|x1) · P(x3|x1,x2) ·... · P(xn | x1, ..., xn-1)
其中, P(x3|x1,x2) = P(x3, x1, x2) / P(x1, x2)
解释: action x3的条件概率 = x3与base(x1, x2)的联合发生概率与base(x1, x2)的发生概率 -
在文本挖掘中的例子:
P(今天, 天气, 不错) = P(今天) · P(天气|今天) · P(不错|今天, 天气)
二. 引入: 信息熵概念
信息熵 = 不确定性
信息熵定义
note: 此处p(x)是x发生的概率.
注意观察这个定义函数, 就可以发现, 因为p(x)<1, 所以如果p(x)值越小且x数目越多的话, 这个H(X)将增大.
这里其实是用简单的导数计算, 假设p(x) = u, 则(ulogu)' = logu + 1, 单调递增, 再引入前面的负号, 则看出随着u增大, H是递减的; 换句话说, u变小, H就增大.
因此, 很容易知道, 汉语的信息熵是比英语大不少的, 因为汉语文字数目大于英语文字数目, 且汉语长尾词语非常多, 他们相对来说概率都比较小, 很容易拉高H的值.
联合熵: H(X, Y) = - Σp(x, y) log(p(x, y)), 其实就是把p(x)替换成了p(x,y)代表联合概率.
条件熵: 在一个随机变量已知的时候, 另外一个变量的不确定性
H(Y|X) = - Σp(x, y) log(p(y|x))
链式规则: H(X, Y) = H(X) + H(Y|X)
互信息: I(X; Y) = Σp(x, y) log p(x, y)/p(x)p(y)
互信息的性质: I(X; Y) = H(X) - H(X|Y)
I指标其实就是表现的两个实体之间的相关程度. 如果X和Y完全独立, 那么I(X; Y) = H(X)- H(X) = 0
举例子: I(计算机软件, 软件) > I(计算机, 汽车)
三. 词语关系的发现
1. what, why, how
what:
两种关系,
聚合关系/平行关系: paradigmatic
组合关系/共同关系: syntagmatic
上下文中A能被B替换, 那这是聚合关系. //平行关系, 比如cat , dog
A和B能放在一起做搭配, 那么这是组合关系 //共同关系, 互补 比如cat, eat
why?
应用: 信息检索中的search suggestion, 主题图谱entity map.
How?
词语关联, 对于平行关系词语来说,他们往往有十分相似的context.
2. 如何发现这两种关系? 直觉解释
my cat eats fish on Saturday.
my dog eats meat on Monday.
平行关系: 按照常识, 上下文context相似度高的词是平行关系.
组合关系: 组合关系是一种词语的搭配关系. 按照常识, 这两个词会一起搭配使用. 如果共同出现的概率高, 而独自出现的概率低, 那么就是组合关系.
所以我们由此得出的初步结论:
对于平行关系的, 我们获取每个词语的context, 然后计算词语间context的相似度, 相似度高的就是平行关系.
对于组合关系的, 同时出现在某个语段context(比如一句话或者一段话)中的概率高, 而两个词语独自出现的概率比较低, 那么这两者就是组合关系.
有意思的是, 如果两个词语是平行关系的话, 那么他们往往有着相同的组合关系词语来搭配使用. 比如dog eats meat. cat eats meat.
那么接下去, 我们首先注意到一个问题, 如何获取每个词语的context?
3. context to doc
我们可以把context转化为一个我们熟悉的概念 -- document, 这样我们就可以利用以前学过的文档相似度计算的很多方法了.
这里, 我们约定Context = pseudo doc = bag of words词袋
这里词袋的大小选择起来有很多种方法
比如下面这个公式
Sim("cat","dog") = Sim(Left1("cat"),Left1("dog")) + Sim(Right1("cat"), Right1("dog")) + ... + Sim(Win8("cat"), Win8("dog"))
其中, Window8("cat") = {"my","his","big", "eats", "fish"}
4. doc to vector
我们将使用Vector Space Model. 非常常见, 往往用在文本分类, 情感分类上.
当我们定好了词袋, 也就是我们的doc以后, 我们将会把它转化为多维度空间中的一个向量.
这个空间有n个维度, 这个维度大小取决于文本库corpus的总体独特单词数, 因此维度数目非常地大.
假设表示一个doc("cat") = {"eats": 5, "ate":3, "is":10 , ...}
doc("cat")可能被表示为如下:
doc("cat")的向量
表示成向量后, 我们的下一个问题是: 怎么计算相似度?
5. 相似度计算
求相似度往往使用余弦定理: cos(a, b) = a · b / |a||b| ,
但是, 在我们真正开始算之前, 我们得先进行标准化(正规化), 否则各个维度上的向量长度不一, 会出现大数吃小数的现象. 要深刻理解余弦定理是为了求解向量之间夹角的大小, 或者说a向量在b向量单位化后方向上投影的长度(值是0~1)
因此,
d1 = (x1, x2, ... xn), 其中xi = c(wi, d1)/|d1|, c = count, 换句话说, xi是x在d1中出现的概率
Sim(d1, d2) = d1 · d2 = x1y1 + ... + xnyn = Σ(1~n) xiyi 求解向量内积
如果Sim = cos = 1, 夹角为0°, 那么就是完全的平行关系, 即同义词
这个模型还存在的问题:
某些频繁出现的词仍然存在压制其他词影响力的可能.
存在大量的废词, 比如and, or, the 等等...
对空间的浪费, 这个维度数过高了(n如果在这里可能>=10k, 毕竟英语还是汉语的词语都是非常多的)
6. TF-IDF权重的引入
为了解决上述简单模型条件下存在的问题, 我们引入TF-IDF term weighting.
1) TF值
我们首先重新定义怎么计算TermFrequency. 过去是出现一次我就+1, 所以在词袋中出现10次, TF=10
现在, 我们决定压制那些出现次数过多的词, 因此考虑引入两种朴素办法, 0/1 bit法, 或者对数函数法.
此处, 请务必记得我们约定y: 处理后的TF变形值, x : C(wi, d1) 词语出现频次
TF transformation method:
-
0/1 bit hot method (not good enough)
一个词没出现标记为0, 出现了就标记成1. -
from y = x to y=log(1+x) (good)
这里对数函数里头+1, 是为了保证x=0, y=0, 而不至于出现异常.
2) 第三种TF值计算方法: BM25 transformation
第二种对数函数的方法已经比较好用了, 但是我们追求完美! 于是乎我们又整出了第三种更牛逼一点的TF计算方法, 它是BM25算法的中对于TF部分的计算方法.
y = BM25(x) = (k+1)·x / (x+k), k是认为调整的参数, k是容忍参数. k越大, 对freq words越没有任何调整. 求导后, 可以看到当k->∞, y->x.
k=0, 其实就是bit hot.
所以, BM25的TF计算完美实现了可以自由设定对高频词语维度容忍参数k.
3) IDF algorithm: count adjusting weight
IDF: IDF(word) = log[(M+1)/m] ,
其中m = total number of docs containing word, 是一个变量, 可以看到, m越大, IDF会相应变得越小.
M: total number of docs in collection, 是一个常数
造成效果是: 文档出现频率m越高的词语word, 会相应有一个较低的IDF weight. 当一个词语几乎每篇文档都出现的时候, 那么 IDFweight会很接近 log(1) = 0. 而一个词语出现得非常罕见, 比如unicorn, 那么它的IDFweight会被对数函数限制增长速度, 而不至于变得过大.
7. 最后总模型
我们约定word[i] = wi, document[1] = d1, i指的是第i个元素.
那么, 现在我们整篇文章的对于平行关系发现的论述就归于如下两步:
第一步:
TFi= BM25(wi, d1) = (k+1)c(wi, d1) / k+c(wi, d1)
xi = BM25(wi, d1) / Σ j:1~N { BM25(wj, d1) } //把TFi转化成xi, 即标准化
第二步:
sim(d1, d2) = Σ i:1~N { IDF(wi)·xi·yi } //模型变化体现在TF算法改变, 以及加上权重值IDF(wi).
再次强调, 现在 xi, yi来自BM25(wi, d1) / ΣBM25(wj, d1) , 即BM25's TF of wi / BM25's TF sum of all, 是∈[0, 1]的标准化量.
相似度的计算例子
Sim(d('dog'), d('cat')) = IDF('and') x('and')y('and') + IDF('eats') x('eats')y('eats') + ...
其中x('and', d('cat')) = TF('and', d('cat')) = BM25('and') = { (k+1)·count('and', d('cat')) }/ {k+count('and', d('cat'))}
此处, d('cat') 已经代表的是是我们约定的一个pseudo document of 'cat' --> context of 'cat' 所转化的vector.
End.