C-value、D-value算法

2018-08-27  本文已影响552人  艾剪疏

1 基本概念
2 研究现状
3 C-Value、D-value方法详解
4 算法实现

1 基本概念

C-value、D-value这两个算法都是用于术语抽取。

1.1 术语概念

特定专业领域中一般概念的词语指称。具体地说,是在某个学科领域中使用,表示该学科领域内概念或关系的词语。术语可以是词,也可以是短语。

1.2 术语特征

1.3 术语的结构特征

1.4 术语的领域特征

2 研究现状

2.1 语言学的方法

语言学法先把文本分词、标注词性,然后对比分词结果和词法规则,匹配一致的内容计为候选术语。

2.2 统计学方法

搭建在统计学理论的基石之上,互信息、熵、TF-IDF等都属于该类。

2.3 概率法

概率法的理论基础是概率论和随机过程。HMM和条件随机场都属于该类。

2.4 混合法

即综合运用语言学、统计法、概率法进行术语抽取。C-value、D-value算法都属于该类。

3 C-Value、D-value方法详解

3.1 C-Value方法详解

C-value方法的基本思想是先用语言规则得到候选术语集,然后使用统计信息来进行过滤。公式如下:


image.png

公式的计算分为两种情况:
首先,CV方法是基于词串a的词频的。对于a的c-value的值计算,分为两种情况:
(1)a 不是嵌套串
c-value的值就取决于a的频数和词串a的长度。算法认为,词串的字数对于词串的c-value
值起促进作用,换言之,词串越长,是术语的可能性就越大。
(2)a是嵌套串
公式中


image.png

表示的是包含a的长串b的词频,例如,a是”石油”,那么,b可能是“中石油”、”石油科技大学”,”西南石油”,”石油天然气”等等包含a的词串。该参数对词串的作用是消极的。即可以认为,一个词串a,若嵌套其的词串出现的频数较高,则a是术语的可能性就越小。例如,a是”石油”,那么f(b)为包含a的候选串”中石油”,f(b)出现的频数越高,表明f(b)是一个术语的可能性就越大,则a本身是一个术语的可能性就越小。

(Ta)表示的是所有含有词串a 的集合,例如,a是”石油”,那么,(Ta)就是“中石油”、”石油科技大学”,”西南石油”,”石油天然气”等等包含a的词串的集合。该参数对词串的作用是积极的。 P(Ta)表示(Ta)的个数,次数应该是4。(Ta)表征了a的独立性,若包含一个词串的集合个数越多,表明a在多个词中都出现过,则认为a有较强的独立性,更可能是一个术语。

总之,(1)一个词串a,若嵌套a的某个词串b出现的频数较高,则b是术语的可能性就较大,a是术语可能性就较小。(2)嵌套a的词串组成的集合越大,表明a在多个词串中以不同的形式出现,a的独立性就越高,越可能是术语。所以第一个参数对c-value的值起消极作用,第二个参数起积极作用。

3.2 D-Value方法详解

D-Value方法是一种基于术语词频分布变化统计,看下面的图。


image.png

不难发现术语在文档中的词频变化比较大, 曲线抖动相对较为剧烈。 而普通短语的出现则比较平稳, 上下浮动不大。
分析语料发现, 在科技文献中, 术语的出现一般分为两种情况:

可见, 词频分布的变化能对鉴别一个候选项是否为专业术语做出重要的指示。

计算公式如下:


image.png

通过上式, 可以看出:当一个候选术语出现的次数越多、涉及的文档数越少、在每篇文档中出现的次数相差越大时, 就越可能是术语, 这与上文提到的观察现象相符。

4 算法实现


END

上一篇 下一篇

猜你喜欢

热点阅读