Data science文坛笔耕匠简友之家

论文阅读“Multi-View Clustering for O

2022-12-18  本文已影响0人  掉了西红柿皮_Kee

Shen W, Yang Y, Liu Y. Multi-View Clustering for Open Knowledge Base Canonicalization[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 1578-1588.

摘要

开放信息抽取(OIE)方法从非结构化文本中提取大量的<名词短语、关系短语、名词短语>,组成了大量的开放知识库(OKBs)。在这些OKBs中<名词短语>和<关系短语>没有被规范化,从而导致分散和冗余的事实。研究发现,两种知识视图(即基于事实三元组的事实视图--fact view 以及 事实三元组所在源上下文的上下文视图--context view)提供了补充信息,这对OKB规范化任务是至关重要的,该任务是将同义名词短语和关系短语聚类到同一组,并为它们分配唯一的标识符。
然而,到目前为止,现有的研究都是对这两种知识视图的单独利用。因此,本文提出了一种新的无监督框架-CMVC,在不需要手动注释的标签的情况下,共同利用这两种知识视图来规范OKBs。
为实现该目标,本文提出了一个多视图的CH K-Means 聚类算法通过考虑视图的不同聚类质量(clustering qualities)来相互加强从每个视图学习到的视图特定嵌入的聚类。
为进一步加强规范化的效果,提出了一种基于数据数量和数据质量的训练数据优化策略,以迭代的方式改进学习到的特定视图的嵌入表示。
此外,提出了一种Log-Jump算法,以数据驱动的方式预测类簇的最优值。
通过在多个真实世界的OKBs数据集上对最先进的方法进行广泛的实验,展示了所提出框架的优越性。

问题的形式化定义

在OKB中,一个OIE三元组可以由 𝑡_𝑖 = <𝑠𝑢𝑏_𝑖,𝑟𝑒𝑙_𝑖,𝑜𝑏𝑗_𝑖> 表示,其中𝑠𝑢𝑏_𝑖𝑜𝑏𝑗_𝑖是名词短语(NP),𝑟𝑒𝑙_𝑖是关系短语(RP)。其中OIE三元组𝑡_𝑖被提取出来的源文本用𝑠_{𝑡_𝑖}表示,它可以是源文章中的一个句子或一个段落。对于一个NP𝑠𝑢𝑏_𝑖,将它的源上下文定义为𝑐_{𝑠𝑢𝑏_𝑖},即源上下文中删除了NP𝑠𝑢𝑏_𝑖所对应的文本𝑠_{𝑡_𝑖}
𝑟𝑒𝑙_𝑖𝑜𝑏𝑗_𝑖)的源上下文也使用类似的方式来定义。

OKB规范化的定义: 给定一组OKB中的三元组𝑡_𝑖及其对应的源文本𝑠_{𝑡_𝑖},该任务的目标是 将引用到相同实体的同义NP 和 有相同语义含义的同义RP 各自聚类成组,从而将这些OIE三元组转换为规范化形式。

从任务定义可以看出,两个视图(即基于OIE事实三元组𝑡_𝑖的fact view和基于对应源文本𝑠_{𝑡_𝑖}的context view)作为输入,作者的目标是共同利用这两种知识视图。基于特定视图𝑣的知识,以名词短语𝑠𝑢𝑏_𝑖为例,可以学习𝑠𝑢𝑏_𝑖的特定视图嵌入$𝑠𝑢𝑏_𝑖^{(v)}。在提出的框架中有两个视图,即𝑣∈{1, 2},其中视图1表示fact view,视图2表示context view。

模型浅析
多视图聚类(聚类框架+聚类参数的预测)

为了明确视图嵌入的过程,在算法框架的部分作者还以sub_i为例,给出了fact view 和 context view两个部分的学习。

Fact view
Context View

本部分和fact view一致,首先是对context view embedding的表示学习,其次是利用迭代聚类过程对表示的优化。

When fine-tuned over enough task-specific labeled training data, PLM could achieve excellent performance on the specific task, but these task-specific labeled training data usually require large amounts of manual annotation.

实验section结构分析
相关工作

提出的算法框架将OKB的规范任务与多视图结合起来,打破了现有仅使用一种知识视图的规范算法。整个框架的设计看上去中规中矩,但是细化到框架的每个部分都存在改进。如,在主算法中,引入了CH指数,并设计了改进的Log-Jump参数预测算法;在fact view中引入了自抽取的种子对进行了数据数量的增加;在context view中引入了层次聚类将种子对的进行扩展,并利用迭代的聚类过程加强对伪标签的利用,从而得到高质量的context 嵌入;更进一步的提高聚类的质量。

细节,全都是细节。
上一篇下一篇

猜你喜欢

热点阅读