NLP机器学习与数据挖掘程序猿日记

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取

2018-08-22  本文已影响97人  DataArk

一、知识抽取任务定义和相关比赛

示例应用: 音乐领域

1. 知识抽取

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。

知识获取关键技术与难点

2. 知识抽取的子任务:

  1. 命名实体识别 (Named Entity Recognition, NER)
  1. 术语抽取
    从语料中发现多个单词组成的相关术语

  2. 关系抽取
    王思聪是万达集团董事长王健林的独子。——> [王健林] <父子关系> [王思聪]

  3. 事件抽取

  1. 共指消解(Co-reference Resolution, CR)

3. 相关比赛:

  1. Message Understanding Conference (MUC):由美国DARPA启动并资助的项目,目的是鼓励和开发更好的信息抽取方法
    地址:https://en.wikipedia.org/wiki/Message_Understanding_Conference

  2. Automatic Content Extraction (ACE):ACE对MUC定义的任务进行了融合、分类和细化; 主要分为五大任务,包含英语、阿拉伯语和汉语

  3. TAC Knowledge Base Population (KBP):KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求主要分为四个独立任务和一个整合任务
    地址:https://tac.nist.gov/2017/KBP/

  4. Semantic Evaluation(SemEval):由ACL-SIGLEX组织的国际权威的词义消歧评测,目标是增进人们对词义与多义现象的理解
    地址:https://en.wikipedia.org/wiki/SemEval

二、实体抽取和实体链接

1. 实体抽取

实体抽取是抽取文本中的原子信息元素,例如:

实体抽取举例:

实体抽取其实可以看出是序列标注的问题。
在传统方法中,常常会涉及很多人工特征,例如:

  1. 词本身的特征:边界特征、词性、依存关系
  2. 前后缀特征:姓氏、地名
  3. 字本身的特征:是否是数字、是否是字符

例如:

可用的方法:

  1. HMM (隐马尔可夫模型)
  2. CRF (条件随机场)
  3. LSTM+CRF

方法效果比较:

参考文献:

开源知识库:

2. 实体链接

开源系统:
【1】http://acube.di.unipi.it/tagme/
【2】https://github.com/parthatalukdar/junto
【3】http://orion.tw.rpi.edu/~zhengj3/wod/wikify.php
【4】https://github.com/yahoo/FEL
【5】https://github.com/yago-naga/aida
【6】http://www.nzdl.org/wikification/about.html
【7】http://aksw.org/Projects/AGDISTIS.html
【8】https://github.com/dalab/pboh-entity-linking

三、关系抽取

1. 什么是关系抽取?

  1. 信息抽取 (Information Extraction)研究领域的任务之一
  2. 从文本中抽取出两个或者多个实体之间的语义关系

2. 方法分类

  1. 基于模板的方法:基于触发词的Pattern、基于依存句法分析的Pattern
  1. 监督学习方法:机器学习方法、深度学习方法

机器学习:


深度学习:

  1. 弱监督学习方法:远程监督、Bootstrapping

参考文献:

四、事件抽取

事件是指发生的事情,通常具有时间、地点、参与者等属性,事件的发
生可能因为一个动作的产生或者系统状态的改变

事件抽取指的是从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与着等。

事件抽取任务:

1. 事件抽取的pipeline方法

2. 事件抽取的联合抽取方法

3. 基于深度学习的事件抽取方法

4. 扩充语料的方法

参考文献:

上一篇 下一篇

猜你喜欢

热点阅读