2019达观杯信息抽取比赛总结

2019-09-26 本文已影响0人柴柴总

本文主要记录下自己这两个月参加比赛的过程和经验

赛题描述

达观信息抽取比赛提供了一个脱敏数据集，训练集有17000条，测试集为3000条，此外还有一个一百万条的未标注语料可用于训练预训练模型。任务为在3个字段(a, b, c)上进行识别，o为非实体标签举个栗子：给定一行文本1_2_3_4_5_6_7_8_9，通过模型算法后输出1_2_3_4/o 5_6_7_8/c 9/o

思路

实体识别可以当作是序列标注问题，因而所有的序列标注模型都可以应用到这个任务上
首先要把原始数据转化为BIO或BIOE格式（我的模型用的是BIOE）
如5_6_7_8/c转化为
5 B-c
6 I-c
7 I-c
8 E-c
（B代表实体的开始 I为实体中间 E结束）

基本模型

预训练模型： word2vec elmo
基本模型使用了实体识别最流行的bilstm + crf

比赛过程中不同模型的线上结果记录

50维word2vec + bilstmcrf 0.85
300维word2vec + bilstmcrf 0.87
1024维elmo + bilstm 0.89
1024维elmo + bilstm + 数据增强 0.90
1024维elmo + bilstm + 数据增强 + 简单集成 0.91

经验总结

就是。。。一定要用预训练模型，整个比赛过程对效果帮助最大的是elmo的使用，基于word2vec + bilstmcrf 调参往死里调也超不过0.87，一引入elmo直接到0.89

2019达观杯信息抽取比赛总结

赛题描述

思路

基本模型

比赛过程中不同模型的线上结果记录

经验总结

猜你喜欢

热点阅读