论文阅读_中文医学预训练模型_MC-BERT

2022-05-07  本文已影响0人  xieyan0811

介绍

英文题目:Conceptualized Representation Learning for Chinese Biomedical Text Mining
中文题目:中文生物医学文本挖掘中的概念化表征学习
论文地址:https://arxiv.org/pdf/2008.10813.pdf
领域:自然语言处理,知识抽取
发表时间:2020
作者:Ningyu Zhang,阿里巴巴
被引量:14
代码和数据:https://github.com/alibaba-research/ChineseBLUE
模型下载:https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok
阅读时间:2022.05.07

我的收获

获得了现成可用的医学BERT模型,以及大量带标注的数据集。

针对问题

医疗数据集与普通数据集分布不同,医疗词汇的长尾分布也很难从普通语料中学习,中文的词和短语更复杂一些。需要训练一个类似BERT的针对医疗的中文预训练模型。

本文贡献

相关工作

BERT类模型将语境引入建模。后续的改进包括:有效地利用外部知识,如知识图改进表征效果;通过控制BERT的MASK方法改进效果;BioBert利用医学领域数据训练模型,本文将结合上述几种方法,以训练中文医疗知识表征。

方法

相对BERT的改进有以下三部分:

全实体Masking

MC-BERT以BERT为基础,因BERT中文以字为单位,文中方法利用知识图和命名实体识别到的词,以词作为遮蔽单位,如:同时遮蔽“腹痛”两个字。从而引入了领域知识,实体包括:症状、疾病、检查、处治、药品等。

全跨度Masking

"肚子有一点疼" ,"腹部一阵一阵痛","腹痛"的意思都差不多,利用Autophrase获取短语,然后从阿里巴巴认知概念图抽取医学短语,利用领域知识扩充数据,并训练一个二进制分类器来过滤那些非生物医学短语。收集了医学百科全书中实体和属性的n-gram表征作为正样本,随机采样短语作为负样本。

医学数据训练

将BERT模型作为基础模型,用医学数据训练。

具体训练方法如下:

数据来源

下游任务

文中提出的ChineseBLUE评价数据集,具体任务包含:

具体数据量如下:

实验结果如下

对比BERT与MC-BERT:

展示Mask改进的有效性:

上一篇下一篇

猜你喜欢

热点阅读