论文阅读_ICD编码_BERT

2022-07-10 本文已影响0人 xieyan0811

英文题目：BERT-based Ranking for Biomedical Entity Normalization
中文题目：基于bert的生物医学实体标准化排序
论文地址：https://arxiv.org/pdf/1908.03548
领域：自然语言处理，生物医学，实体标准化
发表时间：2019
作者：Zongcheng Ji, 德克萨斯大学
被引量：6
阅读时间：22.06.20

读后感

中规中矩的方法，评测了各个预训练模型的差异。

介绍

BERT是常用的自然语言处理深度学习模型, BoiBERT和ClinicalBERT是针对医疗领域预训练的模型，文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题．

实体规范化Entity linking，主要面临以下挑战：

歧义问题：同一实体可能与多个概念相连
变体问题：同一概念可能与不同的实体相连
缺失问题：实体不与知识库中的任务概念相连
（这里指的概念是规范化后的文本）

在医疗领域主要任务是对实体的规范化和编码，变体问题是医疗领域的主要问题。

方法

已知文档的句子中的有实体m，以及包含很多概念的知识知识库KB，任务是将实体m连接到KB中的概念c，如果找不到，则认为不可达 unlinkable。

图-1展示了文中方法的结构，包含四个模块：预处理、创建候选项、候选项排序、预测不可达。

预处理

对于m和c都进行如下操作：

拼写纠错
缩写转换
处理数字符号
其它预处理：使用CLAMP28工具包，处理标点，大小写等。

生成候选概念

利用传统的 BM25 模型。首先，提取所有概念c和训练集中的m用于训练模型，对于m，选择模型推荐的前10个近似项c作为候选概念。

候选概念排序

使用预训练的 BERT/BioBERT/ClinicalBERT 模型，将排序任务转换成句子对的分类任务。对于每个m与对应的c，构建 [CLS] m [SEP] c 输入模型，精调模型参数。当m中包含概念c时，其类别为1，否则为0。

预测不可达

m中的实体可能找不到对应概念c，因此，需要预测不可达的情况。如果 BM25 不能返回候选项，则认为不可达。另外，设定一个阈值，如果相似度得分小于阈值，则认为不可达。

论文阅读_ICD编码_BERT

读后感

介绍

方法

预处理

生成候选概念

候选概念排序

预测不可达

实验结果

猜你喜欢

热点阅读