ner论文笔记:Better Modeling of Incom
考虑噪音标注以及不全标注信息的情况下来构造信息抽取系统。当给定实体类别,实体的一个列表,还有大量未标注语料时,我们如何设计改进算法来构建一个信息抽取系统。这个假设是非常符合工业界实际需求的,抽取的目标繁杂,而只要相关的部分实体列表和待抽取的语料,如何投入很少的人力来构建系统是一个非常以挑战且有意义的研究方向。
baseline来自论文 Better Modeling of Incomplete Annotations for Named Entity Recognition pdf
介绍
现有的三种假设,A1为随机删除一些字(可能剩下部分实体),A2为删除随机的实体,A3为把删除的实体和“O”都标记成隐变量。
(a)是完全标注,(b)是把删除的实体标注为“O”,(c)是除了确定的实体,其他的字在所有label上的可能性相等,(d)是除了确定的字,其他字在label上的值,接近真实label的值更大。
方法
D表示label集合。原始的CRF公式为:
y^(i)_p表示不完全标注的一种可能label。
如果所有可能的label概率是相同的,就等价于公式(2)
所以现在的关键是怎么估算这个q,论文里用的方法是k-fold交叉验证来定义q分布。
hard方法是:
0.把训练集随机分成两个部分,用来做k-fold
1.使用训练集0训练初始化(可以用bert参数初始化)的模型0
2.使用训练集1训练初始化模型1
3.使用训练好的模型0更新训练集1
4.使用训练好的模型1更新训练集0
5.使用更新好的训练集0和1合在一起训练初始化模型final
再重复1-6,重复这些次数每次模型都是重新初始化,只有数据在迭代变化。理想状态是,开始训练集只标注了0.5的实体,慢慢学到规律,更新自己,标注出更多的实体,用来训练。
实验
结论,效果不错(作者代码里只有hard的实现)