2020网民疫情情绪识别分类比赛总结

2020-07-12  本文已影响0人  柴柴总
一 题目介绍

比赛链接 https://www.datafountain.cn/competitions/423

根据微博文本判定用户情绪,共有三个标签,-1是负面,0是中性,1是正面
数据比较口语化,小部分乱码,存在标签判定模糊问题(我人工看有些看不出标注的分类标准),数据中有图片信息,因此实际上是个多模态问题

二 高分解决方案

2.1 top1方案
模型:BERT
提升点在于微调BERT的方法
2.2 top2方案
模型:BERT
尝试了数据扩增(具体方法是回译),多模特融合等方案均没有效果,关键的提升点方法是:(1)利用未标注的微博数据对维基百科训练过的BERT进行再训练(2)对抗训练(3)多折模型集成
2.3 top3方案
模型:
(1)Bi-GRU和BI-LSTM:BERT预训练模型学习到的token向量输入这两种模型结构进行进一步学习
(2)BERT多层表示的动态权重融合
(3)上海交大提出的HireBert模型
trick: 多分类F1阈值搜索,模型融合(投票)

上一篇下一篇

猜你喜欢

热点阅读