2020网民疫情情绪识别分类比赛总结

2020-07-12 本文已影响0人柴柴总

一题目介绍

比赛链接 https://www.datafountain.cn/competitions/423

根据微博文本判定用户情绪，共有三个标签，-1是负面，0是中性，1是正面
数据比较口语化，小部分乱码，存在标签判定模糊问题（我人工看有些看不出标注的分类标准），数据中有图片信息，因此实际上是个多模态问题

二高分解决方案

2.1 top1方案
模型：BERT
提升点在于微调BERT的方法
2.2 top2方案
模型：BERT
尝试了数据扩增（具体方法是回译），多模特融合等方案均没有效果，关键的提升点方法是：(1）利用未标注的微博数据对维基百科训练过的BERT进行再训练（2）对抗训练（3）多折模型集成
2.3 top3方案
模型：
（1）Bi-GRU和BI-LSTM：BERT预训练模型学习到的token向量输入这两种模型结构进行进一步学习
（2）BERT多层表示的动态权重融合
（3）上海交大提出的HireBert模型
trick: 多分类F1阈值搜索，模型融合（投票）

2020网民疫情情绪识别分类比赛总结

一题目介绍

二高分解决方案

猜你喜欢

热点阅读

2020网民疫情情绪识别分类比赛总结

一 题目介绍

二 高分解决方案

猜你喜欢

热点阅读

一题目介绍

二高分解决方案