文本分类微调技巧实战2.0

2022-11-18  本文已影响0人  致Great

讯飞比赛答辩结束,笔者和小伙伴们参加了一些讯飞的比赛,今年讯飞文本分类比赛相比去年更加多元化,涉及领域、任务和数据呈现多样性,听完各位大佬的答辩之后,结合之前经验和以下赛题总结下文本分类比赛的实战思路。

1 讯飞文本分类赛题总结

1.1 非标准化疾病诉求的简单分诊挑战赛2.0 top3方案总结

赛事任务

进行简单分诊需要一定的数据和经验知识进行支撑。本次比赛提供了部分好大夫在线的真实问诊数据,经过严格脱敏,提供给参赛者进行单分类任务。具体为:通过处理文字诉求,给出20个常见的就诊方向之一和61个疾病方向之一

赛题特点

就诊方向标签中,其中内科、小儿保健、咽喉疾病数量比较多,骨科、甲状腺疾病问诊人数较少


疾病方向标签中,其中内科其他最多,宫腔镜疾病人数较少


数据预处理

(1) 对于文本字段,缺失值直接用空字符串“”填充
(2) 对于spo.txt文件,根据第一列疾病名称构建聚合文本,用于文本语义增强,比如


(3)如果文本文本中含有疾病名称,就根据拼接对应疾病的聚合文本,然后按照文本信息曝光量拼接文本,比如疾病名称很大程度上指定了患者疾病类别归属, 注意:title和hopeHelp字段存在重复的情况,此时仅保留title即可

建模思路

赛题总结

致谢队友:我的心是冰冰的、江东、pxx_player

1.2 中文语义病句识别挑战赛 top2方案总结

赛事任务

中文语义病句识别是一个二分类的问题,预测句子是否是语义病句。语义错误和拼写错误、语法错误不同,语义错误更加关注句子语义层面的合法性,语义病句例子如下表所示。

赛题特点

数据预处理

建模思路

shibing624/macbert4csc-base-chinese
hfl/chinese-macbert-base、hfl/chinese-macbert-large
nezha-large-zh
hfl/chinese-electra-large-discriminator
hfl/chinese-roberta-wwm-ext

赛题总结

致谢队友:江东、A08B06365ECB216A

1.3 人岗匹配挑战赛 top2方案总结

赛题任务

智能人岗匹配需要强大的数据作为支撑,本次大赛提供了大量的岗位JD和求职者简历的加密脱敏数据作为训练样本,参赛选手需基于提供的样本构建模型,预测简历与岗位匹配与否。

数据预处理

本次比赛为参赛选手提供了大量的岗位JD和求职者简历,其中:

id, 学校类别, 第一学历, 第一学历学校, 第一学历专业, 最高学历, 最高学历学校, 最高学历专业, 教育经历, 学术成果, 校园经历, 实习经历, 获奖信息, 其他证书信息, job_id。

建模思路

第二步,构建预训练语料,直接将学校类别, 第一学历, 第一学历学校, 第一学历专业, 最高学历, 最高学历学校, 最高学历专业, 教育经历, 学术成果, 校园经历, 实习经历, 获奖信息, 其他证书信息这些字段的文本拼接在一起,生成一个人的简历描述。

赛题总结

致谢队友:WEI Z/江东/小泽/跟大佬喝口汤

优化算法合集

下面是一些常规套路,不一定每一个任务都有作用,和数据集、预训练模型有很大关系,大家可以酌情选择

微调方法总结

文本分类还有一些微调的小技巧,也欢迎大家补充

更多NLP内容,欢迎大家关注公众号ChallengeHub

上一篇 下一篇

猜你喜欢

热点阅读