滴滴AI Labs斩获国际机器翻译大赛中译英方向世界第三
桔妹导读:深耕人工智能领域,致力于探索AI让出行更美好的滴滴AI Labs再次斩获国际大奖,这次获奖的项目是什么呢?一起来看看详细报道吧!
近日,由国际计算语言学协会ACL(The Association for Computational Linguistics)举办的世界最具影响力的机器翻译大赛 WMT2020发布了所有团队今年提交的Primary Submission的结果。通过官方提供的Reference数据以及评估脚本,每个参赛队伍可以评估所有参赛队伍的最终BLEU成绩,滴滴AI Labs的NLP团队在竞争最激烈的新闻中译英赛道机器评测中成功斩获世界第三。WMT是机器翻译领域认可度最高的国际顶级评测比赛,从2006年创办至今,每年都会吸引包括微软、Facebook、DeepMind、百度、华为、腾讯、清华大学、上海交通大学、约翰霍普金斯大学、剑桥大学、爱丁堡大学等全球企业、科研机构以及顶级高校的参与。每次比赛都是各家机器翻译实力的大比拼,也见证了行业机器翻译技术的不断进步。
BLEU指标评估排名前十的参赛团队此次滴滴NLP团队参与的是WMT2020新闻机器翻译赛道(Shared Task: Machine Translation of News)。该赛道共设置了22项不同语言之间的翻译任务,其中,中文到英文翻译是竞争最激烈的任务,共吸引了DeepMind、腾讯、华为、清华大学、上海交通大学等四十多支全球参赛团队参与,在6月24日至6月30日为期七天的比赛时间里,参赛团队累计共提交了近300次数据。
与往年不同,今年新闻中译英比赛参赛方均为匿名提交,比赛期间只能看到自己成绩以及其他匿名参赛方成绩,并且每个参赛方最多可以提交7次翻译结果,比赛结束后各参赛方不可再次提交,各参赛方从所有提交中选择其中一个提交结果作为Primary Submission供人工评估使用。
WMT组委会为每个语言赛道提供指定的双语的训练集以及单语语料。参赛方可以根据自己的模型利用相关的训练集。比赛开始后组委会提供的单语的测试集 (Source),参赛方利用自己的模型对测试集的语言进行预测,然后提交至OCELoT系统。组委会利用SacreBLEU1指标对参赛方提交的译文与组委会未公开的标准答案 (Reference) 进行计算,分数越高代表翻译效果越好。
在本次中译英赛道中,滴滴NLP团队在技术上以Transformer2结构作为基础,在结构上引入Self-Attention, Relative Positional Attention, Larger FFN Size等变化,利用迭代式回译技术 (Iterative Back-translation) 和交替知识蒸馏 (Alternate Knowledge Distillation) 方法生成高质量的合成语料,结合数据清洗、数据选择、模型集成等技术提高翻译质量。考虑到翻译话题对于翻译质量的影响,滴滴翻译还采用了领域迁移、话题挖掘和个性化加权的方式,使得翻译结果更加个性化。此外,我们还通过EDA、权重剪枝等技术增强翻译模型的鲁棒性。最终滴滴翻译高效准确的进行完成WMT2020中译英赛道翻译任务,并且最先获得36.6的高分,最终获得第三名的成绩,充分彰显了滴滴在机器翻译领域的技术实力。
目前,滴滴翻译技术已经广泛应用于国际化IM翻译、国际化判责、国际化运营等业务场景。后续滴滴NLP团队将不断推进自然语言处理以及滴滴翻译等相关技术的研究与落地,持续迭代模型,优化响应速度,供更高质量的翻译服务。
References
1. Matt Post. 2018. A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 186–191, Belgium, Brussels. Association for Computational Linguistics.
2. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008.
团队介绍
滴滴AI Labs NLP团队关注于自然语言处理、机器翻译、语音实时翻译、语义分析等领域,成果应用于滴滴国际化司乘消息翻译、内容安全、智能客服等业务。
延伸阅读
内容编辑 | Charlotte & Teeo
联系我们 | DiDiTech@didiglobal.com