译界专访

专访 | 朱靖波:下一代机器翻译技术是什么样子?

2022-03-04  本文已影响0人  翻译技术点津

如今,人工智能的时代大势引发了深刻的技术革命、教育变革和数据革命,同时翻译技术也成为了翻译教学和实践中不可分割的部分,进一步推动了语言服务行业和高校教育的创新变革,促进了技术与人的和谐共生。为提升语言服务行业各方对翻译技术的认识和应用能力,加强语言服务人才的技术素养,加速语言技术成果的高效转化,整合当前优质和有效的翻译技术资源,推动翻译技术与翻译教学的融合发展,促进政、产、学、研的协同创新,WITTA翻译技术教育研究会(TTES)特别策划了【大咖专栏】,本期专栏将聚焦“机器翻译和译后编辑”,对话业界和学界的专家教授,聆听业内名家的精彩观点,洞见未来翻译技术发展趋势。

本期专访嘉宾是东北大学计算机学院教授、小牛翻译创始人朱靖波老师,让我们来听听他对机器翻译技术应用的看法。


您认为机器翻译的出现是基于现实需求的吗?

我认为这个问题是应用分析的关键前提,如果不是,可能是伪需求。从机器翻译发展历史来看,机器翻译应用是计算机诞生之际大家首先想到的应用之一,解决不同语言之间的自动翻译问题。随着社会的发展,全球化成为了发展趋势,对于两个母语不同的国家来说,不管是科技、文化、政治,还是经济贸易交流,语言交流都是先行的。虽然英语成为了世界流通语言,但是我们的母语是中文。我曾经看到一文提到世界上掌握语言最多的人,最多达到十几种语言,这是语言天才。然而,实际上真正有能力熟练掌握一门外语的人员还是少数。全球上百个国家的官方语言种类至少有几百种,随着中国综合国力上升,每个国家都会跟中国打交道,语言翻译问题是无法避免的。所以这个问题答案是肯定的。

您认为机器翻译是否存在替代方案?

有,人工翻译。往多里说,国内也许有几百万甚至一千万专业译员为语言服务行业(人工翻译)做出辛苦努力。初步统计,一个译员每天平均可以完成大约5000字翻译工作量,每千字人工翻译报价在100-500元之间,报价高低跟专业领域和翻译质量要求相关。假设一千万个译员满负荷工作,每天能够完成500亿字翻译工作量。阿里巴巴提到他们的跨境电商平台每天接受用户请求的自动翻译量超过1000亿字符(字和字符有所区别)。假设完全采用人工翻译方式,即使所有译员都为阿里巴巴服务,估计都难以满足这一家公司的语言翻译需求。更严重的问题是,让阿里巴巴每天支付上百亿元人工翻译费用,会不会面临破产呢?也许这个例子有点极端。

再举一个普通例子,大家可以查看每年来中国出差旅游或者访问的国外朋友,和出国旅游或出差的国人总人数有多少?如果每个人都配上一个专业译员随行,每个译员出国一趟至少花销上万元,也许能够拉动内需,问题是专业译员数量够用吗,这笔巨额开支谁来承担?这样的应用场景还有很多。理论上,人工翻译是一个替代方案,但实际上因为代价和效率问题,机器翻译技术是唯一的解决方案(是否有效是另外一个问题),因为我们没有选择。我曾经看到一篇文章提到,目前人工翻译每年只能完成不到1%的翻译需求,换句话说,剩下99%的翻译需求只能靠机器翻译来解决,或者放弃解决。

您认为机器翻译的潜在应用场景有哪些?

机器翻译的应用场景,本质上等价于需要语言翻译的应用场景,覆盖文本翻译、文档翻译、语音翻译、图片翻译和视频翻译等形式,其中涉及到结合语音处理和OCR技术的多模态翻译,大大提升了机器翻译应用场景的广度。理论上而言,人工翻译服务的应用场景都可以让机器翻译进入。但通常语言翻译应用至少要满足三个需求:出版、阅读和交流,即高品质翻译出版目的、外文(文字语音图像)资料阅读目的和人与人不同母语语言交流目的(面对面、远程会议或者电话交流等)。每个需求目的都可以关联丰富的应用和服务,就出版目的而言,这肯定是人工翻译的领地,机器翻译也许最多起到辅助翻译的作用。就后面两个需求目的来说,机器翻译是非常好用的技术和工具。

大数据翻译和实时低成本翻译的应用任务不太适合人工翻译,只能依赖于机器翻译解决方案。垂直领域的语言翻译也是机器翻译的优势,考虑到专业译员对一些垂直领域专业知识不够精通(比如医学领域),机器翻译系统可以通过学习垂直领域双语数据(附加双语术语词典资源)来优化翻译品质。对于机器翻译系统来说,至少有两个维度:语种维度和垂直领域维度。比如语言服务行业中的皇冠级别服务-实时人工同传,要求和标准非常高,同传服务中要求译员在很短时间内把讲者的主要内容准确翻译出来,这已实属不易。而机器翻译系统能够实现更短时间内一字不落地翻译出来(暂时不评价翻译品质),这一点是人工译员无法达到的。

总而言之,语言翻译的应用场景非常丰富,本质上也说明机器翻译的应用场景非常丰富,两者理论上是等价的。换句话说,机器翻译的应用场景不仅仅包括人工翻译的应用场景,还包括人工翻译无法胜任的应用场景。

您是如何看待机器翻译应用场景和市场规模之间的关系?

毫无疑问是正相关,但不是等价关系。其实自机器翻译技术诞生伊始,其应用场景一直存在,只是因为早期翻译品质难以满足用户需求,所以出现认为机器翻译市场规模不大的观点。打个比方,假设我是一个农场主,所拥有的土地多少和年收成是什么关系?有些土地颗粒无收,有些土地产量不高,有些土地产量很高,需要综合来计算。但如果没有土地的话,肯定没有收成。同理,有些应用场景容易变现,有些场景难以变现,这是分析市场规模大小的关键。换句话说,很多人说机器翻译市场规模不大,并不是否定机器翻译的作用,而是认为高产的“土地”面积太少,并且存在碎片化的现象。而只要土地在手,可以通过不断技术创新,不断提高单位面积土地的产量,种不了水稻可以种玉米大麦,甚至种果树也行。倘若根据用户的具体需求和应用目的,基于机器翻译技术研发五花八门的应用与服务,自然可以不断提升所有土地的总收成。

机器翻译服务是一个朝阳产业,还有大量的应用新模式值得挖掘探讨。也许今天机器翻译可变现市场规模只有几个亿,而三五年后增长为几十个亿,十年以后达到几百亿都是可能的。按照这个逻辑,我们仅仅依赖今年的收成来分析市场规模大小,称之为今天可变现市场规模大小,我觉得是狭隘的分析方法。换句话说,分析机器翻译市场规模大小,除了当前收成以外,还需要分析潜在的增量空间大小才行。

您认为机器翻译市场的规模有多大?

分析市场规模首先要清楚分析范围。我想通过一个简单例子来论述,比如机器翻译的应用——翻译机。一台翻译机的价格为2000元(通常价位几百到几千,取个折中价格)。每台翻译机中多语种机器翻译引擎授权价格,按照语种进行授权,假设一台20元,成本占比1%。按照目前出国旅游和来中国旅游人数作为参考,假设每年翻译机销售量达到300万台,翻译机的销售总额即60亿,但属于机器翻译系统授权费用总额为6000万。我们在分析机器翻译市场规模大小的时候,应该采用60亿的规模还是6000万的规模呢?这就是我说的分析范围问题,因为对于一家机器翻译公司来说,可以提供机器翻译引擎授权(比如我们小牛翻译),也可以提供研发和销售翻译机,还可以延伸到词典笔、翻译耳机等。To C的智能翻译终端设备产品的销售总量会更多,所有相加上千万台是不止的。所以我们需要清楚机器翻译市场规模的分析范围是什么,如果可以包括机器翻译应用产品,我估计讯飞翻译机一年销售额都不止几个亿。如果只是考虑机器翻译引擎授权市场规模,to C智能翻译终端产品市场可以每年提供小几个亿的机器翻译引擎授权市场规模,需要注意的是,这个只是机器翻译的应用场景之一。

另外还有一个值得探讨一下,机器翻译市场规模是否等价于可变现市场规模?我的观点是,两者不能等价而言,因为不同人看到的可变现的应用模式存在差异性,跟每个人对机器翻译产业理解的深度和广度有关。就如上述讨论提到,就算我们对于可变现的市场范围达到共识,但是存在“羊毛出在狗身上,猪来买单”的商业模式,比如搜索引擎的变现不是根据使用次数收费的,而是通过广告和关键词购买。同理,有些没有办法直接获取费用的机器翻译应用场景也可以采用类似思路进行变现,进一步扩大机器翻译市场规模。

您如何评价业内关于机器翻译代替人工翻译的讨论?

我想先打比方问一个问题:我们发明汽车的目的是否为了代替人的走路?肯定不是吧。如果我们需要搬一大堆东西或者需要达到100公里以外的地方,不可能完全靠走路;如果我们现在想去爬山,汽车也爬不上去啊。我想说的是,人工翻译有自己的应用领地,同样机器翻译有自己的应用领地,当然两者有重叠区域,也有不重叠区域。比如出国旅游问路,可以通过人工翻译来帮忙,也可以通过翻译机来帮忙,这就是所谓的重叠区域。翻译诗词和为了出版目的,或者给国家领导人讲话当翻译,只能通过人工翻译来实现,但大数据多语言舆情分析只能基于机器翻译技术来实现,这就是所谓的不重叠区域。

语言翻译本身也是一种创作过程,我对翻译学理论不太专业,但翻译学理论基本上没有在机器翻译研发中很好发挥作用,不是没用,而是机器翻译学不会。我们知道翻译讲究“信达雅”,机器翻译本质上是追求“信”级别翻译,机器学习优化目标也在于此,难以达到“达”和“雅”级别翻译水平。再打个玩笑的比方,大家下围棋的都知道有业余和职业之分,机器翻译相当于业余翻译高手,专业译员相当于职业翻译高手,下棋的时候业余强豪也许能赢职业低段棋手,肯定难以胜过职业高段棋手,顶多偶尔赢两局而已。如果从局部下棋水平来评价,业余强豪的下棋水平不一定弱于职业选手,但在全盘大局观上会差一些,决定了胜负。总结一点:机器翻译和人工翻译和谐共存为好。

您认为机器翻译可以如何帮助人工翻译呢?

大家比较熟悉是译后编辑方式,最大的问题是改变了译员的翻译习惯。如果机器翻译译文质量非常高,只需要很少的译后编辑工作量(类似小改错别字工作),也许译员可以忍受改变习惯,否则没人愿意去修改质量不好的译文,还不如自己重新翻译一遍。学术界也有研究交互式机器翻译技术,研究报道能够帮助人工翻译过程,效果如何也许译员更有发言权,跟上述译后编辑遇到的问题是同理。

利用机器翻译帮助人工翻译的关键在于降本增效效果。大家比较熟悉的翻译记忆技术就是很好的应用例子。之前人工翻译过的内容,再次遇到可以通过检索翻译记忆库来查找替换,不需要重新人工翻译,大大降低工作量。传统翻译记忆技术的不足在于相似度匹配过于严格,翻译记忆库覆盖度有限,如果能够结合机器翻译技术,实现模糊翻译记忆技术,还可以进一步帮助人工翻译。总而言之,如何更加有效利用机器翻译帮助人工翻译,让译员愿意使用,降本增效,是一个值得进一步探索的课题。还有一点,译员每天工作量挺大,挺辛苦的,就算机器翻译不足以直接帮助人工翻译过程,假设译员开始翻译之前,先简单浏览一下机器翻译译文,是否有可能降低一点译员的工作强度,减少工作疲劳呢?

反过来,您认为人工翻译可以如何帮助机器翻译呢?

最直接的一个帮助就是人工翻译积累的双语数据能够用于训练更好的机器翻译系统。前面提到翻译记忆技术,有人也把它算作一种机器翻译技术(严格上来说算检索技术)。还有,译员可以用一些专业术语的双语词典帮助提升机器翻译在垂直领域的翻译效果。之前我们也思考过,能否通过人工翻译过程的错误反馈来改善机器翻译品质?问题是这大大增加了译员的工作量,还有一个思路就是隐性反馈学习,比如把译员的译后编辑动作保存下来,供机器翻译系统优化学习用,这个还是属于研究探索课题。每个译员可能会有自己的翻译风格,通过他们的翻译结果来训练构建个性化机器翻译系统,也是非常有趣的事情。如何让人工翻译来帮助优化机器翻译系统,也是值得探索的一个方向,让机器翻译系统越用越好!

您能否预测下一代机器翻译技术是什么样子?

这是一个难以正确回答的问题,如果我知道的话,我可以让团队提前开展研究,引领下一代机器翻译技术的发展,有点玩笑话。从目前基于深度学习的神经机器翻译技术来说,还有很大的发展空间,还有不少红利没有吃掉,当然提出一些新的更好的神经机器翻译模型是可能的。我个人感觉想提出全新的一代机器翻译技术,有能力完全碾压目前主流的神经机器翻译技术,不太容易。我以前说过一个玩笑预测,也许将来不会出现所谓的第四代机器翻译技术了,最多3.5代,这个肯定不符合事物发展规律的。

如果让我预测下一代机器翻译技术发展,我倒是愿意说,有可能针对不同应用场景提出更强的机器翻译技术。比如双语数据资源稀缺的情况下,如何训练学习机器翻译系统;如何把一套通用领域的机器翻译系统更好地应用于医学领域机器翻译任务;如何研发一套能够部署到小设备的机器翻译系统等等,并且保证良好的翻译品质。打个比方,机器翻译技术将来的发展有可能不是一棵大树(第四代),而是一片森林,至少是灌木丛(一堆3.5代)。

如果非要说存在第四代机器翻译技术的话,我感觉还有一种可能性,让机器学习达到小孩的学习能力。比如小孩第一次看到狗,后续就有能力判断出来其它类型的狗。这是一种非常重要的学习能力,只要提供一个样本或者非常少量的样本,就能够学习到强大的识别能力。如果把这种学习能力应用于机器翻译领域,也许可能创造出一种新的学习范式,实现下一代新的机器翻译技术。

您能否给即将从事语言服务行业的年轻人提一些建议?

我愿意说一点建议就是,不要迷信机器翻译技术,也不要低估机器翻译技术,应该去正确了解机器翻译,学习掌握机器翻译工具,这也许是发展趋势,专业的事情交给专业人士去做。打个比方,当我们学会走路以后,总不能说以后不学开车了;当我们学会开车以后,总不能说再也不走路了,道理都是相通的。

访谈人介绍

朱靖波,1999年获东北大学计算机软件与理论博士学位,现任东北大学计算机学院人工智能系教授和博士生导师,小牛翻译创始人。1992年开始一直从事语言分析和机器翻译研究工作,发表了200多篇研究论文,出版两本专著《自然语言理解-一种让机器懂得人类语言的研究》(与博士导师姚天顺教授合著)和《机器翻译基础与模型》(与博士大弟子肖桐教授合著)。2006-2007年曾在美国南加州大学USC/ISI做国家公派访问学者,师从前国际计算语言学学会(ACL)主席、前国际机器翻译学会主席、谷歌翻译创始人Franz Joseph Och的博士后导师Prof. Eduard Hovy。主持研制的机器翻译开源系统NiuTrans,2016年荣获中国中文信息学会颁发的国内自然语言处理领域最高科技奖—钱伟长中文信息处理科学技术一等奖。主持研制的小牛翻译产品是一套支持300多种语言互译能力和覆盖一带一路和联合国所有会员国官方语言的商用机器翻译系统,已经为国内外几千家企事业单位提供机器翻译服务。小牛翻译云平台:https://NiuTrans.com

专访 | 朱靖波:下一代机器翻译技术是什么样子?

如需更深入学习,可关注微信公众号“翻译技术教育与研究”,留言交流。

上一篇下一篇

猜你喜欢

热点阅读