为拯救爸妈朋友圈，达摩院造了“谣言粉碎机”

2019-02-28 本文已影响47人阿里云云栖号

生命不可能从谎言中开出灿烂的鲜花。

前几天，母上大人给我发了条消息，再三叮嘱帮忙扩散，随手解救癌症患者。

“速转！科学家发现：一味中药48小时可杀死60%癌细胞!”

回复框里，我打了一段长长的反驳文字。在按下发送前沉思良久，为了保住每日的晚饭，我又默默删除了。

母上大人的朋友圈，啥都不说了

从那句熟悉的“狼来了”开始，谣言开始在我们生活无孔不入，一些不坏好意的人，把谎言变成一张漂亮的包装纸，裹挟着诈骗、虚荣、不怀好意，肆意横行：

当全民疯抢板蓝根食盐白醋，终日人心惶惶；

当“养生秘闻”“200%理财回报”充斥在朋友圈，无数养老钱血本无归；

当“寒门状元之死”透支人们对世界的信任；
......

人们被迫练就了一身硬邦邦的铠甲，一边斜眉冷视周围的世界，一边草木皆兵地生存。宁可信其有，不可信其无。

然而，总有人想改变这一切。达摩院的科学家们最近在用AI识别谣言的研究上，有了一些小突破。

“谣言粉碎机”，也许离我们并不遥远？

（1）

在了解到这个信息后，我第一时间采访到了达摩院NLP团队的核心成员之一——李泉志，他本科毕业于清华大学，后在美国获得自然语言理解方向的博士学位，目前在达摩院的西雅图办公室工作。

李泉志，达摩院智能实验室科学家

在加入达摩院前，他曾是世界级通讯社——路透社重要的“情报官”：通过机器筛选成千上万的网络信息，为数千位一线记者提供可靠线索。

借着这个难得的机会，我“假公济私”，请泉志使用算法鉴定我妈发来的新闻真假，还原“打假”现场。

在泉志的详细说明下，一个令人惊叹的“打假”模型逐渐露出。事实上，这个运算逻辑远比我之前想得要复杂，甚至显得有点“老谋深算”。

泉志告诉我，判断一个新闻真假，要分三个步骤。

首先，在盘根错节的信息里，机器会找到最初的信源，分析其用户画像（专业领域，个人或机构，机构类型，影响力，过去发表的内容类型，是否可信，地域，注册时间，活跃规律等），进而判断此发布者的信誉度。

如果这条新闻带有链接，我们可以再看看链接的域名，是否来自可信网站，比如新华社、政府医药管理局。

接下来，我们拿起听诊器，细细揣摩正文的“心跳声”：

“一味中药48小时可杀死60%癌细胞！”打开正文，我们看看究竟这味中药的成分是哪些？具体对哪些癌细胞起作用？机器会把这些关键的论证提炼为知识点，与知识图谱里的权威知识库做匹配验证。如果毫无联系、自相矛盾，减分。

泉志表示，除了内容不实、上下文逻辑不连贯外，机器还能从行文风格里找到蛛丝马迹。比如：

“多一次转发就多一次活命机会”

“传疯了！晚上一定要关wifi，太吓人了”

......

是的，机器连“标题党”都不放过！假新闻经常会采用夸大性、空洞的说辞来危言耸听。真新闻往往行文严谨、一丝不苟。

如果说前面两步，还算是常规操作。第三步，就是关键：对传播路径的深入分析。

一条谣言在社交网络里引爆，必然有无数的人密集关注。在留言、转发等行为里，有人赞同，有反对，还有质疑，或者只是简单的路过，都是一种态度。

机器统计不仅能统计所有用户的态度，更不可思议的是，它会“看人下菜”，区别对待每条发言的分量。

比如，我弟转发了母上发来的新闻，冒着零用钱缩水的危险表示：“假的！昨天食品监督局已经公开辟谣了”——这条反对意见质疑得较为有力，权重提升。

随后，ID为“小旺仔”的用户也在此条新闻下留言，只写了四个字：消息不实。虽然寥寥数字，但是机器一看，不得了，小旺仔的认证信息是该省第一附属医院的医学教授，权重也得提升。

机器会对所有反馈用户进行画像分析：是否是认证用户、过去发表的内容类型、注册时间、活跃规律、是否和事件发生地在同一个地方等，以此来计算用户信誉度。最后根据不同态度的人群比例、各自的信誉度，以及处于传播路径中的位置等信息，计算出此新闻的可信度。

“如果有人转发了小旺仔的留言，表示‘举双爪支持’，系统会不会认为这是对新闻的赞同？”我感觉自己抓到了系统漏洞，有点小激动。

泉志表示这个问题提得非常好，接着干脆地做了否定：“我们的整个传播路径是个神经网络，环环相扣，不会断章取义的。”

以上三步中计算出的信息会输入到神经网络模型中。基于这些信息，模型会综合判断出此新闻是否为谣言。

（2）

这个模型的魅力之处在于，你不必为它编写程序去学习人类的指令：它能完全自主学习训练，就像人脑一样“思考”。随着知识库的日益丰富，它的判断能力会越来越好。

“简直是一位飞速成长的大编辑！”我感叹道。

“这还不是全部”，泉志爽朗笑了，“我们还用了多任务学习，‘一心多用’，让机器在同一时间完成多个复杂任务，判断内容真假、观察传播路径、挖掘用户画像这些都能同时进行。”

在有条不紊的运算机制里，机器就像一位冷峻的解剖师，切开浮夸的表象，梳理每一条新闻的经脉、肌理走向，抽丝剥茧，层层剥开，最终找到事实的内核。

泉志接着又透露了一个重要信息——这项技术不仅能控制假新闻源头、防止谣言大规模扩散，它还有一个隐藏的“大招”。

传谣容易，辟谣难。谣言的扩散速度犹如遇到林木的大火，一点即燃，但是当真相出来时，却往往无人问津。

比如，网络曾谣传市面上的香蕉大多泡过药水，许多人从此再没买过香蕉。即使数年后风头过去，还有人表示吃香蕉总觉得有药水味。

这项技术的隐藏”大招“，是可以针对性地为民众辟谣。根据传播路径索引，曾经支持“香蕉浸泡毒液”的人，都可以收到官方的辟谣信息：香蕉浸泡的白色液体不是甲醛，而是符合国家安全标准的保鲜剂，无毒无害；吃酱油不会变黑、开水重复烧也不会有事，交999元每月回报99的“好事”自然更是子虚乌有。

有始有终，皆大欢喜！

（3）

达摩院所研发的“AI谣言粉碎机”，在刚刚结束的SemEval全球语义测试中，创造了假新闻识别准确率的新纪录，达到了前所未有的81%。

SemEval 是自然语言处理领域的国际权威比赛，由国际计算语言学学会举办。假新闻识别是此次比赛的主要项目之一，吸引了哥伦比亚大学、华盛顿大学、艾伦·图灵研究所等20多路顶级高手参与。

赛题是这样的：

主办方向所有参赛者提供社交媒体上470余条新闻、以及一万多条相关的留言、转发等数据。参赛者需要根据这些有限的信息，判断这数百条新闻是真是假。

这些似是而非的新闻涉及政治、娱乐、商业、科技等多个领域，比如——

特朗普的差旅开支远远低于奥巴马；

太阳报：英国女王支持英国脱欧；

震惊了！台风过后，高速公路出现一条大鲨鱼；

美国九成媒体被六家公司控制；

吉萨金字塔能利用隐秘的房间集中电磁能能量；

......

此次比赛桂冠由达摩院NLP首席科学家司罗所属的团队斩获，真假新闻二分类上的准确率高达81%，刷新了本竞赛系列上macro F 、RMSE两项关键性指标的世界记录。

在此之前，达摩院NLP团队曾在机器阅读理解顶级赛事SQuAD上，凭借82.440的精准率打破了历史纪录；在国际顶级机器翻译大赛WMT上，连夺英文-中文翻译、英文-俄语互译、英文-土耳其语互译5项第一。

让机器读懂人类语言，并判断人类的表达意图，从而进一步帮助人类实现对信息真假的判断，达摩院的科学家们，从未放弃对技术难题的攻克。

（4）

隔着一万多千米的太平洋，与泉志说再见后，我突然想起了今年春晚的小品《“儿子”来了》：葛优饰演的保健品销售员，用夸张的“床垫”欺骗一对老夫妻。

从“狼来了”到“儿子来了”，信任在不知不觉中成了世上最高的门槛。

我们知道天下不会掉馅饼，但当周围人都在转发高额理财新闻时仍会忍不住动摇；

我们本不会勤于研究饭菜的化学中和反应，但万一同时吃了螃蟹和香菇中毒呢；

我们从不担心银行没收存款，但在接到短信“银行卡已被冻结需支付保证金”时虎躯一震……

人类的原始本能告诉我们要相信彼此，然而世界正变得日益庞大和复杂，道德、名声的影响力已不如往昔，传统的信任出现了缝隙。

“谣言粉碎机”技术的背后，是一次史无前例的信任重建。只有假新闻被扼杀在繁衍的温床里，破碎将倾的信任才会被重新扶起顶天立地。

而信任，是爱的最好证明。

AI = 爱。

本文作者：孝杨

阅读原文

本文来自云栖社区合作伙伴“阿里技术，如需转载请联系原作者。

为拯救爸妈朋友圈，达摩院造了“谣言粉碎机”

（1）

（2）

（3）

（4）

猜你喜欢

热点阅读