大数据没你想的那么玄乎! | 数据科学50人•刘鹏
作者 | 张慧芳
题图 | 站酷海洛
刘鹏,现任科大讯飞副总裁、消费者事业群副总裁,兼任大数据研究院院长。知乎著名网友“北冥乘海生”本尊,DT君最初对他的印象大概可以用“人有多大胆,我就多敢吐槽”来描述,通过著作《计算广告》,他成功俘获了大批大数据圈子人的“追随”。“混迹”互联网圈子多年、在计算广告领域发光发热的刘鹏却选择于今年加入科大讯飞。DT君前段时间飞奔北京采访了刘鹏博士,对这位被戏称为“大数据喷子”的数据科学家有了新的认识。
今年四月份开始,刘鹏多了个新的身份——科大讯飞大数据研究院院长,与此同时他也是一位资深数据科学家。
对于以往的采访者,我们都会问一个问题:“您认为什么是数据科学?”刘鹏稍作思索说道:“没有明确定义。”他提到,大数据不是学术界或者工业界提出的,而是咨询公司提出来的,不是很严谨,不同的人有不同的理解,究其根本,他认为大数据是个工程问题,“我认为谈不上科学,这都是工程,谈到科学有点小题大做。”
如今的大数据和AI已经密不可分,刘鹏认为数据是AI的基础,而数据科学是科学地应用数据,刘鹏有个“江湖匪名”叫“大数据仁波切”,起初是为了调侃那些不科学应用数据,而把大数据当做宗教信仰的一群人,最后倒成了刘鹏的“标志”。
(图片说明:刘鹏给自己“大数据仁波切”刻的一方印章)
刘鹏在加入科大讯飞前曾在互联网领域“闯荡”了近10年,致力于数据变现这一方向。他认为大数据变现一定要应用在数据体量足够大的行业,其中唯一形成规模化、赢得利润的行业,就是广告业。
但在探索大数据变现的计算方法之前,刘鹏一直学习的是语音识别。
▍“我可没研究人工智能”
“听说你在研究人工智能?那你肯定是骗子。”1995年,刘鹏在清华大学电子工程系开始学习语音识别时,这是业界对当时自称研究人工智能群体最直接的评价,“我当时一直就认为自己学的是电子系的语音识别,不是人工智能。”刘鹏跟DT君说,当时的清华电子系计算机系的确有人工智能的方向,“但是我们不敢讲。”当时的人工智能并不被看好。
在过去60年里,人工智能三起两落。恰巧在刘鹏学习语音识别的那段日子,人工智能仍然处在第二个低谷期。
(图片说明:人工智能的历史发展曲线)
1999年,正是大学生创业的好时候,也是语音产业的第一次浪潮。
国内语音研究有“二王”,南王是中科大的王仁华教授,现在科大讯飞的创始人团队当时都是王教授的学生,王仁华教授在他们创业路上起到了一定的推动作用。
而国内语音“北王”则是清华大学的王作英教授,2000年读研期间,刘鹏成了他的门生,并继续学习语音识别方向的内容,主要以信号处理的基础研究为主,“我当时不认为我学的是人工智能,学术界没有一个人在提自已研究的是人工智能。”不过,在学习语音识别系统知识的过程中,刘鹏非常感谢王作英教授给其的帮助。
“王老师是从苏联留学回来的,他最大的特点是教学基础特别雄厚,说实话到现在我对他的一些教学知识还是一知半解,但是理论化、系统化地去研究问题是我跟王老师学到最多的东西。”刘鹏向DT君真诚地说。不过从大学进入清华到博士毕业的十年间,刘鹏认为自己只是在不断学习和积累理论知识,但并没有做出实际有意义的事情。
(图片说明:刘鹏博士正在接受DT数据侠的专访)
2005年,刘鹏又进了MSRA(微软亚洲研究院)的语音组,师从当时语音组高级研究员和研究组主任宋歌平教授,仍是停留在理论知识的探索中。
MSRA是李开复于1998年创建的,当年以强有力的“江湖号召”鼓励中国的学生进入语音识别领域,MSRA也随之被带“火”,到今天已经成功向中国输出了大量科学家。刘鹏说MSRA被称为“黄埔军校”是丝毫不夸张的,对于中国的AI发展起到了奠基作用。“尤其是UR部门(University Relations 大学关系)对中国高校的影响非常大,可以说是帮助中国建立了计算机科学跟工业界结合比较紧密的研究方法论。”
到了2006年,科大讯飞已经处于上升发展阶段,并决定自己做语音识别(正式与语音识别技术提供商Nuance公司结束合作关系)。那年刘鹏和胡郁(现任科大讯飞执行总裁、消费者事业群总裁)开始有了联系,在语音识别上有过多次交流,为科大讯飞的发展也提供了一些建议。
人工智能的发展有了转机也是在2006年,在学术界很少有人宣传自己在做人工智能时,一直坚持研究人工智能的多伦多教授Geoffrey Hinton将深度学习技术带进了主流学术界。
这一年,世界赶上了Geoffrey Hinton的步伐,其于1986年提出的通过反向传播来训练深度网络理论在2006年计算机运行速度大幅提升后成了可能,Hinton紧接着发表论文,提出神经网络之后的又一突破——深度学习,人工智能的发展开始有了质的飞跃。
(图片说明:深度学习之父Geoffrey Hinton;来源:人工智能网)
不过刘鹏认为那只是算力上的进步,理论上仍然毫无进展。“2009年以前,人工智都还是处于低谷期。”
▍语音识别不work,去互联网试试
“怎么想到去互联网行业研究商业变现的呢?”DT君问道。
“现在看来可能不对,但是当时觉得语音识别不work,想去别的领域试试。”刘鹏如实回答。
一直在语音识别领域做研究的刘鹏觉得当时的speech领域没法真正应用到实践中,他想着是不是可以将语音识别的方法论应用到互联网行业中,用数据和计算改变商业世界。在学术界,数据的获取比较困难,到了工业界,动辄便是上亿人的数据,量变能够产生质变。
2009年,美国雅虎在北京建了个分部。一次契机,当时雅虎北京实验室的创建人张晨和郑浩回国后找到了刘鹏,自此开始了其在互联网广告业务的探索之路。
2016年,AlphaGo战胜李世石,这个时候大众才真正了解AI的存在,3000年的围棋历史并没有为人类留下具有遗传性的系统算法,直到李世石伤心哭泣时,人们意识到机器真的会打败人类,以一种猝不及防的姿态“侵入”。
“人在自己没有经过进化选择的领域里,实际上能力非常弱,相当的弱。”在广告领域,人是比不上机器的,因为人没有能力“对抗”高维数据。
提到当时的工作内容时,刘鹏笑着说:“我们当时主要做的尝试就是计算广告,这是互联网里最重要的事,因为能直接带来钱。”
“计算广告”一词最早由雅虎首席科学家Andrei Broder提出,刘鹏将这个概念简单解释为:把免费用户产品得到的资产变成钱的一种系统性手段。这些资产主要包括:数据、流量和品牌价值,旨在用计算和数据方法驱动去解决广告的问题,即优化收入。
2015年刘鹏出版的《计算广告》一书中首次对计算广告进行了系统的介绍和分析,其中提到,计算广告是大数据应用中最为成熟、市场规模最大的行业。
“互联网给我们打开了一个新思路:用免费的产品去获得低成本的数据,这件事情价值很大。”刘鹏向DT君说到。2010年年底,科大讯飞曾开了一场发布会,刘鹏回忆说,他认为这是科大讯飞真正“起飞”的时刻,开放语音云平台,免费供开发者使用,“这件事并没有给科大讯飞带来直接现金流,但是他们的数据从上千万突然变成了上亿,通过上亿数据分析出来的模型对于当时的科大讯飞来说起到脱胎换骨的效果。”刘鹏在这过程中起到了一定的推波助澜的作用。
在雅虎的经历给刘鹏在广告变现上积累了一定的经验,其中针对日本雅虎的搜索广告变现,利用算法根据用户搜索行为进行数据分析,获得收入的大提升。“这是在当时的人工智能领域感受不到的快感,那个时候发现广告收入的核心不再是销售和运营,而是技术。”但是当时雅虎北京研究院不负责中国业务。刘鹏希望将这类技术带到中国广告市场中,帮助中国广告人员解决营销困境。
(图片说明:2010年IBM公司计算机沃森参加智力比赛节目《危险边缘》并取得冠军,图片来源:cnmeonline)
2011年,IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者,纽约时报称这是大数据计算的胜利,大数据进入热门阶段。同年刘鹏回归国内广告市场,担任Media-V的首席科学家,期望打造新的技术广告公司。“我们是最早一批拥抱RTB(实时竞价)和DSP(需求方平台)技术的公司。”
但是随着国内对于技术型广告意识的增强,大企业纷纷建立自己的数据库和程序化广告平台,对于第三方公司非常不友好,再加上刘鹏是北京人,回家乡发展更方便点,最终在2013年底去了360出任商业化首席架构师,顺带驱动了360对聚效的并购与整合。“当时的Media-V主要是两个业务:广告代理业务和广告技术DSP,代理的部分卖给了利欧,而360想要收购一家技术型广告公司,Media-V成为了首选。”
也是在去360之前,刘鹏开始沉下心来整理《计算广告》一书,与他来说,他并不是为了成为畅销书作者,而是为了再次做点有社会增量价值的事情。
(图片说明:《计算广告》对数据变现基本原理的阐述,通过数据分析发现左图只针对男性用户,剩下的女性客户可以针对性投放化妆品广告,多出来的就是数据价值)
“在我的前半生里,能称得上有点儿社会增量价值的事,除了奉养双亲、抚养儿女,恐怕只有一件。那就是在研究生时代,我几乎将所有的业余时间,都投入到了整理老戏曲曲艺录音并数字化这件事儿上。此事是如此令人兴奋,我日复一日地重复着简单的把老录音和唱片转成mp3的过程,并且开了个ftp(文件传输协议软件),让戏迷们下载。其间,我用坏了不少的录音机和硬盘,却从来没有想过在其中挣哪怕一分钱。”(选自刘鹏公众号《计算广告》诞生记一文)
历时两年多《计算广告》才真正面世,“首次全面系统地阐述计算广告学的著作,覆盖了商业逻辑、产品结构、关键技术、工程实践和应用实例。在内容结构编排上,本书由浅入深,从宏观背景到技术细节,从经典的搜索广告到最新的实时竞价”,360副总裁杨炯伟这么评价此书。
刘鹏向广告人介绍了后向变现的商业思维:正面的免费服务是为了获得流量和数据,而背面的广告业务则是将这些流量和数据变成金钱,用降维打击的模式应对时刻变化的互联网时代。
刘鹏始终认为计算广告能够优化数据,解决广告的投放策略,甚至是创意策略。“十年前大众不以为然,2017年中国在线广告市场份额超过中国广告市场的一半,不是技术抢了传统广告的市场,是数据和技术让参与广告的人变多了,给了中小型企业机会。”刘鹏如是说。
(图片说明:刘鹏在书中将互联网思维以硬币正反面来表示)
“在互联网的这么些年对我来说是非常宝贵的经历,我很庆幸。”互联网广告业务的本质是把数据变成钱,刘鹏此前在公开演讲中提过,这个互联网时代没有专家,数据就是专家。
▍走出舒适圈
“大数据时代的最大挑战,就是如何在海量的大数据专家们的精湛论述中,挖掘出一些有价值的信息。”——来自刘鹏公众号语录
“那您为什么又回到语音识别领域了呢?”
“我是个机会主义者。”
今年4月中旬,刘鹏去了科大讯飞。提及科大讯飞吸引他的原因时,刘鹏显得很轻松,端起茶杯抿了一口,然后“窝”在沙发上对DT君说:“我和科大讯飞太熟了,回这里就像回家一样。”
从2006年开始和科大讯飞的人有了联系后,在这之后的十二年里刘鹏经常和胡郁见面交流,在360待了四年之久,刘鹏逐渐发现“人工智能走得动了”。
他提到,互联网企业给了人工智能一条腿,即拥有大规模的数据收集能力,Geoffrey Hinton给了另一条腿,即新的计算方法,解决算力问题,“两件事一凑,语音识别好像可以做了。”在互联网领域待了将近10年的刘鹏走出自己的舒适圈,他想看看互联网的思维能不能应用在人工智能上,为科大讯飞带来更多新的变现场景。
“人们现在已经认识到数据是个极为重要的资产,包括现在的人工智能都是为了获得更多数据而努力,提高算力。”人工智能的发展进入第三次浪潮,但刘鹏并不看好这次的兴起,他认为我们目前做的都是用深度神经网络通过数据凑答案,但是没有新的洞察,“这是最不坚实的一次进展,之后会遇到更多硬骨头。”
(图片说明:刘鹏认为人工智能的发展此后还会下滑)
采访的最后,DT君问了刘鹏关于AI恐慌论的问题,他表示他是一个悲观主义者,“机器在AI功能成熟的领域,替代人的工作是必然发生的事情。”但这不是他最担忧的事情,他一直在想人工智能发展到强人工智能时代是否会造成毁灭性的灾难,“当然,我们希望造出来的是没有意识的智能机器人。”
(图片说明:刘鹏在某社交平台的发言)
刘鹏在社交平台上给自己起的名称是“北冥乘海生”,取自庄子《逍遥游》:北冥有鱼,其名为鲲。鲲之大,不知其几千里也;化而为鸟,其名为鹏。鹏之背,不知其几千里也;怒而飞,其翼若垂天之云。也正如刘鹏本人给DT君的感受一样,对大数据的研究静得下心,沉得下气,他说他是个悲观主义者,在DT君看来,他却是少见的豁达,或许也更像他的自我描述:二。
▍数据侠门派
刘鹏,科大讯飞副总裁、消费者事业群副总裁,兼任大数据研究院院长。曾先后任职于微软亚洲研究院、雅虎北京研究院、Media-V以及360等,所著《计算广告》一书成了业界全球第一本此领域的学术专著,受到了大数据和互联网行业的一致好评,并成为很多互联网公司搭建变现体系时的指导教程。
▍加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero@dtcj.com。