鲸准研究院 | 人工智能历史之AI芯片元年回顾
近期受“中兴事件”热度影响,AI芯片方面的新闻也显得格外集中。各方涌入之际,技术阻隔让人只闻热度不解其意。本文力图化解专业名词障碍,以2017芯片元年的巨头战争入手,简略回顾这段AI芯片历史中有代表性的故事,以助读者一窥算法与芯片在人工智能发展中的身影。
————————————————————
作者:王丽萌
指导:谭莹
. 01 .人工智能的发展得益于芯片技术的发展芯片是未来人工智能发展的基础
人工智能
(Artificial
Intelligence,以下或简称AI)是开发模仿人类使用大脑去做一些事情的软件的方法和概念的合集。这个旧领域近年来的快速发展很大程度上得益于芯片技术多年的积累,如果不是芯片技术已经能够给大规模机器学习提供足够的处理能力,我们就无法看到战胜人类顶尖棋手的AlphaGo。
芯片技术的发展是人工智能发展的必要条件
,芯片代表着算力。人工智能的发展有几大重要支柱,包括数据(事实或观察的结果)、算法(解决问题的方法,如深度学习算法)和算力(运算能力)。从数据方面,互联网时代下大数据高速积累,需要运行的数据量骤增,而现有算力难以匹配;从算法方面,即使存在逻辑上可用的算法,也需要有足够算力才能处理数据样本、训练机器。由于算力的不可或缺和通信应用(智能手机等)增长的放缓,人工智能的发展也将成为芯片技术进步的主要驱动力。
从2016年开始,人工智能相关的芯片越来越热。传统芯片公司都有所布局,很多软件和互联网公司纷纷进入,初创公司的估值越来越高。
2017年可谓AI芯片元年,是过去的2017年人工智能方向最受关注的行业热点。
进入2018年,AI芯片持续火热,预计这股热潮也将长时间影响人工智能领域。
. 02 .AI芯片元年开启的标志性事件:Google论文公布TPU芯片细节
2017年4月,Google公布了一篇即将在ISCA2017上发表的论文:“In-Datacenter
Performance Analysis of a Tensor Processing
Unit”,终于公开了做AI芯片的细节,使得这篇学术论文得到媒体的极大关注,也揭开了2017年AI芯片热点事件的序幕。回顾Google的这颗AI芯片,要从三年前开始。
起因——数据中心能耗大,尝试用机器学习算法来解决实际问题,实践验证可行
在新加坡举办的Datacenter Dynamics 2014会议上,Google介绍了如何利用机器学习和人工智能进一步改进数据中心的能效。
公式:
衡量数据中心的能效指标PUE=数据中心总设备能耗/IT设备能耗
背景:
数据中心规模的快速增长使得能源效率优化越来越重要,但使用传统的工程公式难以准确推导数据中心的效率,在此瓶颈下Google决定利用机器学习神经网络算法。神经网络是一类机器学习算法,它模拟了神经元之间相互作用的认知行为,用计算机的方式去模拟人脑。
结论:
实践验证了机器学习方法可以利用现有的传感器数据来模拟数据中心能源效率优化,并能实现10%-15%的节能,而且机器学习可以告知如何优化数据中心的能效,包括模拟数据中心的参数配置评估、能效评估,并确定优化方案等,是一种非常有效的运营利器。
算法溯源:
神经网络算法最初产生的目的是制造能模拟大脑的机器,人们想尝试设计出模仿大脑的算法。这是一种古老的算法,并且在90年代的后期沉寂了一段时间,其中一个原因是这种算法的计算量偏大,算力不足。大概由于近些年计算机的运行速度变快,才足以真正运行起大规模的神经网络,对许多应用来说是最先进的技术,能很好地解决不同的机器学习问题,现在成为许多机器学习问题的首选。
对于人工智能,从某种意义上来说,如果我们能找出大脑的学习算法,然后在计算机上执行大脑学习算法或与之相似的算法,也许这将是我们向人工智能迈进做出的最好的尝试。
算法需要算力——针对特定算法,量身打造TPU芯片
从2015年以来,Google的数据中心部就署了TPU(Tensor
Processing
Unit),将其插放入数据中心机柜的硬盘驱动器插槽中使用。TPU是一个非常专用的处理器,该芯片针对机器学习专门优化,因此可以使用更为强大的机器学习算法来完成快速计算。专用处理器的设计基于对目标应用的理解,因为Google更了解数据中心的需求,所以Google的TPU才会引起这么多关注。
神经网络的工作过程主要有两个阶段,分别是训练和推理。训练阶段一般使用GPU(目前GPU还是训练的最好平台),而推理阶段使用CPU和GPU都不适合,所以Google设计了TPU。
TPU是一个定制的ASIC(Application Specific Integrated Circuit,专用集成电路)架构处理器,从硬件层面适配TensorFlow深度学习系统,应用于加速神经网络的推理阶段,可以支持一些常见的神经网络。
TensorFlow是使用数据流和图来做数值计算的开源软件,用于机器智能。主要是由Google Brain团队开发用于机器学习和深度神经网络的研究,能够应用于广泛的领域。
因为TPU芯片面向的应用是特定的算法,即确定性执行模型(deterministic
execution
model),所以采用了一个专用处理器或者硬件加速器的架构,没有使用传统CPU和GPU的一些技术。这样做比在GPU架构上改进要激进得多,与之相应,实现的效率也高得多。
2016年3月举行的举世瞩目人机大战里,在最终以4:1击败围棋世界冠军李世石的AlphaGo身上,Google使用了TPU芯片。
2016年6月,Google透露研发了一款在云端使用的专用AI芯片TPU(即第一代TPU)。
就此,传统软件巨头Google的这颗AI芯片从幕后走到台前,AI芯片竞争不限于传统芯片厂商,最大的独立GPU芯片厂商Nvidia上场。
. 03 .芯片元年之争:传统芯片厂商Nvidia步步跟进
2017年5月,GTC2017大会,Nvidia CEO黄仁勋发布了Volta架构GPU,股票大涨。
在现有的芯片中,GPU在人工智能应用中的其中一部分(深度学习神经网络的训练阶段)相对更适合。随着人工智能发展驱动芯片技术进步,GPU扮演的角色可能是被改进或被其他类型的芯片替代。
多年来靠GPU一条产品线独步天下的Nvidia,在最新的Volta架构强调对深度学习的支持,增加了专门为深度学习设计的Tensor Core,软硬件的关键参数在数据中心的训练方面很有优势。相比Google的TPU,这款AI芯片的设计中规中矩。
除发布芯片外,Nvidia也宣布开源DLA(Deep
Learning
Accelerator,深度学习加速器)。对于整个芯片产业来说,开源事件将会产生深远影响,这意味着更多的初创公司和研究机构可以基于此开发推理加速器,促进AI的传播,从而也进一步促进市场对GPU芯片的需求。
Nvidia决定开源可能有两个原因:一是决定专注于加速模块,不做种类过多的终端芯片(Nvidia曾试水移动设备芯片推出Tegra系列并失败);二是迫于Google
TPU芯片在推理方面的优势表现,为应对压力而作出决定(DLA来自Nvidia自动驾驶SoC中的一个模块,最初并不是以开源IP为目的而设计的,且9月开源只公开了部分硬件代码和相应的验证环境,离真正能用有较大差距)。
2017年5月,在Google I/O大会上,Google公布了第二代TPU,并不对外销售,以TPU Cloud的方式供大家使用。
2017年9月,芯片界的重要会议Hot
Chips会议召开,AI相关内容占了很大比例,微软的BrainWave、百度的XPU、Jeff
Dean的Keynote都是媒体的热点话题。此次会议上,Google介绍了TPU和TPU2的情况并将其作为新的计算生态中重要的一环。
2017年10月,Intel发布Intel Nervana Neural Network Processor(Intel神经网络处理器芯片,以下简称NNP),第一代NNP代号“Lake Crest”,只提供给小部分合作伙伴,未能出货。
回顾2017年的其他芯片巨头动作,Intel收购了多家AI芯片相关领域公司
,AMD则没有那么积极。这一年里,芯片元年的主要战事发生在传统软件巨头Google和芯片巨头Nvidia之间,发生在不同类型的公司、不同架构的AI芯片之间,这一跨界竞争或许意味着AI芯片不应被看作“算力代表、算力越大越好”的独立底层硬件,而应该看作是实现应用目标中环环相扣的一部分。最终在人工智能的应用情况是系统的结果,芯片本身只是一小部分,其优劣要考虑整个软硬件生态的解决方案效果。因此,拥有应用、技术和资源优势的科技巨头在定制硬件甚至芯片方面或常态化。
. 04 .2018年的后续:巨头的角逐继续上演
2018年3月,GTC2018大会上,Nvidia发布了迄今最大的GPU,暂定自动驾驶暂停研发,随后股价下跌3.8%。
2018年5月,在Google I/O大会上,Google发布了TPU3。
同月,Intel人工智能开发者大会(AI DevCon 2018)发布了第二代NNP,代号“Spring Crest”,将是Intel第一款商业 NNP 芯片,预计在2019年发货。
主要参考材料:网络公开报道,唐杉博士(公众号:StarryHeavensAbove),Andrew NG机器学习课程等
文中如有错误之处,敬请指正,关于【人工智能】领域交流,
欢迎联系本文作者:王丽萌(Wechat:18301232919)
编辑: 陈文洋
【转载须知】
1、本报告为鲸准(ID:rong36kr)旗下专业的数据研究分析机构【鲸准研究院】原创作品,受《著作权法》保护,依法享有汇编权及注释权;
2、转载请联系微信:wuyaoguaiguai,取得授权后方可转载;
3、禁止商用转载,禁止二次编辑转载。