让电脑加速100倍,英国创企的芯片推智能处理单元IPU
与其他数字处理软件不同的是,英国人工智能(AI)芯片硬件设计初创公司Graphcore专为电脑开发“大脑”,而且这种大脑更擅长猜测。
图1:英国人工智能芯片硬件设计初创公司Graphcore推出的IPU加速卡
作为Graphcore首席技术官,西蒙·诺尔斯(Simon Knowles)面带微笑地在白板上勾画着自己对机器学习未来的愿景。他用黑色记号笔在人类大脑的“节点”上打点并绘制图表,这些节点通常负责大脑中“沉思或思考的部分”。他的初创公司正试图在下一代计算机处理器中模拟这些神经元和突触,该公司押注下一代计算机处理器能够帮助“智能机械化”。
AI通常被认为是挖掘大量数据集的复杂软件,但诺尔斯及其联合创始人、Graphcore首席执行官奈杰尔·图恩(Nigel Toon)认为,运行该软件的电脑仍然存在更大的障碍。坐在位于英国港口城市布里斯托尔通风良好的办公室里,诺尔斯和图恩表示,问题在于芯片本身(基于它们的功能,可分为中央处理单元CPU或图形处理单元GPU),它们并没有以任何可识别的类人方式进行“思考”。
人类的大脑利用直觉来简化某些问题,比如识别一个正在接近的朋友,而计算机可能会尝试分析那个人脸部的每个像素,并将其与包含数十亿张图像的数据库进行比较,然后才会试图打招呼。当计算机主要充当计算器时,这种精确度是有意义的,但对AI来说,它的效率却非常低下,需要消耗大量能量来处理所有相关数据。
2016年,诺尔斯和更有商业头脑的图恩创建了Graphcore,他们把“不那么精确”的计算作为芯片的核心,称之为智能处理单元(IPU)。诺尔斯表示:“你大脑中的概念相当模糊。它实际上是非常近似的数据点的集合,使你可以产生精确的想法。”诺尔斯的英语口音和经常发出咯咯的笑声,让人把他比作《哈利·波特》中霍格沃茨学院的院长。
关于人类智慧为何会以这种方式形成,有各种各样的理论。但对于机器学习系统来说,它们需要处理庞大且不规则无组织的信息结构(即图形),为此建立专门用于连接类似大脑节点数据点的芯片,可能是AI继续演变的关键。诺尔斯说:“我们想建造一台高性能的计算机,它可以非常不精确的方式处理数字。”
换句话说,Graphcore正在为电脑开发“大脑”,如果其联合创始人的想法是对的,它将能够更像人类那样处理信息,而不是通过大规模的数字运算来伪造信息。图恩解释称:“几十年来,我们始终在步步为营地告诉机器该做什么,但现在我们不再这样做了。”他描述了Graphcore的芯片是如何教机器学习的:“这就像回到了20世纪70年代,那时微处理器刚刚问世,我们需要彻底改造英特尔。”
投资者赫尔曼·豪泽(Hermann Hauser)是Arm Holdings Plc的联合创始人,该公司控制着应用最广泛的芯片设计工作。豪泽押注诺尔斯和图恩的IPU将掀起下一波计算浪潮,他说:“这在计算机历史上只发生过三次,分别是20世纪70年代的CPU、20世纪90年代的GPU,Graphcore的IPU则是第三次。”
图2:Graphcore办公室的IPU服务器机架
Graphcore起源于豪泽于2011年和2012年在剑桥大学皇家学会组织的一系列研讨会,皇家学会是艾萨克·牛顿(Isaac Newton)和查尔斯·达尔文(Charles Darwin)的校友组成的科学团体。在国王学院的豪华餐厅里,AI专家、神经学家、统计学家和动物学家围绕着先进计算技术对社会的影响展开了辩论。
豪泽认为,诺尔斯“有个地球般大小的大脑”,他在这个“象牙塔”里感到不自在,尽管他从剑桥大学开始的职业生涯。20世纪80年代毕业后,诺尔斯在英国政府的一个研究实验室学习早期的神经网络。之后,他与人合作创办了无线处理器初创企业Element 14,并于2000年以6.4亿美元的价格将其卖给了博通公司(Broadcom)。
不久之后,诺尔斯和有半导体创业经验的图恩第一次合作。2002年,他们创建了移动芯片制造商Icera,并在不到10年后以4.36亿美元的价格卖给了英伟达公司(Nvidia)。当时两人还没有准备好退休,图恩说:“我们都不擅长打高尔夫球。”诺尔斯去参加剑桥大学的系列讲座时,他们正在讨论其他的想法。诺尔斯回忆说:“我是房间里那个邋遢的家伙,戴着一顶烟囱帽,只想做些东西。你知道:‘别管热力学了,我想做个蒸汽机!’”
当剑桥大学信息工程学教授史蒂夫·杨(Steve Young)做了一个关于计算对话系统极限的演讲,诺尔斯不断地向他提出有关能源效率的问题。史蒂夫·杨后来向苹果公司出售了语音处理服务,该服务现在用于Siri。诺尔斯表示:“我问他在算法中使用的数字精度,这在史蒂夫看来有些离题了。”但他强调,在硅材料中,“数字的精度作为能量的决定因素非常关键”。
几天后,史蒂夫·杨给诺尔斯发了一封电子邮件,说他的学生调查了这件事,发现他们每次计算都使用了64位数据。他们意识到,他们可以像诺尔斯所建议的那样,用8位数据执行同样的函数,只是运算不那么精确。当计算机有更少的数学任务要做时,它可以利用节省下来的能源来处理更多的数字。这有点像人类大脑从计算某家餐厅的GPS坐标转换到仅仅记住其名字和邻居。
诺尔斯说:“如果我们制造出一种更适合这种工作的处理器,我们可以将性能提高一千倍。”史蒂夫·杨和其他人对此印象深刻,诺尔斯和图恩决定他们必须创建Graphcore。早在2013年,他们就开始筹集资金来开发这个想法,并在2016年向世界展示了这家公司。
半导体行业目前正在讨论摩尔定律的可持续性问题。摩尔定律是上世纪60年代的一项观察发现,一块芯片上的晶体管数量将会每两年翻一番。Graphcore的领导者们关心的是个相关概念,叫做丹尼德量表(Dennard scale),它指出随着晶体管密度的提高,功率需求将保持不变。
但这一原理已不再适用,现在在芯片中添加更多的晶体管意味着芯片将变得更热、耗能更高。为了缓解这个问题,许多芯片制造商自己设计他们的产品,这样他们就不会每次都耗尽所有的处理能力,只运行支持应用程序所必需的部件。在芯片上,这些一度未使用的区域被称为“暗硅”。
诺尔斯和图恩表示,除非电路能从根本上被重新设计以提高效率,否则高温问题将成为阻碍手机和笔记本电脑在未来几年变得更快的重大障碍。负责Graphcore芯片架构的丹尼尔·威尔金森(Daniel Wilkinson)表示:“我需要从零做起,这种情况在芯片设计领域从未发生过。”
这不禁向这个由几十名工程师组成的团队发起挑战,要求他们设计一种芯片,既能同时利用所有的处理能力,又比最先进的GPU功耗更少。硅的一个较大的能量压力涉及移动和检索数据,但从历史上看,处理器与内存是分开的。诺尔斯说,在这些组件之间来回传输数据“非常耗费能源”。Graphcore开始设计诺尔斯所谓的“同质结构”,即将芯片的逻辑与内存“混合”在一起,这样它就不需要花费太多的能量来将数据传输到其他硬件上。
在过去的三年多时间里,诺尔斯和图恩模拟了数百种芯片布局的计算机测试方法,最终确定了包含1216个处理器核心的设计方案,诺尔斯将其称为“许多分散能源的处理器小岛”。最终的IPU于2018年首次亮相,这是看起来非常时尚的微型芯片,拥有近240亿个晶体管,能够以GPU的一小部分功率访问数据。图恩站在布里斯托尔总部一间凌乱的电子实验室里,手指滑过IPU镜面般的表面说道:“每块芯片的功率都是120瓦,与明亮的白炽灯泡差不多。”
为了测试这种芯片的原型,研究团队给它提供了标准的数据训练模型,其中包含了数百万张标有普通物体(水果、动物、汽车)标签的图像。一位工程师随后向IPU查询了他自己的猫宙斯(Zeus)的照片,不到一个小时,计算机不仅正确地识别出了它,而且正确地描述了宙斯的外貌。诺尔斯说:“IPU能够认出它是一只斑猫。”
自从第一次测试以来,IPU已经加快了速度,现在每秒可以识别一万多幅图像。该芯片的目标是能够消化和确定复杂得多的数据模型,使系统能够在更基本的层面上理解什么是猫。诺尔斯称:“我们不会告诉机器该做什么,只是描述了它应该如何学习,并给它提供了大量例证和数据,它实际上并不需要监督,机器正在探寻自己该做什么。”
图3:Graphcore的第一款芯片Colossus
在Graphcore公司办公室的五楼,笨重的工业空调将冷空气吹进公司的数据服务器室,前后晃动着的窗帘,让布里斯托尔五月中旬不同寻常的阳光照射进来。尽管这些芯片安装在冰箱大小的盒式服务器上,非常节能,但这些机器仍然会产生大量的热量。这些IPU服务器机架足够执行64千万亿次浮点运算,相当于183000部iPhone X以最高速度同时运行。诺尔斯和图恩以世界上第一台电子可编程计算机的名字给他们的IPU取了个绰号“Colossus”,这台计算机是英国政府在二战期间为破解来自德国的加密信息而开发的。
Graphcore已从包括宝马(BMW)、微软(Microsoft)和三星(Samsung)在内的投资者那里筹集了3.28亿美元资金,该公司去年12月份的估值为17亿美元。Graphcore以签署有保密协议为由,拒绝就其芯片的具体应用置评,但考虑到其投资者,许多用例似乎已经显而易见,比如自动驾驶汽车、类似Siri的语音助手和云服务器农场等。但是诺尔斯对改变人性的应用最感兴趣,比如IPU可能对科学家在气候变化和医学研究中需要的复杂分析产生更大影响。
为了帮助大公司客户解决如何构建下一代计算机以正确使用芯片的问题,Graphcore提供了服务器蓝图,并使用免费软件工具对其产品进行打包。图恩称:“我们会给你电脑设计的配方,然后卖给你配料。”IPU依赖于所谓的“并行计算”概念。编写程序的基本思想是需要为每个处理器设定功能,但随着芯片内置处理器的激增(大型Graphcore芯片包括大约500万个处理器内核,每次可以运行近3000万个程序),这个编码任务已经取代了人工编写程序,这意味着处理器必须自动编程才能独立执行。
用外行人的话说,Graphcore将庞大的计算任务分割成一个个小数据问题,每个问题都在这些“处理器小岛”上单独处理,然后像海军陆战队军乐队一样同步,在最高效的时刻分享它们学到的东西。
宝马风险投资部门的首席投资家托拜厄斯·扬(Tobias Jahn)设想将Graphcore芯片应用于该公司的数据中心,或许还包括其汽车中。他说:“宝马有意让Graphcore成为一家大规模的全球硅供应商。”自动驾驶汽车必须立即执行超多的关键任务,这使得它们成为IPU之类产品的关键市场,因为在云计算中工作往往会有延迟。Arm Holdings联合创始人豪泽(Hauser)估计,每辆无人驾驶汽车可能需要两个IPU。Graphcore表示,2019年其收入有望达到5000万美元。
大牌竞争对手也纷纷涌入这个领域。电动汽车制造商特斯拉公司最近为自己的AI芯片申请了专利,谷歌去年推出了一款专为机器学习设计的微处理器。英伟达始终在改进其主要的GPU芯片设计,使其变得更不精确却更高效,这更像Graphcore的做法。
市场研究机构Gartner 分析师艾伦·普里斯特利(Alan Priestley)表示:“其他所有公司都在敲英伟达的门。Graphcore拥有很大优势,但与英伟达的市场份额相比,它仍然是个非常小的竞争对手。因此,尽管他们的IPU在这些工作负载上可能优于英伟达的GPU,但他们面临的风险是,客户往往选择‘足够好’即可,而不是‘卓越’。”
如果像承诺的那样,IPU能使机器运行起来比今天的电脑强大100倍,其面临的另一个重大挑战将是道德困境。图恩和诺尔斯对这些危险保持警惕,尤其是这些技术如何可能被滥用于武器和监控。不过,他们说,最终需要政府来设定限制。诺尔斯指出:“机械动力帮助我们发明了飞机和汽车,但它也帮助发明了坦克。随着时间的推移,社会将不得不在善与恶之间寻找平衡。”
目前,Graphcore专注于开发更多的软件,让客户看到IPU的强大功能,同时将业务拓展到最终上市的程度。对于每个重大的里程碑,该公司都会开瓶香槟庆祝,比如2017年末融资5000万美元和2018年实现1000万美元销售订单。这种增长的迹象在Graphcore的办公室里随处可见,香槟的瓶子也越来越大。
诺尔斯图恩总是从Pol Roger宝禄爵香槟品牌开始,他们认为这种饮品代表他们的骄傲,他们可能会帮助英国诞生首家科技巨头。诺尔斯说:“从Pol Roger开始,也从Pol Roger结束。”诺尔斯最近喝光了9升大酒瓶的香槟,他说:“当你首次公开募股(IPO)时,你会打开最大瓶的香槟。” (选自:Bloomberg 作者:Dylan Jackson 编译:网易智能 参与:小小)