人工智能AI产业应用初探
一、AI产业应用视图
当前人工智能理论和技术日益成熟,应用范围不断扩大, 产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。人工智能产业应用从下到上,分为软硬件支撑层、产品层和应用层 。
1、软硬件支撑层
该层包括了硬件和软件平台。其中硬件主要包括 CPU、 GPU 等通用芯片, 深度学习、类脑等AI芯片以及传感器、存储器等感知存储硬件,主导厂商主要为云计算服务提供商、传统芯片厂商以及新兴AI芯片厂商。软件平台可细分为开放平台、应用软件等,开放平台层主要指面向开发者的机器学习开发及基础功能框架;应用软件主要包括计算机视觉、自然语言处理、人机交互等软件工具以及应用这些工具开发的相关应用软件。
核心器件多元化创新,带动 AI计算产业发展。GPU、DSP、FPGA、ASIC 以及类脑等AI芯片创新频繁,支撑云侧、端侧 AI 计算需求。 AI 计算产业快速发展,尤其是云端深度学习计算平台的需求正在快速释放。以英伟达、谷歌、英特尔为首的国外企业加快各类 AI技术创新, 我国寒武纪、深鉴科技等企业也在跟进。
2、产品层
产品层包括基础产品和复合产品。其中基础产品又包括了基础语言处理产品、知识图谱产品、计算机视觉产品、人机交互产品四类,是人工智能底层的技术产品,是人工智能终端产品和行业解决方案的基础。复合产品可看作为人工智能终端产品,是AI技术的载体, 目前主要包括可穿戴产品、机器人、无人车、智能音箱、智能摄像头、特征识别设备等终端及配套软件。
AI产品形式多样,已涵盖了听觉、视觉、触觉、认知等多种形态。 无论是基础产品还是复合产品,能够支持处理文字、语音、图像、感知等多种输入或输出形式,产品形式多样,如语音识别、机器翻译、人脸识别、体感交互等。全球互联网企业积极布局各产品领域,加强各类产品 AI 技术创新,有效支撑各种应用场景。
3、应用层
应用层是指AI技术对各领域的渗透形成“AI+”的行业应用终端、系统及配套软件,然后切入各种场景,为用户提供个性化、精准化、智能化服务,深度赋能医疗、交通、金融、零售、教育、家居、农业、制造、网络安全、人力资源、安防等领域。
人工智能应用领域没有专业限制。通过AI产品与生产生活的各个领域相融合,对于改善传统环节流程、提高效率、提升效能、降低成本等方面提供了巨大的推动作用,大幅提升业务体验,有效提升各领域的智能化水平,给传统领域带来变革。
二、AI产业软硬件支撑平台和基础产品
从产业生态来看, 目前人工智能产业生态模式尚未锁定,各种产业模式均在探索。以谷歌、亚马逊等企业为首的国外领先企业侧重于从芯片、操作系统到运行框架打造垂直生态,并快速将自有架构通过开源、开放等方式进行产业推广,力争形成行业事实标准。国内产业生态偏重于框架层和应用层,尤其是应用层软件技术和平台发展快速。
1、软硬件支撑平台
(1)多种人工智能芯片快速创新
人工智能发展浪潮成为拉动芯片市场增长的新的驱动力。 根据预测,全球人工智能芯片市场规模在 2016 年约为 24 亿美元,到2020年规模将接近 150 亿美元,复合年均增长率保持超过40%的高速率;同时,人工智能芯片在人工智能整体市场规模占比也将呈现逐年递增态势,预计将从 2016 年的 8%增长至 2020 年的 12%。
人工智能芯片产业体系初步形成。人工智能芯片指能够实现各类深度学习算法加速的计算芯片。深度学习算法的运行对卷积、矩阵乘法运算任务以及内存存取等操作较为频繁,对于更擅长串行逻辑运算的 CPU 而言计算效率较低,难以满足需求。现阶段人工智能芯片类型主要涵盖包含 GPU、 FPGA、 ASIC、类脑芯片等。其中, GPU 芯片通用性较强且适合大规模并行计算,但售价贵、能耗高; FPGA 可通过编程灵活配置芯片架构适应算法迭代且能效优于 GPU 芯片,但产品开发技术门槛较高,开发生态不完善; ASIC 芯片通过将算法固化实现极致的性能和能效,且大规模量产后成本优势突显,但前期开发周期长易面临算法迭代风险。类脑芯片目前仍处于实验室研发阶段。
领先企业加快人工智能芯片布局。 英伟达凭借高性能的 GPU 芯片占据应用规模优势, AMD、 英特尔、谷歌等企业加速追赶。英伟达快速推出针对人工智能运算优化的 Tesla GPU 系列产品,其中最强V100 GPU 芯片提供每秒 120 万亿次张量计算能力,同时拓展 CUDA生态开发深度学习加速库 cuDNN,提升 GPU 面向深度学习算法和主流开发框架的运行效率,强劲的硬件性能和完善易用的开发者生态助力英伟达迅速形成了巨大的市场优势,现有客户覆盖谷歌、脸书、微软等巨头企业和大量的初创企业、科研院所等。 AMD 也加速追赶,最新发布全球首款 7nm 制程、专为人工智能任务设计的 GPU 芯片产品,试图抢攻服务器和工作站市场。
与此同时,英特尔、谷歌等企业 开发兼具更高能效和低成本优势的 ASIC 芯片构筑竞争实力。谷歌面向谷歌云业务需求自研人工智能 ASIC 系列芯片 TPU,其中,训练芯片具备实现业界最高的每秒 180 万亿次峰值浮点计算能力,TPU 芯片也与旗下 TensorFlow 开发框架、算法和谷歌云平台深度耦合构建垂直完备的产业生态;英特尔收购芯片初创企业 Nervana 掌握 ASIC 训练芯片技术,第二代产品将于 2019 年下半年正式推出,性能对标谷歌 TPU 产品。
(2)多方布局人工智能计算框架
基础开发框架在人工智能产业链中占据承上启下的核心地位。在移动互联网时代, Android 系统通过 GMS 与下游云服务松耦合,通过版本控制与上游芯片、整机厂商紧耦合,实现以 Android 操作系统为核心的移动互联网闭环生态。在人工智能时代,开发框架也具备媲美Android 操作系统的核心地位,具有统领产业进步节奏、带动硬件配置、终端场景与云端服务协同发展的核心作用,占据承上启下的关键地位。以 Google 深度学习开发框架 TensorFlow 为例, TensorFlow向上与谷歌云紧密绑定,以云平台模式提供云机器学习服务,向下与芯片和硬件厂商紧密耦合做定制优化,谷歌 TPU专用于 TensorFlow 。
领先企业围绕开发框架平台呈现多元化发展模式。一是纵向打通模式,从硬件到开源平台再到云平台至应用服务,贯通产业链上下游,构建全产业生态,谷歌为其典型代表;二是向上布局行业应用服务模式,以业务为导向,通过核心平台向上布局重点行业应用,如亚马逊、阿里等; 三是算法下沉于硬件模式,核心算法固化于硬件,以硬件形态提供行业通用或专用计算能力,如寒武纪;四是以核心平台开放基础能力,为行业提供基础能力,如讯飞为行业提供基础语音识别基础技术,商汤为行业提供人脸识别基础技术等。在四种发展模式中,云平台和应用服务产生的所有数据均回流于训练平台进行数据反哺,可有效提升平台的综合能力。
国际巨头开源人工智能开发框架意图加快掌握技术产业组织的主动权。国际巨头纷纷布局开发框架,意图加快掌握技术产业组织的主动权,占领客户、应用和数据资源,逐步建立新的产业格局和技术标准。2013年,伯克利大学贾清阳博士宣布开源深度学习框架 Caffe,成为第一个主流工业级深度学习工具。
2015 年 11 月,Google 开源深度学习框架 TensorFlow,具备深度学习基本算法,可满足图形分类、音频处理、推荐系统和自然语言处理等基本功能,成为 GitHub 最受欢迎的机器学习开源项目,目前吸引 ARM、京东等大批合作伙伴。2016 年,亚马逊宣布 MXNet 作为其官方支持框架,具有优异分布式计算性能,拥有卡耐基梅隆、英特尔、英伟达等众多合作伙伴,国内图森互联和地平线等公司也有使用。 2015 年 11 月, IBM 宣布开源机器学习平台 SystemML,可根据数据和集群特性使用基于规则和基于成本的优化技术动态地编译和优化,应用在不同工业领域。 2016 年 9月,百度开源其深度学习平台 PaddlePaddle,可提供机器视觉、自然语言理解、搜索引擎排序、推荐系统等功能。2017 年 6 月,腾讯和北京大学、香港科技大学联合开发的高性能分布式计算平台 Angel正式开源,具有较强的容错设计和稳定性。众多开源学习框架促进人工智能应用程序发展。据 IDC 预测,到 2020 年,60%的人工智能应用程序将在开源平台上运行。
2、人工智能基础产品
(1) 自然语言处理产品呈现实用化发展趋势
自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力,是人工智能和语言学的一部分,它致力于使用计算机理解或产生人类语言中的词语或句子。自然语言处理主要涉及语音识别、语音合成、语义理解、机器翻译,自然语言类产品呈现实用化的发展趋势,但是产品成熟度上仍存在较大的提升空间。
语音识别受到国内外商业和学术界的广泛关注,在无噪音无口音干扰情况下可接近人类水平。目前语音识别的技术成熟度较高,已达到 95%的准确度,但背景噪音仍难解决,实际应用仅限于近距离使用。我国语音识别技术研究水平良好,基本上与国外同步,科大讯飞语音识别成功率达到 97%,离线识别率亦达 95%。此外,我国在汉语语音识别技术上还有自己的特点与优势,已达到国际先进水平。语音识别产品方面,微软、谷歌、亚马逊,以及国内的百度、讯飞、思必驰等企业均推出了各自基于语音交互的产品,其中以输入法、车载语音、智能家居、教育测评最为普遍。
机器翻译是当前最热门的应用方向,由于自然语言语义分析的复杂性,翻译水平还远不能和人类相比。近年来机器翻译技术越发成熟,各大厂商都积极投身于这个备受关注的机器翻译领域,谷歌使用深度学习技术,显著提升了翻译的性能与质量。各大互联网公司相继推出自己的翻译系统,谷歌、微软、有道、科大讯飞、百度、搜狗等均上线或更新了翻译产品。例如阿里机器翻译基于阿里巴巴海量电商数据,并结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠的在线翻译服务。
(2)知识图谱从实际问题出发呈现多维度应用
知识图谱概念由谷歌2012 年正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。知识图谱是具有向图结构的一个知识库,其中图的节点代表实体或概念,而图的边代表实体/概念之间的各种语义关系,其起源可以追溯到 20 世纪 50 年代的语义网络,本质上是使机器用接近于自然语言语义的方式存储信息,从而提升智能信息检索能力,现已被广泛应用于智能搜索、智能问答、个性化推荐等领域。
知识图谱经历了由人工和群体协作构建到利用机器学习和信息抽取技术自动获取的过程。早期知识图谱主要依靠人工处理获得,如英文 WordNet 和 Cyc 项目。通过人工处理,知识图谱将上百万条知识处理为机器能够理解的形式,使机器拥有判断和推理能力。随着互联网上最大群体智能知识库维基百科的建立,出现了DBpedia、YAGO以及Freebase 等依托大规模协同合作建立的知识图谱。随着大数据时代的到来,知识图谱的数据来源不再局限于百科类的半结构化数据和各类型网络数据。
当前,知识图谱的应用可以归纳为语义搜索、知识问答以及基于知识的大数据分析与决策三个方面:
1、在语义搜索方面,由于知识图谱所具有的良好定义的结构形式,语义搜索利用建立大规模数据库对关键词和文档内容进行语义标注,从而改善搜索结果。国外搜索引擎以谷歌搜索和微软 Bing 最为典型。一方面,基于知识图谱的搜索引擎相继融入了维基百科、 CIA 世界概览等公共资源。另一方面,搜索引擎与 Facebook、 Twitter 等大型社交企业达成了合作协议,在个性化内容的搜集、定制化方面具有显著优势。国内主流搜索引擎公司近年来也相继将知识图谱的相关研究从概念转向具体产品应用。搜狗“知立方”是国内搜索引擎中的第一款知识图谱产品,它通过整合碎片化的语义信息,对用户的搜索进行逻辑推荐与计算,并将核心知识反馈给用户。百度将知识图谱命名为“知心”,主要致力于构建一个庞大的通用型知识网络,以图文并茂的形式展现知识的各方面。
2、 在知识问答方面,基于知识图谱的问答系统通过对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。目前,国内外形式多样的问答平台都引入了知识图谱,例如苹果的智能语音助手 Siri 能够为用户提供回答、介绍以及搜索服务;亚马逊收购的自然语言助手 Evi,采用 True Knowledge 引擎进行开发,也可提供类似 Siri 的服务。国内百度公司研发的小度机器人、小米智能音响、阿里巴巴天猫精灵等都引入知识图谱技术,开始提供交互式问答服务。
3、 在分析与决策方面,利用知识图谱可以辅助行业和领域的大数据分析和决策。例如在股票投研情报分析方面,通过知识图谱技术从招股书、公司年报/公告、券商研究报告、新闻等半结构化文本数据中自动抽取公司相关信息,可在某个宏观经济事件或者企业突发事件中通过此图谱做更深层次分析和更好的投资决策。目前,高盛、 JP 摩根、花旗银行等国际著名投行均开展了相关探索和应用。美国 Netflix也利用其订阅用户的注册信息和观看行为构建知识图谱,分析用户喜好从而推出新的在线剧集。
(3)技术产业协同发展推动计算机视觉实现商业价值
计算机视觉指通过电子化的方式来感知和认知影像,以达到甚至超越人类视觉智能的效果,是人工智能领域最受关注的方向之一。虽然计算机视觉在当前阶段仍然存在大量尚待解决的问题,但得益于深度学习算法的成熟和应用,以图像分类识别为代表的侧重感知智能的计算机视觉产品已经广泛应用于安防、金融、零售等产业,助力相关产业向智能化方向升级。
神经网络和深度学习的快速发展极大地推动计算机视觉的发展,大型神经网络在计算机视觉的部分细分领域已经取得优秀的成果。2017 年 ImageNet 最后一届图像分类竞赛上,基于大型神经网络的分类算法在图像分类(1000 类)任务中,将 TOP5 分类的错误率降至2.25%, 已经大幅领先于人眼的分类识别能力。 2018 年在 ActivityNet视频理解竞赛上,百度团队在 Kinetics 视频动作识别任务中将平均错误率降至 10.9%,所使用的相关技术已经应用于实际线上视频分类系统,为视频打标签、视频对比和视频推建等业务场景提供语义化解析功能。
计算机视觉产品已在安防、金融、互联网、零售、医疗、移动及娱乐等产业逐步输出商业价值。在金融、移动、安防等产业,人脸识别是当前商业成熟度较高的计算机视觉产品,广泛应用于账号身份认证、手机刷脸解锁、人流自动统计和特定人物甄别等诸多场景。在互联网、零售、移动产业,图像搜索产品可为用户提供更为便捷的视觉搜索能力。
例如: eBay 于 2017 年 10 月在其购物平台上增加了新的反向图像搜索工具, 以帮助用户使用现有照片查找商品项目; Google公司 2018 年 3 月宣布其 Google Lens 图像搜索服务目前已可应用于android 和 IOS(通过 GooglePhoto 项目)智能手机,该服务通过手机摄像头查看周遭环境并为用户提供与之相关的情境信息。在医疗产业,计算机视觉可提供临床治疗中早期病理筛查能力。加州大学伯克利分校放射与生物医学成像系和放射学大数据小组在对早期阿尔茨海默症诊断研究中,通过计算机视觉技术在小规模测试(对来自 40 名患者的 40 个成像检查的单独测试)中,对平均发病超过 6 年的阿尔茨海默症病例发现率达到了100%。
全球计算机视觉产业发展迅速,计算机视觉公司快速涌现。根据MarketsandMarkets 报告显示, 2017 年基于人工智能的计算机视觉全球市场规模为 23.7 亿美元,预计 2023 年会达到 253.2 亿美元。预测期(2018-2023)内复合年增长率47.54%10。市场上一大批计算机视觉公司如雨后春笋般快速涌现,其中以谷歌、微软、亚马逊为代表的大型跨国科技企业除计算机视觉领域外,还积极布局人工智能全产业各个领域。
我国企业虽然在计算机视觉领域起步较晚,但发展速度很快,已经涌现出一批市场估值高达百亿人民币的独角兽企业。例如:成立于 2014 年的商汤科技,广泛服务于安防、金融、移动等产业,客户包括 Qualcomm、英伟达、银联、华为等知名企业及政府机构。2017 年 7 月,商汤科技宣布完成4.1 亿美元 B 轮融资,创下当时全球人工智能领域单轮融资最高纪录。 2018 年,商汤科技在 4 月和 5月连续宣布获得 6 亿美元 C 轮融资和 6.2 亿美元 C+轮融资。 成立于2015 年的云从科技,深耕安防、银行、机场等重点产业场景,先后与公安部、四大银行、民航总局等产业界成立联合实验室。 2017 年11 月云从科技正式完成B 轮融资,总计获得 25 亿元人民币发展资金。成立于2014 年的码隆科技,为京东、唯品会、可口可乐、蒙牛等零售企业提供商品属性识别、商品图像检索服务。 2017年 11 月码隆科技完成由软银中国领投的 2.2 亿元人民币的 B 轮融资,成为软银中国在华投资的第一家人工智能公司。
(4)人机交互产品已在多个领域实现落地
人机交互主要是研究人和计算机之间的信息交换,按照交互方式分为语音交互、情感交互、体感交互、脑机交互。目前,人机交互已取得一定研究成果,依赖不同的人机交互技术,不少产品已经问世,并覆盖多个领域。但从整体上来看,受语音、视觉、语义理解等技术条件的限制,人机交互产业还处于萌芽期。人脸表情交互在移动应用产品设计中已得到初步应用,例如由 Takuto Onishi 开发的 iOS 应用程序“twika^o^”,可以帮用户把人物面部真实表情转化成文字符号表情。体感交互目前处于发展初期,主要应用在智能家居、体感游戏等方面,用户可以利用自己的身体移动来控制智能家居设备, Kinect一直在体感游戏方面发力,国内也有相关产品出现,例如速盟享动、绿动、运动加加等,但是在效果体验等方面发展层次不齐。
人机交互的发展过程,经历了 PC 时代、移动互联网时代,现在已进入智能生活时代。 PC 时代的交互方式主要是键盘+鼠标,移动互联网时代的交互方式主要是触摸、手写和手势,而智能生活时代的交互方式开始走向语音和视觉。人机交互的发展史,就是走向自然交互的发展过程——从以机器为中心的人机交互,走向以人为中心的自然交互 。
语音助手在人工智能领域的发展已相对完善。 据市场研究机构Strategy Analytics 的数据显示, 2017 年, GoogleAssistant 在智能手机语音助手市场中占主导,为 46%,苹果 Siri 排名第二,占 40.1%,百度 DuerOS 和三星 Bixby 分别占 13%。 2019 年全球超过一半的智能手机将拥有语音助手,甚至到 2023 年,这一份额将增长至 90%。
目前,智能语音助手还处于智能应用的早期,只是作为一个内置或用户下载的 APP 供用户使用,在实际应用中并没有起到杀手级效应。智能语音助手使用率、活跃率、留存率都较低,即使 Siri 也不例外。智能语音助手的语音交互输出在很多场景下是无法展现图片那样丰富的信息的,一句语音的输入反馈输出的信息量更少,得不断进行高频率的互动来提高识别率。从应用方向和场景来看,语音助手主要用于消费级产品和专业级行业应用,消费级市场主要应用于衣食住行等生活场景,如手机、智能车载、智能家居、可穿戴设备等,专业级行业应用主要应用于医疗、教育、呼叫中心、庭审等特定场景。
脑机交互将助力人工智能迈向人类智能。 国外的脑机交互研究中,“植入式”技术美、荷领先,美国在人机应用研究方面已实现了突破。“非植入式”技术则初探市场,产品迭出,例如日本本田公司生产了意念控制机器人,操作者可以通过想象自己的肢体运动来控制身边机器人进行相应的动作。美国罗切斯特大学的一项研究,受试者可以通过 P300 信号控制虚拟现实场景中的一些物体,例如开关灯或者操纵虚拟轿车等 。
本文转载自《2018年人工智能产业白皮书》