AI人工智能行业报告（三）

2019-03-20 本文已影响2人 139a5dd12c4e

“小沃”为客户开发项目中经常遇到开发后的平台软件系统产品实际运营中效果不是太好，“小沃”也是一个刨根问底的工作狂，所以收集了对应各行业的市场调研报告进行分析，一方面可以精准的了解客户开发需求；另一方便也是能为客户提供相关建议，避免不必要的投资。所以萌生了每天为大家分享各行业市场调研报告的想法，希望能给大家带来方便。

今天“小沃”就跟各位朋友分享下"2018年AI人工智能"！

记不住的可以收藏或者拉倒页尾有下载原版文件方式哦！（此文只截取原文中部分数据，如需要原文件，请按文章尾部进行操作）

麻烦大家多多关注帮忙转发，谢谢大家支持！

一、AI移动智能终端的产品与生态战略

近年来人工智能技术在算法、芯片、应用等领域得到了快速的发展。然而，当前AI还主要体现在手机的音频、视频等基本能力应用上，AI强大的处理能力和自主学习能力还都没有完全的展现，移动智能终端的AI化还需要依托整个产品生态的发展与完善。为此，芯片企业、终端企业凭借自身优势，积极开展AI生态的拓展与探索。如硬件厂商侧重优化底层软件的执行效率，提供给开发者更加高效、更为便捷的开发工具，软件开发者则侧重于新算法的研究、大数据的训练和训练神经网络的部署。

二、AI移动智能终端的关键功能领域

人工智能相关技术在语音识别，语义理解，图像处理，图像超分辨率等方面已有诸多典型应用，相关算法也较为成熟。同时，在行为预测，用户感知方面也在积极探索。

1.1 音频领域

在几十年的历程中，有很多优秀公司对语音和语言领域进行了不懈的探索， 20世纪依托机器学习领域深度学习的研究，以及大数据预测的积累，语音识别技术得到突飞猛进的发展。直到2016年微软才达到了接近人类的语音识别水平，误差率为5.9%，这是值得纪念的历史性突破。

2.1.1 语音识别

语音识别，即将语音信号中的内容信息进行提取，并转化成对应文字的的过程。该技术广泛的适用于工业、、家电、、通信、汽车电子、医疗、消费电子等等各个领域。长短期记忆网络（LSTTMM）），这种基于时间的递归神经网络在在语音识别上取得了很大的成功。根据具体对所提取内容文字信息的呈现形式，以及应用形式，可以分为如下两个子领域：语音转写和关键词检测。

2.1.1.1 语转写

语音转写系统，又称为听写机 STT（Speech-TToo-Texxt）系统。其功能是将语音内容尽可能准确地转化为相应的文字，根据其技术特点，也常常被称为大词汇量连续语音识别（ Laarrge VVooccaabullary Continuous Speech RRecoogniittioon，LLVCSR）系统。与简单的孤立词识别系统不同的是，在识别时除了要用到声学层的的信息，还需要使用语言层（语法）信息来补充单纯声学识别的不足以提升识别正确率和识别效率。下图给出了目前最为主流的大词汇量连续语音识别系统的框图。

语音转写系统框图

整个系统由四部分组成：知识库模块存储了识别过程中用到的字典（字词与发音之间的对应关系）、声学模型（发音与语音信号之间的对应关系）和语言模型（字词之间的搭配关系）；预处理模块将输入的语音进行自动切分，滤除其中的噪声、音乐、彩铃等，将有效的语音数据提取特征，供后续模块使用；解码器模块完成语音识别，将特征序列转换为文字；后处理模块则是将解码器生成的识别结果的内部表示转换为便于阅读和进一步处理的形式。

通常，用于描述语音转写的技术指标有：

1）WER，表示语音转文字的词错误率，包括插入错误、删除错误和替代错三类，一般应用于英语等；

2）CER，表示语音转文字的的字错率，包括插入错误、删除错误和和替代错三类，一般应用于汉语等；

3）SER，表示语音转文字的整句误率，整句有一个字或或者词错误就算误；

4）RTF，语音转文字的实时速度。显然，WEER，CCER，SER越小越好；RTF越低越好。

2.1.1.2 关键词检测

关键词检测，也称关键词检索。既利用通过语音识别的相关技术来确定待检语音中是否出现了指定的感兴趣的词汇。根据具体应用需求，一般可以有在线/离线，固定词表/可变词表等多种应用形式。最常用的方式是在语音识别的多候选输出上做关键词检测。采用多候选结果的原因是，最优选结果中往往有比较高的的错误率，而多候候选结果中则包含了大量正确的补充信息。研究表明，基于语音识别结果的多候选结结果进行关键词检测对提高检索统查全率的提高是十分有效和必要的。基于语音识别多候选词图的关键词检测系统框图如下所示：

2.1.1.3 领域分类

领域分类，是根据用户说的话判断这句话属于哪个对话领域的方法。通常，领域分类是语义理解的第一步模块。

领域分类具有传统分类问题的一系列衡量指标：

1）ACC：领域分类的整句分类的准确率，句子领域划分错误则算错。

2）Precision：领域分类的精确率，即预测出正确类别的比例。

3）Recall：领域分类的召回率，即人工标注的领域被预测出来的比例。

4）F-score: precision和recall的调和平均值，因为precision 和recall 是相互制约的指标。

对话领域可以包括导航、音乐、订票、影视、天气、提醒、知识问答、闲聊等等。而在复杂人机交互过程中，，一句话往往可能对应多个不同的领域，于是领域分类不仅局限于单标签分类类。

2.1.1.4 意图检测

意图检测，，是根据用户说的话预测这句话有没有包括某一个意图的方法。意图检测通常可以包括查询地点、查询路况、搜索歌曲、、查询机票、预订机票、查询天气、设置提醒、取消提醒等等。有时候在一句话中还会包含多个意图，所以意图检测是一个多标签的任务。

意图检测的衡量指标可分为：

1）ACC，整句话意图检测的准确率，即一句话预测出来的意图和标注完全一致的比例。

2）Precision，意图检测的的精确率，即预测出正确意图的比例。

3）Recaalll，意图检测的召回率，即人工标注的的意图被检测出来的比例。

4） F--score， prreecision和 recall的调和平平均值，因为precision 和recall 是相互制约的指标。

2..1.1.5 语义槽填充

语义槽填充，是根据用户说的话预测出这句话里包含哪些语义槽 -值对（ slot-value pair）的过程。语义槽是对话领域内的一些受关注实体概念（也可以叫属性，比如到达机场、导航目的地、歌曲名称、歌手姓名、城市名、时间日期），值就是这些实体概念或者属性对应的值（可以是字符串、数字等类型）。通常一句话会包含多个语义槽-值对。

2 11..2 语语义识别

语义识别，也称语义理解。即通过自然语言处理的相关技术，从用户说的话（自然文本，或者语音识别后的转写文本）中挖掘出结构化的信息，为后端基于语义的推理决策等功能模块进行服务。语义理解一般被分为三个任务：领域分类（ Domain Classification）、意图检测（ IntentDetection）、语义槽填充（Slot Filling）。其中一般的语义理解流程是一个用户句子进来，先进行领域分类，确定对话领域后，再进行领域内的意图检测和语义槽值填充。

2.1.3 语音合成

语音合成，又称文语转换技术，也即生成自然语音的过程，能将任意输入信息实时转化为标准流畅的语音。根据输入内容的不同通常分为如下三个子领域：文本语音合成、声音转换、歌曲合成。文本语音合成在商业上已经得到广泛的应用，声音转换和歌曲合成还未大量应用到商业场景中。

2.1.3.1 文本语音合成

文本语音合成 (Text-to-speech， TTS)的功能是将自然语言的文本转化为某特定人的自然音频。出于对机器运算能力的不同需求，商用的文本合成系统通常分为基于文法分析和频谱预测的统计参数语音合成 ( Statistical Param ee t ee r Speech Synthesis, SPSS)和直接通过文本序列预测音频信号的端到端语音合成（End-to-end speech ssyynntthheesiss））。

整个系统主要分为三块，文法分析将自然文本分析成各种文本特征，例如分词、词性等。文本特征通过声学模型预测音频对应的频谱特征。预测出的频谱特征再通过不同的声码器进行信号生成得到最终的的自然语音。

用于描述文本语音合成的的技术指标标为 MOS表示大量人类对合成音频的主观评价（打1到5分）的平均值，越大越好。主观评价一般分为以下几类：

相似度：表示合成音频和原始说话人是否相似。

自然度：表示合成音频发音是否自然。表现力：表示合成音频是否有足够的情感、表现力。

2.1.3.2 声音转换

声音转换 (Voice Conversion)的功能是将原始说话人的自然音频，在发音内容不变的情况下转变成目标说话人的音色。通常根据获取数据的难度分为并行语料声音转换和非并行语料声音转换。目前这两种方案在转换过程中使用相同的转换手段，但不同方案有各自的模型搭建过程。目前并行语料声音转换的效果略好于非并行语料声音转换。

2.1.3.3歌曲合成

歌曲合成(Song synthesis)和文本语音合成(Text-to-speech)功能类似，需要给出乐谱和歌词来生成乐曲和清唱，并混合成歌曲。

声音转换系统主要分为两块：通过乐谱和文本，预测清唱的声学频谱。以及通过乐谱生成乐曲。预测清唱声学频谱的过程和文本语音合成非常相似，仅仅在预测过程中加入了乐谱信息。

2.1.4 语音唤醒

语音唤醒(Voice Wake-up)是指响应指定语音指令，唤醒智能终端，如Siri的 " Hey Siri"， Bixby的 " Hi Bixby"。设备在深度休眠时仍以极低功耗的工作，以便智能终端可以响应用户的指令，这是智能助手作为全时待机的必备功能。

2.1.5 声纹识别

说话人识别 ( S p e a k e rRecognition)，又称声纹识别或语者识别，是通过分析说话人的语音信息来确定说话人身份的技术。作为生物信息识别的重要组成部分，说话人识别技术正在得到越来越广泛的使用。

2.1.6 富信息检测与识别

音频信号包括了人类的语音信号和非人类音频信号，语音信号携带了丰富的信息在内，如内容信息，说话人信息（包括身份，性别，年龄，情绪等等），语种信息等等。

2.1.6.1 情感识别

基于语音信号的情感识别旨在通过语音信号判断出说话人的情感状态，如生气、高兴、沮丧等等。

2.1.6.2 语种识别

语种识别(Language Recognition)与说话人识别任务非常类似，所用技术、评价指标也比较类似。语种识别研究一般指的是语种辨认，即一对多问题。语种识别旨在根据语音信号判断出说话人所说语言种类，在多语言语音处理系统中应用比较广泛。

2.1.6.3 声学场景检测

声学场景检测、或称音频场景检测（ Audio Scene Detection）目的是通过采集到的音频信号判断出环境动态、发生事件等等。这项技术主要应用于机器的环境声音感知和基于语义的多媒体信息检索。

根据任务目标不同，声学场景检测可以划分为音频场景分类（ Acoustic Scene Classification）与声学事件检测（ Sound Event Detection）两类。前者是判断一段音频发生时的场景；后者是判断一段音频中发生了哪些声学事件，并给出这些声学事件在音频中的起止时间。

2.2 图像和视频领域

随着ImageNet挑战赛的兴起，在短短7年中优胜者的识别率从71.8%提升到 97.3%，超越了人类，并证明了庞大的数据可以带来更好的决策。同时，卷积神经网络的深度使用也引爆了整个人工智能行业，在图像和视频这个计算复杂度极高的领域，人工智能取得了极好的成绩，在从简单的应用场景，如人脸识别、物体检测、智能安防，到极端复杂场景，如机器人领域等前沿领域获得极大的关注。同样，在智能终端领域，图像和视频也成为AI赋能的重要领域。

2.2.1 文字识别

文字识别是指对画面中的文字进行检测并提取文本信息的一种技术。使用场景不局限于识别笔记、名片、纸质档案，还包括单据、标志牌、品牌Logo，并返回结构化化的结果。

文字识别可应用于许多领域，如阅读、翻译、文献资料的检索等。其中最为典型的移动智能终端应用是拍照翻译。

2.3整机性能管理

在整机管理性能方面，AI功能主要体现在能耗和优化系统管理方面。包括基于用户行为的智能决策来优化能耗管理，基于时间来决定是否关闭或者冻结进程，同时在适合的时机重新恢复系统到正常工作状态。

三、AI移动智能终端测评体系

从整体上看，目前仍为人工智能终端发展的初期阶段，新硬件、新算法、新场景和新架构仍层出不穷。在产业迈向成熟的阶段，客观公正的测评体系将为技术，市场，生态的规范性发展提供重要保障，减少产业的试错成本。

3.1基于测试数据的性能评测

目前来看，不少移动端的AI场景要求更快的响应速度，或者脱离网络环境的 AI计算能力，这是目前基于云或服务端的AI计算所不能解决的问题。

3.2 基于场景的典型评测

AI移动智能终端的最终目的是为用户提供有用的服务。相比于服务本身，如何让人舒适的体验到手机的服务才是解决AI发展的痛点。体验无处不在，场景如影随形。能够谙熟客户服务场景且在此基础上给客户带来更好的体验的企业，才能做好服务。因此，基于使用场景的使用是AI评测的重要方面。

3.3 系统级芯片（SoC）典型评测

SoC 性能的测量非常复杂，因为特定功能具有不同的一连串事件，包含会影响性能的特定要求。比如图像识别性能取决于相机感光元件、图像采集、内部数据传输，以及最后的类神经网络运算速度。相似地，语音识别取决于音频传感器、编码速度、语音特征侦测和类神经网络运算速度。神经处理单元经过特别优化，可以对张量进行数学运算（n维数组值）,可以通过测量每个组件或组件群组的"每时间单位的操作 " (Operations perSecond)，对硬件的性能进行基准测试和度量比较。

评测是基于应用场景的，固定场景内容测试设备完成效率即为硬件评测的标准化。国内知名硬件检测软件鲁大师推出的安卓跑分软件，其中AI评测是基于目前 AI概念在移动设备上的照片、人像识别技术等视觉理念而设计的第一代移动SSOOC AI性能评测benchmark。AI评采用了三种神经网络模型进行测速，这三种神经网络模型都是属于图像识别类型的训练网络，VGGNNet、RReessNet、Inception业内公开的神经网络模型。同样这些模型经过几代发展，有了不同的版本与层级。卷积神经网络模型的深度越多，训练的速度就会越慢，反馈在硬件上的运算速度会有较大的差别。为了适应层次不齐的硬件，我们选择了 VGG16、 ResNet 34、 Inception V3三种成熟的模型。这三种神经网络的作用，简单来说就是判别AI在识别图像中的能力。

3.4 AI 领域基准测试

设计合理的基准测试软件提供准确、一致、相关且公正的标准化测试集。基准测试开发应视为一项合作任务。在快速发展的技术领域中，具备广泛的咨询输入和开放公正的基准测试开发程序至关重要。在产品设计和开发过程中进行设计良好的基准测试，这对业界、产品和消费者体验均有好处。

1）计算机视觉基准测试

适用于安卓的 PCMark 是UL美国公司所开发的一项针对安卓智能手机和平板电脑的基准测试应用程式，包括计算机视觉基准测试，会通过一组三项测试测量装置的图像识别性能。

a) TensorFlow 测试

b) ZXiing 测试

c) Tesseract 测试

2）语音识别基准测试

为了开发全新标准UL拟议针对语音识别性能和准确度开发全新基准测试。 UL提出测试两种情境的语音识别基准测试：分别是长语音识别和短语音识别

四、AI移动智能终端存在问题和挑战

AI移动智能终端的快速成长给用户带来全新体验的同时，也产生了一定的问题。一方面，人工智能技术给移动终端带来了新的安全问题；另一方面，多数终端厂商都有自己的AI平台，没有统一接口，导致大流量应用开发者无法开发出完美适配每个机型的AI功功能，从而限制了AI产业的发展。同时，AI手机的发展仍停留在功能层面，而概念层面的发展则需要整个产业的配合与消费者的认可。只有AI概念的实现与普及才会真正触发用户换机的动力与技术的革新，再现往昔功能机向智能机的跨越式发展。本节将从以上几个方方面做具具体阐述述。

4.1 安全领域带来全新挑战

随着终端计算能力的提升、数据爆发式增长、机器学习算法不断进步， AI移动智能终端作为可以代替人类执行部分任务的助手，已经渗入到了我们生活的方方面面。随着AI移动智能终端和人类日常生活的高度融合，人工智能技术给移动智能终端带来了新的安全问题。当前，AI移动智能终端面对的安全挑战主要面来自三个方面，一是传统的安全挑战，如硬件安全、操作系统安全、网络安全、应用安全等等；二是AI自身层面的安全挑战，如AI模型窃取、机器学习对抗性攻击等等；此外，由于人工智能的实现依赖于海量的训练数据，因此用户面临着前所未有的隐私泄露风险。

4.1.1 传统安全风险在AI移动智能终端上将进一步放大

AI移动智能终端同样面临硬件安全、操作系统安全、网络安全和应用安全等传统安全风险。

4.1.2 场景安全盲点在AI移动智能终端上将进一步融合

对于人工智能在移动智能终端上应用，目前行业主要关注算法功能实现、前景展望等方面，缺乏整体的安全考虑，造成人工智能的安全盲点。人工智能应用面临来自多个方面的威胁，包括人工智能框架中的软件实现漏洞、对抗机器学习的恶意样本生成、训练数据的污染等。人工智能的算法可能被攻击，数据库可能被篡改，网络联系可能被操纵。当数据库或算法被攻击时，算法的训练和更新就会偏离预计的轨道，形成恶性算法，导致人工智能所驱动的识别系统出现混乱，形成漏判或者误判，甚至导致系统崩溃或被劫持，并可以使智能设备变成僵尸攻击工具。

AI技术适用于多种业务场景，包括搜索算法、语音和图像识别等方面，攻击者可从业务安全漏洞出发，攻击AI移动智能终端。攻击者可通过构造恶意的样本，使得人工智能系统在分类识别图片或语音等的过程中触发相应的安全漏洞，改变算法正常执行的控制流或数据流，使得人工智能系统输出攻击者指定的结果。攻击思路基本分为两种，一种是基于数据流篡改的任意写内存漏洞，直接修改AI系统中的一些关键数据(如标签、索引等)，使AI系统输出错误的结果；另一种是通过常规的控制流劫持(如堆溢出、栈溢出等漏洞)进行对抗攻击，由于控制流劫持漏洞可以通过漏洞实现任意代码的执行，可以控制AI系统输出攻击者预期的结果。如大多数的AI移动智能终端具备语音交互功能，攻击者可以通过伪造控制指令音频、或或将攻击指令通过噪声等方式隐藏、甚至制造超声波等方式，对终端发送包括网购、拨打电话、查看文档在内的恶意指令，成用户财产损失、隐私泄露。随着AI其他业务的普遍应用，如图像识别，情感交互等，类似的攻击方式将为继续挑战着AI移动智能终端的安全。

4.1.3 隐私数据安全在AI移动智能终端上将进一步凸显

人工智能算法的准确率高度依赖于海量用户数据的训练分析，尤其需要获取大量用户个人信息，以便提供个性化、定制化服务，这些都加大了用户个人信息泄露的风险。人工智能时代，数据的收集、传输等各个环节都面临着新的风险。在数据收集阶段，大规模的机器自动化地收集着成千上万的用户数据，涉及个人姓名、性别、电话号码、电子邮箱、地理位置、家庭住址在内的方面的数据，这些数据海量收收集形成对用户的全名追踪。AI移动智能终端对于收集和处理个人数据的巨大需求，使得未经授权使用个人隐私和数据的风险大大增加。不同系统和算法需要共享和利用海量用户数据，考虑到成本问题，这对获取用户同意的方式、用户个人数据流转方式都提出了巨大的挑战。数据传输阶段，有些AI移动智能终端未采用安全传输方案，如HTTPS/TLS，存在敏感数据明文传输的问题；或AI移动智能终端实现的安全传输方案本身存在缺陷，易被黑客利用进行攻击，非法获取数据；再者，现有安全传输方案所采用的加密算法，未来也面临着被量子计算机破解的威胁，难以保障用户数据在传输过程中的安全性。

4.2 AI生态布局仍需深入

4.2.1 端侧和云端功能需深度融合

AI工作的负载对于端侧设备性能要求较高，具有密集计算，模型复杂，并发性高等特点。目前厂商的解决方案都是特别针对AI所需运算方面的能力做出优化。

因此，应着重探索端侧和云侧能力的深度融合。一方面，芯片性能的的不断提升必将促进AI功能的深化，使得更多的的AAI场景和计算在端侧落地成为为可可能能。另一方面，随着5G的逐步成熟，超低时延的网络使得云服务的计算结果传回端侧的用户体验得到显著提升。未来，应充分发挥终端侧和云侧的AI能力，为开发者提供优良的平台环境。

4.2.2 基础和共性能力需统一开放

虽然人工智能的应用生态目前正在快速发展，然而在安卓领域，开发者们仍无法逃避碎片化的问题。由于各家厂商的开放能力各不一致，因此开发者们在安卓终端上开发一款AI应用有两种选择。

第一种选择，为了实现跨厂商跨平台的分发，将应用的AI核心算法的实现放在软件层面实现。这种选择会导致厂商为AI构建的底层能力浪费，加大CPU运行的负载，造成资源浪费。第二种选择，对应每家厂商的硬件平台和接口能力定制开发AI功能，充分利用厂商底层硬件和系统级API功能。这种选择会造造成开发者无法专注于应用核心功能的开发，忙于各厂商硬件能力的适配，提高开发成本。

上述两种选择，对于AI生态下的安卓应用生态都较为不利，造成一定程度的开发成本和周期的增加。因此，未来，应注重厂商间协同，将基础和共性的系统级能力统一开放，最大化降低开发者的开发成本。

4.2.3 市场和用户认知需不断培育

不难看出，目前AI手机市场的竞争进入高压态势，厂商使出浑身解数，依托自己"黑科技"施展AI功能，例如AI拍摄，AI美颜，AI语音，AI相册等等。"更懂你"，"更温暖"，"更智慧"等等一系列AI手机概念映入消费者眼帘。但是，这这种AI功能的使用体验与消费者者以往的的""科幻级"期望相差甚远，同时在多种AI概念的的轰炸下，造成消费者的认知混乱，进而引发一定的抵触和怀疑。不可否认，人工智能作为下一风口，他与手机的完美结合，将真正打破行业的的创新瓶颈，未来改变人们的生活。但是就目前来看，AI手机的能力仍未得到充分发挥，未来还有无限的成长空间，这个过程需要整个移动互联网产业各方的配合与消费者认知的改变来加快AI移动通信终端的演进，挖掘衍生的业务价值。相信在不久的将来，我们将见证AI移动智能终端时代的到来。

今天的“2018年AI人工智能行业系列报告（三）”分享就到这里，恭喜你利用碎片时间完成行业知识的学习；

待续。。。。。。

想要下载“2018年AI人工智能行业系列报告（三）”原档的朋友请抓紧时间，该分享于3月24日过期；

小沃告诉你获取方式：

①微信搜索并关注沃邦尼官方微信公众号“Wobony沃邦尼”

②点击下方输入框

③输入“沃邦尼人工智能3”并发送

即刻享原始文档，小沃将和各行业的朋友一起成长；

来源：网络

图片：网络

AI人工智能行业报告（三）

猜你喜欢

热点阅读