浅析”人工智能AI“（一）

2017-08-23 本文已影响0人张凯江

人工智能被喊了几年了，这几天接触一下，用门外汉角度学习分析一下，不讲历史，不说理论，不说遥不可及，都是思考和困惑。多多指正。不是科班出生，专业词汇可能不准，从“产品经理”学习角度梳理体系。

先来张图，下面慢慢解释。

搜了半天资讯，不是人工智能历史就是新闻通告吹牛，收获不大。想用一种大多数it人能理解的模型思考，得到上图。没有扩展到应用领域，聚焦核心逻辑。

一、能框住现有智能应用的思考模型

很多人最直接的接触人工智能大都是从好莱坞科幻大片，如《黑客帝国》《终结者》《月球》...这些大片中都有一个机器人主角，有感情戏码，有背叛戏，有人性戏.... ...，好，就从机器人为例开说。

前提：冯·诺依曼理论体系下，机器必备输入数据和程序的输入设备、输出处理结果的输出设备。数据以结构化存储。我理解的人工智能必须在冯·诺依曼理论体系下。

1、输入输出角度

机器人拯救人类，基本条件是机器人可以与人交流。那么机器人可以接受哪种格式的指令呢，输出呢? 人类删除输出什么？接受什么呢？最直接，输入输出！

人类可用的交互表达方式有哪些?手势动作、声音、指纹、眼神等等，再高级点输入法、乔老爷子流行的手指滑动等等。

机器可用的交互表达方式有哪些？结构化数据。任何传感器，不管形式如何都会转化为二进制结构化数据。

结构化数据与非结构化数据大家度娘理解。对于机器来说，亲近结构化数据。对于人来说，更亲近部分非结构化数据。人类无论是有计算机之前还是之后，都喜欢产生非机构化数据。而且更希望探寻非结构化数据中蕴含的价值。近年非机构化数据的存储和查询发展都不错，人类是懒惰的和不自信的，从数据中获得价值，连决策也想让机器代替。所谓人工智能已各种方式出现了。

回归上图，输入端Context/Environment 和输出端Context/Environment 之间的转化或匹配，我理解为整个人工智能的核心流程。如号称用人工智能筛选的“今日头条”，一端为各种用户画像，一端为定制的咨询。又如这几天武汉火车站智能检票系统。输入端为车票、证件、人脸，另外一端为人脸与证件是否匹配。

为什么我这里标示端Context/Environment（上下文环境），各种端有不同通用语言，不同“法制”界限。假如：我在百度输入框输入”找小姐“，输出端肯定不会正常输出，因为这类环境中是被禁止的。而如果我是公安局民警，在某个公安系统中输入“小姐”，能否得出一些有价值信息呢。再如：阿西莫夫的《我，机器人》中提出的“机器人三定律”等。机器人之间表达情感的独特方式等。这里我暂没有能力精力展开，只是感觉研究好这块，会发散得到人工智能很多应用场景。

2、匹配和转化

人工智能应用可以简单的理解为N个端指令的转化、匹配组合而成。如：我对着手机某应用说，“我饿了，想吃火锅”。那么首先：把语音转化为文字。第二步把文字通过自然语言理解（NLU）转化为”语法模型“，例如：{

"action": "search",

"category": "火锅店",

"city": "北京",

"domain": "restaurant",

"xy": "114.22,39.11"

}，最后应用处理后，可能直接打开某个搜索列表给用户选，或者一段语音播放给用户，让用户继续。... ... 这里面牵扯到转化和匹配。

以上这个案例是所有手机厂商想做的事情，也在尝试。

又如：汽车驾驶时，在高速上加速超车是什么样感受。

传统驾驶：驾驶员想要加速，我通过”物理操作“踩油门。

无人驾驶：能根据道路车辆情况，自动调节车速。在行车之前，车主预设时速，在预设时速范围内，无人驾驶车会根据路况自动加减速。

总结这两个例子，同样加速这个事情。输入端是不一样的，一个是人脑，而无人驾驶呢？是传感器反馈的数据，再经过加工处理，自动产生决策。大家想想传感器接受的是些什么数据呢？红外、车距、道路限速、气候... ...，这些信息如何转化为结构化信息呢。

这个例子可能有些超前，现在所谓互联网汽车都有智能导航系统，开车过程中输入法困难，现在都支持语音输入。语音为非结构化数据，计算机怎么能明白呢，其中就用到ASR语音到文字转换技术。

3、准确率

我觉得这是所有人工智能应用商业化过程必须解决的问题，可能有些场景不需要那么精确，或者有证据，后面能处理。比如：武汉火车站自动检票系统，以我了解人脸识别和证件照比对肯定有误差的，由于发型、证件照年龄等误差率还会不少，但是这个场景下，系统误差率容忍度肯定放宽不少。从场景上，至少给拍照了，出事也好查到证据。

苹果的siri，支持语音拨号，但是大部分人拨号后，都要看一眼联系人对不对。还有阿里支付炒出的虹膜、刷脸、声纹刷密码，都牵扯到准确率。

国内人工智能厂商，科大讯飞有类似语音转成文字的产品。我试用了下，标点符号，分段，多音字等比较多的问题，还需要人工校对。我觉得应该成为准智能，包括很多智能产品由于准确率上不去，只能成为准智能。或者是原来交互模式上的一个补充，比如声音控制电视遥控器，原来按键物理按钮还在。

4、智能交互核心逻辑

按照输入输出模型，每个小细节都可以转化为这五个步骤，图中标示1,2,3,4,5

a、状态感知（传感器）：信息输入。各类传感器、信息采集设备作为人类交互补充。

b、实时分析：针对输入信息分析过程。场景越细，知识领域越小，越准确。比如：我打开百度语音输入，说颐和园，分析结果可能是颐和园的百科；我在百度地图，分析结果可能是地理位置；我在八国联军博物馆少儿机器人说颐和园，可能他输出那段历史。

我有个观点：人工智能由于技术原因，可能会更加强调细分市场。

c、自我决策：现在几乎看到的智能应用，设备也好，都需要人工确认的过程。就现在技术来看，纯粹的人工智能只可能在极其明确的实验场景下，才能自我决策。比如：阿尔法狗。

或者人们可以接受损失场景或者实验n遍。比如：股票的量化投资，基金的智能FOF组合，基金的定投。我不是相信这个智能技术，而是相信它的决策比我更好。

有些人也有言论，说不会思考，不会自我决策，不会自我学习的不算真正的智能。从人的本性上来看，对决策带来的快感或痴迷不可能替代。

d、精确执行

到了这个流程完全是结构化流程了，没有太多说的。执行好坏是应用提供的服务来解决。

e、自我学习

在冯·诺依曼理论下，所有的决策只能在数据分析的基础上展开。自我学习也可认为数据收集的过程。

从另外一个角度，百度在这方面确实有领先的资本。百度搜索框这个入口，为百度提供了多少“需求”啊。现在哪个应用能收集到用户的一手数据，从人工智能方向来说，那发言权是大大的。比如：如果没录入3万多幅专业棋手对局的棋谱，一些列的专业的处理，阿尔法狗怎么可能下棋呢。苹果如果没发布siri玩具让大家把玩，哪里收集如果多的需求数据呢。(ps，siri也是MVP产品的最佳实践呀)

5、支撑环境

a、大数据支撑

人工智能必须有数据作为支撑，无容置疑。所有分析、决策也是在大数据基础上。单独搞算法的科研机构或者院校，我认为不掌握数据，终究搞不过百度、阿里、腾讯、京东、美团... ..互联网大佬的。某些应用国外企业也分不了多少蛋糕

b、算法支持

单纯的算法没什么价值，基于大数据分析类才可能发挥更巨大的价值。（ps好几家互联网大佬一直在找机器学习人才）

二、较成熟的”算法“案例

参照输入输出模型整理。

1、ASR:语音转换为文字。例如：新的交互入口，特殊人群场景下交互方式。如残疾人士，快速记录，如呼叫中心案例收集数据

2、NLU:自然语言理解，文字转化为”结构化模型“。 搜索引擎，手机siri等，语音转化为特定的应用。nlu是nlp子集，可算人工智能最大瓶颈。

3、TTS：文字转化为语音。特殊输出场景，导航。盲人作为接收端等。

4、OCR：图片转化为文字。身份证，名片，图书。

5、HWR：手写识别。特定人群、场景，特殊交互模式。

6、AFR：人脸识别。安全警用，出入境，刷脸支付等等。

7、VPR：声纹识别。密码相关

8、FPR：指纹识别。密码相关

9、MT：机器翻译。语言翻译。

相关类似可以参照阿里云提供的很多服务，也有很多api接口提供。

全文完！

下篇预告（关于人工智能应用的分类、案例、厂商）

浅析”人工智能AI“（一）

猜你喜欢

热点阅读