人工智能导论(中)
四、人工智能发展的成功要素
三个要素:先进的算法、足够的数据、执行先进算法和处理大数据的能力(硬件系统)。
现在的人工智能算法是以深度学习为代表的机器学习算法。目前,已有的各类深度学习算法已经非常成熟,不论算法的精确性还是鲁棒性也越来越好;其中,计算机视觉领域是深度学习算法应用最广泛、也是效果最好的场景,目前开发出来网络结构可谓是五花八门、各式各样。
1. 最左侧的图,是以“卷积神经网络”为代表的架构,它可以通过更深的网络、新的分层设计等等来继续提升神经网络的性能。
2. 其次是“循环神经网络”,比如擅长于长序列模式分类的LSTM模型架构,基于这一类架构所构造的模型在一定程度上已经实现了超越人类的语音识别和语言翻译能力。
长短期记忆(Long Short-Term Memory,LSTM)是一种时间递归神经网络(RNN),适合被用于处理和预测时间序列中间隔和延迟非常长的重要事件。
3. 第三个是大红大紫的“生成对抗网络”,它是要求让网络经过训练来进行判别,而另一个网络则不断学习和生成事例,以欺骗另一个网络,最终就可以产生图像、语音等等复杂的非结构数据。
4. 最后是“强化学习”的架构,它可以通过反复的试错,并且根据价值函数对机器进行奖惩,在工艺界用到的各种智能机器人就是利用强化学习来进行行为学习的。
感知器是神经网络最简单的一种形式,受到神经元模型的启发。
论文:可以使用反向传播算法来去学习表征 GPU是AI芯片的一种通用型芯片 论文:利用GPU实现大规模的无监督深度学习GPU的核心特点是可以同时并行处理海量的数据。神经网络结构中,最基本的计算工作就是要执行大量的矩阵运算,所以GPU这种高性能硬件就特别适合于深度学习的训练。
五、人工智能迅速发展的技术领域
人工智能领域内的3大基本应用场景:计算机视觉、语音技术、自然语言处理。
深度学习技术是非常擅长识别非结构化数据中的模式的,比如人们熟知的图像、声音、视频、文本等媒体都属于此类数据。那么,对人工智能的基本应用场景分类也是大致按照数据的结构特点来分类的。
目前,计算机视觉技术已经进入到了规模化商用的初期。计算机视觉技术在高性能计算芯片、深度摄像头和深度学习算法的推动下获得了快速的发展,市场空间巨大,应用产品层出不穷,成为了人工智能应用的急先锋。指纹识别、刷脸支付、机场自动通关、增强现实、无人驾驶等,都是图像识别技术快速普及的一个缩影。
语音技术可以说是最早落地的人工智能技术。在人工智能快速发展的今天,得益于深度学习和人工神经网络的发展,语音识别取得了一系列的突破性进展,在产品应用上也越来越成熟。
总体来说,自然语言处理技术取得突破还仍需时日。在2016年,自然语言处理取得进一步发展的一年,自然语言处理的主流技术已经逐渐地从统计机器学习为主,转向了以深度学习为主的模型算法中去。
5.1 计算机视觉
从广义上说,计算机视觉就是赋予机器自然视觉能力的学科。所谓“自然视觉能力”就是指生物视觉系统所体现出来的视觉能力。
深度学习正是在计算机视觉领域的孕育中得以快速的突破和发展的。
图像分割是计算机视觉的核心问题,是将整个图像分成一个个像素的对象,然后再对其进行标记和分类,由此实现的像素级别的分类。与“分类”不同的是,需要用模型对密集的像素进行预测。
目标检测技术对于无人驾驶领域是非常重要的。
目标检测是近年来理论和应用的研究热点,是图像处理和计算机视觉学科的重要分支,是智能监控系统的核心部分,同时目标检测也是泛身份识别领域的基础性算法,比如人脸识别、步态识别、人群计数等任务,都起着至关重要的作用。
可以理解,如何实现多类别、多物体的检测,是目标检测算法运用到实际需求中必须达到的要求,比如自动驾驶领域。如何提高小目标物体的检测精度,是目标检测算法应用的一个关键问题。
图像分割是像素级别的图像分类问题图像分割可以作为预处理,将最初的图像转化为若干个更加抽象、也更加便于计算机处理的形式,既可以保留图像中重要的特征信息,也可以有效的减少图像中的无用数据,提高后续图像处理的准确率和效率。比如,在通信方面,可以事先提取目标的轮廓结构和区域的内容,保证不失有用信息的同时,有针对性的去压缩图像,以提高网络传输的效率。
凡是与目标检测、提取和识别等相关的内容,都会需要运用到图像分割技术。因此,无论是从图像分割的技术和算法,还是对图像识别、图像处理、计算机视觉的影响,以及实际应用等各个方面来深入研究和探讨图像分割,都是具有非常重要的意义的。
5.2 语音技术
语音识别又称为自动语音识别、语音转文本识别;与说话人识别和说话人确认是不相同的。
5.3 自然语言处理
自然语言处理是一门融合了语言学、计算机科学、数学等为一体的学科。
计算机视觉是让机器可以“看”,语音识别是让机器可以“听”,自然语言处理就是要更进一步,让机器可以“理解”,更加的善解人意,它推动着语言智能的持续发展和突破。
目前,深度学习技术还不具备理解和使用自然语言中所必须的概念抽象和逻辑推理的能力,所以这方面的研究还有待未来进一步的发展。
1. 文本分类:对于给定的一个文本例子,预测一个预定义的类标签;文本分类的目的是要对文档的话题或主题进行分类,比如流行的分类事例就是情绪分析,其中的类标签就是要表示原文本的情绪基调,是积极的还是消极的。举个例子——1)垃圾邮件的过滤,就是要实现电子邮件文本分类是否是垃圾邮件;2)语言的识别,对原本文本的语言的类型进行分类,可以实现流派的分类。
2. 机器翻译:也称自动翻译,是计算语言学的一个分支,也是人工智能的终极目标之一。
3. 知识图谱:在图书、情报界称为知识域可视化、知识领域的映射地图,显示的是知识发展的进程和结构关系的一系列各种不同的图形,然后用可视化技术来描述知识资源以及相关载体,通过挖掘、分析、构建和绘制显示出知识与它们之间的相互联系。
4. 对话系统:比如,聊天机器人、自动问答技术。自动问答技术是人工智能领域中一个非常热门的研究方向,它综合运用了自然语言处理、信息检索、语义分析、机器学习等人工智能技术的一项新型信息服务技术;可以自动的分析、理解用户自然语言的提问,然后直接返回用户想要的答案。
5. 信息检索:用户进行信息的查询和获取,这也是查找信息的主要方法。狭义的信息检索指信息的查询,也就是用户根据需要采用一定的方法、借助检索的工具,在信息集合中能够找出所需要的信息的一个查找过程。
6. 文本生成:这是一个比较学术的说法,通常在媒体上见到的叫做写作机器人或人工智能写作、自动对话生成。在自然语言处理中,一个重要的应用领域就是文本的自动撰写,包括关键词抽取、关键短语抽取、自动摘要提取,都属于文本生成领域的一个应用。
目前,文本翻译最为主流的工作方式依然是以传统的统计机器翻译和神经网络翻译为主,比如谷歌、微软、百度、有道等公司都在为用户提供免费的、在线的、多语言翻译系统,速度快、成文低是文本翻译的主要特点,而且应用非常广泛,不同行业等可以采用相应的专业翻译。
另外,语音翻译可能是目前机器翻译中比较富有创新意味的领域,比如某些公司推出的机器同传技术,在会议场景中出现,演讲者的语音可以实时的转换为文本,并且进行同步翻译,这种低延迟显示翻译的效果希望能够取代人工同传,实现不同语言人们低成本的有效交流。
当前,对话系统在各个领域越来越引起人们的重视,深度学习技术的不断进步也会极大的推动对话系统的发展。对于对话系统,深度学习技术就可以利用大量的数据来去学习特征表示和回复生成策略,这其中仅需要很少量的手工操作。
任务导向型的对话系统:为了帮助用户完成实际、具体的任务,比如帮助用户寻找商品、预定酒店餐厅等。
非任务导向型的对话系统:与人类交互,提供合理的回复和娱乐消遣的功能,通常情况下主要集中在开放的领域与人交谈。非任务导向的系统似乎在进行聊天,但是它在许多实际应用程序中都可以发挥出巨大的作用。
- TBC -