人工智能/模式识别/机器学习精华专题大数据,机器学习,人工智能

AI最新研究方向和未来趋势

2022-05-08  本文已影响0人  AI信仰者

一、神经网络模型

Capsule:有望取代CNN的新结构

Capsule今年才以论文的形式被人称“深度学习教父”的Hinton老先生发表出来,而且论文一出来就成为研究人员关注的焦点,但是其实这个思想Hinton已经深入思考了很久并且之前在各种场合宣传过这种思路。Hinton一直对CNN中的Pooling操作意见很大,他曾经吐槽说:“CNN中使用的Pooling操作是个大错误,事实上它在实际使用中效果还不错,但这其实更是一场灾难”。

在Capsule的方案中,CNN的卷积层保留,MaxPooling层被拿掉。这里需要强调的是,Capsule本身是一种技术框架,并不单单是具体的某项技术,Hinton论文给出的是最简单的一种实现方法,完全可以在遵循其技术思路情况下创造全新的具体实现方法。

要理解Capsule的思路或者对其做一个新的技术实现其实也不困难,只要理解其中的几个关键环节就能实现此目的。如果用一句话来说明其中的关键点的话,可以用“一个中心,两个基本点”来概括。

这里的一个中心,指的是Capsule的核心目的是希望将“视角不变性”能力引入图像处理系统中。所谓“视角不变性”,指的是当我们给3D物体拍照片的时候,镜头所对的一定是物体的某个角度看上去的样子,也就是2D照片反映3D物体一定是体现出了镜头和3D物体的某个视角角度,而不是360度的物体全貌。那么,要达到视角不变性,就是希望给定某个物体某个角度的2D照片,当看到另外一张同一物体不同视角的2D照片时,希望CNN也能识别出其实这仍然是那个物体。这就是所谓的“视角不变性”(参照图5,上下对应的图片代表同一物体的不同视角),这是传统的CNN模型很难做好的事情。

视角不变性

至于说两个基本点,首先第一个基本点是:用一维向量或者二维数组来表征一个物体或者物体的某个部件。传统的CNN尽管也能用特征来表征物体或者物体的构成部件,但是往往是通过不同层级的卷积层或者Pooling层的某个神经元是否被激活来体现图像中是否具备某个特征。Capsule则考虑用更多维的信息来记载并表征特征级别的物体,类似于自然语言处理中使用Word Embedding表征一个单词的语义。这样做的好处是描述物体的属性可以更加细致,比如可以将物体的纹理、速度、方向等作为描述某个物体的具体属性。

第二个基本点是:Capsule不同层间神经元之间的动态路由机制,具体而言是低层神经元向高层神经元传递信息时的动态路由机制。低层特征向高层神经元进行动态路由本质上是要体现如下思想:构成一个物体的组成部件之间会通过协同地相互加强的方式来体现这种“整体-组成部分”的关系,比如尽管图片的视角发生了变换,但是对一个人脸来说,嘴和鼻子等构成人脸的构件会协同地发生类似的视角变换,它们仍然组合在一起构成了从另外一个视角看过去的人脸。如果从本质上来说,动态路由机制其实是组成一个物体的构件之间的特征聚类,通过聚类的方式把属于某个物体的组成部分动态地自动找出来,并建立特征的“整体-部分”的层级构成关系(比如人脸是由鼻子、嘴、眼睛等部件构成)。

二、 AutoML

通用的AutoML定义如下:

应用

使用Auto-sklearn进行模型选择。

使用强化学习进行neural architecture search。

使用ExploreKit进行自动特征构建。

未来可能的研究方向:

提高AutoML的效率。

更明确的问题定义。

发展基本和高级的搜索策略。

找到更适合的应用。

三、 计算机视觉:平稳发展

除了上述所说的视觉处理的基础研究领域,如果对2017年的新技术进行归纳的话,在很多其他应用领域也可以看到如下的一些明显发展趋势:

首先,增强学习与GAN等新技术开始被尝试用来解决很多其它的图像处理领域的问题并取得了一定进展,比如Image-Caption、超分辨率、3D重建等领域,开始尝试引入这些新技术。另外,深度学习与传统方法如何集成各自的优点并深度融合也是最近一年来视觉处理的方向,深度学习技术具有性能优异等优点,但也存在黑箱不可解释以及理论基础薄弱等缺点,而传统方法具备理论完备等优势,结合两者来充分发挥各自优势克服自身缺点是很重要的。再次,弱监督、自监督或者无监督的方法在各个领域也越来越重要,这是有现实需求的,深度学习虽然效果好,但是对于大量标注训练数据是有要求的,而这又需要大量的标注成本,在现实中往往不可行。而探索弱监督、自监督甚至无监督的方法有助于更快促进各个领域研究的快速发展。

四、 自然语言处理:进展相对缓慢,急需技术突破

最近一年深度学习在自然语言处理领域应用有以下几个值得关注的发展趋势。首先,无监督模型与Sequence to Sequence任务的融合是个很重要的进展和发展方向,比如ICLR 2018提交的论文“Unsupervised Machine Translation Using Monolingual Corpora Only”作为代表的技术思路,它使用非对齐的双语训练语料集合训练机器翻译系统并达到了较好的效果。这种技术思路本质上是和CycleGAN非常类似的,相信这种无监督模型的思路在2018年会有大量的跟进研究。其次,增强学习以及GAN等最近两年比较热门的技术如何和NLP进行结合并真正发挥作用是个比较有前景的方向,最近一年开始出现这方面的探索并取得了一定进展,但是很明显这条路还没有走通,这块值得继续进行深入探索。再次,Attention注意力机制进一步广泛使用并引入更多变体,比如Self Attention以及层级Attention等,从Google做机器翻译的新论文“Attention is all you need”的技术思路可以明显体会这个趋势。另外,如何将一些先验知识或者语言学相关的领域知识和神经网络进行融合是个比较流行的研究趋势,比如将句子的句法结构等信息明确引入Sequence to Sequence框架中等。除此外,神经网络的可解释性也是一个研究热点,不过这一点不仅仅局限在NLP领域,在整个深度学习领域范围也是非常关注的研究趋势。

五、2018年机器学习和人工智能的主要发展是什么?您期望在2019年出现哪些关键趋势?

未来的愿景

1、认知机理研究成果,如何形成可计算的模型,这个我们探索了很多的方法,还需要进一步地完善。

2、在环境感知的拓扑结构信息如何在认知过程中表达与理解。

3、探索新兴的多模态传感器,如把声音视频信息集成在一起。

4、研究人机智能混合问题,这个也是刚刚国家提到的人工智能2.0版本,我们要研究人机混合的智能系统。

5、照片真实感(bigGAN)和视频到视频合成。开发了替代的生成模型(例如神经渲染模型)以在单个网络中组合生成和预测以帮助半监督学习

6、AutoML和深度强化学习,迁移学习

上一篇下一篇

猜你喜欢

热点阅读