深度机器学习的能力模型
请注意一下题目,我在这里谈论的范畴是深度机器学习,换句话说,线性回归(LR),逻辑回归(LR),支持向量机(SVM),K-Means,决策树(DT),随机森林(RT),主成分分析(PCA)等等机器学习并不在这个讨论之列,只有以仿真动物脑神经结构的卷积神经网络(CNN),循环神经网络(RNN),全连接神经网络(FCN)以及它们之间各种组合,变种在此讨论之列,这是个非常窄的范围。为什么我放着汗牛充栋的成熟机器学习理论和实践,却专门谈论深度机器学习呢?因为在2016年9月21日,蒙特利尔举办的CDLM大会上,我的大神Yoshua Bengio宣称:“未来没有什么可以和深度学习竞争的机器学习技术了”,就这么简单,没有理由,我的大神说了。
因此,接下来我们可以放心的在深度学习这个看上去很专一,但是实际上一样是百花齐放的领域去构建能力模型。能力模型这个东西是我在埃森哲做咨询规划的时候学习到的一个重要概念。从逻辑上来说,达成目标,需要具备相应的能力,能力和目的于是形成了有效的映射,所以我们建立能力模型的目的是响应我上一篇文章《人工智能新解》里面提到的,罗马不是一天建成的,那么罗马是怎么一天一天的建成的,能力模型就是最好设定里程碑,或者阶段性成果的方式。
细心的读者可能注意到,我在《人工智能新解》里面并没有区分深度机器学习和机器学习,而在这里我强调了深度机器学习。这是因为作为常识,我认为在能力模型的基础是一切非深度机器学习技术,这都是在过去将近60年不断演进发展成熟的技术,Garnter曾经有一张技术演进图展示了这一成果,可惜我没有花钱订阅,虽然我看过,但是版权问题我不能在文章里面展示出来。不知不觉,我已经给出了第一个级别的能力,0级。它的存在只是作为整个深度机器学习能力模型的基础,M级的能力是分类和聚类。
接下来的能级是1级,这就是使用巨维向量作为输入实现分类的无状态神经网络,它们的能力全靠训练的数据集的质量。典型的代表是全连接神经网络(FCN),当红炸子鸡卷积神经网络(CNN)以及它们不带记忆的组合。
上面我已经提到了“不带记忆”的组合,这就把LSTM(Not_GOD翻译的《理解LSTM网络》可以去看看),这个1997年就提出来,但是到了最近才大红大紫的技术当成1级能力之上的2级来看待了。2级能力是在分类能力的基础上进行记忆,神经网络不仅仅是计算网络,也是存储网络。大名鼎鼎谷歌旗下的DeepMind的神经图灵机(NMT)和最新发表的可微分神经网络(DNC)都是带有存储能力的。
接下来要描述的能力,我,戴德曼准备好各位的砖头和口水。因为我不认为目前有人已经做成这样的神经网络,能够够得上边的,微软的知识图谱(MCG)和概念标签模型(MCT)。这是依靠蛮力从数以亿计的网页和多年积累的搜索日志提取出来的分类和标签,但是并没有完全和神经网络结合在一起,至少我没有在CNTK里面看到类似的研究,如果未来真的是CNTK内置MCG和MCT,那就算是我提前建议的吧。因此,我认为第3级能力是神经网络是构建在知识库基础上的带存储的系统。这个存储不是原始的数据参数,或者特征提取物,而是知识,或者说符号化的数据特征体系。
我在区分一级和另一级能力的时候特别重视上层网络具备下层网络的能力还要有所进步。因此,第4级能力的网络,相比第3级而言,肯定是携带知识库的网络,但是厉害了word神经网络,这可是可以自我学习的神经网络。也就是神经网络自己丰富自己携带的知识库。现在有这样的技术吗?我认为未来会有,所以我认为这就是第4级。
再往上,我都不敢想神经网络会发展成什么样子。因为支撑神经网络的计算基础可能会发生变化,生物科技,神经细胞学的新发现可能会跳过无数的数学推理,直接把精巧的生物神经架构呈现给我们;量子科技,量子计算机发展可能会极大提高神经网络的计算力,现在你我的笔记本运行15层网络就不堪重负,而量子计算可能直接让上千上万层网络的计算弹指一挥间完成。所以我不再自以为是的再分什么第5级,第6级。我把这个分类开放,留待时间去证明,但是我猜想,如同我们身体内的细胞有分工合作的红细胞,白细胞等等,未来高级的神经网络已定是分工合作,自学习,自组织的。我们现在比较类似的雏形是对抗网络,但是远远还不能达到这个第5级。
到这里,让我们回顾一下:第0级,如同草履虫般的各类单细胞原始形态机器学习;第1级,如同水螅一样的分类神经网络,但是没有记忆;第2级,携带状态的神经网络;第3级,携带知识的神经网络;第4级,能够自我学习丰富携带知识的神经网络;开放给更复杂协作网络群落。
这里我埋一个坑,以后有机会讲,那就是我没有提到强化学习。