自然语言处理-自动推理与深度学习-我的一点哲学思考
人们在做科研的过程中,人们通常观察现象,然后归纳假设总结规律,然后人们依据这些规律或者一些普遍的现象,再进一步地去总结出若干公理。人们会在这些公理的基础进行逻辑推演,得到更多的结论。不过更多时候,我们就是为了加强条件而去做推演。结论的强度和多样说明了公理的普适性,或者说公理所能探寻的上界。
总的来说,我们事实上要做两件事情,一是归纳假设,二是逻辑推演。那么对比来看,自然语言目前非常流行深度学习,但在我看来深度学习依然停留在归纳假设的阶段,并且这种归纳假设是粗糙的软性的,它更像是在认识获取整个数据所构成的空间的形态在概率上的分布。更确切地说,我认为我们并没有直接考察数据的分布情况,更多是考察数据的特征在概率的意义下的分布情况。这个有时候会显得数据的利用非常片面。我们不能进一步地挖掘数据的各种特征之间的关系,比如他们之间的相关性,他们之间相互的约束。我们更不能挖掘更深层次的因果关系进行推断,更多的时候得到是相关性。顺便说一句,人们之所以会认同相关性,一个背后的哲学理念是相关性越高,因果性越强,当然这不是绝对的。人们往往会提出一个因果关系然后通过预测看看是否与此因果关系相吻合。从数学的语言来说,我们潜在地承认有一个高维的概率空间和高维的随机变量,我们可以构造一个可测映射从高维的随机变量到具体的离散的实随机变量,我们在训练过程得到的实际是这个离散的随机变量的分布或者比较特殊的就是高维随机变量的边际分布。我们真正想到的是这个随机变量的分布和合适的可测映射,以及这个随机变量的一些几何性质,这些几何性质往往会决定各种特征之间的约束。所以我们要学习的或许是整个数据的几何形态和它的分布情况。
这更像是经验和规律,然而并没有进行推理,获取数据更多的特征,进一步限制数据的空间。我想在这样的情形下,逻辑链的生成是概率上的,我们通过预测来判断逻辑的合理性,最后敲定最好的那个逻辑。另外一种,把所有数据可能得空间都去考虑,在这个大空间上,考虑一般的逻辑,再限制到我们具体的空间上去考虑,也能得到不少结论。