CNN的理解

2019-03-05 本文已影响0人 JamesPang_4841

cnn映射如下：

y=f(ai, ...),

ai1=f1(bj..), ai2=f2(bk,..); 其中bj..与bk..的补集不为空。

bj1=f3(cm..),...一直这样下去。

这个结构的网络函数有2个特征：

1，邻域变量强相关

2，权重复制

以上两点就是cnn的适用范围。理解如下：

1的理解，b1, b2若强相关，则其互信息较大，在推测y时，有信息冗余，我们构造一个a1=f1(b1,b2)，不同样本{y,b1,b2}上来后，我们发现只要a1不变，则y的分布P(y|a1)就不变，对应的b1,b2却是可变的，f1映射就去除了b1b2的冗余，精简为a1了。

2的理解，时间空间样本具有平移不变性：给定一张图片样本，对其平移旋转缩放后生成的新样本，仍然是合法的真实样本。这一属性，使得我们可以把f1的权值复制给f2,...

以上是直观理解。

cnn的基本假设是邻域强相关，基本思路是强相关的先合并。但在nlp中，句内有很多的长程关联，cnn不适合句内使用