Chainer入门

2017-03-01 本文已影响8629人阿阿阿阿毛

1. 为什么要Chainer?

大多数现有的深度学习框架都是基于”Define-and-Run“的方案。也就是说，首先要有一个预先被定义的网络结构，然后用户才能给这个网络去喂数据。因为所有的网络都是在前向／后向传播计算完成之前就定义好的了，所以所有的逻辑必须以数据的形式嵌入到网络结构中去。

然而，Chainer采纳了“Define-by-Run”的方案，比如网络是通过实际的前向计算在运行中定义的。更确切地说，Chainer存储计算的历史而不是编程逻辑。这个策略使我们能够充分利用Python中编程逻辑的力量。例如，Chainer不需要任何魔法来将条件和循环引入网络定义。定义方案是Chainer的核心概念。

总而言之，Define-and-Run“的方案是结构领着数据走，有了结构才能够通过喂数据来训练网络。而Define-by-Run”的方案是数据领着结构走，有了数据参数的定义才有网络的概念，数据走到哪，网络延伸到哪。

2. 一个简单的网络搭建

2.1 前向传播／反向传播的计算

x=Variable(np.array([[1,2,3],[4,5,6]],dtype=np.float32))

y=x**2-2*x+1

y.grad=np.ones((2,3),dtype=np.float32)

y.backward()

x.grad

在这个例子中就可以看出来，并没有先预先定义一个结构。而是有了x,y的变量，通过调用y.backward()来实现反向传播的计算。

2.2 Links

为了写神经网络，我们不得不用一些参数去把不同的函数结合起来并且优化这些参数。所以，就需要用Links来做这件事情。Link只是一个能容纳参数的对象。

一个最经常使用的links就是linear link。它代表了数学表达式f(x) = Wx + b.

f=L.Linear(3,2)

这个代表的是一个输入为三维，输出为二维的线性方程。此外，大部分的方程和links都只接受mini-batch的输入，也就是说，第一维被默认为batch的维度，所以，在上面的例子中，输入必须是有着（N,3）的形状。

所有的参数都以属性的形式存放。在上面的例子中，W和b存放在f的属性中，可以通过：

>>>f.W.data

array([[ 1.01847613, 0.23103087, 0.56507462],[ 1.29378033, 1.07823515, -0.56423163]], dtype=float32)

>>>f.b.data

array([ 0., 0.], dtype=float32)

默认的，W和b都是随机初始化。

所以，合起来，一个完整的例子如下：

>>>x=Variable(np.array([[1,2,3],[4,5,6]],dtype=np.float32))

>>>y=f(x)

>>>y.data

array([[ 3.1757617 , 1.75755572],[ 8.61950684, 7.18090773]], dtype=float32)

梯度这个参数通过调用backward()方法来实现。注意的是，这个梯度是被累加起来的。所以每次调用之前，需要对梯度进行清零操作。

>>>f.cleargrads()

所以完整的例子是：

>>>y.grad=np.ones((2,2),dtype=np.float32)

>>>y.backward()

>>>f.W.gradarray([[ 5., 7., 9.],[ 5., 7., 9.]], dtype=float32)

>>>f.b.gradarray([ 2., 2.], dtype=float32)

2.3 用chain来写一个模块

大部分的神经网络都包含许多个links。比如，一个多层感知起由多个线性层组成。接下来就写一个这个的例子：

>>>classMyChain(Chain):

...def__init__(self):

...super(MyChain,self).__init__(

...l1=L.Linear(4,3),

...l2=L.Linear(3,2),

...)

.....def__call__(self,x):

...h=self.l1(x)

...returnself.l2(h)

2.4 优化器

>>>model=MyChain()

>>>optimizer=optimizers.SGD()

>>>optimizer.use_cleargrads()

>>>optimizer.setup(model)

setup()方法只是为优化器提供一个link。需要改梯度衰减值之类的需要调用：

>>>optimizer.add_hook(chainer.optimizer.WeightDecay(0.0005))

使用优化器

方法1:

>>>x=np.random.uniform(-1,1,(2,4)).astype('f')

>>>model.cleargrads()

>>># compute gradient here...

>>>loss=F.sum(model(chainer.Variable(x)))

>>>loss.backward()

>>>optimizer.update()

方法2:

>>>deflossfun(arg1,arg2):

...# calculate loss

...loss=F.sum(model(arg1-arg2))

...return loss

>>>arg1=np.random.uniform(-1,1,(2,4)).astype('f')

>>>arg2=np.random.uniform(-1,1,(2,4)).astype('f')