10分钟快速入门PyTorch (6)

2017-06-04 本文已影响142人 SherlockLiao

在上一节中，我们解释了最基本的RNN，LSTM以及在pytorch里面如何使用LSTM，而之前我们知道如何通过CNN做MNIST数据集的图片分类，所以这一节我们将使用LSTM做图片分类。

对于LSTM，我们要处理的数据是一个序列数据，对于图片而言，我们如何将其转换成序列数据呢？图片的大小是28x28，所以我们可以将其看成长度为28的序列，序列中的每个数据的维度是28，这样我们就可以将其变成一个序列数据了。

Code

model

class Rnn(nn.Module):
    def __init__(self, in_dim, hidden_dim, n_layer, n_class):
        super(Rnn, self).__init__()
        self.n_layer = n_layer
        self.hidden_dim = hidden_dim
        self.lstm = nn.LSTM(in_dim, hidden_dim, n_layer,
                            batch_first=True)
        self.classifier = nn.Linear(hidden_dim, n_class)

    def forward(self, x):
        # h0 = Variable(torch.zeros(self.n_layer, x.size(1),
                                #   self.hidden_dim)).cuda()
        # c0 = Variable(torch.zeros(self.n_layer, x.size(1),
                                #   self.hidden_dim)).cuda()
        out, _ = self.lstm(x)
        out = out[:, -1, :]
        out = self.classifier(out)
        return out

model = Rnn(28, 128, 2, 10)  # 图片大小是28x28
use_gpu = torch.cuda.is_available()  # 判断是否有GPU加速
if use_gpu:
    model = model.cuda()
# 定义loss和optimizer
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

这里我们定义了一个LSTM模型，我们需要传入的参数是输入数据的维数28，LSTM输出的维数128，LSTM网络层数2层以及输出的类数10。

在网络定义里面首先需要定义LSTM，而长度为28的序列传入LSTM之后输出的也是长度为28，而输入的维数是28，输出的维数由我们定义为128，最后我们只取输出的最后一个部分传入分类器求出分类概率。

out = out[:, -1, :]通过这种方式，out中的三个维度分别表示batch_size，序列长度和数据维度，所以中间的序列长度取-1，表示取序列中的最后一个数据，这个数据维度为128，再通过分类器，输出10个结果表示每种结果的概率。

另外上面注释掉的部分就是初始的h_0和c_0，这里可以自己定义，如果不定义，默认传入0，也可以根据自己的要求传入自己定义的h_0和c_0。

Train

训练过程的batch_size设置为100，learning_rate设置为0.01，训练20次，最后得到的结果如下

可以发现对于简单的图像分类RNN也能得到一个较好的结果，虽然CNN更多的用在图像领域而RNN更多的用在自然语言处理中。RNN和CNN互相之间的比较以及各自的优缺点可以去网上查一查。

所以下一节我们将介绍一下RNN在自然语言中的应用。

本文代码已经上传到了github上

欢迎查看我的知乎专栏，深度炼丹

欢迎访问我的博客

10分钟快速入门PyTorch (6)

Code

model

Train

猜你喜欢

热点阅读