Machine Learning & Data Analysis机器学习深度学习·神经网络·计算机视觉

卷积神经网络看见了什么

2018-04-22  本文已影响342人  刘开心_8a6c

这是众多卷积神经网络可视化方法之一,方法来自于论文《Learning Deep Features for Discriminative Localization》,论文译文在[翻译]Learning Deep Features for Discriminative Localization

这篇文章的核心思想是提出了一种叫Class Activation Mapping(类激活图)的方法,可以通过它将CNN在分类时“看”到的东西可视化出来。它的原理是:CNN的卷积层包含大量位置信息,使其具有良好的定位能力,但是全连接层使这种能力丧失,如果只保留最后一个用于分类的全连接层(特指softmax),把其余全连接层替换成全局平均池化层(Global Average Pooling)层,就可以保留这中定位能力,把最后一个softmax层各个单元的权重与最后一个卷积层的输出相乘(求加权总和),绘制热成像图,得到的结果就是一个类激活图。

举个例子,假设图片经过最后一个卷积层的shape为(14,14,512),第一维和第二维代表宽高,第三维代表卷积层深度,softmax层的shape为(512,10),第一维代表unit数,第二维代表分类数,想得到某一个类的类激活图,就用通过最后一个卷积层的矩阵乘以sotfmax某类的矩阵,即(14,14,512)的矩阵乘以(512,1)的矩阵,得到(14,14,1)的矩阵,也就是那个类的类激活图,下面是类激活图


司机驾驶状态分类

论文中提到最后一个卷积层输出的分辨率越高,定位能力越强,得到的CAM图越好。对应的处理方法就是不仅要砍掉全连接层,还要砍掉一些卷积层,使分辨率控制在14左右。下面是论文中图,与上图最大差别就是有红色,原因可能是分辨率问题,也可能单纯是颜色表示问题,还需要进一步实验确定,但是并不影响可视化,分类准确率也在90%以上。

狗分类

其实到这里很自然会有一个疑问:砍掉那么多层,准确率会不会降低?

答案是肯定的,但不会降低很多,可以通过微调来保持网络准确率。

下面是大家最关心的代码部分,我使用的基于TensorFlow的Keras,所以颜色通道在最后,使用其他框架的同学调一下就好,过段时间会放到Github仓库

def visualize_class_activation_map(model, img_path, target_class):
    '''
    参数:
        model:模型
        img_path:图片路径
        target_class:目标类型
    '''
    origin_img = get_im_cv2([img_path], 224, 224, 3) # 这是一个自定义读取图片函数
    class_weights = model.layers[-1].get_weights()[0] # 取最后一个softmax层的权重

    final_conv_layer = model.layers[17] # 这是最后一个卷积层的索引
    get_output = K.function([model.layers[0].input],[final_conv_layer.output, model.layers[-1].output])
    [conv_outputs, predictions] = get_output([origin_img])

    conv_outputs = conv_outputs[0, :, :, :]
    cam = np.zeros(dtype=np.float32, shape=(14, 14)) 
    
    for i, w in enumerate(class_weights[:, target_class]):
        cam += conv_outputs[:, :, i] * w

    cam = cv2.resize(cam, (224, 224))
    cam = 100 * cam
    plt.imshow(origin_img[0])
    plt.imshow(cam, alpha=0.8, interpolation='nearest')
    plt.show()

以上内容来自822实验室神经网络知识分享
我们的822,我们的青春
欢迎所有热爱知识热爱生活的朋友和822思享实验室一起成长,吃喝玩乐,享受知识。

上一篇下一篇

猜你喜欢

热点阅读