2018-10-16 深度神经网络的入门学习之旅

2018-10-15 本文已影响0人杨廣xiang

好久没有更新。最近又学到不少知识，记录一下。8月份，试用了 end-to-end 的 DCNN 来学习人类驾驶。但最终的比赛中，仍是 rule-based 结合深度神经网络效果是最快的。

CNN

为了识别路牌，学习了CNN。使用这个网络可以很好的对图片进行分类。

1. 数据的准备

2. 训练和验证

3. 性能测量

4. 用于目标检测

Faster R-CNN

这个是为了目标检测。从知道这个技术到跑通，只用了大约两天的时间。身后有狗，就是跑的快。

跑通这个网络的主要要解决的问题是：如何使用自己的数据，建立 Fster R-CNN模型。网上有不少人写出来自己的过程，我写出我的过程。

1. 找到合适的开源代码

https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3.5

需要在Windows下运行，并使用的是TensorFlow。支持这个要求的只有这个项目。

2. 建立环境

这个开源项目必须要使用Python 3.5.0。手工安装后，在安装相关的 pip 包时，遇到问题。一个包没有合适的源。所以，转而使用 Anaconda。

Anaconda 最新的版本里，建立 Python 3.5 环境时，安装的已经是 Python 3.5.X，而不是 3.5.0。所以又向前找 Anaconda 的旧的版本。它的 2.4.0 和 2.5.0 里安装的是 Python 3.5.0。

3. 明确需要准备哪些数据

为了降低工作量，也就是说，不要修改代码，我们最好顺从项目本身对数据规格的要求。包括，文件名，XML文件的格式，目录结构等。对于 Faster R-CNN来说，有两套数据集，也就对应了两套数据格式： MS Coco 和 VOC2007。

这个项目支持的是后者。那我们就按后者要求的数据格式来。

Faster R-CNN，需要下面的数据：

预训练的 VGG16模型或是 Res101，或是基它的特征抽取模式。（这个项目支持的是 VGG16）

训练用的图片

每个图片对应的区域标注数据（以文件形式。VOC2007是XML文件，还有一种是TXT）

4. 准备数据的过程

预训练模型在开源项目Faster-RCNN-TensorFlow-Python3.5的网页上有下载地址，可以直接下载。5xxMB

训练用的图片就需要自己收集或是采集。大约180张左右。

标注数据，可以使用这个开源软件 labelImg 来制作。软件会为每个图片单独生成一个xml文件。

图片数据按上面的目录结构安放。

Annotations 放 XML 文件。

ImageSets 放索引文件（文本），指明那些文件是用于训练，那些是用来评估。

JPEGImages目录下放 jpg文件。文件名最好是000001.jpg ~ 999999.jpg。

另外一个注意点是，数据的完全绝对路径中不要用中文。

上图中有一个 gen_main.py 程序，这个是用来生成 ImageSets 中的索引文件的。这些索引文件格式很简单，就是一个纯文本的列表文件。

文件内容就是一行一行的文件名（不带扩展名）。训练程序根据这些文件的指引，加载图片。

5. 训练和验证

在开始前，注意要修改代码中的 class 数量。比如，我这里只有一个类，就需要把代码中的设置为1。

执行项目 Faster-RCNN-TensorFlow-Python3.5-master 中的 train.py 就可以开始训练了。

执行项目中的 demo.py 就是验证。

生成的模型会在下面的目录中：

6. 解决性能问题

在 Faster-RCNN-TensorFlow-Python3.5-master\lib\config 里的 config.py 文件中，是有很多参数可以修改的。通常我们不需要修改。

为了性能的需求，我修改了下面的几个参数：

rpn_top_n ，这个是用来评估的 proposals 的数量。越大，就意味着越多的计算。设置小了，可能会不准确。

最初，这个值是300，分析一个图片，需要1.9秒。把这个参数设置为1，需要0.9秒。但仍不满足要求。

DQN 与 Deepmind

以上两个，都是为了图像识别。这个则是为了解决打牌的问题。让AI自己学习如何打红心，并自行训练，提高自己的战力。类似与 Alphamaster，就是 AlphaGo的升级版，可以自我对战，学习，提高。

目前比赛中，水平最高的，已知其使用的是MCTS算法。算是轻度AI了。我使用DQN写的，战力很弱，也许需要训练1亿轮才行？目前一天只能练150万轮。当然，这是我的猜测。

总结

以上，都是知其然，而不知其所以然，不过，DL 或者说深度神经网络最终一定是演变成 engine or SDK。软件工程师只需要使用它们就好。可以解决问题就OK。

参考

https://www.corelan.be/index.php/2011/07/14/mona-py-the-manual/

optiva-framework - scan tools

https://blog.csdn.net/hongxingabc/article/details/79039537

https://blog.csdn.net/gvfdbdf/article/details/52214008

https://blog.csdn.net/sinat_30071459/article/details/50723212

https://blog.csdn.net/j497205974/article/details/80074494

https://blog.csdn.net/weixin_40920228/article/details/79561524

https://cloud.tencent.com/developer/article/1010754

http://blog.leanote.com/post/braveapple/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8%E8%87%AA%E5%B7%B1%E6%95%B0%E6%8D%AE%E9%9B%86%E8%AE%AD%E7%BB%83Faster-RCNN%E6%A8%A1%E5%9E%8B

https://www.jiqizhixin.com/articles/2018-02-23-3

https://zhuanlan.zhihu.com/p/31772360

https://blog.csdn.net/weixin_31200719/article/details/81220924

https://medium.com/@jonathan_hui/object-detection-speed-and-accuracy-comparison-faster-r-cnn-r-fcn-ssd-and-yolo-5425656ae359

https://zhuanlan.zhihu.com/p/32230004

https://zhuanlan.zhihu.com/p/32404424