在BDD上训练CFENet并添加repulsion loss
感谢大佬开源了CFENet,自己在refinedet上加了cfe模块,不过还是没啥效果。所以,还是用用大佬开源的代码吧。
代码地址:https://github.com/qijiezhao/CFENet/tree/working 目前还在working分支下 还没有merge到master
恩,顺带学习了一下git 的命令,比如切换分支啥的
1.clone代码到本地
git clone https://github.com/qijiezhao/CFENet.git
cd CFENet
git checkout working
git pull origin working
2.参照大佬的readme装东西
#安装pytorch,哎,tensorflow的坑还没有跳出来,又有新坑来了
conda install pytorch torchvision -c pytorch
pip install opencv-python,tqdm
#编译coco tool 和nms 感觉这块来自py-faster rcnn?不太清楚,毕竟没有跑过rcnn系列,不过看到另一个ssd里面有这一块代码,然后注释里面就是,猜测应该是那里来的吧
sh make.sh
3.准备数据集,打算用bdd100k的数据,代码里提供了voc和coco的数据读入,自己先把数据转成了coco
这里借用了一个脚本,直接运行就好了
https://codeload.github.com/touchsunshine/convert_bdd100k_to_coco_format/zip/master
里面的话有个bug
78行改成filepath = filepath + '.jpg' 就ok了
然后就开始改源码啦
先copy了一份 coco.py 为coco_bdd.py
主要是读数据,json文件的路径,以及对应的图怎么读
之前的话json是根据dict的名字组合起来读的,自己改了一下,写死了一些,然后之前图是根据id来,直接把id变成路路径,估计是coco数据集本身imagename和image idx 就一样(差的就是长度),自己的话要根据image idx 去读取image name。主要还是要看懂代码
然后在所有要加数据集的地方,加加加
涉及的有cfenet300_vgg16.py train.py test.py
然后就可以跑起来作者的源码了。
目前采用这样的方式主要还是因为笔者比较弱鸡,不太会自己coding,哎。
4.添加repulsion_loss,主要是把https://github.com/bailvwangzi/repulsion_loss_ssd
大佬复现的代码合并进去
需要添加或者替换的其实也就是multibox_loss.py repulsion_loss.py box_utils.py
(attention: 该开源代码只实现了repulsion loss 的一个部分,就是预测框和gt远离 ,预测框和预测框的约束没加上)
添加之后出现了的错误:
1.priors = priors[pos_idx].view(-1, 4)
IndexError: too many indices for tensor of dimension 2
根据
https://github.com/bailvwangzi/repulsion_loss_ssd/issues/1
自己用的是0.4.1 所以的话就把priors也给expand了
priors = priors.expand_as(pos_idx)
2.报错
loss_c[pos.view(-1,1)] = 0 # filter out pos boxes for now
RuntimeError: copy_if failed to synchronize:device-side assert triggered
这个bug坑死我了,网上的方法试了好多,心都碎了,卡了一天。
然后注释掉了所有和rep_loss有关的函数,还是这个错,那就是和rep_loss没有关系了,
然后把match函数换回之前的,没有报错,因此定位到了match的函数,开始的时候大致过了一遍,并没有发现什么不同,不,是觉得前面的是一毛一样的啊,真的是眼神不好,最后用了pycharm的compare,看了两遍,发现
conf = labels[best_truth_idx]
这里有个+1 自己的label本来就是从1开始的,这里直接越界了,把+1 去掉就可以了 merge代码的时候要小心谨慎啊,开始时候一个不注意,后面的话要找就很难了,毕竟不是自己写的code,不清楚所有的逻辑。
然后就可以愉快的训练了,不过这种实现的话rep loss 一直都维持在0.2左右,感觉都在优化conf 和loc,这个占比太小了。