Anchor
科普环节
这一节,对目标检测有基本概念的同学别看了,去看下面的正文吧,我是在科普。
anchor或者说anchor box就是一个框。目标检测任务可视化来看就是在图片上把目标用一个框框出来。如下图蓝框把猫给标出来了。
目标检测可视化我们先想一想怎么在图片上确定一个物体的位置,或者说怎么去表示这个框。第一种方法我们叫做绝对坐标,就是用框的四个顶点的坐标确定一个框,还有一种方法是中心点定位,使用框中心点的坐标以及框的高度和宽度来确定一个框。
下图是绝对坐标表示框,其中Xmin,Ymin表示左上顶点的坐标,Xman,Ymax表示右下顶点的坐标。一般目标检测任务数据标注就是这样的,当然也有用四个顶点的坐标来表示(可以表示倾斜框)。
绝对坐标表示下图是中心点定位法。其中Cx,Cy是中心点坐标。w和h是框的宽度和高度。
中心点定位法绝对坐标的形式我估计我因为这样比较好标注,不然确定中心点太麻烦了。而中心点定位法是因为这样去预测框更简单,效果更好。所以在数据处理的时候要对坐标进行转换。当然anchor就是基于中心点位的。
这里是正文环节
一般而言,人类做目标检测是直接看一张图片就可以得到高级语义信息,从而判断这一区域是不是目标。但人工智障不行,它比较笨,只能遍历图片上的每一个位置,判断是不是目标。然后我们考虑到图片上物体的大小,形状有太多太多的可能性,这对目标检测任务造成了很大困扰。凭空直接去预测得到检测框比较困难。(其实这里还可以说目标检测one-stage和two-stage方法,下次我再整理吧)
既然人工智障这么吃力,还是让大佬们帮一帮它。大佬们提出了anchor(锚框)方法。大佬用自己的丰富的经验知道了物体目标可能的尺寸,然后把这些尺寸告诉人工智障,说你从里面挑吧,挑一个好的出来。
以下的图片指的都是feature map(特征图),也就是经过backbone(举例VGG16)之后得到的图片。这里我就不说什么anchor尺度对应原图什么的,那个对于理解anchor的思想并没有什么特别的作用,反而比较绕。
我们现在把目光集中到图片上的一个位置,然后这个位置的坐标配合大佬们预设的w和h,就形成了很多个中心点位置相同的框(这就是anchor),然后现在人工智障的工作是从这些框中挑出一个较好的框。对于图片上的每一个位置都是这么操作。
参考下图,那个黑点就是中心点,然后那些框就是anchor。也就是说对于图片的每一个位置都预设了这么些框。
anchor不过我们觉得有点不服,大佬虽然很厉害,但直接预设的w和h就是精确的框的w和h,那我还是不信的。也就是说anchor是比较粗糙的,它只是大致确定了目标,这时候人工智障就可以发挥作用了,它对于每一个anchor都会输出x,y,w,h四个值(offset, 偏移值),用来修正之前粗糙的anchor得到精确的结果。x偏移就是在水平方向调整框的位置,y是负责竖直方向上的调整,w负责调整框的宽,h调整框的高。
它对于每一个anchor还会输出一个得分(置信度),来表示这个框是不是对的。
总而言之,anchor的思想就是,大佬们先预设好了一堆框,预设了物体可能出现的大致位置和尺寸,然后让人工智障去精细调整这些框。这样比让人工智障直接去预测检测框更加简单,模型表现得效果也更加好。人工智障慢慢变化成了人工智能。
然后我们也可以自己去根据自己的数据集去预设anchor。yolov2开始用的是先对数据集的ground truth聚类得到anchor的尺度。