[監督式]物件偵測 RCNN、YOLO

2019-05-08 本文已影响0人 RJ阿杰

YOLO

參考:
http://www.studyai.com/article/65802b17149342a0
https://arxiv.org/pdf/1506.02640.pdf

網絡結構受GoogleNet模型啟發，24個卷積層和2個全連接層。與GoogleNet使用Inception Module不同，使用了1×1跟3×3的卷積層。

為了避免過擬合，yolov1使用了dropout和大量的數據增強。在第一個全連接層後面使用了一個p=0.5的dropout層來阻止不同層之間的互適應現象。
數據也使用數據增強，包括使用隨即尺度變換和不超過原圖20%的平移、HSV顏色空間隨機調整曝光度和飽和度，變換因子不超過1.5。

輸入448×448，模型經過24層conv以及2層Affine輸出7×7×30(S×S×(B×5+C))。

loss function

我們對圖像label定義成將輸入圖像劃分成S×S個網格(grid)。如果某個物體的中心落在了一個網格中，那麼這個網格就負責檢測該物體。

每個網格單元(grid cell)預測， $B$ 個"邊界框(bounding box)+置信度分數(Conf)"，網格單元(grid cell)所預測的邊界框(bounding box)中心點位於這個網格中，這些置信度分數反映了該模型對box是否包含目標的可能性有多大。

置信度(confidence)定義為： $\Pr(\textrm{Object}) *\textrm{IOU}_{\textrm{pred}}^{\textrm{truth}}$

若bounding box不包含物體，則P(object) = 0；否則P(object) = 1，置信度就等同於預測框(bounding box)和真實標記框(ground truth)之間的IOU值。

GT = GroundTruth; DR = DetectionResult

每個邊界框(bounding box)包含5個預測：x,y,w,h和置信度(confidence)。

x,y,w,h都被歸一化到[0~1]，w,h是相對於整張圖片的(W,H)所縮小的係數來表示bounding box的大小。
x,y為位於網格(grid)內bounding box中心的座標相對於網格的偏移，這個座標的參考點是負責這一個邊界框(bounding box)的網格(一個網格預測B個bounding box)。

每個網格還要預測C個目標種類的條件概率，條件就是已知網格中包含某個物體。不受網格中B個檢測框的影響，對於每個網格而言只預測一組（共C個）分類的概率。

loss function
其中表示目標是否出現在網格單元中，表示網格單元中的第個邊界框預測器“負責”該預測。
和，因為在圖像中大部分的區域通常不包含我們要檢測的物件，模型不穩定，這邊作者使用這兩個係數來調整。
為我們輸出的Conf，為真實的IOU。

這邊有2個問題：

為什麼要加入 $\lambda_{coord} = 5$ 和 $\lambda_{noobj} = 0.5$ ?
我認為是因為圖像中大部分的區域通常不包含我們要檢測的物件，類似不平衡數據，導致模型趨向於預測grid的置信度為零的準確率較高導致最後檢測時無法檢測出目標，使得訓練的梯度偏向於去預測檢測不包含物件的背景，這並不是我們所關心的，所以我們使loss在座標上分配較大的權重，而置信度分配較小的權重來改善。
w,h使用了根號後取MSE與直接取MSE有什麼差異?
另外作者這邊w,h又加上了根號，這會使得w,h值大的時候loss較小表示w,h越大越接近最佳解，使得模型預測的w,h偏向使用較大的框。

我們利用Conf來判斷預測是否包含物件過濾掉我們不要的檢測框，所以當實際的grid不包含物件時，我們只對Conf增加loss(進行懲罰)。

在每個網格YOLO可以預測多個檢測框(邊界框(bounding box))。在訓練階段我們希望一個檢測框負責一個物體的預測，所以我們只分配一組C(類別機率)，這種分配是基於與GT當前的DR最大的IOU。這會導致不同檢測框之間的特殊化。每一個預測都會在預測特定的尺寸，長寬比，物體種類方面有更好的表現，從而提高整體的召回率，但壞處是一個grid只能檢測一個類別的一個物件。

這邊有1個問題：

如果每個檢測框使它各別預測一組類別機率能否預測兩個目標?
如果單單加入類別機率是不行的，如果一個grid要預測兩個目標，假設我們B=2預測出2個bounding box我們需要定義需要各自給它哪個標籤(label)，誰該檢測誰?
我認為或許我們在給標籤時可以一樣依據GT當前的DR最大的IOU來決定哪個檢測框預測哪個物件，然後給它那個物件相對應的標籤(label)，這樣就類似k-mean聚類的方法，但k-mean有個問題，它不一定是全局最佳解，所以k-mean我們重複做多次，所以box可能會取同一個目標，當然或許我們也可以在loss上設計使2個box越遠時loss越小，或者增加box數量使它取到不同目標的機率更大等等。

在檢測時，我們將條件概率和不同檢測框置信度的預測值相乘：
$\Pr(\textrm{Class}_i)*\textrm{IOU}_{\textrm{pred}}^{\textrm{truth}}$
這樣我們就可以得到每個檢測框各個類別的分類置信得分。這些分數就同時包含了檢測框中出現某類的概率以及檢測框和目標的匹配程度，而我們檢測時檢測出S×S×B個box會先依據置信度，先刪去一些然後再使用NMS(前面的RCNN參考有介紹)，最後依據box的中心grid的各個類別的分類置信得分決定類別。

yolov2
yolov3

RCNN筆記

參考:

論文翻譯
 https://zhuanlan.zhihu.com/p/23006190
https://zhuanlan.zhihu.com/p/39541343
https://blog.csdn.net/shenxiaolu1984/article/details/51066975
(Bounding box regression)
https://blog.csdn.net/zijin0802034/article/details/77685438
https://blog.csdn.net/v1_vivian/article/details/80292569

類別判斷(分類)

A部分

圖像以selective search找出1000~2000個proposals(bounding box)，做各向異性縮放處理。

以"Ground Truth(人工標記的box)"與"proposals"做IOU，大於0.5就將proposals標為Ground 的類別(為正樣本)，小於0.5就為背景類別(為負樣本)。
從中選取某個比例的正負樣本(例如正負為1:3)，四分之一正樣本、四分之三的負樣本作為訓練樣本。

B部分

以Alexnet或VGG16等等的CNN模型先做預訓練(遷移學習)，使用原先以大量數據訓練好的wegiht，然後我們將最後一層改為我們的類別數(N)，以新的數據使用小學習率訓練進行第一次微調(fine-tuning)，訓練成N個新類別的預測，這個模型為B。

C部分
B部分訓練好的模型我們將最後一層改為我們的類別數(N)+1(背景類別)，以A部分的處理好的正負樣本作為輸入，使用小學習率訓練模型進行第二次微調(fine-tuning)，訓練成N+1個新類別的預測，拿掉最後一層(softmax)留下前面的CNN(取共通特徵)+Affine(取特定特徵)，這個模型為C。

D部分
然後我們將A部分的步驟2做調整改為，大於0.7就標為人工標那個類(為正樣本)，小於0.3就為背景類別(為負樣本)，從中選取某個比例的正負樣本(例如正負為1:3)，四分之一正樣本、四分之三的負樣本作為訓練樣本。
然後將樣本丟入C，C的輸出作為SVM分類器的輸入訓練SVM，這個SVM為D。

位置精修(回歸)

E部分(可以不做bounding box regression)
我們將SVM分類好的2000個候選框，將Ground Truth與proposals做IOU，大於0.5的proposals丟入模型C將輸出作為一個線性回歸器的輸入，使用Ground Truth座標(x,y,w,h)作為標籤，訓練一個新model來調整proposals座標，輸出為新的proposals座標(xy方向的缩放和平移)。

結果

F部分
SVM訓練完成後，檢測部分：
圖像以selective search找出1000~2000個bounding box，丟入C取圖片特徵然後丟入D預測類別經過E重新調整proposals，預測出來的2000個proposals與類別，使用NMS(非極大值抑制)調整選出最後的結果。

為什麼不直接用CNN做預測，因為CNN少量數據時容易過擬合所以我們使用較小的IOU閥值(0.5)先訓練CNN，條件較寬鬆選出來的bounding box較大，有增強數據的效果，然後再以較大的IOU閥值(0.7)，條件較嚴謹選出來的bounding box較小，來訓練SVM。
這只是其中一種設計方法，當然也是可以設計用CNN處理，例如yolo模型。

SPPNet筆記

參考:
論文翻譯
(SPPNet)
https://zhuanlan.zhihu.com/p/27485018
(ROI)
https://zhuanlan.zhihu.com/p/24780433

純卷積運算是不需要固定輸入或輸出的，輸入不同尺寸的圖片不需要改變訓練的權重，但會產生不同尺寸的輸出，但如果後面接上Affine層那麼conv就必須固定輸出尺寸，也就必須固定輸入的圖片大小了。
若要接上Affine層(Linear)又需要不同尺寸的圖片輸入，可以使用SPP(Spatial Pyramid Pooling 空間金字塔池化)連接"conv與affine"或是使用全CNN的方式。

SPP層架構(ROI)
首先image經過一連串卷積後得到一個 $?(height) \times ?(width) \times 256(channel)$ (256也是可以根據CNN調整的)，然後我們複製3份output(幾份可以自行調整)，然後其中一份分成1等份、其中一份分成4等份、其中一份分成16等份(各自幾等份也可以自行調整)，然後對每一份做pooling(例如 1等份做完會有256個值(channel數)、4等份做完會有4*256個值(channel數))，最後全部串接起來。這樣不管height、width為多少經過CNN後必定是256channel，而最後串接起來的shape也會相同，因為依照不同尺度分成對應等分，能讓模型對多尺度的魯棒性更好。

圖1
與RCNN差別
CNN+affine只接受固定長度輸入，所以處理bounding box通常會先將做各向異性縮放處理處理成固定尺寸圖片餵給(輸入)CNN訓練，容易破壞圖片原始訊息。

圖2

CNN+SPP+affine將圖片直接處理成feature map沒經過各向異性縮放處理可以保留圖片原始位置訊息，通過映射關係可以找到feature map對應的bounding box座標位置。

圖3

fast-RCNN筆記

參考:
https://zhuanlan.zhihu.com/p/24780395
https://blog.csdn.net/shenxiaolu1984/article/details/51036677

ROI就是特殊的SPP，只不過它沒有考慮多個空間尺度，只用單個尺度。

Faster-RCNN筆記

https://zhuanlan.zhihu.com/p/24916624
https://zhuanlan.zhihu.com/p/31426458
https://www.jiqizhixin.com/articles/2018-02-23-3
https://www.itread01.com/content/1544351780.html

FeatureMap跟RPN
原圖 $P \times Q$ 縮放成 $M \times N$ ，然後使用遷移學習預訓練的NN(例如 resnet、VGG...)，這邊假設M=800，N=600，經過ZF model得到 $50*38*256$ 的特徵圖，經過一個 $3*3*256$ 卷積，然後預測類別( [9個anchor] $\times$ [2個positive、negative類別分數] )跟位置尺寸偏移([9個anchor] $\times$ [x偏移,y偏移,w倍率,h倍率] )，分別經過 $1*1*18$ 卷積跟 $1*1*36$ 卷積，從樣本的anchor經過IOU篩選出正負樣本以及去除超過邊框的anchor，隨機取128個計算loss進行訓練。

Mask-RCNN