[監督式]物件偵測 RCNN、YOLO

2019-05-08  本文已影响0人  RJ阿杰

YOLO

參考:
http://www.studyai.com/article/65802b17149342a0
https://arxiv.org/pdf/1506.02640.pdf



網絡結構受GoogleNet模型啟發,24個卷積層和2個全連接層。與GoogleNet使用Inception Module不同,使用了1×1跟3×3的卷積層。

為了避免過擬合,yolov1使用了dropout和大量的數據增強。在第一個全連接層後面使用了一個p=0.5的dropout層來阻止不同層之間的互適應現象。
數據也使用數據增強,包括使用隨即尺度變換和不超過原圖20%的平移、HSV顏色空間隨機調整曝光度和飽和度,變換因子不超過1.5。

輸入448×448,模型經過24層conv以及2層Affine輸出7×7×30(S×S×(B×5+C))。

loss function

我們對圖像label定義成將輸入圖像劃分成S×S個網格(grid)。如果某個物體的中心落在了一個網格中,那麼這個網格就負責檢測該物體。

每個網格單元(grid cell)預測,B個"邊界框(bounding box)+置信度分數(Conf)",網格單元(grid cell)所預測的邊界框(bounding box)中心點位於這個網格中,這些置信度分數反映了該模型對box是否包含目標的可能性有多大。

若bounding box不包含物體,則P(object) = 0;否則P(object) = 1,置信度就等同於預測框(bounding box)和真實標記框(ground truth)之間的IOU值。


GT = GroundTruth; DR = DetectionResult

x,y,w,h都被歸一化到[0~1],w,h是相對於整張圖片的(W,H)所縮小的係數來表示bounding box的大小。
x,y為位於網格(grid)內bounding box中心的座標相對於網格的偏移,這個座標的參考點是負責這一個邊界框(bounding box)的網格(一個網格預測B個bounding box)。

每個網格還要預測C個目標種類的條件概率,條件就是已知網格中包含某個物體。不受網格中B個檢測框的影響,對於每個網格而言只預測一組(共C個)分類的概率。



loss function
其中表示目標是否出現在網格單元中,表示網格單元中的第個邊界框預測器“負責”該預測。
和,因為在圖像中大部分的區域通常不包含我們要檢測的物件,模型不穩定,這邊作者使用這兩個係數來調整。
為我們輸出的Conf,為真實的IOU。
  1. 為什麼要加入\lambda_{coord} = 5\lambda_{noobj} = 0.5?
    我認為是因為圖像中大部分的區域通常不包含我們要檢測的物件,類似不平衡數據,導致模型趨向於預測grid的置信度為零的準確率較高導致最後檢測時無法檢測出目標,使得訓練的梯度偏向於去預測檢測不包含物件的背景,這並不是我們所關心的,所以我們使loss在座標上分配較大的權重,而置信度分配較小的權重來改善。
  2. w,h使用了根號後取MSE與直接取MSE有什麼差異?
    另外作者這邊w,h又加上了根號,這會使得w,h值大的時候loss較小表示w,h越大越接近最佳解,使得模型預測的w,h偏向使用較大的框。


我們利用Conf來判斷預測是否包含物件過濾掉我們不要的檢測框,所以當實際的grid不包含物件時,我們只對Conf增加loss(進行懲罰)。

在每個網格YOLO可以預測多個檢測框(邊界框(bounding box))。在訓練階段我們希望一個檢測框負責一個物體的預測,所以我們只分配一組C(類別機率),這種分配是基於與GT當前的DR最大的IOU。這會導致不同檢測框之間的特殊化。每一個預測都會在預測特定的尺寸,長寬比,物體種類方面有更好的表現,從而提高整體的召回率,但壞處是一個grid只能檢測一個類別的一個物件。

  1. 如果每個檢測框使它各別預測一組類別機率能否預測兩個目標?
    如果單單加入類別機率是不行的,如果一個grid要預測兩個目標,假設我們B=2預測出2個bounding box我們需要定義需要各自給它哪個標籤(label),誰該檢測誰?
    我認為或許我們在給標籤時可以一樣依據GT當前的DR最大的IOU來決定哪個檢測框預測哪個物件,然後給它那個物件相對應的標籤(label),這樣就類似k-mean聚類的方法,但k-mean有個問題,它不一定是全局最佳解,所以k-mean我們重複做多次,所以box可能會取同一個目標,當然或許我們也可以在loss上設計使2個box越遠時loss越小,或者增加box數量使它取到不同目標的機率更大等等。

在檢測時,我們將條件概率和不同檢測框置信度的預測值相乘:
\Pr(\textrm{Class}_i)*\textrm{IOU}_{\textrm{pred}}^{\textrm{truth}}
這樣我們就可以得到每個檢測框各個類別的分類置信得分。這些分數就同時包含了檢測框中出現某類的概率以及檢測框和目標的匹配程度,而我們檢測時檢測出S×S×B個box會先依據置信度,先刪去一些然後再使用NMS(前面的RCNN參考有介紹),最後依據box的中心grid的各個類別的分類置信得分決定類別。



yolov2
yolov3

RCNN筆記

參考:

論文翻譯
https://zhuanlan.zhihu.com/p/23006190
https://zhuanlan.zhihu.com/p/39541343
https://blog.csdn.net/shenxiaolu1984/article/details/51066975
(Bounding box regression)
https://blog.csdn.net/zijin0802034/article/details/77685438
https://blog.csdn.net/v1_vivian/article/details/80292569


類別判斷(分類)

  1. 圖像以selective search找出1000~2000個proposals(bounding box),做各向異性縮放處理。

  1. 以"Ground Truth(人工標記的box)"與"proposals"做IOU,大於0.5就將proposals標為Ground 的類別(為正樣本),小於0.5就為背景類別(為負樣本)。


  2. 從中選取某個比例的正負樣本(例如正負為1:3),四分之一正樣本、四分之三的負樣本作為訓練樣本。


  1. 以Alexnet或VGG16等等的CNN模型先做預訓練(遷移學習),使用原先以大量數據訓練好的wegiht,然後我們將最後一層改為我們的類別數(N),以新的數據使用小學習率訓練進行第一次微調(fine-tuning),訓練成N個新類別的預測,這個模型為B。



位置精修(回歸)


結果


為什麼不直接用CNN做預測,因為CNN少量數據時容易過擬合所以我們使用較小的IOU閥值(0.5)先訓練CNN,條件較寬鬆選出來的bounding box較大,有增強數據的效果,然後再以較大的IOU閥值(0.7),條件較嚴謹選出來的bounding box較小,來訓練SVM。
這只是其中一種設計方法,當然也是可以設計用CNN處理,例如yolo模型。



SPPNet筆記

參考:
論文翻譯
(SPPNet)
https://zhuanlan.zhihu.com/p/27485018
(ROI)
https://zhuanlan.zhihu.com/p/24780433


純卷積運算是不需要固定輸入或輸出的,輸入不同尺寸的圖片不需要改變訓練的權重,但會產生不同尺寸的輸出,但如果後面接上Affine層那麼conv就必須固定輸出尺寸,也就必須固定輸入的圖片大小了。
若要接上Affine層(Linear)又需要不同尺寸的圖片輸入,可以使用SPP(Spatial Pyramid Pooling 空間金字塔池化)連接"conv與affine"或是使用全CNN的方式。




fast-RCNN筆記

參考:
https://zhuanlan.zhihu.com/p/24780395
https://blog.csdn.net/shenxiaolu1984/article/details/51036677


ROI就是特殊的SPP,只不過它沒有考慮多個空間尺度,只用單個尺度。



Faster-RCNN筆記

https://zhuanlan.zhihu.com/p/24916624
https://zhuanlan.zhihu.com/p/31426458
https://www.jiqizhixin.com/articles/2018-02-23-3
https://www.itread01.com/content/1544351780.html



Mask-RCNN



上一篇下一篇

猜你喜欢

热点阅读