cs
[Object Detection] DINO
DL·ML

[Object Detection] DINO

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

ICLR 2023 poster paper로, DETR을 개선한 object detection 방법이다.

 

Motivation

  • 기존 DETR은 convergence가 느리고 query의 의미가 불명확함
  • 이러한 문제로 인해 DETR 모델들은 DyHead 같은 classical detector에 비해 뒤쳐지는 성능을 보임
  • DETR-like model이 large dataset에서 잘 동작하는지에 대한 scability 연구가 부족함

Figure 1

 

DINO(DETR with Improved deNoising anchOr box)는 DETR의 문제를 해결하여 COCO에서 DETR 성능을 개선함. (DETR계열 SOTA)

  • DAB-DETR을 따라 backbone, transformer, prediction head로 구성함
  • DN-DETR을 따라 gt label과 box에 noise를 더해서 decoder에 넣음
  • deformable attention을 적용하여 computation efficiency 개선

여기에 더하여 세 가지의 novel한 방법을 제안함.

  • contrastive denoising training을 적용하여 one-to-one matching을 향상; gt에 positive와 negative sample을 모두 더하는 방식
  • mixed query selection method 적용; query를 dynamic anchor box formulation으로 생성
  • look forward twice 방식 적용; 

 

 


Previous Works

DAB-DETR

 

 

 


Methods

DETR의 query는 positional part와 content part로 구성된다. 

 

  • DAB-DETR: DETR의 positional query를 $(x,y,w,h)$로 formulate했다. 이때 $x,y$는 anchor box의 center coordinate이다.
  • DN-DETR: denoising(DN) training method를 사용하여 DETR-like model에서 convergence를 가속한다. 이는 tranformer decoder에 box coordinate 값에 noise를 더하는 것이다. 이를 가지고 gt box를 예측하게 함으로써 bipartite matching의 instability를 해결한다. 
  • Deformable DETR은 DETR의 convergence speed를 높이기 위한 다른 방법론으로, 두 가지 방법을 사용한다. 먼저 query selection을 통해서 encoder의 output을 decoder input으로 바로 넣느낟. 또한 decoder layer간 bounding box refinement를 수행한다. 

 

Model Overview

Figure 2

  1. 먼저 ResNet이나 Swin Transformer를 쓰는 image backbone에서 multi-scale feature를 extract한다.
  2. positional embedding과 함께 transformer encoder에 넣는다.
  3. 이후 mixed query를 얻는다. 
  4. intialized anchor와 learnable content query를 가지고 deformable attention을 적용한다. 
  5. denoising training을 적용하기 위한 DN branch가 있다. 

 

Contrastive DeNoising Training

 

'DL·ML' 카테고리의 다른 글

[ODAI] DOTA benchmark  (2) 2024.03.06
Grounding DINO architecture  (0) 2024.02.27
[Object Detection] DETR  (0) 2024.02.21
[ZSD] GLIP  (1) 2024.02.06
[Paper Review] Emerging Properties in Self-Supervised Vision Transformers  (1) 2024.02.06