DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
ICLR 2023 poster paper로, DETR을 개선한 object detection 방법이다.
Motivation
- 기존 DETR은 convergence가 느리고 query의 의미가 불명확함
- 이러한 문제로 인해 DETR 모델들은 DyHead 같은 classical detector에 비해 뒤쳐지는 성능을 보임
- DETR-like model이 large dataset에서 잘 동작하는지에 대한 scability 연구가 부족함
DINO(DETR with Improved deNoising anchOr box)는 DETR의 문제를 해결하여 COCO에서 DETR 성능을 개선함. (DETR계열 SOTA)
- DAB-DETR을 따라 backbone, transformer, prediction head로 구성함
- DN-DETR을 따라 gt label과 box에 noise를 더해서 decoder에 넣음
- deformable attention을 적용하여 computation efficiency 개선
여기에 더하여 세 가지의 novel한 방법을 제안함.
- contrastive denoising training을 적용하여 one-to-one matching을 향상; gt에 positive와 negative sample을 모두 더하는 방식
- mixed query selection method 적용; query를 dynamic anchor box formulation으로 생성
- look forward twice 방식 적용;
Previous Works
DAB-DETR
Methods
DETR의 query는 positional part와 content part로 구성된다.
- DAB-DETR: DETR의 positional query를 $(x,y,w,h)$로 formulate했다. 이때 $x,y$는 anchor box의 center coordinate이다.
- DN-DETR: denoising(DN) training method를 사용하여 DETR-like model에서 convergence를 가속한다. 이는 tranformer decoder에 box coordinate 값에 noise를 더하는 것이다. 이를 가지고 gt box를 예측하게 함으로써 bipartite matching의 instability를 해결한다.
- Deformable DETR은 DETR의 convergence speed를 높이기 위한 다른 방법론으로, 두 가지 방법을 사용한다. 먼저 query selection을 통해서 encoder의 output을 decoder input으로 바로 넣느낟. 또한 decoder layer간 bounding box refinement를 수행한다.
Model Overview
- 먼저 ResNet이나 Swin Transformer를 쓰는 image backbone에서 multi-scale feature를 extract한다.
- positional embedding과 함께 transformer encoder에 넣는다.
- 이후 mixed query를 얻는다.
- intialized anchor와 learnable content query를 가지고 deformable attention을 적용한다.
- denoising training을 적용하기 위한 DN branch가 있다.
Contrastive DeNoising Training
'DL·ML' 카테고리의 다른 글
[ODAI] DOTA benchmark (2) | 2024.03.06 |
---|---|
Grounding DINO architecture (0) | 2024.02.27 |
[Object Detection] DETR (0) | 2024.02.21 |
[ZSD] GLIP (1) | 2024.02.06 |
[Paper Review] Emerging Properties in Self-Supervised Vision Transformers (1) | 2024.02.06 |