Abstract
- dd
Motivation
- object detection in aerial images(ODAI)는 real-world application에서 많이 사용됨.
- 하지만, object 크기의 nonuniformity, arbitrary orientation 등은 task를 어렵게 함.(Figure 1 참조)
여러 문제 중 orientation에 대한 문제가 주요 어려움인데, 그 이유는 다음과 같다:
- rotation-invariant한 feature representation을 만들어야 함.
-> 그러나 현재 architecture로는 어려움이 있음.
iDeA; 2021년 기준이라 현재에도 계속되는 문제인지는 확인해 보아야 함. - horizontal bounding box(HBB)는 oriented objects를 localize할 수 없음.
-> oriented bounding box(OBB)을 사용해야 한다.(Figure 3 참조)
따라서 OBB를 이용해 detection하는 task인 oriented object detection task가 발생하였다. 그러나 dataset의 부재로 기존 ImageNet이나 MS COCO로 pretrain한 후 transfer하려는 시도들이 주로 이루어졌다.
또한 ODAI의 다른 문제는 natural image에서 얻은 prior가 aerial image domain에서 적합하지 않다는 것이다. 이를 위해 여러 알고리즘을 ablation study하기 위해서 OOD를 위한 library인 DOTA-v2.0을 제안한다.
DOTA-v2.0의 특징은 다음과 같다:
- 11,268 aerial images
- 약 1.8M object instances
- 18 common categories
즉, 이 paper의 contribution은 다음으로 요약할 수 있다:
- Earth vision large-scale OBB dataset인 expanded DOTA 제안
- aerial detection을 위한 benchmark와 library 제공
- 기존 10개의 algorithm의 70개 configuration에 대해서 evaluation
Previous Works
기존 conventional object detection dataset과 비교
image 개수가 많아보이지 않지만 $20000\times 20000$ pixel 크기의 큰 이미지도 있어 데이터 양이 적지는 않다.
기존 aerial images object detection dataset과 비교
Construction of DOTA
Image Collection
image resolution에서 오는 bias를 없애기 위해서 다양한 위성 source의 여러 resolution에서 데이터를 수집함. source는 다음과 같다:
- Google Earth(800 × 800 - 4000 × 4000 pixels)
- GF-2 and JL-1(GF&JL) Satellites(original size)
- airborne images taken by CycloMedia in Rotterdam(original size)
Category Selection
18개의 category가 있음.
plane, ship, storage tank, baseball diamond, tennis court, swimming pool, ground track field, harbor, bridge, large vehicle, small vehicle, helicopter, roundabout, soccer ball field, basketball court, container crane, airport and helipad.
Oriented Object Annotation
OBB는 다음과 같이 annotate된다:
$$\{(x_i, y_i)|i=1,2,3,4\}$$
이때 $(x_i, y_i)$는 OBB의 vertex를 clockwise로 정한 순서이다.
annotator는 네 개의 corner를 click함으로써 annotation하였다. 일반적인 경우 모서리의 순서가 중요하지 않지만, head와 tail의 차이가 있는 helicopter나 vehicle 같은 object는 head를 엄선하여 선택하였다. head를 포함한 annotation의 예시는 Figure 4에서 확인할 수 있다.
노란 점은 head를 나타낸다.
Properties of DOTA
Image Sources
Table 3에서는 DOTA의 각 data source에 따른 statistics를 보여준다.
대부분의 positive sample은 Google Earth에서 얻어졌다. 그러나 negative sample은 positive sample bias를 제거하기 위해 중요한 면이 있다. 또한 GF&JL과 Aerial에서 얻은 data의 경우 좀 더 real-world application의 분포와 비슷하다.
또한 RGB 이미지와 grayscale 이미지 모두를 포함하고 있다.
Spatial Resolution Information
GSD(ground sample distance)는 pixel 사이의 실제 거리를 의미한다. 이를 이용하여 이미지 상의 object 간 거리를 측정하거나 normalize할 수 있다. GSD는 30%의 이미지에만 포함되어 있으며 distribution은 Figure 6와 같다.
Various Instance Orientations
Figure 1에서 orientation의 분포를 확인할 수 있는데, $\[-\pi, \pi\]$에서 uniform하게 분포한다.
Various Instances Pixel Sizes
Table 4과 Figure 7에서 object 크기의 분포를 확인할 수 있다.
Benchmarks
Evaluation Tasks and Metrics
HBB와 OBB 각각에 대해서 mAP(mean Average Precision)와 AP(Average Precision)를 측정한다.
AP 측정법은 Pascal VOC 07 metric을 그대로 사용한다.
References
<script> MathJax = { tex: {inlineMath: [['$', '$'], ['\\(', '\\)']]} }; </script>
<script src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-chtml.js"></script>
Footnotes
'DL·ML' 카테고리의 다른 글
MoE(Mixture-of-Experts, ICLR 2017) (0) | 2024.07.08 |
---|---|
VAE Loss Derivation (in progress) (1) | 2024.04.07 |
Grounding DINO architecture (0) | 2024.02.27 |
[Object Detection] DINO (0) | 2024.02.21 |
[Object Detection] DETR (0) | 2024.02.21 |