GIoU (Generalized Intersection over Union) [1]
IoU는 overlap하는 구역이 전혀 없을 때 0을 return하는데, 이는 prediction이 GT와 얼마나 가까운지 상관하지 않는다. 따라서 실제로는 GT와 어느 정도 더 가까운 prediction이라도 언제나 0을 return할 수 있다. 이는 model의 optimization process에서 plateau로 작용해서 optimize를 infeasible하게 만든다.
Fig. 1에서 GIoU와 IoU, norm이 나타나 있다. 동일한 representation에서도 세 metric은 아주 다르다.
GIoU의 아이디어는 간단한데, 두 convex shape A와 B를 enclose하는 smallest convex hull $C$를 찾아서 위와 같이 계산한다. \는 set difference operation을 의미하는데, 즉 $C$에서 $A\cup B$를 제외한 부분이 차지하는 비율만큼 IoU에서 subtract하는 것이다.
만약 convex hull이 매우 큰, Fig. 2와 같은 상황의 경우 IoU는 0, GIoU는 -0.7이다.
Fig. 3처럼 IoU는 0이지만 convex hull 안에 두 region이 fit하게 들어가는 경우 뺄 값은 0이고, IoU와 GIoU는 동일한 값이 된다:
GIoU의 properties는 다음과 같다:
1. GIoU는 IoU와 같이 distance이다. (nonnegativity, indiscernibles, symmetry, triangular inequality 만족)
2. scale에 invariant하다.
3. GIoU는 언제나 IoU의 lower bound이다.
4. $\forall A,B \subseteq \mathbb {S}, -1 \ge GIoU(A,B)\le 1$, 즉 symmetric한 range를 가진다.
CIoU (Complete Intersection over Union) [3]
CIoU는 DIoU와 GIoU를 합친 것인데, 다음과 같이 define된다:
$$\mathcal{L} = S(\mathcal{B},\mathcal{B}^{gt}) + D(\mathcal{B},\mathcal{B}^{gt}) + V(\mathcal{B},\mathcal{B}^{gt})$$
$S$는 overlapped area를 의미하고, 다음과 같이 계산된다:
$$ S = 1 - IoU$$
$D$는 distance를 의미하고, 각 box의 central point에 대한 Euclidean distance로 계산된다:
$$D= \frac{\rho^2 (p, p^gt)}{c^2}$$
$c$는 convex full의 diagonal length라서 scale invariant하게 된다.
$V$는 aspect ratio를 의미하고, 다음과 같이 정의된다:
$$V=\frac{4}{π^2}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan\frac{w}{h})^2$$
따라서 전체 CIoU는 다음과 같이 정의되고, 이는 Fig. 5에서 visualize된다:
$$ \mathcal{L}_{CIoU} = 1-IoU + \frac{ρ^2(p,p^{gt}}{c^2} + αV$$
Discussion
References
[1] Rezatofighi, Hamid, et al. "Generalized intersection over union: A metric and a loss for bounding box regression." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
[2] Haru. “PR-172: Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression.” YouTube, 24 June 2019, youtu.be/ENZBhDx0kqM?si=7A41HwaGBnmAAyH4. Accessed 6 Jan. 2025.
[3] Zheng, Zhaohui, et al. "Enhancing geometric factors in model learning and inference for object detection and instance segmentation." IEEE transactions on cybernetics 52.8 (2021): 8574-8586.
Footnotes
'DL·ML > Study' 카테고리의 다른 글
Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F) (1) | 2025.01.03 |
---|---|
Reinforcement Learning Basics (0) | 2024.08.20 |