cs
GIoU, CIoU metrics
DL·ML/Study

GIoU, CIoU metrics

 

 

GIoU (Generalized Intersection over Union) [1]

IoU는 overlap하는 구역이 전혀 없을 때 0을 return하는데, 이는 prediction이 GT와 얼마나 가까운지 상관하지 않는다. 따라서 실제로는 GT와 어느 정도 더 가까운 prediction이라도 언제나 0을 return할 수 있다. 이는 model의 optimization process에서 plateau로 작용해서 optimize를 infeasible하게 만든다. 

 

Figure 1: Two sets of examples (a) and (b) with the bounding boxes.

 

Fig. 1에서 GIoU와 IoU, norm이 나타나 있다. 동일한 representation에서도 세 metric은 아주 다르다.

 

Algorithm 1.

 

GIoU의 아이디어는 간단한데, 두 convex shape A와 B를 enclose하는 smallest convex hull $C$를 찾아서 위와 같이 계산한다. \는 set difference operation을 의미하는데, 즉 $C$에서 $A\cup B$를 제외한 부분이 차지하는 비율만큼 IoU에서 subtract하는 것이다.

 

만약 convex hull이 매우 큰, Fig. 2와 같은 상황의 경우 IoU는 0, GIoU는 -0.7이다. 

 

Figure 2[2].

 

Fig. 3처럼 IoU는 0이지만 convex hull 안에 두 region이 fit하게 들어가는 경우 뺄 값은 0이고, IoU와 GIoU는 동일한 값이 된다:

Figure 3[2].

 

GIoU의 properties는 다음과 같다:

1. GIoU는 IoU와 같이 distance이다. (nonnegativity, indiscernibles, symmetry, triangular inequality 만족)

2. scale에 invariant하다.

3. GIoU는 언제나 IoU의 lower bound이다.

4. $\forall A,B \subseteq \mathbb {S}, -1 \ge GIoU(A,B)\le 1$, 즉 symmetric한 range를 가진다.

 

Figure 4: Correlation between GIoU and IoU for overlapping and non-overlapping samples.

 

 

 

 

CIoU (Complete Intersection over Union) [3]

CIoU는 DIoU와 GIoU를 합친 것인데, 다음과 같이 define된다:

$$\mathcal{L} = S(\mathcal{B},\mathcal{B}^{gt}) + D(\mathcal{B},\mathcal{B}^{gt}) + V(\mathcal{B},\mathcal{B}^{gt})$$

 

$S$는 overlapped area를 의미하고, 다음과 같이 계산된다:

$$ S = 1 - IoU$$

 

$D$는 distance를 의미하고, 각 box의 central point에 대한 Euclidean distance로 계산된다:

$$D= \frac{\rho^2 (p, p^gt)}{c^2}$$

$c$는 convex full의 diagonal length라서 scale invariant하게 된다.

 

$V$는 aspect ratio를 의미하고, 다음과 같이 정의된다:

$$V=\frac{4}{π^2}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan\frac{w}{h})^2$$

 

따라서 전체 CIoU는 다음과 같이 정의되고, 이는 Fig. 5에서 visualize된다:

$$ \mathcal{L}_{CIoU} = 1-IoU + \frac{ρ^2(p,p^{gt}}{c^2} + αV$$

 

 

Figure 5: Normalized central point distance. $c$ is the diagonal length of the smallest enclosing box covering two boxes, and $d=ρ(p,p^gt)$ is the distance of central points of two boxes.

 

 

Discussion

 

 


References

[1] Rezatofighi, Hamid, et al. "Generalized intersection over union: A metric and a loss for bounding box regression." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

 

[2] Haru. “PR-172: Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression.” YouTube, 24 June 2019, youtu.be/ENZBhDx0kqM?si=7A41HwaGBnmAAyH4. Accessed 6 Jan. 2025.

 

[3] Zheng, Zhaohui, et al. "Enhancing geometric factors in model learning and inference for object detection and instance segmentation." IEEE transactions on cybernetics 52.8 (2021): 8574-8586.

Footnotes

'DL·ML > Study' 카테고리의 다른 글

Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F)  (1) 2025.01.03
Reinforcement Learning Basics  (0) 2024.08.20