segmentation task들은 그 종류가 다양하나 이름에 따라 task에서 다루고자 하는 바가 미묘하게 다르다. 다만 영어로 이름이 붙어 있는 탓에 그 뉘앙스를 파악하기 어려워 각 task 별 차이를 확인해보고자 한다.
Object Segmentation
object segmentation이라는 용어는 image domain에서는 특정한 task를 refer하는 용도로는 사용되지 않는 것으로 보인다. image에서 object segmentation이라고 하면 전체 segmentation task를 의미하는 것으로 사용된다.
video domain에서 object segmentation은 foreground object를 segment하고 track하는 것을 의미한다(Fig. 1 참조). 이는 주로 Unsupervised VOS 형태로 주어진다.
그러나 foreground object라고 하는 것이 ambiguous하기 때문에, 일부 frame의 mask를 주고 나머지 frame에서의 track하는 Semi-Supervised VOS task도 있다. 첫 frame만 제공하는 One-Shot Video Object Segmentation(OSVOS) 는 대표적인 예이다[2].
종종 VOS task는 language-guided로 object가 specify되기도 한다. Referring Video Object Segmentation task가 대표적이다[
Semantic Segmentation
semantic segmentation은 image 안의 모든 pixel에 대해서 label을 부여하는 것이다. 서로 다른 object라도 구분하지 않고(instance-agnostc) class로 labeling만 한다는 점이 instance segmentation과의 차이점이다.
Instance Segmentation
instance segmentation은 동일한 class의 object를 instance 단위로 구분하여 segmentation하는 것을 의미한다(Fig. 3 참조).
video instance segmentation은 Linjie Yang et al.(2019)에 의해 제안되었는데, video 안에서 object들을 segment하고 track하는 것이다[4]. 다만 하나의 object가 아니라 여러 object들에 대해서 classification과 함께 tracking도 해야 하므로 VOS나 IIS보다는 더 어려운 task이다.
Panoptic Segmentation
panoptic segmentation은 Alexander Kirillov et al.(2018)에 의해 제안되었다[6]. image의 모든 pixel이 labeling되고 instance id를 부여받아야 한다. class는 stuff와 thing으로 분류되는데, stuff는 background에 대응하는 것으로서 instance id가 없다. thing은 각자 고유한 instance id를 가져야 한다.
Fig. 5를 참조하면, panoptic segmentation은 instance segmentation과 semantic segmentation을 합한 task라고 볼 수 있다.
video domain에서의 panoptic segmentation task도 Dahun Kim et al.(2020)에 의해 제안되었다[7].
References
[1] Perazzi, Federico, et al. "A benchmark dataset and evaluation methodology for video object segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[2] Caelles, Sergi, et al. "One-shot video object segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[3] Arnab, Anurag, et al. "Conditional random fields meet deep neural networks for semantic segmentation: Combining probabilistic graphical models with deep learning for structured prediction." IEEE Signal Processing Magazine 35.1 (2018): 37-52.
[4] Yang, Linjie, Yuchen Fan, and Ning Xu. "Video instance segmentation." Proceedings of the IEEE/CVF international conference on computer vision. 2019.
[6] Kirillov, Alexander, et al. "Panoptic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
[7] Kim, Dahun, et al. "Video panoptic segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[8] Seo, Seonguk, Joon-Young Lee, and Bohyung Han. "Urvos: Unified referring video object segmentation network with a large-scale benchmark." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XV 16. Springer International Publishing, 2020.
Footnotes
'DL·ML > Study' 카테고리의 다른 글
RVOS Datasets (0) | 2025.01.24 |
---|---|
GIoU, CIoU metrics (0) | 2025.01.06 |
Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F) (1) | 2025.01.03 |
Reinforcement Learning Basics (0) | 2024.08.20 |