VOS 중 하나인 RVOS(Referring Video Object Segmentation) task와, 이 task를 다루는 dataset들에 대해 다룬다.
segmentation task에 대한 전반적인 이해는 segmentation task들의 종류를 참조하길 바란다.
Ref-DAVIS
RVOS task를 처음으로 정의한 paper이다.
Refer-YouTube-VOS (URVOS)
ECCV 2020 paper이고, RVOS task dataset의 크기를 키운 paper이다.
Dataset
- 27,000+ referring expressions for 3,900 videos
- end-to-end architecture 제안
→ 기존 DAVIS-2017 dataset은 개수가 작아서 end-to-end train하기가 어려움.
→ YouTube-VOS 기반으로 제작. YouTube-VOS는 30fps video를 5 frame마다 sample해서 segmentation한 dataset, 3-6 duration.
→ 50명의 annotator가 각 video에서 highlighted object를 보고 20 words 이내로 설명하도록 directed
→ whole video를 본 설명과(Full-video expression) 첫 frame만 본 설명(First-frame expression)으로 나눔.
Method
method는 본 post에 scope가 아니므로 간단하게 다룬다. 각 image에 대해서 language와 cross attention해서 mask를 뽑는다. 다만 이때 consistency를 보장하기 위해서 memory frame을 도입하여 previous feature들을 확인한다.
→ video 문제를 video가 아니라 image로 푼다는 문제가 있다. video를 다 보고 푸는게 아니라 video의 context를 이해할 수가 없다.
실제로 Fig. 3을 봐도 frame이 많다 뿐이지 사실 각각 image를 independent하게 봐도 풀 수 있는 문제이다.
아쉽게도 해당 paper는 openreview를 확인할 수 없고 paper 내에 limitation이나 future work로 제시된 내용이 없다.
ReVOS (VISA)
다음 블로그 글을 참조하길 바란다.
'DL·ML > Study' 카테고리의 다른 글
segmentation task들의 종류 (0) | 2025.01.15 |
---|---|
GIoU, CIoU metrics (0) | 2025.01.06 |
Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F) (1) | 2025.01.03 |
Reinforcement Learning Basics (0) | 2024.08.20 |