DL·ML/Study

RVOS Datasets

Jordano 2025. 1. 24. 19:55

 

 

 

VOS 중 하나인 RVOS(Referring Video Object Segmentation) task와, 이 task를 다루는 dataset들에 대해 다룬다. 

 

segmentation task에 대한 전반적인 이해는 segmentation task들의 종류를 참조하길 바란다. 

 

Ref-DAVIS

RVOS task를 처음으로 정의한 paper이다. 

 

Figure 1: Ref-DAVIS dataset visualization.

 

 

 


 

Refer-YouTube-VOS (URVOS)

ECCV 2020 paper이고, RVOS task dataset의 크기를 키운 paper이다. 

 

 

Dataset

  • 27,000+ referring expressions for 3,900 videos
  • end-to-end architecture 제안 

 

Table 1: Comparison to existing VOS datasets.

 

→ 기존 DAVIS-2017 dataset은 개수가 작아서 end-to-end train하기가 어려움. 

YouTube-VOS 기반으로 제작. YouTube-VOS는 30fps video를 5 frame마다 sample해서 segmentation한 dataset, 3-6 duration.

→ 50명의 annotator가 각 video에서 highlighted object를 보고 20 words 이내로 설명하도록 directed

→ whole video를 본 설명과(Full-video expression) 첫 frame만 본 설명(First-frame expression)으로 나눔.

Figure 1: Annotation examples of Refer-YouTube-VOS dataset.

 

 

 

Method

Figure 2: The overall architecture of URVOS.

method는 본 post에 scope가 아니므로 간단하게 다룬다. 각 image에 대해서 language와 cross attention해서 mask를 뽑는다. 다만 이때 consistency를 보장하기 위해서 memory frame을 도입하여 previous feature들을 확인한다. 

→ video 문제를 video가 아니라 image로 푼다는 문제가 있다. video를 다 보고 푸는게 아니라 video의 context를 이해할 수가 없다. 

 

Figure 3: Qualtiative results of URVOS on Refer-YouTube-VOS dataset.

 

실제로 Fig. 3을 봐도 frame이 많다 뿐이지 사실 각각 image를 independent하게 봐도 풀 수 있는 문제이다. 

 

아쉽게도 해당 paper는 openreview를 확인할 수 없고 paper 내에 limitation이나 future work로 제시된 내용이 없다.

 

 

 


ReVOS (VISA)

다음 블로그 글을 참조하길 바란다.