RVOS Datasets

2025. 1. 24. 19:55·DL·ML/Study

 

 

 

VOS 중 하나인 RVOS(Referring Video Object Segmentation) task와, 이 task를 다루는 dataset들에 대해 다룬다. 

 

segmentation task에 대한 전반적인 이해는 segmentation task들의 종류를 참조하길 바란다. 

 

Ref-DAVIS

RVOS task를 처음으로 정의한 paper이다. 

 

Figure 1: Ref-DAVIS dataset visualization.

 

 

 


 

Refer-YouTube-VOS (URVOS)

ECCV 2020 paper이고, RVOS task dataset의 크기를 키운 paper이다. 

 

 

Dataset

  • 27,000+ referring expressions for 3,900 videos
  • end-to-end architecture 제안 

 

Table 1: Comparison to existing VOS datasets.

 

→ 기존 DAVIS-2017 dataset은 개수가 작아서 end-to-end train하기가 어려움. 

→ YouTube-VOS 기반으로 제작. YouTube-VOS는 30fps video를 5 frame마다 sample해서 segmentation한 dataset, 3-6 duration.

→ 50명의 annotator가 각 video에서 highlighted object를 보고 20 words 이내로 설명하도록 directed

→ whole video를 본 설명과(Full-video expression) 첫 frame만 본 설명(First-frame expression)으로 나눔.

Figure 1: Annotation examples of Refer-YouTube-VOS dataset.

 

 

 

Method

Figure 2: The overall architecture of URVOS.

method는 본 post에 scope가 아니므로 간단하게 다룬다. 각 image에 대해서 language와 cross attention해서 mask를 뽑는다. 다만 이때 consistency를 보장하기 위해서 memory frame을 도입하여 previous feature들을 확인한다. 

→ video 문제를 video가 아니라 image로 푼다는 문제가 있다. video를 다 보고 푸는게 아니라 video의 context를 이해할 수가 없다. 

 

Figure 3: Qualtiative results of URVOS on Refer-YouTube-VOS dataset.

 

실제로 Fig. 3을 봐도 frame이 많다 뿐이지 사실 각각 image를 independent하게 봐도 풀 수 있는 문제이다. 

 

아쉽게도 해당 paper는 openreview를 확인할 수 없고 paper 내에 limitation이나 future work로 제시된 내용이 없다.

 

 

 


ReVOS (VISA)

다음 블로그 글을 참조하길 바란다. 

 

 

'DL·ML > Study' 카테고리의 다른 글

segmentation task들의 종류  (0) 2025.01.15
GIoU, CIoU metrics  (0) 2025.01.06
Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F)  (1) 2025.01.03
Reinforcement Learning Basics  (0) 2024.08.20
'DL·ML/Study' Other articles in this category
  • segmentation task들의 종류
  • GIoU, CIoU metrics
  • Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F)
  • Reinforcement Learning Basics
Jordano
Jordano
  • Jordano
    Jordano
    Jordano
  • Total
    Today
    Yesterday
    • All categories
      • Introduction
      • Theatre⋅Play
      • Thinking
        • iDeAs
        • Philosophy
      • History
        • Cuba
        • China
      • CS
        • HTML·CSS·JavaScript
        • Dart·Flutter
        • C, C++
        • Python
        • PS
        • Algorithm
        • Network
        • OS
        • etc
      • DL·ML
        • Paper
        • Study
        • Project
      • Mathematics
        • Information Theory
        • Linear Algebra
        • Statistics
        • etc
      • etc
        • Paper
      • Private
      • Travel
  • Blog Menu

    • 홈
    • 태그
    • 방명록
  • Link

  • hELLO· Designed By정상우.v4.10.3
Jordano
RVOS Datasets
상단으로

티스토리툴바