https://arxiv.org/abs/2501.00599v1
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM
Video Large Language Models (Video LLMs) have recently exhibited remarkable capabilities in general video understanding. However, they mainly focus on holistic comprehension and struggle with capturing fine-grained spatial and temporal details. Besides, th
arxiv.org
arXiv에 241231에 올라온 paper이다. 浙江大学에서 썼다.
Abstract
- Video LLM을 finer-level spatial-temporal video understanding에 적용한다.
- multi-agent data engine와 그로 제작한 video instruction dataset VideoRefer-700K를 introduce한다.
- VideoRefer model을 제안한다.
- spatial-temporal understanding을 평가할 수 있는 benchmark인 VideoRefer-Bench를 제안한다.
Motivation

기존 MLLM들은 holistic scene understanding에 중점을 두고 있다 보니 specific object에 focus하는데 실패한다(Fig. 1 (a) 참조).
이를 해결하기 위한 몇 가지 방법들이 제안되었는데, 예컨대 Artemis [2]에서는 external RoI tracker로 object를 따라가는데, 이 경우에도 coarse box-level representation에 제한되어 complex task를 수행하는 데에는 어려움이 있다는 limitation이 있다(Fig. 1. (b) 참조).
따라서 VideoRefer Suite를 제안해서 MLLM이 spatiotemporal object comprehension할 수 있도록 한다.
regional alignment achieve하기 위해 large-scale region-text video instruction dataset VideoRefer-700K를 생성한다. 이는 description, QA-pairs, complex reasoning, future prediction 등으로 구성된다.
이를 모두 이용하여 effective Video LLM인 VideoRefer를 제안한다. 이를 regional video undersatnding capabilities를 확인하는 VideoRefer-Benchmark로 확인한다.
Fig. 1에서 볼 수 있듯이 advanced finer-level video understanding capabilities를 보여주고, seamlessly SAM-2와 연결될 수도 있음을 설명한다.
→ 어쨌든 SAM-2와 연결 시 interaction은 사람이 해야 한다 .
VideoRefer Suite
VideoRefer Suite는 dataset, model, benchmark로 구성되는 suite이다.
VideoRefer-700K Dataset

video instruction-following dataset인 VideoRefer-700K를 만드는 pipeline은 Fig. 2에 나타나 있다. 이는 다섯 components로 구성된다:
(i) Anaylzer for noun extraction
(ii) Annotator for object-level caption generation
(iii) Segmentor for mask generation
(iv) Review for correpondence verification
(v) Refiner for summarization & refinement
이는 모두 off-the-shelf expert model로 구성되었다.
Analyzer for Noun Extraction
기존 video dataset의 raw caption에서 noun을 capture한다. Qwen2-Instruct-7B model이 사용되었다.
Annotator for Object-level Caption Generation
extracted noun에서 detailed description을 얻기 위해서 해당 object에 대한 description을 만들도록 prompt했다.
InternVL2-26B model이 사용되었다.
Segmentor for Mask Generation
video에서 random frame을 뽑아서 noun에 대해 Grounding-DINO로 bbox를 추출하고, HQ-SAM으로 high-quality mask를 만들었다. video의 경우에는 SAM-2를 사용했다.
Reviewer for Correspondence Verification
reviewer를 도입해서 mask와 description을 verify했다. Qwen2-Instruct-7B model이 사용되었다.
Refiner for Summarization & Refinement
GPT-4o로 caption을 summarize and refine하도록 하여 hallucination과 repetition을 최소화했다.
이로 생성된 data는 object-level detailed caption(125K), object-level short caption(500K), object-level QA(Basic, Reasoning, Future; 75K) 이다.
VideoRefer Model

기본 구조는 VideoLLaMA2.1 을 따랐다. Fig. 3에 전체 구조가 나타나 있다. visual encoder가 두 개인데, 하나는 global representation
결과적으로 LLM
Experiments
Results
Discussion
* segmentation generation은 안 되는 model임
* object encoder는 어떻게 만들었다는건지 ?
* 숫자 상으로 그냥 잘 한다가 엄청 눈에 띄지는 않는데, 새로운 dataset에 modality까지 추가할꺼면 기존에 못 했던 것을 새롭게 하게 되었다는 시나리오가 있으면 좋지 않았을까
References
[2] Qiu, Jihao, et al. "Artemis: Towards Referential Understanding in Complex Videos." arXiv preprint arXiv:2406.00258 (2024).
→ NeurIPS 2024 accepted paper
[3] Cheng, Zesen, et al. "VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs." arXiv preprint arXiv:2406.07476 (2024).
→ CoRR 2024
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
LongVU (Long Video Understanding) (0) | 2025.01.20 |
---|---|
LaSagnA (Segmentation) (0) | 2025.01.14 |
PSALM (ECCV 2024, Image Segmentation) (0) | 2025.01.10 |
InstructSeg (arXiv preprint) (1) | 2025.01.07 |
HyperSeg (arXiv preprint, seg) (0) | 2025.01.06 |