https://arxiv.org/abs/2501.00599v1
arXiv에 241231에 올라온 paper이다. 浙江大学에서 썼다.
Abstract
- Video LLM을 finer-level spatial-temporal video understanding에 적용한다.
- multi-agent data engine와 그로 제작한 video instruction dataset VideoRefer-700K를 introduce한다.
- VideoRefer model을 제안한다.
- spatial-temporal understanding을 평가할 수 있는 benchmark인 VideoRefer-Bench를 제안한다.
Motivation
기존 MLLM들은 holistic scene understanding에 중점을 두고 있다 보니 specific object에 focus하는데 실패한다(Fig. 1 (a) 참조).
이를 해결하기 위한 몇 가지 방법들이 제안되었는데, 예컨대 Artemis [2]에서는 external RoI tracker로 object를 따라가는데, 이 경우에도 coarse box-level representation에 제한되어 complex task를 수행하는 데에는 어려움이 있다는 limitation이 있다(Fig. 1. (b) 참조).
따라서 VideoRefer Suite를 제안해서 MLLM이 spatiotemporal object comprehension할 수 있도록 한다.
regional alignment achieve하기 위해 large-scale region-text video instruction dataset VideoRefer-700K를 생성한다. 이는 description, QA-pairs, complex reasoning, future prediction 등으로 구성된다.
이를 모두 이용하여 effective Video LLM인 VideoRefer를 제안한다. 이를 regional video undersatnding capabilities를 확인하는 VideoRefer-Benchmark로 확인한다.
Fig. 1에서 볼 수 있듯이 advanced finer-level video understanding capabilities를 보여주고, seamlessly SAM-2와 연결될 수도 있음을 설명한다.
→ 어쨌든 SAM-2와 연결 시 interaction은 사람이 해야 한다 .
VideoRefer Suite
VideoRefer Suite는 dataset, model, benchmark로 구성되는 suite이다.
VideoRefer-700K Dataset
video instruction-following dataset인 VideoRefer-700K를 만드는 pipeline은 Fig. 2에 나타나 있다. 이는 다섯 components로 구성된다:
(i) Anaylzer for noun extraction
(ii) Annotator for object-level caption generation
(iii) Segmentor for mask generation
(iv) Review for correpondence verification
(v) Refiner for summarization & refinement
이는 모두 off-the-shelf expert model로 구성되었다.
Analyzer for Noun Extraction
기존 video dataset의 raw caption에서 noun을 capture한다. Qwen2-Instruct-7B model이 사용되었다.
Annotator for Object-level Caption Generation
extracted noun에서 detailed description을 얻기 위해서 해당 object에 대한 description을 만들도록 prompt했다.
InternVL2-26B model이 사용되었다.
Segmentor for Mask Generation
video에서 random frame을 뽑아서 noun에 대해 Grounding-DINO로 bbox를 추출하고, HQ-SAM으로 high-quality mask를 만들었다. video의 경우에는 SAM-2를 사용했다.
Reviewer for Correspondence Verification
reviewer를 도입해서 mask와 description을 verify했다. Qwen2-Instruct-7B model이 사용되었다.
Refiner for Summarization & Refinement
GPT-4o로 caption을 summarize and refine하도록 하여 hallucination과 repetition을 최소화했다.
이로 생성된 data는 object-level detailed caption(125K), object-level short caption(500K), object-level QA(Basic, Reasoning, Future; 75K) 이다.
VideoRefer Model
기본 구조는 VideoLLaMA2.1 을 따랐다. Fig. 3에 전체 구조가 나타나 있다. visual encoder가 두 개인데, 하나는 global representation $T_Z$을 학습하기 위한 것으로 STC(spatiotemporal convolution) connector [3]와 연결되어 있다. 나머지 하나는 object-level representation을 얻기 위한 REcn로, 동일한 visual encoder로 얻은 image feature map $Z$에 2D binary mask $M$를 같이 넣어서 object level token $T_R = REnc(R,Z)$를 얻는다.
결과적으로 LLM $φ$에 대해 semantic understanding $Y$는 $Y=φ(T_Z,T_R,T_x)$로 output된다.
Experiments
Results
Discussion
* segmentation generation은 안 되는 model임
* object encoder는 어떻게 만들었다는건지 ?
* 숫자 상으로 그냥 잘 한다가 엄청 눈에 띄지는 않는데, 새로운 dataset에 modality까지 추가할꺼면 기존에 못 했던 것을 새롭게 하게 되었다는 시나리오가 있으면 좋지 않았을까
References
[2] Qiu, Jihao, et al. "Artemis: Towards Referential Understanding in Complex Videos." arXiv preprint arXiv:2406.00258 (2024).
→ NeurIPS 2024 accepted paper
[3] Cheng, Zesen, et al. "VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs." arXiv preprint arXiv:2406.07476 (2024).
→ CoRR 2024
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
LongVU (Long Video Understanding) (0) | 2025.01.20 |
---|---|
LaSagnA (Segmentation) (0) | 2025.01.14 |
PSALM (ECCV 2024, Image Segmentation) (0) | 2025.01.10 |
InstructSeg (arXiv preprint) (0) | 2025.01.07 |
HyperSeg (arXiv preprint, seg) (0) | 2025.01.06 |