cs
VideoLISA (NeurIPS 2024,VOS)
DL·ML/Paper

VideoLISA (NeurIPS 2024,VOS)

Abstract

  • 기존의 LISA를 video domain에 확장하여 사용한다. 
    → temporal dimension에 적용하기 위해서 Sparse Dense Sampling strategy를 video LLM에 적용한다.
  • One-Token-Seg-All approach를 제안한다. 
  • ReasonVOS benchmark를 제안한다.

 

Motivation

Sparse Dense Sampling strategy

video는 당연히 expensive한데, 여기서 활용하는 intuition은 adjacent frames는 temporal redundancy를 가지고 있다는 것이다. 이를 이용하는 방법으로 Sparse Dense Sampling strategy를 제안한다.

 

dense frame을 uniform하게 sampling하여 full-resolution features(dense tokens)를 얻고, 이를 downsampling하여 interleaved frame들을 lower resolution으로 낮춘다(sparse tokens).

 

dense frame은 accurate segmentation을 위한 visual feature를 제공하고, sparse frame은 temporal information에 초점을 맞추어 사용한다. 

 

 

One-Token-Seg-All

special <TRK> token으로 video frames 안에서의 object segmentation mask를 represent한다. <TRK> token을 generate할 때, model이 temporal module을 통해서 video contents를 확인하고, 이후 이 token의 LLM에서의 last embedding은 mask decoder와 연결되어 segmentation과 tracking을 하는 데에 사용하게 된다.

 

 

 

여기서는 이를 이용한 VideoLISA 모델을 제안하고, 이를 확인할 수 있는 ReasonVOS benchmark로 결과를 확인한다. 

 

 

 

Methods

Architecture

Figure 1: Framework of VideoLISA.

 

visual tokenizer하고 LLM은 LLaVA의 weight를, mask decoder는 SAM을 사용했다. 

 

video는 먼저 $T_{sparse}$ frame을 uniform하게 추출한 뒤에 visual tokenizer로 $T_{sparse} × L$개의 token을 얻었다.

<TRK> special token을 추가해서, 이 token이 semantic information을 carry할 수 있도록 만들었다. 

구체적으로는, <TRK> toekn에 해당하는 last layer embedding을 MLP로 prompt embedding으로 transform했고, per-frame feature과 함께 mask decoder에 넣어 segmenation mask를 generate했다. 

 

Sparse Dense Sampling

여기서 token 개수를 더 줄이면서 정보 손실을 줄이기 위해 Sparse Dense Sampling을 수행한다. 

 

$T_{sparse}$ frame 중에서 다시 sampling하여 $T_{dense}$개의 frame을 추출한다. 이때 $T_{dense}$개의 frame들은 full resolution으로 preserve된 상태로 남는다. 반면 $T_{sparse}$ token들은 global average pooling을 수행하여 low resolution으로 만들어 하나의 token이 하나의 frame에 correspond하도록 implement한다. 

 

그럼 총 token의 개수는 $T_{sparse} + T_{dense} × L$로 $T_{sparse}×L$보다 훨씬 적은 token이 남게 된다.

 

이 방법 뒤의 intuition은 위에 언급한 바와 같이 일부 high-resolution visual feature를 preserve함으로써 detail은 남기되, video가 가지고 있는 information redundancy를 압축하는 과정으로서 sparse token들을 남겨둔 것이다. 즉 dense token은 visual detail을, sparse token은 temporal dynamics를 서로 보완하는 형태가 된다.

 

 

One Token Seg All

여기서 사용하는 intuition은 multiple frame에서 one object를 segment하는 것은 하나의 image grid에서 multiple instances를 segment하는 것과 본질적으로 같다는 것이다. 

→ 왜?

 

이 intuition을 확인하기 위해서 하나의 box prompt 또는 하나의 LISA prompt embedding을 가지고 테스트하였다(Fig. 2 참조).

 

Figure 2: Exploration of One-Token-Seg-All approach.

 

하나의 box prompt를 가지고 테스트하면, object가 움직이기 시작하자 fail하는 것을 볼 수 있다(Fig. 2의 첫 row).

LISA prompt embedding 하나를 가지고 multiple image에 테스트했을 경우 box prompt보다는 낫지만  object가 더 많이 움직이자 다른 object로 drift하며 fail한다(Fig. 2의 두 번째 row).

 

여기서는 LISA의 input이 temporal information이 배제된 one frame으로 구성되고, training 과정에서도 only one frame을 segment하도록 train되었음을 blame한다. 

 

이 문제들을 해결하여 VideoLISA는 Fig. 2의 세 번째 row와 같은 video segmentation을 one token으로 얻는다.

 

→ 떨떠름한 증명이다. tracking 자체는 box prompt가 더 잘 되는 것 같은데? 근데 box prompt는 위치가 고정되어 있으니까 영역 밖을 나가면 model이 의식적으로 배제할 수 밖에 없으니까 저렇게 되는 거 같다. 

 

내 생각에는 저걸 보고 one token으로 mask encoding을 해야겠다라는 결론이 아니라 one token으로 box regression을 해야겠다는 결론이 나올 것 같은데. . . 저 방법이 더 깔끔한 건 맞는데 intuition이 확 와닿지는 않는다. token이 object identity에 대한 semantic을 포함하고 있으면 box regression이 어렵지는 않을거라 .. 

 

 

Training and Inference

Training에 활용한 prompt template은 다음과 같은 형태로 제작되었고, 나머지 대부분은 LISA의 setting을 follow했다.

 

"USER: <VIDEO> Can you segment {description} in this scene? ASSISTANT: Sure, it is <TRK>."

 

추가로 Inference 과정에서 SAM의 mask quality가 높지 않아 XMem++으로 post-optimization하였다.

 

 

 

Benchmark

여기서 추가로 ReasonVOS benchmark를 제작했는데, 이는 existing dataset(MOSE, MeViS, VIPSeg, BURST) 등의 language exrpession을 디자인한 것이다. 여기에는 다음 기준이 적용되었다:

 

1) complex reasoning, 

2) world knowledge,

3) temporal dynamics

 

105개의 seed data를 manually annotate하고, LLM을 이용하여 rephrase한 뒤에 human annotator가 검수하였다. 결과적으로는 458 video-instruction-mask sample이 제작되었다. 

 

 

Experiments

 

Tab. 1은 referring video object segmentation에서의 결과를 보여준다. Tab. 2은 motion-guided video object segmentation task로, 특정 motion을 취하고 있는 object를 video segmentation하는 task이다. Tab. 3는 reasoning video object segmentation으로 complex reasoning, temporal understanding, segmentation temporal consistency에 중점을 두는 benchmark이다.

 

→ Tab. 1에서 왜 SgMg보다 못해 ? 

 

 

 

 

Tab. 4는 image에서의 segmentation 성능을 보여준다. 

 

Tab. 5와 Tab. 6는 ablation study이다. Tab. 5는 Sparse Dense Sampling strategy를 보여주는데, 단순히 concatenate했을 때(n-frame), spatial dimension과 temporal dimension을 따로 pooling했을 때(ST Pooling) 등에 비해서 Sparse Dense Sampling strategy가 work하는 것을 볼 수 있다. 

 

Tab. 6는 기존의 image 기반 LISA에 대해 tokenization method를 가지고 ablation study한 것이다.

 

 

 

Qualitative Results

Figure 3: VideoLISA is a capable model on video object segmentation with versatile language-instructed reasoning abilities.

 

 

Figure 4: Failure cases of VideoLISA.

Fig. 4에서 row 2를 보면 rule을 알려주기 전에는 fail했다가 row 3에서 rule과 함께 제시하자 성공하였다.

추가로, low segmentation quality가 보인다 → 중간에 masking이 비어 있는 부분

 

Figure 6: More qualitative examples of VideoLISA.

 

Figure 7: More qualitative examples of VideoLISA.

 

 

Discussion

* 논문에서 제시한 limitation은 MLLM 도입에 따른 computational efficiency가 커진다는 점과, video encoder를 SAM과 함께 사용하기 곤란한 점 때문에 image encoder를 사용한 점이다. 

 

* 어차피 LLM을 leverage하도록 referring segmentation을 하는 것은 올바른 방향이라고 생각한다. wild한 경우에 reasoning을 할 수 있어야 하니까. 엄청 간단하게 refer하는 경우에는 굳이 기계가 해 줄 이유가?

 

* video foundation model하고 SAM-2 decoder 쓰면 안 돼? 그럼 훨씬 잘 할 것 같은데 .. 

→ 근데 video fm쓰면 resolution이 높을 때는?

→ 근데 꼭 resolution이 높아야하나? semantic한 부분만 보고 mask에서 알아서 하면 안 됨? SAM-2가 더 잘 할거같은데

 

OpenReview 참고 (https://openreview.net/forum?id=bQMevGCYVM)

* reviewer oRTn

Weaknesses:
  1. This work utilizes two visual encoder. It's redundant, and will influence the speed of the model.
  2. The model fails to segment multiple objects at the same time.
Questions:
  1. The results when replace the SAM with other kernel-based segmenting and tracking models.
  2. Compared with QFormer [1] and QFormer-like archectures [2], what are advantages of the Sparse Dense Sampling strategy?

 

내 생각에 weakness 1은 어쩔 수가 없는게.. off-the-shelf model을 사용하려면 추가 training 없이는 encoder 2개가 필요하다. 두번째 limitation은 further works로 남겨놔도 될 것 같은데, 만약 하면 할 수는 있을 듯

 

reponse는 다음과 같은데,

Q1: This work utilizes two vision encoders, which will influence the speed of the model.

CLIP-based vision encoder는 semantic feature를 extract하고, SAM-based vision encoder는 low-level vision feature를 extract해서, 두 개의 unique role을 가지고 있다. 만약 두 개가 합쳐진 새로운 model이 등장한다면 합칠 수 있을 것이다.

 

Q2: It seems like the model has difficulty segmenting multiple objects at the same time.

language-guided object segmentation setting에서는 single object detection이 가장 standard setting이다. 

 

Q3: Curious about the results when replacing the SAM with other kernel-based segmenting and tracking models.

kernel-based segmenting이 뭐지? 

author는 [TRK] tokenization이 kernel-based tracking method의 philosophy를 따른다고 설명했다. 

 

Q4: What are the advantages of the Sparse Dense Sampling strategy compared with QFormer and QFormer-like architectures (e.g. LLaMA-VID [6]) ?

이런 형태는 segmentation task에 충분할 정도로의 sophisticated feature를 얻을 수가 없다고 답변했다. 

 

+ LISA 등의 모델은 text generation 성능이 기존보다 떨어진다. 이 점 note. 

 

 

 

Reviewr vGHj

Weaknesses:
  1. The token "TRK" is only one token designed for the task, so it seems the model cannot generate multiple segmentation mask tracklets.
  2. VideoLISA has limited technical contributions in its design, where only the sampling strategy is specially designed for the video domain, and the "TRK" token seems to be a simple extension from the original LISA with a simple adaptation.
  3. Pixellm is another reasoning segmentation work that is able to segment multiple targets and support multi-round conversations, which is not compared in the paper.
Questions:
  1. How to use this single token to generate segmentation masks for multiple targets?
  2. I wonder how the model performs on text-generation task, does the model preserve the original ability to perform conversation?
  3. The sampling strategy reminds me of the strategy used in LLaMA-VID, which compresses the visual information of each frame to one token. I am curious about the performance of adding a segmentation head to such models, which is capable of both generating texts and producing masks.

 

여기서도 multiple object의 segmentation이 안 되는 limitation에 대해서 지적했다. 또 LLaMA-VID에 segmentation head를 붙였을 때의 결과에 대해서도 질문했다.

 

Q1: It is not clear whether the model can segment multiple objects

→ 위의 Q2와 동일

 

Q2: The [TRK] token design seems to be simple.

일부로 simple하게 만들었다. 이게 information bottleneck이 되게 함으로써 compact object representation을 학습하도록 만들었다. 

 

Q3: It is better to compare with another related work, PixelLM.

PixelLM은 image domain model이다. 

 


References

 

Footnotes

'DL·ML > Paper' 카테고리의 다른 글

HyperSeg (arXiv preprint, seg)  (0) 2025.01.06
VISA (ECCV 2024, RVOS)  (0) 2025.01.03
MoRA (arXiv preprint, STVG)  (0) 2025.01.02
VTP(EMNLP 2024, STVG)  (0) 2025.01.01
CG-STVG(CVPR 2024)  (1) 2024.12.31