https://icml.cc/virtual/2024/poster/33745
Abstract
- pix2seq에 영감을 받은 pix2emb 제안
- pix2emb를 이용한 MLLM인 NExT-Chat 제안
- visual grounding, region captioning, grounded reasoning할 수 있음
Motivation
location information을 embedding으로 정의하는 방법을 사용한다.
이를 위해 <trigger> token을 정의하는데, 이 token의 hidden state가 OD와 Seg에 사용될 수 있는 것이다. 다만 이렇게 했을 경우 captioning loss로 indirect하게만 train될 수 있는 점을 지적해서, cycle consistency loss를 정의한다.
이 방법으로 multi-stage training하여 만든 MLLM인 NExT-Chat은 LISA보다 좋은 성능을 보였다.
Methods
image encoder로 CLIP ViT를 사용한다. LLM으로는 Vicuna-1.5를 사용한다.
Pix2Emb Method
Detection
trigger embedding은 2-layer MLP box decoder를 거쳐 coordinate regression에 사용된다. box location output에 대해서 regression loss는 다음과 같이 계산된다:
$$\mathcal{L}_{det} = α_d\mathcal{L}_1(b,b_{gt})+β_d \text{GIoU}(b,b_{gt})$$
Segmentation
SAM decoder를 사용했다. detected bounding box는 SAM의 prompt로 사용될 수 있지만, hidden state를 직접 사용하는 것이 더 좋은 performance를 얻었다(Tab. 6 참조). 나머지 setting은 LISA를 따랐다.
$$ \mathcal{L}_{seg} = α_s\text{BCE}(m,m_{gt}) + β_sD(m,m_{gt})$$
loss는 BCE와 DICE loss를 사용했다.
Location Input
input으로도 bbox가 들어가는데 2-layer MLP로 encode했다. mask를 그리는 것은 불편해서 mask encoder는 추가하지 않았다.
loss는 eq. 4와 같이 정의도는데, $\mathcal{F}$는 box decoder, $\mathcal{G}$는 location encoder이다. input bbox를 encoder-decoder 거친 후에 L1 loss, predicted embedding $t$가 decoder-encoder를 거친 후의 embedding L2 distance를 측정한다.
Training Process
3-stage로 train했다.
Stage-1에서는 simple conversion과 bbox에 대해, stage-2에서는 conversation ability를 개선, stage-3에서는 output format을 segmentation mask로 바꾸었다.
Experiments
task는 visual grounding, grounded captioning, region captioning, reasoning에 대해서 측정되었다.
Discussion
* 상당히 나이스한아이디어
* 특히 box encoder train하는방법은 눈여겨볼만함
* segmentation과 동시에 할 수 있도록 하나의 token으로 만든거는 implementation 확인해보면좋을듯
References
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
Video Token Merging(VTM) (NeurIPS 2024, long video) (1) | 2025.01.24 |
---|---|
TemporalVQA (0) | 2025.01.22 |
STVG (VidSTG, CVPR 2020) (0) | 2025.01.21 |
LongVU (Long Video Understanding) (0) | 2025.01.20 |
LaSagnA (Segmentation) (0) | 2025.01.14 |