ChatPose (CVPR 2024)
·
DL·ML/Paper
Motivationpose estimation만을 수행하는 vision model들은 comprehensive한 이해가 결여되어 있다. 여기서는 LLM의 prior knowledge를 활용하여 3D human pose를 SMPL 형태로 generation하도록 한다. 이를 위해 LLM이 기존에 갖고 있는 3D pose에 대한 이해를 확인하고 추가적으로 어떻게 teach할 수 있는지 확인한다.  MethodsArchitecturetext 또는 visual input을 받을 수 있다. 이를 이용해 textual output 또는 SMPL pose를 출력한다.  모델은 LLM model $f_φ$와 embedding projection layer $g_Θ$, SMPL로 구성된다. SMPL은 pose와 shap..
OMG-LLaVA
·
DL·ML/Paper
MotivationLLaVA는 image-level analysis를 진행하므로 precise location과 같은 pixel-level에서의 작업을 수행할 수 없다는 문제가 있다. 여기에 extra detection model을 붙여서 문제를 해결하는 경우가 있지만, 이 경우 LLaVA가 image cpationing이나 VQA와 같은 image-level analysis의 성능을 잃게 된다는 문제가 있다.  OMG-LLaVA에서는 하나의 LLM과 visual encoder, decoder를 가지고 image-level, object-level, pixel-level task를 모두 수행하고자 한다. 특히 OMG-Seg model을 universal perception model로 사용한다. OMG-..
LLaVA-1.5 (CVPR 2024)
·
DL·ML/Paper
Motivation  LLaVA에서 충분히 explore되지 않았던 부분을 다룬다. LMM(Large Multimodal Models)를 general-purpose assistant로 만들기 위해 가장 좋은 training design choice가 무엇인지 확인한다. 먼저 LLaVA의 vision-language connector는 linear projection으로 사용되었는데, 이것이 좋은 성능을 보임을 증명하고 개선한다. 그 후 LMM의 open problem에 대해서 explore하는데 이는 구체적으로 다음과 같다: 1) Scaling to high-resolution image inputs; high-resolution image로 scaling하는 것은 image를 diving into g..
LLaVA (NeurIPS 2023 Oral, MLLM)
·
DL·ML/Paper
MotivationMultimodal instruction-following data 제작: 처음으로 vision-language domain에 instruction tuning 활용Large multimodal model: CLIP에 Vicuna 붙여서 finetuning함. Multimodal instruction-following benchamrk: LLaVA-Bench Datasetimage-text pair 데이터는 있어도, instruction-following multimodal dataset은 만들기가 expensive해서 그 양이 많지 않다. 여기서는 ChatGPT/GPT-4를 이용해서 data를 collect했다.  기존의 image-text pair를 가지고, $\text{Human:..
UniControl (NeurIPS 2023, Diffusion)
·
DL·ML/Paper
AbstractSD 모델에서 spatial, structural, geometric control에 대한 image를 생성하는데 종종 실패광범위한 control에 대해서 C2I(Control-to-Image) task를 수행하는 foundation model인 UniControl 제안T2I diffusion model을 augment하고 task-aware한 HyperNet을 사용20M ITC triplet을 포함하는 MultiGen-20M dataset 제안  Motivationdiffusion model에서 condition을 넣어준다는 아이디어는 SD에서 시작해서 ControlNet까지 발전되었다. 하지만 ControlNet에서도, 특정한 control modality에 대해서 train된 경우에만..
X-VARS (CVPR 2024)
·
DL·ML/Paper
AbstractX-VARS(EXplainable Video Assistant Referee System) 제안SoccerNet-XFoul -- 22k VQA question triplet about refereeing question benchmark 제안  MotivationVAR system에서 explainability가 중요한 것은, 공식 경기의 판정 결과는 각 팀의 운명을 좌우할 수 있기 때문이다. 따라서 X-VARS는 LLM을 이용하여 automatic VAR의 explainability를 조명한다.  X-VARS LLaVa를 사용하는 VLM을 활용한다. vision encoder로는 CLIP ViT-L/14를 활용한다. 22k개의 video QA triplet을 포함한 SoccerNet-XF..
BASNet (CVPR 2019, OD)
·
DL·ML/Paper
기존 saliency map을 얻는 architecture는 여전히 fine structure를 포착하는 데 어려움이 있어 이를 해결하기 위한 ConvNet 기반 architecture를 제시한다(See Fig. 1). 이때 refinement network는 U-Net shape의 residual refinement module이다. 이를 train하기 위해서 BCE와 SSIM(Structural SIMilarity)[1], IoU가 사용된다.   BASNet의 전체 architecture는 Fig. 2에 제시되어 있다. 먼저 saliency map을 predict하는 module이 있고, 뒤에 multi-scale residual refinement module이 붙어서 결과를 refine하는 형태이..
DDPM (NeurIPS 2020, Diffusion)
·
DL·ML/Paper
DDPMBackground* diffusion process는 원래 종전의 [1]을 발전시킨 모델으로, variational inference를 이용하여 train된 parametrized Markov chain으로 image를 generation하는 과정이다.  → variational inference는 posterior probability $p(x|z)$를 직접 구하는 대신 parametrized function $q(x)$를 대신 구하고, ELBO를 이용하여 둘의 차이를 minimize하는 것을 의미한다. 이때 ELBO를 maximize하면 둘의 KL divergence $D_{KL}(p(x|z) || q(x))$를 minimize하는 것과 같다.   물리학에서 말하는 diffusion처럼, d..
VideoChat2 (CVPR 2024, MLLM)
·
DL·ML/Paper
Methods기존 MLLM의 suboptimal한 특성은 instruction-tuning data의 limited diversity 때문에 발생하는 것으로 확인하였다. 따라서 M^3IT들 따라서, 모든 data sample을 uniform format으로 만들었는데, 이 형태는 Fig. 1의 우하단에 있는 모습과 같다.'image' 또는 'video' 가 첫 번째 key이고, 두 번째 key는 'QA'인 dictionary 형태의 구조이다. 첫 번째 key는 vision data를 포함하고, 두 번째 key는 'i'에 task instruction, 'q'에 question과 'a'에 answer를 포함한다.  전체 instruction tuning dataset은 6개의 category로 나뉠 수 있..