LLaVA-1.5 (CVPR 2024)
·
DL·ML/Paper
Motivation  LLaVA에서 충분히 explore되지 않았던 부분을 다룬다. LMM(Large Multimodal Models)를 general-purpose assistant로 만들기 위해 가장 좋은 training design choice가 무엇인지 확인한다. 먼저 LLaVA의 vision-language connector는 linear projection으로 사용되었는데, 이것이 좋은 성능을 보임을 증명하고 개선한다. 그 후 LMM의 open problem에 대해서 explore하는데 이는 구체적으로 다음과 같다: 1) Scaling to high-resolution image inputs; high-resolution image로 scaling하는 것은 image를 diving into g..
LLaVA (NeurIPS 2023 Oral, MLLM)
·
DL·ML/Paper
MotivationMultimodal instruction-following data 제작: 처음으로 vision-language domain에 instruction tuning 활용Large multimodal model: CLIP에 Vicuna 붙여서 finetuning함. Multimodal instruction-following benchamrk: LLaVA-Bench Datasetimage-text pair 데이터는 있어도, instruction-following multimodal dataset은 만들기가 expensive해서 그 양이 많지 않다. 여기서는 ChatGPT/GPT-4를 이용해서 data를 collect했다.  기존의 image-text pair를 가지고, $\text{Human:..
MoE(Mixture-of-Experts, ICLR 2017)
·
DL·ML
Methods conditional computation이라는 방법은 각 example에 따라 subnetwork가 active되어 model capacity를 늘리는 방법이다. model의 크기를 키우는 것에 비해서 더 많은 capacity를 늘릴 수 있다는 장점이 있는데, 여기에는 기술적인 문제가 몇 개 있다: 1) GPU는 branching보다 arithmetic에 유리하다.2) dataset과 batch size가 아주 커져야 한다. 3) network bandwidth가 bottleneck이 된다.  여기서는 이를 해결하기 위한 방법인 Sparsely-Gated Mixture-of-Experts Layer(MoE)를 제안한다.  Fig. 1에서 보이듯 각 layer는 $n$개의 expert ne..
UniControl (NeurIPS 2023, Diffusion)
·
DL·ML/Paper
AbstractSD 모델에서 spatial, structural, geometric control에 대한 image를 생성하는데 종종 실패광범위한 control에 대해서 C2I(Control-to-Image) task를 수행하는 foundation model인 UniControl 제안T2I diffusion model을 augment하고 task-aware한 HyperNet을 사용20M ITC triplet을 포함하는 MultiGen-20M dataset 제안  Motivationdiffusion model에서 condition을 넣어준다는 아이디어는 SD에서 시작해서 ControlNet까지 발전되었다. 하지만 ControlNet에서도, 특정한 control modality에 대해서 train된 경우에만..
X-VARS (CVPR 2024)
·
DL·ML/Paper
AbstractX-VARS(EXplainable Video Assistant Referee System) 제안SoccerNet-XFoul -- 22k VQA question triplet about refereeing question benchmark 제안  MotivationVAR system에서 explainability가 중요한 것은, 공식 경기의 판정 결과는 각 팀의 운명을 좌우할 수 있기 때문이다. 따라서 X-VARS는 LLM을 이용하여 automatic VAR의 explainability를 조명한다.  X-VARS LLaVa를 사용하는 VLM을 활용한다. vision encoder로는 CLIP ViT-L/14를 활용한다. 22k개의 video QA triplet을 포함한 SoccerNet-XF..
BASNet (CVPR 2019, OD)
·
DL·ML/Paper
기존 saliency map을 얻는 architecture는 여전히 fine structure를 포착하는 데 어려움이 있어 이를 해결하기 위한 ConvNet 기반 architecture를 제시한다(See Fig. 1). 이때 refinement network는 U-Net shape의 residual refinement module이다. 이를 train하기 위해서 BCE와 SSIM(Structural SIMilarity)[1], IoU가 사용된다.   BASNet의 전체 architecture는 Fig. 2에 제시되어 있다. 먼저 saliency map을 predict하는 module이 있고, 뒤에 multi-scale residual refinement module이 붙어서 결과를 refine하는 형태이..
DDPM (NeurIPS 2020, Diffusion)
·
DL·ML/Paper
DDPMBackground* diffusion process는 원래 종전의 [1]을 발전시킨 모델으로, variational inference를 이용하여 train된 parametrized Markov chain으로 image를 generation하는 과정이다.  → variational inference는 posterior probability $p(x|z)$를 직접 구하는 대신 parametrized function $q(x)$를 대신 구하고, ELBO를 이용하여 둘의 차이를 minimize하는 것을 의미한다. 이때 ELBO를 maximize하면 둘의 KL divergence $D_{KL}(p(x|z) || q(x))$를 minimize하는 것과 같다.   물리학에서 말하는 diffusion처럼, d..
VideoChat2 (CVPR 2024, MLLM)
·
DL·ML/Paper
Methods기존 MLLM의 suboptimal한 특성은 instruction-tuning data의 limited diversity 때문에 발생하는 것으로 확인하였다. 따라서 M^3IT들 따라서, 모든 data sample을 uniform format으로 만들었는데, 이 형태는 Fig. 1의 우하단에 있는 모습과 같다.'image' 또는 'video' 가 첫 번째 key이고, 두 번째 key는 'QA'인 dictionary 형태의 구조이다. 첫 번째 key는 vision data를 포함하고, 두 번째 key는 'i'에 task instruction, 'q'에 question과 'a'에 answer를 포함한다.  전체 instruction tuning dataset은 6개의 category로 나뉠 수 있..
UMT(ICCV 2023 Oral, Video Foundation Model)
·
DL·ML/Paper
AbstractICCV 2023 OralVideo foundation model   Motivation기존의 VFM에 대한 연구는 video data의 computational cost로 인해 주로 IFM 기반으로 이루어졌지만, image와 video는 domain이 다르다. 주로 motion에 대한 understanding이 lack되어 있는 특성이 있고 scene 위주로 집중한다. 또한 IFM은 temporal한 상황 인식이 없고 spatial한 인식이 구성된다. 이런 문제는 책을 펴고 덮는 motion에 대한 인식을 어렵게 만든다(See Fig. 2).  여기서는 temporal-sensitive VFM을 efficient하게 training하기 위해서 UMT(UnMasked Teacher)를 도입..