![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbhmhHm%2FbtsHFKm34PA%2FLF0ULsCg5QmGFbSHv1d3Q0%2Fimg.png)
VideoChat2 (CVPR 2024, MLLM)
·
DL·ML/Paper
Methods기존 MLLM의 suboptimal한 특성은 instruction-tuning data의 limited diversity 때문에 발생하는 것으로 확인하였다. 따라서 M^3IT들 따라서, 모든 data sample을 uniform format으로 만들었는데, 이 형태는 Fig. 1의 우하단에 있는 모습과 같다.'image' 또는 'video' 가 첫 번째 key이고, 두 번째 key는 'QA'인 dictionary 형태의 구조이다. 첫 번째 key는 vision data를 포함하고, 두 번째 key는 'i'에 task instruction, 'q'에 question과 'a'에 answer를 포함한다. 전체 instruction tuning dataset은 6개의 category로 나뉠 수 있..