VideoChat2 (CVPR 2024, MLLM)
·
DL·ML/Paper
Methods기존 MLLM의 suboptimal한 특성은 instruction-tuning data의 limited diversity 때문에 발생하는 것으로 확인하였다. 따라서 M^3IT들 따라서, 모든 data sample을 uniform format으로 만들었는데, 이 형태는 Fig. 1의 우하단에 있는 모습과 같다.'image' 또는 'video' 가 첫 번째 key이고, 두 번째 key는 'QA'인 dictionary 형태의 구조이다. 첫 번째 key는 vision data를 포함하고, 두 번째 key는 'i'에 task instruction, 'q'에 question과 'a'에 answer를 포함한다.  전체 instruction tuning dataset은 6개의 category로 나뉠 수 있..
UMT(ICCV 2023 Oral, Video Foundation Model)
·
DL·ML/Paper
AbstractICCV 2023 OralVideo foundation model   Motivation기존의 VFM에 대한 연구는 video data의 computational cost로 인해 주로 IFM 기반으로 이루어졌지만, image와 video는 domain이 다르다. 주로 motion에 대한 understanding이 lack되어 있는 특성이 있고 scene 위주로 집중한다. 또한 IFM은 temporal한 상황 인식이 없고 spatial한 인식이 구성된다. 이런 문제는 책을 펴고 덮는 motion에 대한 인식을 어렵게 만든다(See Fig. 2).  여기서는 temporal-sensitive VFM을 efficient하게 training하기 위해서 UMT(UnMasked Teacher)를 도입..
MViT v1 (ICCV 2021, Video Recognition)
·
DL·ML/Paper
Abstracttemporal dimension에 multihead pooling attention을 추가한 ViTcomputational complexity 감소temporal dimension을 더 aware하는 ViT  Motivation일반적으로 CNN에서 발전된 multiscale feature를 분석하는 방식과 ViT를 연결하는 multiscale feature hierarchies를 가진 trasnformer model을 만든다.   Fig. 1을 보면, 일반적인 ViT와 다르게 MViT는 channel-resolution 'scale' stage가 존재한다. hierarchical하게 존재하는 stages에서, channel은 증가하고 spatial resolution은 감소한다. 결과적으..
종래 코미디와 탈춤
·
Thinking/iDeAs
쉴 때 유튜브나 인스타그램에서 짧은 영상을 넘겨보며 쉬는 경우가 많은데, 그 중에서 요즘 눈에 띄게 노출되는 영상이 있다. 다나카와 닛몰캐쉬의 "잘자요 아가씨" 영상인데, 부담스러운 말투와 몸짓, 패션이 컬트적인 인기를 끌고 있는 것으로 보인다. 나도 처음 볼 때에는 충격적인 느낌이 있었지만, 중독적인 멜로디와 춤사위에 다시 한 번 보게 되는 매력이 있다.       그런데 이런 부담스러운 컨셉의 코미디 장르가 낯설지가 않다. 몇 년 전 크게 유행했던 최준의 코미디도 이와 궤를 같이한다. 다만 이런 독특한 코미디 장르가 왜 20대에게서 몇 년째 유행을 이끌고 있는지에 대해서는 좀 더 고민해 볼 만 하다.      위의 영상과 최준의 영상이 우스운 것은, 사람들이 싫어하게 된 남성상을 우스꽝스러울 정도로 ..
ViperGPT (ICCV 2023, VQA)
·
DL·ML/Project
Abstract ICCV 2023 VQA compositional VQA를 풀기 위해 modular architecture 사용 API와 Codex를 활용하여 Python code를 output하는 framework Motivation 특히 compositional한 문제를 풀 때에는 modular structure가 필요하게 되는 경우가 많다. 예컨대, Fig. 1의 첫 번째 query에 대한 답을 내기 위해서는 1) children과 muffin을 찾고, 2) 개수를 센 다음, 3) 'fair'하게 나눠야 한다. 이는 end-to-end approach로는 compositional reasoning하기 어려워 해결하기 어렵다. 또한 end-to-end appraoch의 경우 interpretabili..
Transformation of Random Variables
·
Mathematics/Statistics
Discrete Random Variable PMF(probability mass function) $f_X$와 PMF $f_Y$가 있을 때 mapping $Y=g(X)$에 대한 transformation은 다음과 같다: $$f_Y(y)=\sum_{g(x)=y} f_X(x)$$ 간단하게는, CDF를 구해서 y값이 x와 대응하는 것으로 생각할 수 있다. Continuous Random Variable continous한 경우에는 대응하는 값을 찾기 위해서 CDF를 이용하여 change of variable를 할 수 있다. 따라서 PDF $f_X, f_Y$의 CDF $F_X, F_Y$에 대해 $Y=g(X)$일 때 다음과 같다: $$ \begin{align} F_Y(y) &= P(Y\le y)\\ &= P(g..