'분류 전체보기' 카테고리의 글 목록 (7 Page)

Methods기존 MLLM의 suboptimal한 특성은 instruction-tuning data의 limited diversity 때문에 발생하는 것으로 확인하였다. 따라서 M^3IT들 따라서, 모든 data sample을 uniform format으로 만들었는데, 이 형태는 Fig. 1의 우하단에 있는 모습과 같다.'image' 또는 'video' 가 첫 번째 key이고, 두 번째 key는 'QA'인 dictionary 형태의 구조이다. 첫 번째 key는 vision data를 포함하고, 두 번째 key는 'i'에 task instruction, 'q'에 question과 'a'에 answer를 포함한다. 전체 instruction tuning dataset은 6개의 category로 나뉠 수 있..

AbstractICCV 2023 OralVideo foundation model Motivation기존의 VFM에 대한 연구는 video data의 computational cost로 인해 주로 IFM 기반으로 이루어졌지만, image와 video는 domain이 다르다. 주로 motion에 대한 understanding이 lack되어 있는 특성이 있고 scene 위주로 집중한다. 또한 IFM은 temporal한 상황 인식이 없고 spatial한 인식이 구성된다. 이런 문제는 책을 펴고 덮는 motion에 대한 인식을 어렵게 만든다(See Fig. 2). 여기서는 temporal-sensitive VFM을 efficient하게 training하기 위해서 UMT(UnMasked Teacher)를 도입..

Abstracttemporal dimension에 multihead pooling attention을 추가한 ViTcomputational complexity 감소temporal dimension을 더 aware하는 ViT Motivation일반적으로 CNN에서 발전된 multiscale feature를 분석하는 방식과 ViT를 연결하는 multiscale feature hierarchies를 가진 trasnformer model을 만든다. Fig. 1을 보면, 일반적인 ViT와 다르게 MViT는 channel-resolution 'scale' stage가 존재한다. hierarchical하게 존재하는 stages에서, channel은 증가하고 spatial resolution은 감소한다. 결과적으..

쉴 때 유튜브나 인스타그램에서 짧은 영상을 넘겨보며 쉬는 경우가 많은데, 그 중에서 요즘 눈에 띄게 노출되는 영상이 있다. 다나카와 닛몰캐쉬의 "잘자요 아가씨" 영상인데, 부담스러운 말투와 몸짓, 패션이 컬트적인 인기를 끌고 있는 것으로 보인다. 나도 처음 볼 때에는 충격적인 느낌이 있었지만, 중독적인 멜로디와 춤사위에 다시 한 번 보게 되는 매력이 있다. 그런데 이런 부담스러운 컨셉의 코미디 장르가 낯설지가 않다. 몇 년 전 크게 유행했던 최준의 코미디도 이와 궤를 같이한다. 다만 이런 독특한 코미디 장르가 왜 20대에게서 몇 년째 유행을 이끌고 있는지에 대해서는 좀 더 고민해 볼 만 하다. 위의 영상과 최준의 영상이 우스운 것은, 사람들이 싫어하게 된 남성상을 우스꽝스러울 정도로 ..

Abstract ICCV 2023 VQA compositional VQA를 풀기 위해 modular architecture 사용 API와 Codex를 활용하여 Python code를 output하는 framework Motivation 특히 compositional한 문제를 풀 때에는 modular structure가 필요하게 되는 경우가 많다. 예컨대, Fig. 1의 첫 번째 query에 대한 답을 내기 위해서는 1) children과 muffin을 찾고, 2) 개수를 센 다음, 3) 'fair'하게 나눠야 한다. 이는 end-to-end approach로는 compositional reasoning하기 어려워 해결하기 어렵다. 또한 end-to-end appraoch의 경우 interpretabili..

Discrete Random Variable PMF(probability mass function) $f_X$와 PMF $f_Y$가 있을 때 mapping $Y=g(X)$에 대한 transformation은 다음과 같다: $$f_Y(y)=\sum_{g(x)=y} f_X(x)$$ 간단하게는, CDF를 구해서 y값이 x와 대응하는 것으로 생각할 수 있다. Continuous Random Variable continous한 경우에는 대응하는 값을 찾기 위해서 CDF를 이용하여 change of variable를 할 수 있다. 따라서 PDF $f_X, f_Y$의 CDF $F_X, F_Y$에 대해 $Y=g(X)$일 때 다음과 같다: $$ \begin{align} F_Y(y) &= P(Y\le y)\\ &= P(g..

Motivation U-Net은 biomedical image segmentation task에 적용하기 위해 처음 개발된 model이다. MLP를 사용할 경우 연산량이 너무 많고, CNN을 사용하여 resolution을 줄일 경우 feature extraction은 잘 되지만, high resolution에서의 segmentation task에는 약해진다는 문제점을 해결하기 위해 제안되었다. 이를 해결하기 위해 channel을 늘리면서 CNN을 적용하고 channel을 다시 줄여 feature extraction을 한다. 중요한 점은 contracting path와 expanding path를 symmetric하게 만들어서 hierarchy 상에서 같은 resolution이 대응되게 한다는 점이다. 이..

Introduction VAE에 대해서는 잘 설명하고 있는 좋은 글들이 많으니 개념에 대해서는 생략하겠다. 여기서 encoder는 $q_φ(z|x)$, decoder는 $p_θ(x|z)$로 표기한다. MLE MLE의 Motivation Learning의 정의 상, observed variable $\mathbb x$가 true distribution $p^*(\mathbb x)$를 따른다고 할 때, 이 distribution을 θ로 parametrized되는 함수 $p_θ(\mathbb x)$로 approximate하는 것이다.[1] 즉, $$p_θ(\mathbb x) \approx p^*(\mathbb x)$$ VAE의 MLE Derivation MLE는 다음과 같이 계산된다. $$\arg \max_θ..

Abstract ICCV 2023 3D human pose estimation in monocular video GLA-GCN 제안, graph representation으로 joint의 spatiotemporal structure model global representation과 local representation을 모두 활용하여 3D pose estimation https://github.com/bruceyo/GLA-GCN Prerequisite ST-GCN[2] (https://jordano-jackson.tistory.com/137 참조) AGCN[3] (https://jordano-jackson.tistory.com/138 참조) Motivation 기존의 방법론은 크게 TCN(Tempora..

티스토리툴바