cs
전체 글

전체 글

    MViT v1 (ICCV 2021, Video Recognition)

    Abstracttemporal dimension에 multihead pooling attention을 추가한 ViTcomputational complexity 감소temporal dimension을 더 aware하는 ViT  Motivation일반적으로 CNN에서 발전된 multiscale feature를 분석하는 방식과 ViT를 연결하는 multiscale feature hierarchies를 가진 trasnformer model을 만든다.   Fig. 1을 보면, 일반적인 ViT와 다르게 MViT는 channel-resolution 'scale' stage가 존재한다. hierarchical하게 존재하는 stages에서, channel은 증가하고 spatial resolution은 감소한다. 결과적으..

    종래 코미디와 탈춤

    쉴 때 유튜브나 인스타그램에서 짧은 영상을 넘겨보며 쉬는 경우가 많은데, 그 중에서 요즘 눈에 띄게 노출되는 영상이 있다. 다나카와 닛몰캐쉬의 "잘자요 아가씨" 영상인데, 부담스러운 말투와 몸짓, 패션이 컬트적인 인기를 끌고 있는 것으로 보인다. 나도 처음 볼 때에는 충격적인 느낌이 있었지만, 중독적인 멜로디와 춤사위에 다시 한 번 보게 되는 매력이 있다.       그런데 이런 부담스러운 컨셉의 코미디 장르가 낯설지가 않다. 몇 년 전 크게 유행했던 최준의 코미디도 이와 궤를 같이한다. 다만 이런 독특한 코미디 장르가 왜 20대에게서 몇 년째 유행을 이끌고 있는지에 대해서는 좀 더 고민해 볼 만 하다.      위의 영상과 최준의 영상이 우스운 것은, 사람들이 싫어하게 된 남성상을 우스꽝스러울 정도로 ..

    ViperGPT (ICCV 2023, VQA)

    Abstract ICCV 2023 VQA compositional VQA를 풀기 위해 modular architecture 사용 API와 Codex를 활용하여 Python code를 output하는 framework Motivation 특히 compositional한 문제를 풀 때에는 modular structure가 필요하게 되는 경우가 많다. 예컨대, Fig. 1의 첫 번째 query에 대한 답을 내기 위해서는 1) children과 muffin을 찾고, 2) 개수를 센 다음, 3) 'fair'하게 나눠야 한다. 이는 end-to-end approach로는 compositional reasoning하기 어려워 해결하기 어렵다. 또한 end-to-end appraoch의 경우 interpretabili..

    Transformation of Random Variables

    Discrete Random Variable PMF(probability mass function) $f_X$와 PMF $f_Y$가 있을 때 mapping $Y=g(X)$에 대한 transformation은 다음과 같다: $$f_Y(y)=\sum_{g(x)=y} f_X(x)$$ 간단하게는, CDF를 구해서 y값이 x와 대응하는 것으로 생각할 수 있다. Continuous Random Variable continous한 경우에는 대응하는 값을 찾기 위해서 CDF를 이용하여 change of variable를 할 수 있다. 따라서 PDF $f_X, f_Y$의 CDF $F_X, F_Y$에 대해 $Y=g(X)$일 때 다음과 같다: $$ \begin{align} F_Y(y) &= P(Y\le y)\\ &= P(g..

    U-Net

    Motivation U-Net은 biomedical image segmentation task에 적용하기 위해 처음 개발된 model이다. MLP를 사용할 경우 연산량이 너무 많고, CNN을 사용하여 resolution을 줄일 경우 feature extraction은 잘 되지만, high resolution에서의 segmentation task에는 약해진다는 문제점을 해결하기 위해 제안되었다. 이를 해결하기 위해 channel을 늘리면서 CNN을 적용하고 channel을 다시 줄여 feature extraction을 한다. 중요한 점은 contracting path와 expanding path를 symmetric하게 만들어서 hierarchy 상에서 같은 resolution이 대응되게 한다는 점이다. 이..

    VAE Loss Derivation (in progress)

    Introduction VAE에 대해서는 잘 설명하고 있는 좋은 글들이 많으니 개념에 대해서는 생략하겠다. 여기서 encoder는 $q_φ(z|x)$, decoder는 $p_θ(x|z)$로 표기한다. MLE MLE의 Motivation Learning의 정의 상, observed variable $\mathbb x$가 true distribution $p^*(\mathbb x)$를 따른다고 할 때, 이 distribution을 θ로 parametrized되는 함수 $p_θ(\mathbb x)$로 approximate하는 것이다.[1] 즉, $$p_θ(\mathbb x) \approx p^*(\mathbb x)$$ VAE의 MLE Derivation MLE는 다음과 같이 계산된다. $$\arg \max_θ..