cs
전체 글

전체 글

    ViperGPT (ICCV 2023, VQA)

    Abstract ICCV 2023 VQA compositional VQA를 풀기 위해 modular architecture 사용 API와 Codex를 활용하여 Python code를 output하는 framework Motivation 특히 compositional한 문제를 풀 때에는 modular structure가 필요하게 되는 경우가 많다. 예컨대, Fig. 1의 첫 번째 query에 대한 답을 내기 위해서는 1) children과 muffin을 찾고, 2) 개수를 센 다음, 3) 'fair'하게 나눠야 한다. 이는 end-to-end approach로는 compositional reasoning하기 어려워 해결하기 어렵다. 또한 end-to-end appraoch의 경우 interpretabili..

    Transformation of Random Variables

    Discrete Random Variable PMF(probability mass function) $f_X$와 PMF $f_Y$가 있을 때 mapping $Y=g(X)$에 대한 transformation은 다음과 같다: $$f_Y(y)=\sum_{g(x)=y} f_X(x)$$ 간단하게는, CDF를 구해서 y값이 x와 대응하는 것으로 생각할 수 있다. Continuous Random Variable continous한 경우에는 대응하는 값을 찾기 위해서 CDF를 이용하여 change of variable를 할 수 있다. 따라서 PDF $f_X, f_Y$의 CDF $F_X, F_Y$에 대해 $Y=g(X)$일 때 다음과 같다: $$ \begin{align} F_Y(y) &= P(Y\le y)\\ &= P(g..

    U-Net

    Motivation U-Net은 biomedical image segmentation task에 적용하기 위해 처음 개발된 model이다. MLP를 사용할 경우 연산량이 너무 많고, CNN을 사용하여 resolution을 줄일 경우 feature extraction은 잘 되지만, high resolution에서의 segmentation task에는 약해진다는 문제점을 해결하기 위해 제안되었다. 이를 해결하기 위해 channel을 늘리면서 CNN을 적용하고 channel을 다시 줄여 feature extraction을 한다. 중요한 점은 contracting path와 expanding path를 symmetric하게 만들어서 hierarchy 상에서 같은 resolution이 대응되게 한다는 점이다. 이..

    VAE Loss Derivation (in progress)

    Introduction VAE에 대해서는 잘 설명하고 있는 좋은 글들이 많으니 개념에 대해서는 생략하겠다. 여기서 encoder는 $q_φ(z|x)$, decoder는 $p_θ(x|z)$로 표기한다. MLE MLE의 Motivation Learning의 정의 상, observed variable $\mathbb x$가 true distribution $p^*(\mathbb x)$를 따른다고 할 때, 이 distribution을 θ로 parametrized되는 함수 $p_θ(\mathbb x)$로 approximate하는 것이다.[1] 즉, $$p_θ(\mathbb x) \approx p^*(\mathbb x)$$ VAE의 MLE Derivation MLE는 다음과 같이 계산된다. $$\arg \max_θ..

    GLA-GCN(ICCV 2023, 3D HPE)

    Abstract ICCV 2023 3D human pose estimation in monocular video GLA-GCN 제안, graph representation으로 joint의 spatiotemporal structure model global representation과 local representation을 모두 활용하여 3D pose estimation https://github.com/bruceyo/GLA-GCN Prerequisite ST-GCN[2] (https://jordano-jackson.tistory.com/137 참조) AGCN[3] (https://jordano-jackson.tistory.com/138 참조) Motivation 기존의 방법론은 크게 TCN(Tempora..

    AGCN (CVPR 2019, action recognition)

    Abstract CVPR 2019 skeleton-based action recognition을 위한 GCN based method 2s-AGCN(two-stream adaptive GCN) 제안 https://github.com/lshiwjx/2s-AGCN Motivation ST-GCN에서 처음 GCN을 이용해 skeleton-based action recognition에 활용했다. 하지만 여기에는 세 가지 문제가 있었다: skeleton graph가 heuristic하게 predefine되어 human body의 physical structure만 반영한다. (예컨대, "reading"이나 "clapping"에서는 두 손 간의 상호작용이 중요한데, 이는 joint 상에서 멀리 위치하여 depende..