UMT(ICCV 2023 Oral, Video Foundation Model)
AbstractICCV 2023 OralVideo foundation model   Motivation기존의 VFM에 대한 연구는 video data의 computational cost로 인해 주로 IFM 기반으로 이루어졌지만, image와 video는 domain이 다르다. 주로 motion에 대한 understanding이 lack되어 있는 특성이 있고 scene 위주로 집중한다. 또한 IFM은 temporal한 상황 인식이 없고 spatial한 인식이 구성된다. 이런 문제는 책을 펴고 덮는 motion에 대한 인식을 어렵게 만든다(See Fig. 2).  여기서는 temporal-sensitive VFM을 efficient하게 training하기 위해서 UMT(UnMasked Teacher)를 도입..
MViT v1 (ICCV 2021, Video Recognition)
Abstracttemporal dimension에 multihead pooling attention을 추가한 ViTcomputational complexity 감소temporal dimension을 더 aware하는 ViT  Motivation일반적으로 CNN에서 발전된 multiscale feature를 분석하는 방식과 ViT를 연결하는 multiscale feature hierarchies를 가진 trasnformer model을 만든다.   Fig. 1을 보면, 일반적인 ViT와 다르게 MViT는 channel-resolution 'scale' stage가 존재한다. hierarchical하게 존재하는 stages에서, channel은 증가하고 spatial resolution은 감소한다. 결과적으..
Motivation U-Net은 biomedical image segmentation task에 적용하기 위해 처음 개발된 model이다. MLP를 사용할 경우 연산량이 너무 많고, CNN을 사용하여 resolution을 줄일 경우 feature extraction은 잘 되지만, high resolution에서의 segmentation task에는 약해진다는 문제점을 해결하기 위해 제안되었다. 이를 해결하기 위해 channel을 늘리면서 CNN을 적용하고 channel을 다시 줄여 feature extraction을 한다. 중요한 점은 contracting path와 expanding path를 symmetric하게 만들어서 hierarchy 상에서 같은 resolution이 대응되게 한다는 점이다. 이..
Abstract ICCV 2023 3D human pose estimation in monocular video GLA-GCN 제안, graph representation으로 joint의 spatiotemporal structure model global representation과 local representation을 모두 활용하여 3D pose estimation Prerequisite ST-GCN[2] ( 참조) AGCN[3] ( 참조) Motivation 기존의 방법론은 크게 TCN(Tempora..
AGCN (CVPR 2019, action recognition)
Abstract CVPR 2019 skeleton-based action recognition을 위한 GCN based method 2s-AGCN(two-stream adaptive GCN) 제안 Motivation ST-GCN에서 처음 GCN을 이용해 skeleton-based action recognition에 활용했다. 하지만 여기에는 세 가지 문제가 있었다: skeleton graph가 heuristic하게 predefine되어 human body의 physical structure만 반영한다. (예컨대, "reading"이나 "clapping"에서는 두 손 간의 상호작용이 중요한데, 이는 joint 상에서 멀리 위치하여 depende..
ST-GCN (AAAI 2018, human action recognition)
Abstract AAAI 2018 human body skeleton sequence을 이용한 human action recognition GCN을 dynamic skeleton modeling에 적용한 첫 번째 시도 skeleton model에 맞게 GCN을 design한 ST-GCN(Spatial-Temporal Graph Convolutional Network) 제안 Motivation Fig. 1에서 볼 수 있듯이 skeleton sequence에서 GCN을 이용한다. edge는 두 type으로, joint의 natural connectivity를 반영하는 spatial edges가 있고, 같은 joint의 consecutive time..
CLIPSelf (ICLR 2024 spotlight, open-vocabulary dense prediction)
Abstract ICLR 2024 spotlight open-vocabulary dense prediction task open-vocabulary object detection, semantic segmentation, panoptic segmentation CLIP ViT의 문제 개선 추가 데이터 없이 local image region까지 aware하는 CLIPSelf 제안 Motivation open-vocabulary approach에서는 CLIP based model을 사용한다. Fig. 1을 보면, ViT-based CLIP model이 image representation에는 강하지만, dense feature를 이용해서 regi..
Abstract soccer foul detection을 위한 CNN, RNN based approach bounding box position, image, estimated pose를 utilize 2024 Apr 4 update: the code and dataset are now available Motivation soccer broadcast video로부터 foul prediction을 위한 FutureFoul system을 제안한다. Dataset soccer foul dataset을 구성했다. Video Dataset SoccerNet-v3 dataset에서 video를 가져와 사용하였다. Sele..
TesseTrack (CVPR 2021)
Abstract CVPR 2021 accepted multi-person 3d pose estimation and tracking in videos single end-to-end learnable framework camera view의 개수에 robust함 코드가 공개되어 있지 않다. Motivation 기존 task의 challenging한 점은, multi-person인 경우 occlusion이 많이 발생한다는 것이다. 기존 framework들은 이런 문제를 해결하기 위해 2D estimation 후 lifting하는 multi-stage inference를 하는데, 본 논문에서는 이런 방식이 subop..