cs
전체 글

전체 글

    GLA-GCN(ICCV 2023, 3D HPE)

    Abstract ICCV 2023 3D human pose estimation in monocular video GLA-GCN 제안, graph representation으로 joint의 spatiotemporal structure model global representation과 local representation을 모두 활용하여 3D pose estimation https://github.com/bruceyo/GLA-GCN Prerequisite ST-GCN[2] (https://jordano-jackson.tistory.com/137 참조) AGCN[3] (https://jordano-jackson.tistory.com/138 참조) Motivation 기존의 방법론은 크게 TCN(Tempora..

    AGCN (CVPR 2019, action recognition)

    Abstract CVPR 2019 skeleton-based action recognition을 위한 GCN based method 2s-AGCN(two-stream adaptive GCN) 제안 https://github.com/lshiwjx/2s-AGCN Motivation ST-GCN에서 처음 GCN을 이용해 skeleton-based action recognition에 활용했다. 하지만 여기에는 세 가지 문제가 있었다: skeleton graph가 heuristic하게 predefine되어 human body의 physical structure만 반영한다. (예컨대, "reading"이나 "clapping"에서는 두 손 간의 상호작용이 중요한데, 이는 joint 상에서 멀리 위치하여 depende..

    ST-GCN (AAAI 2018, human action recognition)

    Abstract AAAI 2018 human body skeleton sequence을 이용한 human action recognition GCN을 dynamic skeleton modeling에 적용한 첫 번째 시도 skeleton model에 맞게 GCN을 design한 ST-GCN(Spatial-Temporal Graph Convolutional Network) 제안 https://github.com/yysijie/st-gcn Motivation Fig. 1에서 볼 수 있듯이 skeleton sequence에서 GCN을 이용한다. edge는 두 type으로, joint의 natural connectivity를 반영하는 spatial edges가 있고, 같은 joint의 consecutive time..

    CLIPSelf (ICLR 2024 spotlight, open-vocabulary dense prediction)

    Abstract ICLR 2024 spotlight open-vocabulary dense prediction task open-vocabulary object detection, semantic segmentation, panoptic segmentation CLIP ViT의 문제 개선 추가 데이터 없이 local image region까지 aware하는 CLIPSelf 제안 https://github.com/wusize/CLIPSelf Motivation open-vocabulary approach에서는 CLIP based model을 사용한다. Fig. 1을 보면, ViT-based CLIP model이 image representation에는 강하지만, dense feature를 이용해서 regi..

    FutureFoul

    Abstract soccer foul detection을 위한 CNN, RNN based approach bounding box position, image, estimated pose를 utilize 2024 Apr 4 update: https://github.com/FangJiale1999/Futurefoul_Soccer the code and dataset are now available Motivation soccer broadcast video로부터 foul prediction을 위한 FutureFoul system을 제안한다. Dataset soccer foul dataset을 구성했다. Video Dataset SoccerNet-v3 dataset에서 video를 가져와 사용하였다. Sele..

    TesseTrack (CVPR 2021)

    Abstract CVPR 2021 accepted multi-person 3d pose estimation and tracking in videos single end-to-end learnable framework camera view의 개수에 robust함 코드가 공개되어 있지 않다. https://www.cs.cmu.edu/~ILIM/projects/IM/TesseTrack/ Motivation 기존 task의 challenging한 점은, multi-person인 경우 occlusion이 많이 발생한다는 것이다. 기존 framework들은 이런 문제를 해결하기 위해 2D estimation 후 lifting하는 multi-stage inference를 하는데, 본 논문에서는 이런 방식이 subop..