FutureFoul
·
DL·ML/Paper
Abstract soccer foul detection을 위한 CNN, RNN based approach bounding box position, image, estimated pose를 utilize 2024 Apr 4 update: https://github.com/FangJiale1999/Futurefoul_Soccer the code and dataset are now available Motivation soccer broadcast video로부터 foul prediction을 위한 FutureFoul system을 제안한다. Dataset soccer foul dataset을 구성했다. Video Dataset SoccerNet-v3 dataset에서 video를 가져와 사용하였다. Sele..
TesseTrack (CVPR 2021)
·
DL·ML/Paper
Abstract CVPR 2021 accepted multi-person 3d pose estimation and tracking in videos single end-to-end learnable framework camera view의 개수에 robust함 코드가 공개되어 있지 않다. https://www.cs.cmu.edu/~ILIM/projects/IM/TesseTrack/ Motivation 기존 task의 challenging한 점은, multi-person인 경우 occlusion이 많이 발생한다는 것이다. 기존 framework들은 이런 문제를 해결하기 위해 2D estimation 후 lifting하는 multi-stage inference를 하는데, 본 논문에서는 이런 방식이 subop..
macOS에서 greek 알파벳 입력하기
·
etc
macOS에서 option key를 누르면 몇 가지 accent 관련 특수문자가 있으나 나에게는 효용이 별로 없고, α β γ와 같은 greek alphabet을 입력하고 싶었다. 이를 하나하나 replace하는 것은 동작하지 않는 application이 많아 효율적이지 않았고, mapping을 직접 바꿔놓은 layout을 설치하는 것이 효율적이다. 그러던 중 Reddit에서 mapping을 바꿔놓은 keyboard layout을 찾았고, 설명에 따라 다운로드하였다. 해당 Reddit 글은 아래에서 확인할 수 있다. https://www.reddit.com/r/osx/comments/m3k129/how_can_i_type_greek_letters_without_changing_the/ From the o..
MotionBERT (ICCV 2023)
·
DL·ML/Paper
Abstract ICCV 2023 accepted suggest MotionBERT model for 3d single person pose estimation in videos 2d, 3d motion data from various sources를 활용한 self-supervised pretraining method 제안 spatial feature와 temporal feature를 fusion하는 DSTformer의 method는 살펴볼 점이 있음 https://github.com/Walter0807/MotionBERT broadcasting으로 더하는 것인지, 하나의 row또는 col에 대해서만 더하는 것인지는 모르겠다. 이후 seq-to-seq DSTformer로 $\textbf F^i \in ..
Grounded SAM
·
DL·ML/Paper
Abstract Grounded SAM은 Grounding DINO와 SAM을 사용하여 open-voca segmentation model인 Grounded SAM을 제안 Motivation 기존의 open-world scenario에서 visual understanding에 대해서는 세 가지 방법론이 제안되어 왔다: Unified Model approach UNINEXT, OFA등이 해당하며, 다양한 vision task에 pretrain하는 것이다. 그러나 복잡한 task로 scability가 떨어진다는 문제가 있다. LLM as Controller method HuggingGPT, Visual ChatGPT, LLaVA-Plus가 해당하며, LLM을 이용하여 vision concept를 연결한다. ..
[task] 3D Pose Estimation (in progress)
·
DL·ML/Paper
Definition 3D human pose estimation(HPE) task는 human body keypoint의 coordinate를 3d space에서 predict하는 task이다. 2d HPE task와 같이 joint의 spatial location으로 pose를 나타낸다. 또한 single-person과 multi-person estimation으로 나눌 수 있다. Single Person 3D Pose Estimation single person 3d pose estimation은 주로 두 가지 방법으로 진행된다: direct estimation 2d to 3d lifting method Multi-person 3D Pose Estimation in Videos multi-person..