MotionBERT (ICCV 2023)
·
DL·ML/Paper
Abstract ICCV 2023 accepted suggest MotionBERT model for 3d single person pose estimation in videos 2d, 3d motion data from various sources를 활용한 self-supervised pretraining method 제안 spatial feature와 temporal feature를 fusion하는 DSTformer의 method는 살펴볼 점이 있음 https://github.com/Walter0807/MotionBERT broadcasting으로 더하는 것인지, 하나의 row또는 col에 대해서만 더하는 것인지는 모르겠다. 이후 seq-to-seq DSTformer로 $\textbf F^i \in ..
Grounded SAM
·
DL·ML/Paper
Abstract Grounded SAM은 Grounding DINO와 SAM을 사용하여 open-voca segmentation model인 Grounded SAM을 제안 Motivation 기존의 open-world scenario에서 visual understanding에 대해서는 세 가지 방법론이 제안되어 왔다: Unified Model approach UNINEXT, OFA등이 해당하며, 다양한 vision task에 pretrain하는 것이다. 그러나 복잡한 task로 scability가 떨어진다는 문제가 있다. LLM as Controller method HuggingGPT, Visual ChatGPT, LLaVA-Plus가 해당하며, LLM을 이용하여 vision concept를 연결한다. ..
[task] 3D Pose Estimation (in progress)
·
DL·ML/Paper
Definition 3D human pose estimation(HPE) task는 human body keypoint의 coordinate를 3d space에서 predict하는 task이다. 2d HPE task와 같이 joint의 spatial location으로 pose를 나타낸다. 또한 single-person과 multi-person estimation으로 나눌 수 있다. Single Person 3D Pose Estimation single person 3d pose estimation은 주로 두 가지 방법으로 진행된다: direct estimation 2d to 3d lifting method Multi-person 3D Pose Estimation in Videos multi-person..
VARS(SoccerNet)
·
DL·ML/Paper
* Mon Apr 8 updated. → method, experiment detail added Abstract VARS(Video Assistant Referee System)은 기존의 VAR을 automate한 것이다. SoccerNet-MVFoul dataset은 전문 심판이 annotate한 soccer foul의 multiple camera view dataset Motivation 축구에 대해서는 잘 모르는데, VAR이 도입된 이후로 오심 판정률이 크게 줄었지만 그럼에도 불구하고 VAR은 담당 심판이 판정하는 것으로 여전히 오심의 여지가 있다고 한다. 따라서 constant한 decision을 만들기 위해서는 사람의 개입을 줄일 필요가 있다. 또한 사람이 개입되는 것으로 인하여 비용이 크게 ..
HQ-SAM
·
DL·ML/Paper
Abstract SAM의 본래 디자인과 model weight를 그대로 사용하는 모델인 HQ-SAM High-Quality Output Token을 도입해서 SAM의 mask decoder가 high quality mask를 generate하도록 함 Motivation 기존의 SAM이 가지고 있는 문제는 두 가지가 있다: Coarse mask boundaries Incorrect prediction 이러한 문제는 Fig. 1에서 더 잘 확인할 수 있다. 하지만 이를 해결하기 위한 방법으로 SAM decoder를 fine-tuning할 경우 zero-shot capability가 크게 떨어지는 문제가 있다. 따라서 HQ-SAM은 SAM architecture를 그대로 reuse한다. 또한 이를 위해서 ex..
3D vision, PointNet
·
DL·ML/Paper
Prerequisite 3d geometric data는 point cloud, mesh로 표현될 수 있다. 먼저 mesh는 polygon으로 이루어진 3d image를 의미한다. polygon은 object의 표면을 덮는 작은 면들을 의미하며, point와 edge로 구성되며 주로 삼각형의 triangle로 구성된다. 따라서 각 object는 point들의 (x, y, z) coordinate과 edge로 구성될 수 있다. [1] point cloud는 3d 공간 상의 여러 point들의 discrete set이다. 여러 알고리즘을 이용하여 3d point cloud를 mesh로 바꾸어 rendering할 수 있다. [2] 기존에는 3D geometric data를 처리하기 위해서는 voxel grid..
SAM(Segment Anything)
·
DL·ML/Paper
Abstract image segmentation을 위한 foundation model을 제작 promptable한 형태 data engine을 활용한 large-scale supervised learning Motivation promptable한 segmentation foundation model을 만들기 위해서 다음 세 가지 질문을 설정한다: What task will enable zero-shot generalization? What is the corresponding model architecture? What data can power this task and model? Task promptable segmentation task를 제안한다. 이는 segmentation prompt에 따..
CAT-Seg(Cost AggregaTion approach for open-vocabulary semantic Segmentation)
·
DL·ML/Paper
Abstraction CVPR 2024 accepted https://ku-cvlab.github.io/CAT-Seg/ semantic segmentation SOTA CLIP based architecture에 spatial aggregation과 class aggregation 더하여 성능 향상 Motivation open-vocabulary semantic segmentation은 image 안의 각 pixel을 text description의 class로 categorize하는 task이다. 최근 방법은 class-agnostic한 region proposal을 만든 뒤 CLIP encoder에 넣는 방식이었다. training dataset의 bias를 반영하고, global context를 반..