Entropy와 KL Divergence
·
Mathematics/Information Theory
보호되어 있는 글입니다.
VARS(SoccerNet)
·
DL·ML/Paper
* Mon Apr 8 updated. → method, experiment detail added Abstract VARS(Video Assistant Referee System)은 기존의 VAR을 automate한 것이다. SoccerNet-MVFoul dataset은 전문 심판이 annotate한 soccer foul의 multiple camera view dataset Motivation 축구에 대해서는 잘 모르는데, VAR이 도입된 이후로 오심 판정률이 크게 줄었지만 그럼에도 불구하고 VAR은 담당 심판이 판정하는 것으로 여전히 오심의 여지가 있다고 한다. 따라서 constant한 decision을 만들기 위해서는 사람의 개입을 줄일 필요가 있다. 또한 사람이 개입되는 것으로 인하여 비용이 크게 ..
HQ-SAM
·
DL·ML/Paper
Abstract SAM의 본래 디자인과 model weight를 그대로 사용하는 모델인 HQ-SAM High-Quality Output Token을 도입해서 SAM의 mask decoder가 high quality mask를 generate하도록 함 Motivation 기존의 SAM이 가지고 있는 문제는 두 가지가 있다: Coarse mask boundaries Incorrect prediction 이러한 문제는 Fig. 1에서 더 잘 확인할 수 있다. 하지만 이를 해결하기 위한 방법으로 SAM decoder를 fine-tuning할 경우 zero-shot capability가 크게 떨어지는 문제가 있다. 따라서 HQ-SAM은 SAM architecture를 그대로 reuse한다. 또한 이를 위해서 ex..
3D vision, PointNet
·
DL·ML/Paper
Prerequisite 3d geometric data는 point cloud, mesh로 표현될 수 있다. 먼저 mesh는 polygon으로 이루어진 3d image를 의미한다. polygon은 object의 표면을 덮는 작은 면들을 의미하며, point와 edge로 구성되며 주로 삼각형의 triangle로 구성된다. 따라서 각 object는 point들의 (x, y, z) coordinate과 edge로 구성될 수 있다. [1] point cloud는 3d 공간 상의 여러 point들의 discrete set이다. 여러 알고리즘을 이용하여 3d point cloud를 mesh로 바꾸어 rendering할 수 있다. [2] 기존에는 3D geometric data를 처리하기 위해서는 voxel grid..
SAM(Segment Anything)
·
DL·ML/Paper
Abstract image segmentation을 위한 foundation model을 제작 promptable한 형태 data engine을 활용한 large-scale supervised learning Motivation promptable한 segmentation foundation model을 만들기 위해서 다음 세 가지 질문을 설정한다: What task will enable zero-shot generalization? What is the corresponding model architecture? What data can power this task and model? Task promptable segmentation task를 제안한다. 이는 segmentation prompt에 따..
CAT-Seg(Cost AggregaTion approach for open-vocabulary semantic Segmentation)
·
DL·ML/Paper
Abstraction CVPR 2024 accepted https://ku-cvlab.github.io/CAT-Seg/ semantic segmentation SOTA CLIP based architecture에 spatial aggregation과 class aggregation 더하여 성능 향상 Motivation open-vocabulary semantic segmentation은 image 안의 각 pixel을 text description의 class로 categorize하는 task이다. 최근 방법은 class-agnostic한 region proposal을 만든 뒤 CLIP encoder에 넣는 방식이었다. training dataset의 bias를 반영하고, global context를 반..