Entropy와 KL Divergence
·
Mathematics/Information Theory
보호되어 있는 글입니다.
VARS(SoccerNet)
·
DL·ML/Paper
* Mon Apr 8 updated. → method, experiment detail added Abstract VARS(Video Assistant Referee System)은 기존의 VAR을 automate한 것이다. SoccerNet-MVFoul dataset은 전문 심판이 annotate한 soccer foul의 multiple camera view dataset Motivation 축구에 대해서는 잘 모르는데, VAR이 도입된 이후로 오심 판정률이 크게 줄었지만 그럼에도 불구하고 VAR은 담당 심판이 판정하는 것으로 여전히 오심의 여지가 있다고 한다. 따라서 constant한 decision을 만들기 위해서는 사람의 개입을 줄일 필요가 있다. 또한 사람이 개입되는 것으로 인하여 비용이 크게 ..
HQ-SAM
·
DL·ML/Paper
Abstract SAM의 본래 디자인과 model weight를 그대로 사용하는 모델인 HQ-SAM High-Quality Output Token을 도입해서 SAM의 mask decoder가 high quality mask를 generate하도록 함 Motivation 기존의 SAM이 가지고 있는 문제는 두 가지가 있다: Coarse mask boundaries Incorrect prediction 이러한 문제는 Fig. 1에서 더 잘 확인할 수 있다. 하지만 이를 해결하기 위한 방법으로 SAM decoder를 fine-tuning할 경우 zero-shot capability가 크게 떨어지는 문제가 있다. 따라서 HQ-SAM은 SAM architecture를 그대로 reuse한다. 또한 이를 위해서 ex..
3D vision, PointNet
·
DL·ML/Paper
Prerequisite 3d geometric data는 point cloud, mesh로 표현될 수 있다. 먼저 mesh는 polygon으로 이루어진 3d image를 의미한다. polygon은 object의 표면을 덮는 작은 면들을 의미하며, point와 edge로 구성되며 주로 삼각형의 triangle로 구성된다. 따라서 각 object는 point들의 (x, y, z) coordinate과 edge로 구성될 수 있다. [1] point cloud는 3d 공간 상의 여러 point들의 discrete set이다. 여러 알고리즘을 이용하여 3d point cloud를 mesh로 바꾸어 rendering할 수 있다. [2] 기존에는 3D geometric data를 처리하기 위해서는 voxel grid..
SAM(Segment Anything)
·
DL·ML/Paper
Abstract image segmentation을 위한 foundation model을 제작 promptable한 형태 data engine을 활용한 large-scale supervised learning Motivation promptable한 segmentation foundation model을 만들기 위해서 다음 세 가지 질문을 설정한다: What task will enable zero-shot generalization? What is the corresponding model architecture? What data can power this task and model? Task promptable segmentation task를 제안한다. 이는 segmentation prompt에 따..
CAT-Seg(Cost AggregaTion approach for open-vocabulary semantic Segmentation)
·
DL·ML/Paper
Abstraction CVPR 2024 accepted https://ku-cvlab.github.io/CAT-Seg/ semantic segmentation SOTA CLIP based architecture에 spatial aggregation과 class aggregation 더하여 성능 향상 Motivation open-vocabulary semantic segmentation은 image 안의 각 pixel을 text description의 class로 categorize하는 task이다. 최근 방법은 class-agnostic한 region proposal을 만든 뒤 CLIP encoder에 넣는 방식이었다. training dataset의 bias를 반영하고, global context를 반..
[ODAI] DOTA benchmark
·
DL·ML
Abstract dd Motivation object detection in aerial images(ODAI)는 real-world application에서 많이 사용됨. 하지만, object 크기의 nonuniformity, arbitrary orientation 등은 task를 어렵게 함.(Figure 1 참조) 여러 문제 중 orientation에 대한 문제가 주요 어려움인데, 그 이유는 다음과 같다: rotation-invariant한 feature representation을 만들어야 함. -> 그러나 현재 architecture로는 어려움이 있음. iDeA; 2021년 기준이라 현재에도 계속되는 문제인지는 확인해 보아야 함. horizontal bounding box(HBB)는 oriente..
Grounding DINO architecture
·
DL·ML
Overall Architecture Input def forward(self, samples: NestedTensor, targets: List = None, **kw): """The forward expects a NestedTensor, which consists of: - samples.tensor: batched images, of shape [batch_size x 3 x H x W] - samples.mask: a binary mask of shape [batch_size x H x W], containing 1 on padded pixels It returns a dict with the following elements: - "pred_logits": the classification l..
[Object Detection] DINO
·
DL·ML
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection We present DINO (\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes), a state-of-the-art end-to-end object detector. % in this paper. DINO improves over previous DETR-like models in performance and efficiency by using a contrasti arxiv.org DINO: DETR with Improved DeNoising Anchor Boxes for..