cs
전체 글

전체 글

    HQ-SAM

    Abstract SAM의 본래 디자인과 model weight를 그대로 사용하는 모델인 HQ-SAM High-Quality Output Token을 도입해서 SAM의 mask decoder가 high quality mask를 generate하도록 함 Motivation 기존의 SAM이 가지고 있는 문제는 두 가지가 있다: Coarse mask boundaries Incorrect prediction 이러한 문제는 Fig. 1에서 더 잘 확인할 수 있다. 하지만 이를 해결하기 위한 방법으로 SAM decoder를 fine-tuning할 경우 zero-shot capability가 크게 떨어지는 문제가 있다. 따라서 HQ-SAM은 SAM architecture를 그대로 reuse한다. 또한 이를 위해서 ex..

    3D vision, PointNet

    Prerequisite 3d geometric data는 point cloud, mesh로 표현될 수 있다. 먼저 mesh는 polygon으로 이루어진 3d image를 의미한다. polygon은 object의 표면을 덮는 작은 면들을 의미하며, point와 edge로 구성되며 주로 삼각형의 triangle로 구성된다. 따라서 각 object는 point들의 (x, y, z) coordinate과 edge로 구성될 수 있다. [1] point cloud는 3d 공간 상의 여러 point들의 discrete set이다. 여러 알고리즘을 이용하여 3d point cloud를 mesh로 바꾸어 rendering할 수 있다. [2] 기존에는 3D geometric data를 처리하기 위해서는 voxel grid..

    SAM(Segment Anything)

    Abstract image segmentation을 위한 foundation model을 제작 promptable한 형태 data engine을 활용한 large-scale supervised learning Motivation promptable한 segmentation foundation model을 만들기 위해서 다음 세 가지 질문을 설정한다: What task will enable zero-shot generalization? What is the corresponding model architecture? What data can power this task and model? Task promptable segmentation task를 제안한다. 이는 segmentation prompt에 따..

    CAT-Seg(Cost AggregaTion approach for open-vocabulary semantic Segmentation)

    Abstraction CVPR 2024 accepted https://ku-cvlab.github.io/CAT-Seg/ semantic segmentation SOTA CLIP based architecture에 spatial aggregation과 class aggregation 더하여 성능 향상 Motivation open-vocabulary semantic segmentation은 image 안의 각 pixel을 text description의 class로 categorize하는 task이다. 최근 방법은 class-agnostic한 region proposal을 만든 뒤 CLIP encoder에 넣는 방식이었다. training dataset의 bias를 반영하고, global context를 반..

    [ODAI] DOTA benchmark

    Abstract dd Motivation object detection in aerial images(ODAI)는 real-world application에서 많이 사용됨. 하지만, object 크기의 nonuniformity, arbitrary orientation 등은 task를 어렵게 함.(Figure 1 참조) 여러 문제 중 orientation에 대한 문제가 주요 어려움인데, 그 이유는 다음과 같다: rotation-invariant한 feature representation을 만들어야 함. -> 그러나 현재 architecture로는 어려움이 있음. iDeA; 2021년 기준이라 현재에도 계속되는 문제인지는 확인해 보아야 함. horizontal bounding box(HBB)는 oriente..

    Grounding DINO architecture

    Overall Architecture Input def forward(self, samples: NestedTensor, targets: List = None, **kw): """The forward expects a NestedTensor, which consists of: - samples.tensor: batched images, of shape [batch_size x 3 x H x W] - samples.mask: a binary mask of shape [batch_size x H x W], containing 1 on padded pixels It returns a dict with the following elements: - "pred_logits": the classification l..