cs
전체 글

전체 글

    VideoRefer Suite

    https://arxiv.org/abs/2501.00599v1    VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLMVideo Large Language Models (Video LLMs) have recently exhibited remarkable capabilities in general video understanding. However, they mainly focus on holistic comprehension and struggle with capturing fine-grained spatial and temporal details. Besides, tharxiv.org arXiv에 241231에..

    PSALM (ECCV 2024, Image Segmentation)

    https://arxiv.org/abs/2403.14598   PSALM: Pixelwise SegmentAtion with Large Multi-Modal ModelPSALM is a powerful extension of the Large Multi-modal Model (LMM) to address the segmentation task challenges. To overcome the limitation of the LMM being limited to textual output, PSALM incorporates a mask decoder and a well-designed input schema to hanarxiv.org AbstractPSALM(Pixelwise SegmentAtion wi..

    InstructSeg (arXiv preprint)

    Abstracthttps://arxiv.org/abs/2412.14006   image와 video domain의 referring task와 reasoning task를 합쳐 Instructed Visual Segmentation(IVS) task로 통합했다.이를 해결할 수 있는 InstructSeg 모델을 제안한다. vision-guided multi-granularity text fusion을 도입해서 global and detailed text information을 fine-grained visual guidance와 integrate한다.Github repository: https://github.com/congvvc/InstructSeg  Motivation여러 비슷한 task들 (RES, ..

    GIoU, CIoU metrics

    GIoU (Generalized Intersection over Union) [1]IoU는 overlap하는 구역이 전혀 없을 때 0을 return하는데, 이는 prediction이 GT와 얼마나 가까운지 상관하지 않는다. 따라서 실제로는 GT와 어느 정도 더 가까운 prediction이라도 언제나 0을 return할 수 있다. 이는 model의 optimization process에서 plateau로 작용해서 optimize를 infeasible하게 만든다.   Fig. 1에서 GIoU와 IoU, norm이 나타나 있다. 동일한 representation에서도 세 metric은 아주 다르다.  GIoU의 아이디어는 간단한데, 두 convex shape A와 B를 enclose하는 smallest con..

    HyperSeg (arXiv preprint, seg)

    Abstract HyperSeg는 image, video scenario 모두에서 동작하는 VLM-based universal segmentation model이다. HyperSeg에서는 hybrid entity recognition module과 fine-grained visual perceiver module을 사용한다. Motivation기존 MLLM-based segmentation 방법론들은 한정된 domain 내에서만 동작한다는 limitation이 있다.  HyperSeg에서는 text prompt와 visual prompt(box, mask, etc)를 모두 사용하는 task를 해결한다. 또한 여러 visual domain의 문제를 풀기 위해서 세 가지 방법론을 사용한다: 1. 기존 enc..

    Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F)

    segmentation task에서 주로 사용하는 metric으로 Jaccard Index(IoU)와 F-score가 있다. 본 글에서는 각각을 이해하고 특징을 살펴본다.Jaccard IndexJaccard index는 [1]에서 처음 정의되어 사용되었으며, Intersection over Union(IoU)로도 불린다. 이는 다음과 같이 정의된다:$$ \frac{TP}{TP+FP+FN}$$ 즉 Jaccard index는 다음과 같이 이해될 수도 있다:$$\frac {A\cap B}{A\cup B}$$ 만약 $A$와 $B$와 완전히 겹쳐져 있으면 1이 나오고, intersect하는 구역이 전혀 없을 경우 0이 나올 것이다.  F1 / Dice scoreF1 score는 [2]에서 정의되었으며, 다음과 같..