PSALM (ECCV 2024, Image Segmentation)
PSALM (ECCV 2024, Image Segmentation)
InstructSeg (arXiv preprint)
Abstract   image와 video domain의 referring task와 reasoning task를 합쳐 Instructed Visual Segmentation(IVS) task로 통합했다.이를 해결할 수 있는 InstructSeg 모델을 제안한다. vision-guided multi-granularity text fusion을 도입해서 global and detailed text information을 fine-grained visual guidance와 integrate한다.Github repository:  Motivation여러 비슷한 task들 (RES, ..
GIoU, CIoU metrics
GIoU (Generalized Intersection over Union) [1]IoU는 overlap하는 구역이 전혀 없을 때 0을 return하는데, 이는 prediction이 GT와 얼마나 가까운지 상관하지 않는다. 따라서 실제로는 GT와 어느 정도 더 가까운 prediction이라도 언제나 0을 return할 수 있다. 이는 model의 optimization process에서 plateau로 작용해서 optimize를 infeasible하게 만든다.   Fig. 1에서 GIoU와 IoU, norm이 나타나 있다. 동일한 representation에서도 세 metric은 아주 다르다.  GIoU의 아이디어는 간단한데, 두 convex shape A와 B를 enclose하는 smallest con..
HyperSeg (arXiv preprint, seg)
Abstract HyperSeg는 image, video scenario 모두에서 동작하는 VLM-based universal segmentation model이다. HyperSeg에서는 hybrid entity recognition module과 fine-grained visual perceiver module을 사용한다. Motivation기존 MLLM-based segmentation 방법론들은 한정된 domain 내에서만 동작한다는 limitation이 있다.  HyperSeg에서는 text prompt와 visual prompt(box, mask, etc)를 모두 사용하는 task를 해결한다. 또한 여러 visual domain의 문제를 풀기 위해서 세 가지 방법론을 사용한다: 1. 기존 enc..
Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F)
segmentation task에서 주로 사용하는 metric으로 Jaccard Index(IoU)와 F-score가 있다. 본 글에서는 각각을 이해하고 특징을 살펴본다.Jaccard IndexJaccard index는 [1]에서 처음 정의되어 사용되었으며, Intersection over Union(IoU)로도 불린다. 이는 다음과 같이 정의된다:$$ \frac{TP}{TP+FP+FN}$$ 즉 Jaccard index는 다음과 같이 이해될 수도 있다:$$\frac {A\cap B}{A\cup B}$$ 만약 $A$와 $B$와 완전히 겹쳐져 있으면 1이 나오고, intersect하는 구역이 전혀 없을 경우 0이 나올 것이다.  F1 / Dice scoreF1 score는 [2]에서 정의되었으며, 다음과 같..
DL·ML/Paper VISA: Reasoning Video Object Segmentation via Large Language Models