Jaccrad Index(IoU)와 F1/Dice, Coutour Accuracy(F)
·
DL·ML/Study
segmentation task에서 주로 사용하는 metric으로 Jaccard Index(IoU)와 F-score가 있다. 본 글에서는 각각을 이해하고 특징을 살펴본다.Jaccard IndexJaccard index는 [1]에서 처음 정의되어 사용되었으며, Intersection over Union(IoU)로도 불린다. 이는 다음과 같이 정의된다:$$ \frac{TP}{TP+FP+FN}$$ 즉 Jaccard index는 다음과 같이 이해될 수도 있다:$$\frac {A\cap B}{A\cup B}$$ 만약 $A$와 $B$와 완전히 겹쳐져 있으면 1이 나오고, intersect하는 구역이 전혀 없을 경우 0이 나올 것이다.  F1 / Dice scoreF1 score는 [2]에서 정의되었으며, 다음과 같..
VISA (ECCV 2024, RVOS)
·
DL·ML/Paper
https://arxiv.org/abs/2407.11325v1 VISA: Reasoning Video Object Segmentation via Large Language ModelsExisting Video Object Segmentation (VOS) relies on explicit user instructions, such as categories, masks, or short phrases, restricting their ability to perform complex video segmentation requiring reasoning with world knowledge. In this paper, we introducarxiv.orgAbstractreasoning video object ..
VideoLISA (NeurIPS 2024,VOS)
·
DL·ML/Paper
Abstract기존의 LISA를 video domain에 확장하여 사용한다. → temporal dimension에 적용하기 위해서 Sparse Dense Sampling strategy를 video LLM에 적용한다.One-Token-Seg-All approach를 제안한다. ReasonVOS benchmark를 제안한다. MotivationSparse Dense Sampling strategyvideo는 당연히 expensive한데, 여기서 활용하는 intuition은 adjacent frames는 temporal redundancy를 가지고 있다는 것이다. 이를 이용하는 방법으로 Sparse Dense Sampling strategy를 제안한다. dense frame을 uniform하게 sampli..
MoRA (arXiv preprint, STVG)
·
DL·ML/Paper
https://arxiv.org/abs/2411.09921 Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel LevelIn this paper, we introduce Motion-Grounded Video Reasoning, a new motion understanding task that requires generating visual answers (video segmentation masks) according to the input question, and hence needs implicit spatiotemporal reasoning and groundingarxiv.org AbstractMotion-G..
VTP(EMNLP 2024, STVG)
·
DL·ML/Paper
AbstractWeakly-supervised Spatio-Temporal Video Grounding(WS-STVG) task는 기존의 STVG task와 비슷하나, densely annotated training data 없이 수행하는 방법을 의미한다. VTP(Video-Text Prompting)을 제안하여 candidate feature를 생선한다. 이는 tube를 만들기 위해서 video prompt를 red circle과 같은 visual marker로 추가하는 형태이다.candidate feature끼리 비슷하게 보이는 경우에는 constrastive VTP(CVTP)를 제안하여 해결했다.  Motivationweakly supervised STVG는 heavily annotated data..
CG-STVG(CVPR 2024)
·
DL·ML/Paper
STVG TaskSTVG(spatio-temporal video grounding) task는 text query에 맞는 spatiotemporal 영역을 video 안에서 grounding하는 task이다.   이때 구성되는 sequence of bounding boxes를 spatio-temporal tube라고 한다. text query는 Fig. 1과 같이 declarative할 수도 있고, interrogative할 수도 있다.   그전까지의 방법은 Fig. 2 (a)와 같이 video와 query를 보고 object를 retreive하는 방식이었다. 그러나 일반적으로 textual query는 object를 retrieve하는 데에 충분하지 않다. 따라서 text query를 길게 할 수도 있..
Hungarian Matching Algorithm
·
CS/Algorithm
What is the Hungarian Matching Algorithm?The Hungarian Matching Algorithm is a bipartite matching algorithm that solves the assignment problem in polynomial time. The assignment problem assumes there are $n$ tasks that must be assigned to $n$ agents, with no duplicate assignments, in such a way that the total cost of the assignments is minimized. Problem DefinitionGiven an $n \times n$ cost matr..
Conditional MixLoRA (ACL 2024, MLLM PEFT)
·
DL·ML/Paper
Motivationmultimodal LLM에서 broad range of tasks에 대해서 instruction tuning할 때, LoRA를 사용하면 task interference로 인해서 performance degradation이 발생함이 알려져 있다. 이 paper에서는 (1) 이를 확인하고, (2) 해결 방법으로 Conditional MixLoRA(Mixture-of-LoRA)를 제안한다.   Fig. 1에서 보이다시피 기존 LoRA는 하나의 shared weight matrix를 사용하는데 반해, Conditional MixLoRA는 두 개의 matrix를 놓고 input instance에 따라서 둘을 dynamically select해서 task interference issue를 mi..
Video-LaVIT (ICML 2024 Oral, Video tokenization)
·
DL·ML/Paper
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Motivation 1. image encoder를 video encoding에 사용하는 것은 video의 spatiotemporal feature를 capture하는 데 적합하지 않음. 특히 temporal한 움직임들2. 3d feature를 써서 둘을 capture하는 경우에는 video 자체의 redundancy 때문에 memory efficiency나 token length의 관점에서 효율적이지 않음 → single key frame와 optical flow(motion vector)를 이용하여 video를 encoding하면 mot..