cs
전체 글

전체 글

    Hungarian Matching Algorithm

    What is the Hungarian Matching Algorithm?The Hungarian Matching Algorithm is a bipartite matching algorithm that solves the assignment problem in polynomial time. The assignment problem assumes there are $n$ tasks that must be assigned to $n$ agents, with no duplicate assignments, in such a way that the total cost of the assignments is minimized. Problem DefinitionGiven an $n \times n$ cost matr..

    Conditional MixLoRA (ACL 2024, MLLM PEFT)

    Motivationmultimodal LLM에서 broad range of tasks에 대해서 instruction tuning할 때, LoRA를 사용하면 task interference로 인해서 performance degradation이 발생함이 알려져 있다. 이 paper에서는 (1) 이를 확인하고, (2) 해결 방법으로 Conditional MixLoRA(Mixture-of-LoRA)를 제안한다.   Fig. 1에서 보이다시피 기존 LoRA는 하나의 shared weight matrix를 사용하는데 반해, Conditional MixLoRA는 두 개의 matrix를 놓고 input instance에 따라서 둘을 dynamically select해서 task interference issue를 mi..

    Video-LaVIT (ICML 2024 Oral, Video tokenization)

    Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Motivation 1. image encoder를 video encoding에 사용하는 것은 video의 spatiotemporal feature를 capture하는 데 적합하지 않음. 특히 temporal한 움직임들2. 3d feature를 써서 둘을 capture하는 경우에는 video 자체의 redundancy 때문에 memory efficiency나 token length의 관점에서 효율적이지 않음 → single key frame와 optical flow(motion vector)를 이용하여 video를 encoding하면 mot..

    UniHOI (NeurIPS 2023)

    Motivation기존에도 Vision-Language model들을 Human-Object Interaction task에 사용하는 경우는 있었다.(PhraseHOI) 그러나 이 경우 다음과 같은 limitation이 있다:Limited Scalability: annotated data에 지나치게 의존하여 category가 limit된다.Suboptimal adaptability in zero-shot settings: HOI-VLM approach가 적은 word embedding category만 사용하여 그 adaptibility가 제한된다.task description에서 behavior를 추출하기 어렵다.UniHOI에서는 VL model 대신 LLM을 이용하여 위의 limitation들을 해결..

    Co-DETR (ICCV 2023, OD)

    보호되어 있는 글입니다.

    IR Reasoner (CVPRW 2023, IR OD)

    MotivationMethods reasoner module이라고 거창하게 써 있는데 그냥 YOLO에 transformer variation 붙인 형태이다.  Experiments  당연히 뒤에 transformer를 붙였으니 성능은 올라가고 fps는 낮아질 것이다. Fig 3, 4, 5는 cherry-picked인 것 같다.  Discussion근데 왜 ViT를 안쓰는거야? → 연구실 선배가 ViT는 scability가 좋은거지, 모델이 무겁고 데이터가 적은 OD 상황에서는 맞지 않는다고 조언해주심.   References[1] M. M. Gündoğan, T. Aksoy, A. Temizel and U. Halici, "IR Reasoner: Real-time Infrared Object Detect..