TemporalVQA
·
DL·ML/Paper
https://arxiv.org/abs/2501.10674 Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!Multimodal Large Language Models (MLLMs) have achieved significant advancements in tasks like Visual Question Answering (VQA) by leveraging foundational Large Language Models (LLMs). However, their abilities in specific areas such as temporal understandingarxiv.org   AbstractTemp..
NExT-Chat (ICML 2024, MLLM for OD and Seg)
·
DL·ML/Paper
https://icml.cc/virtual/2024/poster/33745 ICML Poster NExT-Chat: An LMM for Chat, Detection and SegmentationAbstract: The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance visual comprehension, recent studies have equipped LMMs wiicml.cc Abstractpix2seq에 영감을 받은 pi..
STVG (VidSTG, CVPR 2020)
·
DL·ML/Paper
https://arxiv.org/abs/2001.06891  Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form SentencesIn this paper, we consider a novel task, Spatio-Temporal Video Grounding for Multi-Form Sentences (STVG). Given an untrimmed video and a declarative/interrogative sentence depicting an object, STVG aims to localize the spatio-temporal tube of the queried oarxiv.org AbstractSTVG task 제안V..
LongVU (Long Video Understanding)
·
DL·ML/Paper
https://arxiv.org/abs/2410.17434   LongVU: Spatiotemporal Adaptive Compression for Long Video-Language UnderstandingMultimodal Large Language Models (MLLMs) have shown promising progress in understanding and analyzing video content. However, processing long videos remains a significant challenge constrained by LLM's context size. To address this limitation, we propose Larxiv.org AbstractLongVU(L..
segmentation task들의 종류
·
DL·ML/Study
segmentation task들은 그 종류가 다양하나 이름에 따라 task에서 다루고자 하는 바가 미묘하게 다르다. 다만 영어로 이름이 붙어 있는 탓에 그 뉘앙스를 파악하기 어려워 각 task 별 차이를 확인해보고자 한다.    Object Segmentationobject segmentation이라는 용어는 image domain에서는 특정한 task를 refer하는 용도로는 사용되지 않는 것으로 보인다. image에서 object segmentation이라고 하면 전체 segmentation task를 의미하는 것으로 사용된다.  video domain에서 object segmentation은 foreground object를 segment하고 track하는 것을 의미한다(Fig. 1 참조). 이..
국내 대학의 교표(校標)에 대하여
·
Thinking/iDeAs
교표(校標)는 드물게 교장(校章)이라고도 하는데, 학교를 상징하는 휘장을 의미한다. 학교를 나타내는 여러 상징 중에서도 물리적 제한에 구애받지 않는다는 점 덕분에 학내 구성원들을 모으는 구심점으로서의 역할을 하곤 한다. 구성원의 수가 많고 종종 여러 캠퍼스로 구성되는 대학에서는 교표가 더욱 중요한 역할을 갖는다. 오늘날 대학이 학자들의 활동 근거지로서 기능하고 있다는 관점에서는 국내 학자들의 얼굴로서의 교표를 떠올릴 수도 있다. 따라서 교표는 단순히 창의적이거나 이것저것 잡다한 의미를 넣는 디자인적 요소로서 기능해야 한다기보다는, 겨레의 과거를 둘러보고 세계의 앞날을 밝히는 학문의 전당으로서의 대학의 사명을 나타낼 수 있어야 한다. 서양 대학의 교표들은 실제로 그런 관점에서 제작되었는데, 이를 살펴보기 ..