VoT (ICML oral, video understanding)
·
DL·ML/Paper
AbstractSuggests MotionEpic, a model that integrates STSG to videoSuggests VoT(Video of Thought) frameworkMotivation video에 대한 reasoning을 수행하기 위해서는 두 종류의 ability가 필요하다. fine-grained perceptive pixel understanding of the video movementcognitive ability allowing reasonable explanation and causal imagination실제로 사람이 video에 대해서 reasoning을 할 때에는 multi-hop으로 추론하므로 이를 모방하는 것이 필요하다고 짐작하기는 어렵지 않다. intuiti..
VPD (CVPR 2024 Oral, VLM)
·
DL·ML/Paper
Abstract  MotivationVLM에서 directly image 내에서의 reasoning task를 풀도록 하는 것은 잘 되지 않는다.LLM에서 reasoning 할 수 있도록 tool들을 활용하는 program을 만드는 경우도 있지만, generated program은 잘 동작하지 않아 여전히 expert model보다 잘 하지 못한다.VPD(Visual Program Distillation)에서는 cross modality reasoning capability를 VLM에 distill한다.이는 다음 두 가지를 활용한다:tool을 활용하는 visual program들의 advancementCoT reasoing을 통한 distillation 방법 Visual Program Distillati..
InternVideo2 (VFM)
·
DL·ML/Paper
Motivation InternVideo2는 three stages of learning scheme으로 spatiotemporal perception을 개선한다. 처음에는 VideoMAE처럼 maksed video token prediction을 수행한다. 두 번째 stage로 multimodal learning을 수행하여 audio와 text에 대해서도 task를 수행할 수 있게 된다. 마지막으로 InternVideo2를 LLM에 붙여 next-token prediction training함으로써 contextually appropriate token을 generate하도록 train된다.  Methodvideo encoder로 CLIP을 쓰지 않고 ViT를 쓴다. 여기에 attention pooli..
ChatPose (CVPR 2024)
·
DL·ML/Paper
Motivationpose estimation만을 수행하는 vision model들은 comprehensive한 이해가 결여되어 있다. 여기서는 LLM의 prior knowledge를 활용하여 3D human pose를 SMPL 형태로 generation하도록 한다. 이를 위해 LLM이 기존에 갖고 있는 3D pose에 대한 이해를 확인하고 추가적으로 어떻게 teach할 수 있는지 확인한다.  MethodsArchitecturetext 또는 visual input을 받을 수 있다. 이를 이용해 textual output 또는 SMPL pose를 출력한다.  모델은 LLM model $f_φ$와 embedding projection layer $g_Θ$, SMPL로 구성된다. SMPL은 pose와 shap..
왜 컴퓨터는 의식을 가질 수 없는가(medium 번역)
·
Thinking/Philosophy
사람들은 세포의 집합으로 만들어진 생물학을 초월해서 무엇인가 심오한 다른 것으로 바꿔놓았다. 그러나 어떻게 현대 신경과학의 발전과 영향력이 과학자들로 하여금 인간 본성의 놀라움을 뇌로 국한시키고, 컴퓨터 과학자들이 그 뇌를 실리콘 칩의 논리 회로에 이식하도록 만들었는지 설명하기는 어렵다.  * transcend: 한계를 뛰어넘다 * baffling: 이해하거나 설명할 수 없는 인간은 감각의 형태로 "입력"을 갖고, 말과 행동으로 "출력"한다. 인간의 입-출력 행동을 따라하는 것이 실제 인간의 수준을 달성하는 것이라는 말은 AI의 교조가 되었다. - Ari Schulman * creed: 교조, 믿음* amount to: 동일하다  과학자들은 이러한 형이상학적 살인을 멀리하는데, 그들이 발전시키는 기술은 ..
OMG-LLaVA
·
DL·ML/Paper
MotivationLLaVA는 image-level analysis를 진행하므로 precise location과 같은 pixel-level에서의 작업을 수행할 수 없다는 문제가 있다. 여기에 extra detection model을 붙여서 문제를 해결하는 경우가 있지만, 이 경우 LLaVA가 image cpationing이나 VQA와 같은 image-level analysis의 성능을 잃게 된다는 문제가 있다.  OMG-LLaVA에서는 하나의 LLM과 visual encoder, decoder를 가지고 image-level, object-level, pixel-level task를 모두 수행하고자 한다. 특히 OMG-Seg model을 universal perception model로 사용한다. OMG-..
FGSM (Fast Gradient Sign Method)
·
DL·ML
The Linear Explanation of Adversarial ExamplesGoodfellow et al.은 이 논문에서 adversarial example이 가능한 것은 high-dimensional space에서 linear behavior를 보이기 때문이라고 설명한다. linearity는 model의 model의 train을 용이하게 하지만 vulnerability를 크게 만든다.  linear model에서의 adversarial example의 existence는 다음과 같이 보일 수 있다. 일반적인 경우 input feature의 precision은 1/255로 제한되고 그 이하의 값은 discard된다. 따라서 feature의 precision보다 작은 perturbation $η, ..
Adversarial Attack
·
DL·ML
IntroductionAdversarial attack은 machine learning algorithm이 올바르지 않은 행동을 하도록 만드는 공격을 의미한다. 특히 Deep neural network의 경우에는 adversarial attack에 대해 vulnerable하다고 알려져 있는데, 각종 핵심 기능에 사용되는 DNN 모델의 특성 상 security가 강하게 요구된다. 따라서 이를 방어하는 방법을 adversarial defense라고 하고 이 모든 분야를 합쳐 adversarial machine learning이라고 한다.  처음 이 vulnerability가 제안된 것은 Szegdy et al.[2] 의 dnn에서의 image classification task이다. image에 target..
미 서부 여행 3일차
·
Travel
3일차에는 Yosemite national park를 방문했다. 새벽에 Uber를 타고 한국인 가이드를 만나 이동했다. 가이드는 젊은 한국인 남성이었는데, 원래 mechanical engineering쪽 일을 하다가 가이드를 하게 되었다고 했다. 무슨 이유였는지는 기억나지 않는다. 가는 중에 사진을 찍지는 않았는데, 들판과 언덕이 광활하게 펼쳐져 있었다. Windows XP의 desktop image가 이 San Franciso의 언덕을 찍은 것이라고 한다. 이외에도 내가 지금까지 알고 있던 것들이 미국의 로컬인 것들이 꽤 있었는데, 묘한 기분이 들었다. 신기하기도 하고, 박탈감 같은 느낌이 들기도 하고.. Yosemite에 도착해서는 꽤 오래 걸려 입장하였다. 줄이 길지는 않았는데 줄어드는 속도가 꽤 ..