![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdIIo57%2FbtsIUBX5fvN%2FO7Nt7mkyQT9IC6kefFwXo1%2Fimg.png)
VoT (ICML oral, video understanding)
·
DL·ML/Paper
AbstractSuggests MotionEpic, a model that integrates STSG to videoSuggests VoT(Video of Thought) frameworkMotivation video에 대한 reasoning을 수행하기 위해서는 두 종류의 ability가 필요하다. fine-grained perceptive pixel understanding of the video movementcognitive ability allowing reasonable explanation and causal imagination실제로 사람이 video에 대해서 reasoning을 할 때에는 multi-hop으로 추론하므로 이를 모방하는 것이 필요하다고 짐작하기는 어렵지 않다. intuiti..