![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FT4ZB0%2FbtsHDUKH3Cp%2FkfWJU4ZsF1cgIEo7yv4pw1%2Fimg.png)
UMT(ICCV 2023 Oral, Video Foundation Model)
·
DL·ML/Paper
AbstractICCV 2023 OralVideo foundation model Motivation기존의 VFM에 대한 연구는 video data의 computational cost로 인해 주로 IFM 기반으로 이루어졌지만, image와 video는 domain이 다르다. 주로 motion에 대한 understanding이 lack되어 있는 특성이 있고 scene 위주로 집중한다. 또한 IFM은 temporal한 상황 인식이 없고 spatial한 인식이 구성된다. 이런 문제는 책을 펴고 덮는 motion에 대한 인식을 어렵게 만든다(See Fig. 2). 여기서는 temporal-sensitive VFM을 efficient하게 training하기 위해서 UMT(UnMasked Teacher)를 도입..