
VTP(EMNLP 2024, STVG)
·
DL·ML/Paper
AbstractWeakly-supervised Spatio-Temporal Video Grounding(WS-STVG) task는 기존의 STVG task와 비슷하나, densely annotated training data 없이 수행하는 방법을 의미한다. VTP(Video-Text Prompting)을 제안하여 candidate feature를 생선한다. 이는 tube를 만들기 위해서 video prompt를 red circle과 같은 visual marker로 추가하는 형태이다.candidate feature끼리 비슷하게 보이는 경우에는 constrastive VTP(CVTP)를 제안하여 해결했다. Motivationweakly supervised STVG는 heavily annotated data..