ChatPose (CVPR 2024)
·
DL·ML/Paper
Motivationpose estimation만을 수행하는 vision model들은 comprehensive한 이해가 결여되어 있다. 여기서는 LLM의 prior knowledge를 활용하여 3D human pose를 SMPL 형태로 generation하도록 한다. 이를 위해 LLM이 기존에 갖고 있는 3D pose에 대한 이해를 확인하고 추가적으로 어떻게 teach할 수 있는지 확인한다.  MethodsArchitecturetext 또는 visual input을 받을 수 있다. 이를 이용해 textual output 또는 SMPL pose를 출력한다.  모델은 LLM model $f_φ$와 embedding projection layer $g_Θ$, SMPL로 구성된다. SMPL은 pose와 shap..