![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbq3O3n%2FbtsJKettxSj%2FBBE8nLvG53GsqKZk9J4aL0%2Fimg.png)
UniHOI (NeurIPS 2023)
·
DL·ML/Paper
Motivation기존에도 Vision-Language model들을 Human-Object Interaction task에 사용하는 경우는 있었다.(PhraseHOI) 그러나 이 경우 다음과 같은 limitation이 있다:Limited Scalability: annotated data에 지나치게 의존하여 category가 limit된다.Suboptimal adaptability in zero-shot settings: HOI-VLM approach가 적은 word embedding category만 사용하여 그 adaptibility가 제한된다.task description에서 behavior를 추출하기 어렵다.UniHOI에서는 VL model 대신 LLM을 이용하여 위의 limitation들을 해결..