cs

open-vocabulary object detection

    Grounded SAM

    Abstract Grounded SAM은 Grounding DINO와 SAM을 사용하여 open-voca segmentation model인 Grounded SAM을 제안 Motivation 기존의 open-world scenario에서 visual understanding에 대해서는 세 가지 방법론이 제안되어 왔다: Unified Model approach UNINEXT, OFA등이 해당하며, 다양한 vision task에 pretrain하는 것이다. 그러나 복잡한 task로 scability가 떨어진다는 문제가 있다. LLM as Controller method HuggingGPT, Visual ChatGPT, LLaVA-Plus가 해당하며, LLM을 이용하여 vision concept를 연결한다. ..