Abstract
- Grounded SAM은 Grounding DINO와 SAM을 사용하여 open-voca segmentation model인 Grounded SAM을 제안
Motivation
기존의 open-world scenario에서 visual understanding에 대해서는 세 가지 방법론이 제안되어 왔다:
- Unified Model approach
UNINEXT, OFA등이 해당하며, 다양한 vision task에 pretrain하는 것이다. 그러나 복잡한 task로 scability가 떨어진다는 문제가 있다. - LLM as Controller method
HuggingGPT, Visual ChatGPT, LLaVA-Plus가 해당하며, LLM을 이용하여 vision concept를 연결한다. LLM의 성능에 dependent하다는 특징이 있다. - Ensample Foundation Models
specific context의 expert model들을 collaborate하는 방식으로 동작한다.
Grounded SAM은 Grounding DINO의 open-set detection과 SAM의 promptable segmentation을 통합하여 open-world task에 적용할 수 있도록 한다.
만약 RAM(Recognize Anything)이나 BLIP의 image tagging을 textual input으로 넣을 경우 input 없이도 automatically image annotation을 할 수 있게 된다.
또는 Stable Diffusion과 함께 highly precise image editing이 가능하다.
Method
Grounded SAM의 중요한 intuition은 raw image에서 바로 segmentation을 하는 것보다 bounding box를 먼저 그린 후 그것을 condition으로 활용해서 segmentation을 하는 것이 이득이라는 관점이다. 이는 두 가지 이유로 justify되는데, detection의 annotation cost가 더 낮아 high-quality annotated data를 구하기 용이하고, pixel 단위의 classification보다 간단한 task라는 점이다.
이 방법은 OpenSeeD에서 validate되었다.
아이디어는 몹시 간단한데, Grounding DINO를 먼저 적용하여 얻은 결과를 box prompt로 SAM에 mask annotation을 적용하도록 만든 것이다. 이를 통해 Fig. 2와 같은 결과를 얻을 수 있다.
Result
한 가지 볼 점은, Grounded HQ-SAM이라는 setting이 하나 있는데, SAM 대신 HQ-SAM을 사용한 setting이다. 그런데 SAM을 거의 모든 task에서 outperform했던 HQ-SAM과 다르게 성능이 크게 leverage되지 않았음을 볼 수 있다.
Discussion
Techinical Report다 보니 Method는 자세히 설명하지 않았는데.. 별로 설명할 필요도 없다.
당연히 될 것 같은 세팅에서 될 것 같은 결과가 나왔다는 것 이상의 의미는 없는 것 같다. Grounding DINO나 SAM을 dependency로 쓰니까 각 모델이 가지고 있는 문제들도 그대로 가지고 갈 텐데..
내가 몇 번 돌려봤을 때 Grounding DINO는 false positive를 많이 뱉는 경향이 있었고.. SAM은 intricated structure에서 fail한다는 문제가 있었으니까.. 그런 limitation들은 그대로 가져갈 것이다. 새로운 idea를 가지고 이런 부분들을 해결하면 좋을 듯.
References
[1] Ren, T., Liu, S., Zeng, A., Lin, J., Li, K., Cao, H., ... & Zhang, L. (2024). Grounded sam: Assembling open-world models for diverse visual tasks. arXiv preprint arXiv:2401.14159.
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
TesseTrack (CVPR 2021) (1) | 2024.03.27 |
---|---|
MotionBERT (ICCV 2023) (0) | 2024.03.26 |
[task] 3D Pose Estimation (in progress) (0) | 2024.03.25 |
VARS(SoccerNet) (0) | 2024.03.22 |
HQ-SAM (0) | 2024.03.20 |