기존 saliency map을 얻는 architecture는 여전히 fine structure를 포착하는 데 어려움이 있어 이를 해결하기 위한 ConvNet 기반 architecture를 제시한다(See Fig. 1). 이때 refinement network는 U-Net shape의 residual refinement module이다. 이를 train하기 위해서 BCE와 SSIM(Structural SIMilarity)[1], IoU가 사용된다.
BASNet의 전체 architecture는 Fig. 2에 제시되어 있다. 먼저 saliency map을 predict하는 module이 있고, 뒤에 multi-scale residual refinement module이 붙어서 결과를 refine하는 형태이다.
References
[1] Zhou Wang, Eero P Simoncelli, and Alan C Bovik. Multi-scale structural similarity for image quality assessment. In The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, 2003, volume 2, pages 1398–1402. Ieee, 2003
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
UniControl (NeurIPS 2023, Diffusion) (1) | 2024.07.08 |
---|---|
X-VARS (CVPR 2024) (0) | 2024.06.26 |
DDPM (NeurIPS 2020, Diffusion) (0) | 2024.06.11 |
VideoChat2 (CVPR 2024, MLLM) (0) | 2024.05.28 |
UMT(ICCV 2023 Oral, Video Foundation Model) (0) | 2024.05.28 |