2407 미 서부 여행 2일차
·
Travel
2일 차에는 San Franciso를 방문했다. California에서 Los Angeles와 San Franciso는 가장 큰 도시들 중 하나이다. San Franciso는 LA보다는 더 위에 있는데 지도상으로는 가까워 보여도 차량으로 5시간 정도 이동한 것으로 기억한다. 셔틀을 기다리던 중 멋진 카우보이 모자를 쓰고 있는 키 큰 남자가 있어 말을 걸었다. 스타일이 좋다고 칭찬하니 기쁜 듯 자기 친구가 직접 만든 옷이라며 단추의 디테일을 보여주었다. 사진을 찍지는 못했지만 클래식한 스타일의 가죽제 멋진 옷이었다. 셔틀이 안 와서 놓칠 뻔했는데 그 남자의 도움으로 탈 수 있었다. 나중에 보니 그는 안 오고 그의 동행으로 보이던 긴 머리 남자만 동승했다. 그 사람에게도 말을 걸고 싶었으나 introvert..
2407 미서부 여행 1일차
·
Travel
* 240628-240707 * 1일 차 - LA 공항 도착 및 코리아타운 체크아웃 - downtown LA 미국은 개인적으로 가깝고도 멀게 느껴지는 나라인데, 언어나 정서 문화적으로는 가깝지만 그 실재는 멀게 느껴지고는 했던 것이다. 이번의 물리적 체험은 체화하지 않고는 와닿지가 않던 미국을 제대로 배우는 경험이었다.사실 미국에서도 LA는 특히 가깝게 생각되는 것이 내 소년기를 Los Santos에서 보냈기 때문이었다. 첫 문구는 로만의 welcome to America를 기대했으나 문구가 길어 좋지 않은 느낌이 있었다.LA 공항을 거쳐 Uber를 타고 코리아타운에 도착한 뒤 찍은 사진이다. 코리아타운과 리틀 도쿄를 비롯한 immigrant들의 거주지역과 히스패닉이 중심인 LA는 의외로 미국=영어 공식..
LLaVA-1.5 (CVPR 2024)
·
DL·ML/Paper
Motivation  LLaVA에서 충분히 explore되지 않았던 부분을 다룬다. LMM(Large Multimodal Models)를 general-purpose assistant로 만들기 위해 가장 좋은 training design choice가 무엇인지 확인한다. 먼저 LLaVA의 vision-language connector는 linear projection으로 사용되었는데, 이것이 좋은 성능을 보임을 증명하고 개선한다. 그 후 LMM의 open problem에 대해서 explore하는데 이는 구체적으로 다음과 같다: 1) Scaling to high-resolution image inputs; high-resolution image로 scaling하는 것은 image를 diving into g..
LLaVA (NeurIPS 2023 Oral, MLLM)
·
DL·ML/Paper
MotivationMultimodal instruction-following data 제작: 처음으로 vision-language domain에 instruction tuning 활용Large multimodal model: CLIP에 Vicuna 붙여서 finetuning함. Multimodal instruction-following benchamrk: LLaVA-Bench Datasetimage-text pair 데이터는 있어도, instruction-following multimodal dataset은 만들기가 expensive해서 그 양이 많지 않다. 여기서는 ChatGPT/GPT-4를 이용해서 data를 collect했다.  기존의 image-text pair를 가지고, $\text{Human:..
MoE(Mixture-of-Experts, ICLR 2017)
·
DL·ML
Methods conditional computation이라는 방법은 각 example에 따라 subnetwork가 active되어 model capacity를 늘리는 방법이다. model의 크기를 키우는 것에 비해서 더 많은 capacity를 늘릴 수 있다는 장점이 있는데, 여기에는 기술적인 문제가 몇 개 있다: 1) GPU는 branching보다 arithmetic에 유리하다.2) dataset과 batch size가 아주 커져야 한다. 3) network bandwidth가 bottleneck이 된다.  여기서는 이를 해결하기 위한 방법인 Sparsely-Gated Mixture-of-Experts Layer(MoE)를 제안한다.  Fig. 1에서 보이듯 각 layer는 $n$개의 expert ne..
UniControl (NeurIPS 2023, Diffusion)
·
DL·ML/Paper
AbstractSD 모델에서 spatial, structural, geometric control에 대한 image를 생성하는데 종종 실패광범위한 control에 대해서 C2I(Control-to-Image) task를 수행하는 foundation model인 UniControl 제안T2I diffusion model을 augment하고 task-aware한 HyperNet을 사용20M ITC triplet을 포함하는 MultiGen-20M dataset 제안  Motivationdiffusion model에서 condition을 넣어준다는 아이디어는 SD에서 시작해서 ControlNet까지 발전되었다. 하지만 ControlNet에서도, 특정한 control modality에 대해서 train된 경우에만..
X-VARS (CVPR 2024)
·
DL·ML/Paper
AbstractX-VARS(EXplainable Video Assistant Referee System) 제안SoccerNet-XFoul -- 22k VQA question triplet about refereeing question benchmark 제안  MotivationVAR system에서 explainability가 중요한 것은, 공식 경기의 판정 결과는 각 팀의 운명을 좌우할 수 있기 때문이다. 따라서 X-VARS는 LLM을 이용하여 automatic VAR의 explainability를 조명한다.  X-VARS LLaVa를 사용하는 VLM을 활용한다. vision encoder로는 CLIP ViT-L/14를 활용한다. 22k개의 video QA triplet을 포함한 SoccerNet-XF..
BASNet (CVPR 2019, OD)
·
DL·ML/Paper
기존 saliency map을 얻는 architecture는 여전히 fine structure를 포착하는 데 어려움이 있어 이를 해결하기 위한 ConvNet 기반 architecture를 제시한다(See Fig. 1). 이때 refinement network는 U-Net shape의 residual refinement module이다. 이를 train하기 위해서 BCE와 SSIM(Structural SIMilarity)[1], IoU가 사용된다.   BASNet의 전체 architecture는 Fig. 2에 제시되어 있다. 먼저 saliency map을 predict하는 module이 있고, 뒤에 multi-scale residual refinement module이 붙어서 결과를 refine하는 형태이..
DDPM (NeurIPS 2020, Diffusion)
·
DL·ML/Paper
DDPMBackground* diffusion process는 원래 종전의 [1]을 발전시킨 모델으로, variational inference를 이용하여 train된 parametrized Markov chain으로 image를 generation하는 과정이다.  → variational inference는 posterior probability $p(x|z)$를 직접 구하는 대신 parametrized function $q(x)$를 대신 구하고, ELBO를 이용하여 둘의 차이를 minimize하는 것을 의미한다. 이때 ELBO를 maximize하면 둘의 KL divergence $D_{KL}(p(x|z) || q(x))$를 minimize하는 것과 같다.   물리학에서 말하는 diffusion처럼, d..