UniHOI (NeurIPS 2023)
·
DL·ML/Paper
Motivation기존에도 Vision-Language model들을 Human-Object Interaction task에 사용하는 경우는 있었다.(PhraseHOI) 그러나 이 경우 다음과 같은 limitation이 있다:Limited Scalability: annotated data에 지나치게 의존하여 category가 limit된다.Suboptimal adaptability in zero-shot settings: HOI-VLM approach가 적은 word embedding category만 사용하여 그 adaptibility가 제한된다.task description에서 behavior를 추출하기 어렵다.UniHOI에서는 VL model 대신 LLM을 이용하여 위의 limitation들을 해결..
Co-DETR (ICCV 2023, OD)
·
DL·ML/Paper
보호되어 있는 글입니다.
IR Reasoner (CVPRW 2023, IR OD)
·
DL·ML/Paper
MotivationMethods reasoner module이라고 거창하게 써 있는데 그냥 YOLO에 transformer variation 붙인 형태이다.  Experiments  당연히 뒤에 transformer를 붙였으니 성능은 올라가고 fps는 낮아질 것이다. Fig 3, 4, 5는 cherry-picked인 것 같다.  Discussion근데 왜 ViT를 안쓰는거야? → 연구실 선배가 ViT는 scability가 좋은거지, 모델이 무겁고 데이터가 적은 OD 상황에서는 맞지 않는다고 조언해주심.   References[1] M. M. Gündoğan, T. Aksoy, A. Temizel and U. Halici, "IR Reasoner: Real-time Infrared Object Detect..
LLVIP(IR dataset, ICCV 2021)
·
DL·ML/Paper
DatasetsTNO Image Fusion Dataset: 261 pairs of images, few objectsINO Videos Analytics Dataset & OTCBVS OSU Color-Thermal Database: few pedestrianCVC-14: images are already clear--no need for the ir images!!KAIST Multispectral Dataset: FLIR Thermal Dataset LLVIP Dataset Image capture: captured with HIKVISION DS-2TD8166BJZFY-75H2F/V2 camera- 15,488 pairs of visible-ir images from 26 diffrent loca..
InstructGPT / RLHF (NeurIPS 2022)
·
DL·ML/Paper
PreliminariesReinforcement Learning BasicsPPO  Motivationnext token prediction으로 train하는 경우 사용자 intention과 align되지 않을 수 있으므로 다른 fine-tune 방법을 제안한다. 여기서는 RLHF를 사용한다.  구체적으로는 reward model(RM)을 human labeled comparison dataset에 대해서 학습한다. 그 후 RM을 reward function으로 활용하여 PPO로 reward를 maximize하도록 supervised finetuning한다.  Fig. 2를 참조하면, method는 세 단계로 구성된다:(1) supervised fine-tuning(SFT)(2) reward model(..
PPO (Policy Proximal Optimization)
·
DL·ML/Paper
PreliminariesReinforcement Learning Basics 참조.  Policy Gradient Methods $\hat g$는 gradient estimator이다. 여기서 역할은 여러 sample들에 대해 측정한 gradient의 expection 값인데, 이는 여러 sample에 대해서 stochastic policy를 얻었을 때 그 값에 advantage function으로 weight를 준 형태로 구하는 것이다. 여기서의 objective는 당연하게도  $$ \mathcal {L} ^{PG}(θ) = \hat{ \mathbb E}_t \left [ \log π_θ (a_t|s_t) \hat A_t \right ]$$ 의 형태로 정의되는 것이다.  그러나 이는 여러 step에 대..
Reinforcement Learning Basics
·
DL·ML/Study
PoliciesA policy is a rule that determines what action to take, typically denoted as $μ$. When the action is selected stochastically, the policy is represented specifically as $π(⋅|s_t)$ at timestep $t$When the policy is based on stochastic process, the action is sampled categorically if the action space is discrete, and sampled in a Guassian manner if the action space is continuous.Value Functi..
RuntimeError: Expected to mark a variable ready only once.
·
CS/Python
RuntimeError: Expected to mark a variable ready only once. This error is caused by one of the following reasons: 1) Use of a module parameter outside the `forward` function. Please make sure model parameters are not shared across multiple concurrent forward-backward passes. or try to use _set_static_graph() as a workaround if this module graph does not change during training loop.2) Reused param..
ValueError: Default process group has not been initialized, please make sure to call init_process_group.
·
CS/Python
ErrorEnvironmentUbuntu 20.04.6 LTSCUDA 11.8Python 3.10Occurred when I tried to reimplement VideoChat2 on the server; I modified the execution script cuz I was trying to launch the code on just one machine with 2 GPUs(or a single GPU).the modified code is as follows:python tasks/train.py \ $(dirname $0)/config.py \ output_dir ${OUTPUT_DIR}The original code is like:srun -p ${PARTITION} \ ..