Preliminaries
Reinforcement Learning Basics 참조.
Policy Gradient Methods
$\hat g$는 gradient estimator이다. 여기서 역할은 여러 sample들에 대해 측정한 gradient의 expection 값인데, 이는 여러 sample에 대해서 stochastic policy를 얻었을 때 그 값에 advantage function으로 weight를 준 형태로 구하는 것이다.
여기서의 objective는 당연하게도
$$ \mathcal {L} ^{PG}(θ) = \hat{ \mathbb E}_t \left [ \log π_θ (a_t|s_t) \hat A_t \right ]$$
의 형태로 정의되는 것이다.
그러나 이는 여러 step에 대해서 수행했을 때 너무 큰 policy update를 초래한다고 알려져 있다.
Trust Region Methods
이는 TRPO로도 불리는데 여기의 "surrogate" objective는 policy update의 size에 대한 constraint를 만족하며 maximize해야 하는 objective이다.
이 식을 보면, contraint 안에서 old policy와 policy의 KL divergence가 너무 커지지 않게 막으면서도, 새 policy가 가지는 advantage의 기댓값이 old policy에 비해 좋아지도록 만드는 것 같다.
Eq. 2의 Lagrangian을 생각해보면 여기에 대한 아이디어를 얻을 수 있는데, 실제로 두 distribution 간 KL divergence가 objective에서 penality로 작용하는 것이다.
다만 실제로 TRPO에서는 constraint를 hard constraint로 남겨두는데 이는 task마다 적당한 β를 찾기 어렵기 때문이다. 따라서 PPO에서는 β를 optimize하며 성능 향상하는 것을 목표로 둔다.
Clipped Surrogate Objective
표현을 간단하게 하기 위해 $r$ function을 notation으로 도입한다. CPI는 conservative policy iteration을 의미한다. eq 4의 objective는 constraint 없이 아주 큰 policy update를 얻게 될 것이다. 이를 개선한 Clipped Surrogate Objective $\mathcal {L}^{CLIP}$을 제안한다:
eq 5는 간단하다. clip function은 1+ε, 1-ε를 벗어난 경우 incentive를 제거한다. 둘 중 작은 값을 택하므로 범위를 벗어난 경우 objective 값은 clipped된다. (see fig. 1) 이때 ε는 hyperparameter이고 0.2 정도로 설정된다.
clipping function은 range를 벗어난 경우 차이가 없게 할 수도 있고 penalty를 줄 수도 있다.
fig 2에서는 policy update direction으로 interpolation했을 때 objectives의 차이를 보여준다. 실제로 $L^{CLIP}$은 $L^{CPI}$의 lower bound로 동작하며 값이 커지는 경우 objective 값이 penalty를 가짐을 보여준다.
Discussion
References
[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
LLVIP(IR dataset, ICCV 2021) (0) | 2024.08.30 |
---|---|
InstructGPT / RLHF (NeurIPS 2022) (1) | 2024.08.21 |
VoT (ICML oral, video understanding) (0) | 2024.08.06 |
VPD (CVPR 2024 Oral, VLM) (0) | 2024.08.05 |
InternVideo2 (VFM) (1) | 2024.07.25 |