Booil Jung

근접 정책 최적화(PPO)

강화학습(Reinforcement Learning, RL)은 인공지능의 한 분야로, 에이전트가 환경과 상호작용하며 시도와 오류를 통해 최적의 행동 방식을 학습하는 패러다임을 의미한다.1 이 과정에서 에이전트는 특정 상태(state)에서 행동(action)을 취하고, 그 결과로 환경으로부터 보상(reward)과 다음 상태 정보를 받는다. 에이전트의 궁극적인 목표는 장기적으로 누적 보상을 최대화하는 것이다.5

강화학습 알고리즘은 크게 가치 기반(value-based) 방법과 정책 기반(policy-based) 방법으로 나뉜다. 딥 Q-러닝(Deep Q-Learning, DQN)과 같은 가치 기반 방법은 각 상태 또는 상태-행동 쌍의 가치를 추정하는 데 중점을 둔다. 반면, 정책 기반 방법은 에이전트의 행동 전략, 즉 정책(policy)을 직접적으로 모델링하고 최적화한다. 특히 정책 기반 방법은 행동 공간이 연속적이거나 차원이 매우 높은 문제에서 가치 기반 방법보다 뛰어난 성능을 보이는 경향이 있다.3 이러한 문제들은 로봇 제어나 복잡한 게임 전략 등 현실 세계의 많은 응용 분야에서 나타난다. 이 모든 과정은 일반적으로 마르코프 결정 과정(Markov Decision Process, MDP)이라는 수학적 프레임워크를 통해 공식화된다.3

정책 경사(Policy Gradient, PG) 방법은 정책 기반 강화학습의 핵심적인 접근법이다. 이 방법은 정책을 신경망과 같은 함수 근사기로 매개변수화하고(πθ), 누적 보상의 기댓값을 최대화하는 방향으로 경사 상승법(gradient ascent)을 사용하여 매개변수 θ를 직접 업데이트한다.9 정책 경사 이론의 기본 목적 함수는 다음과 같이 표현될 수 있다.9 \(\nabla_{\theta}J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\) 여기서 $J(\theta)$는 정책 $\pi_{\theta}$의 성능 척도(예: 총 보상의 기댓값)이고, Rt는 시간 t 이후의 누적 보상이다.

REINFORCE와 같은 “바닐라” 정책 경사 방법은 구현이 직관적이라는 장점이 있지만, 몇 가지 심각한 내재적 약점을 가지고 있다. 첫째, 경사 추정치의 분산(variance)이 매우 높아 학습이 불안정하다. 둘째, 온-정책(on-policy) 방식으로, 각 정책 업데이트를 위해 현재 정책으로 새로 수집한 샘플만을 사용하고 이전 데이터는 폐기해야 하므로 데이터 효율성이 매우 낮다.12 셋째, 학습률(step size)과 같은 하이퍼파라미터에 극도로 민감하다. 너무 큰 업데이트는 정책을 회복 불가능한 수준으로 망가뜨릴 수 있으며(catastrophic performance collapse), 너무 작은 업데이트는 학습을 비효율적으로 만든다.10

이러한 배경 속에서 2017년 OpenAI에 의해 근접 정책 최적화(Proximal Policy Optimization, PPO)가 제안되었다.1 PPO의 등장은 기존 강화학습 알고리즘들이 직면했던 근본적인 트릴레마, 즉 안정성-효율성-단순성 사이의 균형을 맞추려는 시도였다. 바닐라 정책 경사법은 단순하지만 안정성과 효율성이 낮았고, 이를 개선하기 위해 등장한 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)는 안정성과 데이터 효율성을 크게 높였지만, 구현이 매우 복잡하고 특정 아키텍처에 적용하기 어렵다는 한계를 가졌다.12

PPO는 TRPO와 동일한 근본적인 질문에서 출발했다: “현재 보유한 데이터를 사용하여 성능 저하를 일으키지 않으면서 가능한 가장 큰 폭으로 정책을 개선할 수 있는 방법은 무엇인가?”.4 PPO는 이 질문에 대해 TRPO의 강력한 성능과 데이터 효율성은 유지하면서도, 훨씬 간단한 1차 최적화(first-order optimization)만을 사용하여 구현 복잡성을 대폭 낮추는 실용적인 해법을 제시했다.13 이는 이론적 완벽성보다 실용적 유용성을 우선시하는 패러다임의 전환을 의미했으며, 이로 인해 PPO는 강화학습 연구 및 응용 분야에서 가장 인기 있고 신뢰받는 알고리즘 중 하나로 자리매김하게 되었다.

PPO를 깊이 이해하기 위해서는 그 이론적 기반이 된 TRPO를 먼저 살펴보아야 한다. TRPO의 핵심 아이디어는 정책 업데이트의 크기를 명시적으로 제한하여 학습 과정의 안정성을 보장하는 것이다. TRPO는 “대리(surrogate)” 목적 함수를 최대화하되, 이전 정책과 새로운 정책 간의 차이가 특정 “신뢰 영역(trust region)”을 벗어나지 않도록 제약 조건을 부과한다.13 이 정책 간의 거리는 일반적으로 쿨백-라이블러 발산(Kullback-Leibler (KL) divergence)으로 측정된다.12

TRPO의 목적 함수는 수학적으로 다음과 같이 공식화된다 11: \(\underset{\theta}{\text{maximize}} \quad \hat{\mathbb{E}}t \left[ \frac{\pi{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)} \hat{A}t \right]\)

\[\text{subject to} \quad \hat{\mathbb{E}}t \left[ \text{KL}[\pi{\theta{\text{old}}}(\cdot|s_t), \pi_{\theta}(\cdot|s_t)] \right] \leq \delta\]

여기서 $A^t$는 어드밴티지 추정치이며, δ는 신뢰 영역의 크기를 결정하는 하이퍼파라미터다. 이 제약 조건은 이론적으로 정책의 단조로운 성능 향상(monotonic improvement)을 보장하는 기반이 된다.26

TRPO는 이론적으로 매우 견고하지만, 실제 적용에는 여러 심각한 장벽이 존재한다. 가장 큰 문제는 제약 조건이 있는 최적화 문제를 풀기 위해 켤레 경사법(conjugate gradient algorithm)과 같은 2차 최적화 기법을 사용해야 한다는 점이다.12 이는 피셔 정보 행렬(Fisher Information Matrix)의 계산 및 관련 연산을 포함하므로 계산 비용이 매우 높고 구현이 극도로 복잡하다.10

더욱이, TRPO는 현대적인 심층 신경망 아키텍처와의 호환성이 떨어진다. 예를 들어, 정책 네트워크와 가치 네트워크 간에 파라미터를 공유하거나, 드롭아웃(dropout)과 같은 노이즈를 추가하는 구조에서는 제대로 작동하지 않는 경우가 많다.13 이러한 제약은 TRPO의 실제적인 활용 범위를 크게 제한하는 요인이 되었다.

PPO는 이러한 TRPO의 한계를 극복하기 위한 시도에서 탄생했다. PPO는 TRPO의 핵심 원칙인 ‘정책 변화를 제한한다’는 목표는 계승하되, 이를 달성하기 위한 구체적인 메커니즘을 KL 발산이라는 엄격한 제약 조건에서 분리해냈다. PPO 논문은 이 분리를 위한 두 가지 대안을 탐색했다: 하나는 KL 발산을 목적 함수에 페널티 항으로 추가하는 방식(PPO-Penalty)이고, 다른 하나는 확률 비율을 직접 클리핑하는 훨씬 더 단순한 휴리스틱(PPO-Clip)이다.6

결과적으로 더 성공적인 것으로 입증된 PPO-Clip은 목적 함수에서 KL 발산 계산을 완전히 제거했다. 대신, 정책 변화의 결과로 나타나는 확률 비율의 급격한 변화라는 증상을 직접적으로 제어하는 방식을 택했다.19 이는 TRPO와 같은 수학적으로 엄격한 신뢰 영역 강제 방식이 실제로는 과도한 조치일 수 있음을 시사한다. 더 단순하고 직접적인 휴리스틱이 실제로는 동등하거나 더 나은 성능을 보이면서, 표준적인 딥러닝 최적화기(SGD, Adam 등)와 훨씬 더 잘 호환될 수 있다는 가능성을 열어준 것이다. 이로써 PPO는 이론적 순수성보다 실용성을 우선시하는 중요한 전환을 이루었다.

PPO의 가장 핵심적인 아이디어는 ‘클리핑된 대리 목적 함수(Clipped Surrogate Objective Function)’이다. 이 목적 함수는 TRPO의 복잡한 제약 조건을 대체하면서도 안정적인 정책 업데이트를 가능하게 하는 PPO의 심장부라 할 수 있다. 널리 사용되는 PPO-Clip의 목적 함수는 다음과 같다.11 \(L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min\left( r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}_t \right) \right]\) 이 식의 각 구성 요소는 다음과 같은 의미를 가진다:

이 목적 함수의 핵심 아이디어는 정책 성능에 대한 비관적인 추정치, 즉 하한(lower bound)을 형성하는 것이다.13 이를 통해 확률 비율 $r_t(\theta)$가 1에서 너무 멀리 벗어나려는 유인을 제거하여, 과도하게 큰 정책 업데이트를 방지한다.21

이 목적 함수의 작동 방식은 어드밴티지(A^t)의 부호에 따라 두 가지 경우로 나누어 시각적으로 이해할 수 있다.22

결론적으로, 그래프의 평평한 부분은 클리핑으로 인해 목적 함수의 기울기가 0이 되는 지점을 나타낸다. 이는 해당 지점을 넘어서는 정책 변화에 대해서는 더 이상의 이득(인센티브)이 없음을 의미하며, 이로 인해 정책 업데이트가 안정적인 범위 내에 머무르게 된다.34

min 연산자의 비대칭적인 작동 방식이야말로 PPO 안정성의 숨겨진 비결이다. 긍정적 어드밴티지의 경우, min 함수는 잠재적 이득이 너무 클 때 이를 제한하여(클리핑된 값을 선택) 과도한 낙관론을 막는다.19 반면 부정적 어드밴티지의 경우,

min 함수는 잠재적 손실이 클 때 이를 그대로 반영하여(클리핑되지 않은 값을 선택할 가능성이 높음) 파괴적인 업데이트를 신속하게 바로잡도록 한다. 이처럼 “한쪽으로만 열린 안전 레일”과 같은 비관적 경계 설정은 복잡한 계산 없이도 신뢰 영역의 핵심적인 이점을 구현하는 영리한 방법이다.13

PPO 원본 논문에서는 두 가지 주요 변형을 제안했다.6

PPO의 전체적인 학습 과정은 다음과 같은 단계로 요약할 수 있다.5

  1. 데이터 수집 (Data Collection): 현재 정책 $\pi_{\theta_{old}}$를 사용하여 환경과 T 타임스텝 동안 상호작용하며 궤적(trajectories) 데이터 ${s_t, a_t, r_t, \dots}$를 수집한다. 이 데이터 묶음을 롤아웃(rollout) 또는 배치(batch)라고 한다.6
  2. 어드밴티지 계산 (Advantage Computation): 수집된 궤적 데이터를 사용하여 각 타임스텝 t에 대한 어드밴티지 추정치 A^t와 가치 목표 $V_{target}$을 계산한다. 이 과정에서는 보통 GAE(Generalized Advantage Estimation)가 사용된다 (섹션 5에서 상세히 다룸).5
  3. 정책 및 가치 함수 최적화 (Optimization): K 에포크(epoch) 동안 수집된 데이터 배치를 반복적으로 사용한다. 각 에포크마다 데이터를 여러 미니배치(mini-batch)로 나누어 다음을 수행한다:
    • 정책 네트워크(Actor)의 파라미터 θ를 LCLIP 목적 함수에 대한 확률적 경사 상승법(stochastic gradient ascent)을 통해 업데이트한다.
    • 가치 네트워크(Critic)의 파라미터 ϕ를 가치 손실(value loss)에 대한 경사 하강법을 통해 업데이트한다.
  4. 반복: 1~3단계를 수렴할 때까지 반복한다.

PPO가 바닐라 정책 경사법에 비해 샘플 효율성이 높은 이유는 바로 3단계에 있다. 새로운 목적 함수 덕분에 한 번 수집한 데이터를 여러 에포크에 걸쳐 재사용하여 정책을 여러 번 업데이트할 수 있기 때문이다.14

PPO는 일반적으로 액터-크리틱(Actor-Critic) 구조를 기반으로 구현된다. 이 구조는 정책을 학습하는 ‘액터’와 그 정책을 평가하는 ‘크리틱’이라는 두 개의 구성 요소를 동시에 학습시켜 강화학습의 효율성과 안정성을 높인다.7

PPO에서 크리틱의 역할은 액터의 학습을 돕는 보조적인 기능에 국한된다. 바닐라 정책 경사법에서는 전체 에피소드의 보상 합계(Rt)를 사용하는데, 이는 무작위적인 행동과 상태 전이에 따라 변동성이 매우 크다. 이 높은 분산을 줄이기 위해 Rt에서 상태 가치 함수 $V(s_t)$라는 기준선(baseline)을 빼주는 기법이 사용된다. 그 결과로 나오는 $\hat{A}_t = R_t - V(s_t)$가 바로 어드밴티지 추정치다. 크리틱의 임무는 이 기준선 $V(s_t)$를 정확하게 학습하는 것이다. 더 정확한 크리틱은 더 낮은 분산의 어드밴티지 추정치를 제공하고, 이는 액터에게 더 안정적이고 명확한 학습 신호를 주어 전체적인 학습 효율을 높인다. 따라서 PPO는 근본적으로 정책 기반 방법이며, 크리틱은 액터의 학습 과정을 안정화시키기 위한 실용적인 도구로 기능한다. 이러한 구조적 분리는 PPO가 액터와 크리틱에 별도의 네트워크를 사용할 수 있게 하여 알고리즘의 유연성을 높이는 요인이 된다.

액터와 크리틱 네트워크를 구현할 때 두 가지 일반적인 아키텍처 선택지가 있다.13

크리틱, 즉 가치 네트워크는 지도 학습 방식으로 훈련된다. 일반적으로 예측된 가치 $V_{\phi}(s_t)$와 실제 관측된 보상에 기반한 목표 가치 Vtarget 사이의 평균 제곱 오차(Mean Squared Error, MSE)를 최소화하는 방향으로 파라미터 ϕ를 업데이트한다.5

따라서 PPO의 전체 손실 함수는 보통 세 가지 요소의 가중합으로 구성된다: (1) 정책 손실(액터, LCLIP), (2) 가치 손실(크리틱, LVF), 그리고 (3) 탐험을 장려하기 위한 선택적 엔트로피 보너스(S).13

Ltotal(θ,ϕ)=LCLIP(θ)−c1LVF(ϕ)+c2Sπθ

여기서 c1과 c2는 각 손실 항의 중요도를 조절하는 계수다.14 이 통합된 손실 함수를 최적화함으로써 액터와 크리틱이 협력하여 에이전트의 전반적인 성능을 향상시킨다.

PPO의 성능을 논할 때, 정책 업데이트 규칙만큼이나 중요한 것이 바로 어드밴티지(A^t)를 얼마나 정확하고 안정적으로 추정하는가이다. PPO 구현체들은 대부분 일반화된 어드밴티지 추정(Generalized Advantage Estimation, GAE)이라는 기법을 사용하여 이 문제를 해결한다. GAE는 PPO의 핵심적인 안정성과 성능에 기여하는 필수적인 요소로 자리 잡았다.

어드밴티지 함수 $A(s, a) = Q(s, a) - V(s)$를 추정하는 데에는 근본적인 편향-분산 트레이드오프(bias-variance tradeoff)가 존재한다.

GAE는 이 두 극단 사이에서 균형을 맞추기 위해 제안되었다.49

GAE는 모든 n-스텝 어드밴티지 추정치의 지수 가중 평균으로 정의되며, 그 공식은 다음과 같다.46

A^tGAE(γ,λ)=l=0∑∞(γλ)lδt+l

여기서 $\delta_{t+l} = r_{t+l} + \gamma V(s_{t+l+1}) - V(s_{t+l})$은 미래 시점의 TD 잔차(TD-residual)이다. 이 공식은 1-스텝 TD 오차(높은 편향, 낮은 분산)와 몬테카를로 추정(낮은 편향, 높은 분산) 사이를 매끄럽게 보간하는 효과를 가진다.48

GAE의 동작은 두 개의 하이퍼파라미터에 의해 제어된다.

PPO의 성공은 단순히 클리핑된 목적 함수라는 정책 업데이트 규칙에만 기인하는 것이 아니다. 그 업데이트 규칙에 입력되는 어드밴티지 신호의 품질 또한 매우 중요하다. GAE는 크리틱의 가치 함수 V를 영리하게 활용하여 편향과 분산이 낮은 어드밴티지 추정치 A^t를 만들어낸다.49 PPO의 안정적인 업데이트 규칙과 GAE의 안정적인 어드밴티지 추정이 결합될 때 시너지 효과가 발생하며, 이것이 바로 PPO가 많은 벤치마크에서 강력한 성능을 보이는 이유 중 하나다. 이는 PPO의 모듈식 설계가 성공적인 강화학습 알고리즘의 좋은 예시임을 보여준다.

PPO의 특징과 장점을 명확히 이해하기 위해서는 동시대의 다른 주요 정책 최적화 알고리즘들과의 비교가 필수적이다. 이 섹션에서는 PPO를 TRPO, A2C, 그리고 대표적인 오프-정책 알고리즘인 SAC와 여러 측면에서 비교 분석한다.

PPO와 그 직접적인 전신인 TRPO는 정책 업데이트를 제한하여 안정성을 확보한다는 동일한 철학을 공유하지만, 그 접근 방식에서 극명한 차이를 보인다.

A2C(Advantage Actor-Critic)는 A3C의 동기식 버전으로, 기본적인 온-정책 액터-크리틱 알고리즘의 표준으로 간주된다.63 PPO는 A2C에서 한 단계 더 나아간 발전을 보여준다.

가장 큰 차이점은 데이터 활용 방식에 있다. A2C는 환경으로부터 수집한 데이터 샘플 하나당 한 번의 그래디언트 업데이트를 수행하고 데이터를 폐기한다. 반면, PPO는 클리핑된 대리 목적 함수 덕분에 한 번 수집한 데이터 배치(batch)를 가지고 여러 에포크(epoch) 동안 미니배치 업데이트를 반복할 수 있다.16 이는 PPO가 A2C보다 훨씬 높은 샘플 효율성을 갖게 되는 핵심적인 이유다. 또한, PPO의 클리핑 메커니즘은 A2C의 제약 없는 업데이트보다 더 나은 안정성을 제공하여, 대부분의 벤치마크에서 A2C를 능가하는 성능을 보인다.3

PPO를 선도적인 오프-정책(off-policy) 알고리즘인 SAC(Soft Actor-Critic)와 비교하는 것은 온-정책과 오프-정책 패러다임 간의 근본적인 트레이드오프를 이해하는 데 도움이 된다.

다음 표는 주요 정책 최적화 알고리즘들의 특징을 요약하여 비교한 것이다.

알고리즘 이론적 기반 업데이트 메커니즘 온/오프-정책 샘플 효율성 안정성 및 견고성 구현 복잡성 주요 사용 사례
A2C 표준 정책 경사 샘플당 단일 업데이트 온-정책 낮음 보통 (큰 업데이트에 취약) 낮음 베이스라인, 간단한 문제
TRPO 단조로운 성능 향상 보장 KL 제약 2차 최적화 온-정책 중간 높음 (이론적으로 견고) 매우 높음 벤치마킹, 복잡성을 감수하고 최고 성능이 필요할 때
PPO 휴리스틱 신뢰 영역 (하한선) 클리핑된 1차 최적화 온-정책 좋음 (다중 에포크 업데이트) 높음 (경험적으로 견고) 낮음 대부분 문제의 기본 선택지, 로보틱스, 게임, LLM 정렬
SAC 최대 엔트로피 강화학습 리플레이 버퍼를 사용한 오프-정책 액터-크리틱 오프-정책 매우 높음 보통 (하이퍼파라미터에 민감) 중간 샘플 비용이 비싼 작업(실세계 로보틱스), 연속 제어

PPO의 성공은 논문에 명시된 핵심 알고리즘뿐만 아니라, 실제 고성능 구현체에 포함된 수많은 ‘코드 레벨 최적화(code-level optimizations)’ 또는 ‘트릭(tricks)’에 크게 의존한다. 이 섹션에서는 이러한 실용적인 기법들을 심도 있게 다룬다.

PPO 논문 자체와 OpenAI Baselines나 Stable Baselines3 같은 라이브러리의 실제 구현 사이에는 상당한 간극이 존재한다.73 여러 연구에 따르면, 이러한 코드 레벨 최적화 기법들이 PPO가 TRPO를 능가하는 성능을 보이는 데 결정적인 역할을 하며, 때로는 클리핑된 목적 함수 자체보다 더 중요할 수 있음이 밝혀졌다.74 이는 PPO의 성공이 뛰어난 핵심 아이디어와 탁월한 엔지니어링의 결합임을 시사한다. 즉, 순수한 PPO 알고리즘만 구현해서는 최고 수준의 결과를 재현하기 어려우며, 이러한 ‘트릭’들을 이해하고 적용하는 것이 실무적으로 매우 중요하다.

고성능 PPO 구현에 필수적인 주요 코드 레벨 최적화 기법들은 다음과 같다.43

이러한 기법들은 PPO라는 알고리즘이 단순한 이론을 넘어, 실제 문제에서 강력한 성능을 발휘하는 ‘하나의 잘 조율된 시스템’으로 작동하게 만드는 핵심 요소들이다. 이는 딥러닝 강화학습 연구에서 알고리즘의 성공이 핵심 아이디어뿐만 아니라 그 주변을 둘러싼 엔지니어링의 정교함에 크게 의존한다는 점을 명확히 보여준다.

다음 표는 PPO의 주요 하이퍼파라미터와 그 튜닝에 대한 실용적인 가이드를 제공한다.

하이퍼파라미터 기호 역할 및 설명 일반적인 범위 튜닝 조언 및 핵심 정보
할인율 gamma 미래 보상의 중요도를 제어. 장기 계획이 중요할수록 높은 값 사용. 0.8 - 0.995 즉각적인 보상이 중요하면 낮게, 지연된 보상이 중요하면 높게 설정. 8
GAE 파라미터 lambda 어드밴티지 추정의 편향-분산 트레이드오프 제어. 0.9 - 0.97 낮은 값은 크리틱에 더 의존(편향 증가), 높은 값은 실제 보상에 더 의존(분산 증가). 55
클립 범위 epsilon LCLIP 목적 함수에서 정책 업데이트 크기를 제한하는 범위. 0.1 - 0.3 사실상 표준은 0.2. 작은 값은 더 안정적이지만 느린 업데이트를 유발. 21
학습률 lr Adam 옵티마이저의 스텝 크기. 1e-5 - 1e-3 종종 훈련 과정에서 점진적으로 감소(어닐링). 훈련이 불안정하면 감소시킴. 47
최적화 에포크 num_epoch 수집된 데이터 배치를 반복하여 학습하는 횟수. 3 - 10 에포크가 많을수록 샘플 효율성은 높아지나, 현재 배치에 과적합될 위험이 있음. 57
미니배치 크기 batch_size 각 그래디언트 업데이트에 사용되는 샘플의 수. 32-512(이산), 512-5120(연속) buffer_size의 약수여야 함. 연속 행동 공간에서 더 큰 값을 사용. 57
롤아웃 버퍼 크기 buffer_size 최적화 단계 전에 수집하는 경험의 총량. 2048 - 409600 큰 버퍼는 더 안정적인 업데이트를 유도하지만 정책 업데이트 주기가 길어짐. 57
엔트로피 계수 ent_coef 탐험을 장려하기 위한 엔트로피 보너스의 가중치. 0.0 - 0.01 높은 값은 더 무작위적인 행동을 장려. 조기 수렴 방지에 유용. 47

PPO의 진정한 가치는 이론적 우아함을 넘어 다양한 분야의 복잡한 문제들을 해결하는 데 성공적으로 적용되었다는 점에서 드러난다. PPO의 다재다능함은 이 알고리즘이 문제의 구조에 대해 최소한의 가정만을 하기 때문에 가능하다. 로봇 공학의 연속적인 물리 법칙, 도타 2의 방대한 이산적 전략 공간, 대규모 언어 모델의 텍스트 생성 등 근본적으로 다른 문제들에 모두 적용될 수 있다. PPO의 핵심 업데이트 규칙은 확률 비율(rt(θ))과 어드밴티지 추정치(A^t)만 계산할 수 있다면 작동한다.21 이는 PPO가 범용적인 정책 ‘최적화기’로서 기능하며, 문제의 특수성은 네트워크 아키텍처(예: 게임의 기억을 위한 LSTM, 언어의 구조를 위한 Transformer)나 보상 함수 설계에 위임될 수 있음을 의미한다.

PPO는 연속적인 제어 작업에서의 안정성 덕분에 로보틱스 분야에서 광범위하게 사용되고 있다.3

PPO의 가장 상징적인 성공 사례 중 하나는 OpenAI Five가 복잡한 e스포츠 게임인 도타 2(Dota 2)에서 세계 챔피언 팀을 꺾은 것이다.5

최근 PPO는 인공지능 분야의 가장 뜨거운 주제인 대규모 언어 모델(LLM)의 정렬(alignment)에 핵심적인 역할을 수행하고 있다. 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)은 GPT-3, InstructGPT, Llama 2와 같은 모델을 인간의 의도에 맞게 미세 조정하는 데 사용되는 표준적인 방법론이다.92

RLHF는 일반적으로 세 단계로 진행된다: 1) 지도 미세 조정(Supervised Fine-Tuning, SFT), 2) 인간의 선호를 학습하는 보상 모델(Reward Model, RM) 훈련, 3) PPO를 사용한 강화학습 미세 조정.93 이 마지막 단계에서 PPO는 LLM(정책)이 보상 모델로부터 높은 점수를 받도록 최적화한다. 이때, 초기 SFT 모델로부터 정책이 너무 멀리 벗어나 ‘파국적 망각(catastrophic forgetting)’이 일어나는 것을 방지하기 위해 KL 페널티 항이 추가된다.92 이처럼 PPO는 현대 AI의 안전성과 유용성을 확보하는 데 필수적인 기술로 자리 잡았다.

PPO는 수많은 성공에도 불구하고 몇 가지 근본적인 한계와 실패 가능성을 내포하고 있다. 이러한 단점을 이해하는 것은 PPO를 적재적소에 사용하고 향후 연구 방향을 가늠하는 데 중요하다.

PPO의 가장 큰 약점은 온-정책(on-policy) 알고리즘이라는 점이다.21 이는 정책을 한 번 업데이트하기 위해 반드시 현재 정책으로 수집한 새로운 데이터가 필요하며, 과거 데이터는 재사용하지 않고 폐기됨을 의미한다.15 PPO가 한 배치 내에서 여러 에포크를 학습함으로써 바닐라 정책 경사법보다는 샘플 효율성을 개선했지만, 리플레이 버퍼를 통해 과거 데이터를 광범위하게 재사용하는 SAC나 DQN과 같은 오프-정책(off-policy) 알고리즘에 비해서는 근본적으로 샘플 효율성이 낮다.69 이 문제는 데이터 수집 비용이 비싼 실제 로봇이나 실제 사용자 상호작용과 같은 응용 분야에서 큰 제약이 될 수 있다.68

대부분의 정책 경사 방법과 마찬가지로, PPO는 희소 보상(sparse rewards) 환경에서 어려움을 겪는다.77 에이전트가 의미 있는 피드백을 매우 드물게 받는 환경에서는 어떤 행동이 좋은 결과로 이어지는지 학습하기가 매우 어렵다.

또한, PPO의 안정성을 보장하는 바로 그 메커니즘이 때로는 독이 될 수 있다. PPO의 클리핑된 목적 함수는 정책이 급격하게 변하는 것을 막는다.21 이 보수적인 성향 때문에, 에이전트가 일단 괜찮은(하지만 최적은 아닌) 전략을 발견하면 그 주변을 맴돌며 더 이상의 탐험을 주저하게 될 수 있다. 즉, 더 나은 정책을 찾기 위해 필요한 ‘과감한 도약’을 PPO의 업데이트 규칙이 억제하여 지역 최적점(local optimum)에 갇힐 위험이 있다.3 이는 PPO의 안정성이 탐험 능력과 상충 관계에 있음을 보여주며, 엔트로피 보너스나 외부적인 탐험 기법(예: 레비 플라이트)의 중요성을 부각시킨다. 최근 연구에서는 LLM의 긴 연쇄 사고(Chain-of-Thought) 생성과 같은 특정 작업에서 PPO가 가치 함수 초기화 편향과 보상 신호 감쇠 문제로 인해 실패하는 구체적인 모드가 확인되기도 했다.102

LLM을 PPO 기반의 RLHF로 정렬할 때 발생하는 중요한 부작용으로 “정렬세(alignment tax)”가 있다.94 이는 모델을 특정 작업(예: 지시 따르기, 유해성 감소)에 대해 인간의 선호도에 맞게 정렬시키면, 사전 훈련 단계에서 학습했던 다른 일반적인 능력(예: 학술 NLP 벤치마크 성능)이 저하되는 현상을 말한다.94

이는 정렬과 능력 간의 트레이드오프를 야기하며, 이 ‘세금’을 최소화하는 것이 RLHF 연구의 주요 과제 중 하나다. 이를 해결하기 위해 PPO 업데이트 중에 사전 훈련 데이터를 일부 섞어 학습시키거나(PPO-ptx), 정렬 전후 모델의 가중치를 평균 내는 모델 평균화(model averaging)와 같은 기법들이 연구되고 있다.93

PPO는 LLM 정렬의 문을 열었지만, 그 복잡성과 불안정성으로 인해 더 간단하고 효율적인 대안을 찾으려는 연구가 활발히 진행되고 있다. 이 과정에서 PPO와 DPO(직접 선호 최적화)의 관계는 온라인 탐험적 방법과 오프라인 지도학습적 방법 사이의 AI 연구의 큰 흐름을 반영한다.

직접 선호 최적화(Direct Preference Optimization, DPO)는 PPO 기반 RLHF의 강력한 대안으로 부상한 최신 LLM 정렬 기법이다.95 DPO의 핵심 혁신은 명시적인 보상 모델 훈련과 복잡한 강화학습 최적화 루프를 완전히 제거한 것이다. 대신, 선호되는 응답(yw)과 선호되지 않는 응답(yl) 쌍으로 구성된 데이터셋을 사용하여, 선호되는 응답의 로그 확률은 높이고 선호되지 않는 응답의 로그 확률은 낮추는 간단한 분류 손실 함수를 통해 정책을 직접 최적화한다.95

PPO와 DPO의 논쟁은 어느 한쪽의 완전한 승리로 끝나지 않을 것으로 보인다. 오히려 두 방법의 장점을 결합하려는 시도가 미래 연구의 방향을 제시하고 있다.

이는 LLM 정렬의 미래가 PPO와 DPO 중 하나를 선택하는 것이 아니라, 두 패러다임의 장점을 모두 활용하는 정교한 다단계 파이프라인으로 발전할 것임을 암시한다. 오프라인 방식의 안정성과 효율성으로 기반을 다지고, 온라인 방식의 탐험적 능력으로 성능의 한계를 돌파하려는 시도가 계속될 것이다.

근접 정책 최적화(PPO)는 딥러닝 강화학습의 역사에서 중요한 이정표를 세운 알고리즘이다. 그 성공은 여러 강점과 약점의 복합적인 결과물이다.

이 보고서의 분석을 종합하여, 실무자들은 다음과 같은 상황에서 PPO를 우선적으로 고려할 수 있다.

PPO는 딥러닝 강화학습 연구의 흐름을 바꾼 중요한 알고리즘이다. PPO는 이론적 완벽성보다 실용성과 경험적 안정성에 초점을 맞춤으로써, 이전의 복잡한 방법들이 어려움을 겪었던 영역에서 실질적인 진보를 이끌어냈다.

PPO가 개척한 ‘안정적인 정책 업데이트를 위한 제약’이라는 원칙은 DPO와 같은 차세대 알고리즘에도 깊은 영향을 미치고 있다. 비록 필드가 새로운 패러다임으로 이동하고 있을지라도, 강력함, 안정성, 효율성, 그리고 단순함을 동시에 추구하는 탐구는 계속될 것이다. PPO는 이 기나긴 여정에서 중요한 해답 중 하나를 제시했으며, 그 유산은 앞으로도 오랫동안 강화학습 연구의 발전에 기여할 것이다.

  1. velog.io, accessed July 1, 2025, https://velog.io/@fragrance_0/AI-Dict-5-2.-Natural-Language-Processing-%EB%AA%A8%EB%8D%B8#:~:text=PPO(Proximal%20Policy%20Optimization)%EB%8A%94,%EB%82%98%EA%B0%80%EB%8A%94%20%ED%95%99%EC%8A%B5%EC%9D%84%20%EC%9D%98%EB%AF%B8%ED%95%9C%EB%8B%A4.
  2. PPO: 강화학습 알고리즘의 중요성과 장점, accessed July 1, 2025, https://www.toolify.ai/ko/ai-news-kr/ppo-1059784
  3. Proximal Policy Optimization (PPO) in Reinforcement Learning - GeeksforGeeks, accessed July 1, 2025, https://www.geeksforgeeks.org/machine-learning/a-brief-introduction-to-proximal-policy-optimization/
  4. Demystifying Policy Optimization in RL: An Introduction to PPO and GRPO, accessed July 1, 2025, https://towardsdatascience.com/demystifying-policy-optimization-in-rl-an-introduction-to-ppo-and-grpo/
  5. Proximal policy optimization - Wikipedia, accessed July 1, 2025, https://en.wikipedia.org/wiki/Proximal_policy_optimization
  6. [강화학습] PPO - 마인드스케일, accessed July 1, 2025, https://www.mindscale.kr/docs/reinforcement-learning/ppo
  7. Is PPO a policy-based method or an actor-critique-based method? - AI Stack Exchange, accessed July 1, 2025, https://ai.stackexchange.com/questions/43313/is-ppo-a-policy-based-method-or-an-actor-critique-based-method
  8. Understanding the Mathematics of PPO in Reinforcement Learning - Medium, accessed July 1, 2025, https://medium.com/data-science/understanding-the-mathematics-of-ppo-in-reinforcement-learning-467618b2f8d4
  9. [RL] Policy Gradient Algorithms - 자신에 대한 고찰 - 티스토리, accessed July 1, 2025, https://talkingaboutme.tistory.com/entry/RL-Policy-Gradient-Algorithms
  10. Proximal Policy Optimization (PPO) Explained - Towards Data Science, accessed July 1, 2025, https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b/
  11. [RL] 강화학습 알고리즘: (5) PPO - 이것저것 테크블로그, accessed July 1, 2025, https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-5-PPO
  12. Proximal Policy Optimization - velog, accessed July 1, 2025, https://velog.io/@jpseo99/Proximal-Policy-Optimization
  13. [PPO] Proximal Policy Optimization Algorithms - 공부하는 무니 - 티스토리, accessed July 1, 2025, https://muni-dev.tistory.com/entry/PPO-Proximal-Policy-Optimization-Algorithms
  14. 강화학습 논문 리뷰: PPO(Proximal Policy Optimization Algorithms) - Team. WannaBeHappy, accessed July 1, 2025, https://jhrobotics.tistory.com/14
  15. [강화학습] PPO 알고리즘 - Just Fighting - 티스토리, accessed July 1, 2025, https://yensr.tistory.com/148
  16. PPO(Proximal Policy Optimization) - 독학 연구소 - 티스토리, accessed July 1, 2025, https://jvvp512.tistory.com/50
  17. PPO Algorithm. Proximal Policy Optimization (PPO) is… by DhanushKumar Medium, accessed July 1, 2025, https://medium.com/@danushidk507/ppo-algorithm-3b33195de14a
  18. RL - Proximal Policy Optimization (PPO) Explained by Jonathan Hui Medium, accessed July 1, 2025, https://jonathan-hui.medium.com/rl-proximal-policy-optimization-ppo-explained-77f014ec3f12
  19. RL : 간단 논문 리뷰 : Proximal Policy Optimization Algorithms, accessed July 1, 2025, https://aiflower.tistory.com/m/205
  20. TRPO와 PPO 알고리즘의 개념, accessed July 1, 2025, https://engineering-ladder.tistory.com/69
  21. Proximal Policy Optimization - Spinning Up documentation - OpenAI, accessed July 1, 2025, https://spinningup.openai.com/en/latest/algorithms/ppo.html
  22. PPO 리뷰 : Proximal policy optimization algorithms - 당황했습니까 휴먼? - 티스토리, accessed July 1, 2025, https://ropiens.tistory.com/85
  23. PPO Explained - Papers With Code, accessed July 1, 2025, https://paperswithcode.com/method/ppo
  24. DD-PPO Explained - Papers With Code, accessed July 1, 2025, https://paperswithcode.com/method/dd-ppo
  25. [1707.06347] Proximal Policy Optimization Algorithms - arXiv, accessed July 1, 2025, https://arxiv.org/abs/1707.06347
  26. Natural, Trust Region and Proximal Policy Optimization - TransferLab, accessed July 1, 2025, https://transferlab.ai/blog/trpo-and-ppo/trpo-and-ppo.pdf
  27. Simple Policy Optimization - arXiv, accessed July 1, 2025, https://arxiv.org/html/2401.16025v8
  28. ChengTsang/PPO-clip-and-PPO-penalty-on-Atari-Domain - GitHub, accessed July 1, 2025, https://github.com/ChengTsang/PPO-clip-and-PPO-penalty-on-Atari-Domain
  29. OpenAI Spinning UP 번역] Proximal Policy Optimization - MCLearning’s FrontEnd StudyRoom - 티스토리, accessed July 1, 2025, https://mclearninglab.tistory.com/145
  30. Proximal Policy Optimization PPO 안정성과 성능을 개선하는 방법 - infobeste - 티스토리, accessed July 1, 2025, https://positive-impactor.tistory.com/543
  31. Introducing the Clipped Surrogate Objective Function - Hugging Face Deep RL Course, accessed July 1, 2025, https://huggingface.co/learn/deep-rl-course/unit8/clipped-surrogate-objective
  32. TRPO와 PPO - Simulation ML, accessed July 1, 2025, https://jay.tech.blog/2018/10/09/trpo%EC%99%80-ppo/
  33. A Beginner’s Guide to Proximal Policy Optimisation (PPO) by Byronchan Medium, accessed July 1, 2025, https://medium.com/@byronchan611/proximal-policy-optimisation-ppo-a1f24de20230
  34. Policy Optimization (PPO) - Python Lessons, accessed July 1, 2025, https://pylessons.com/PPO-reinforcement-learning
  35. Proximal Policy Optimization (PPO) - Hugging Face, accessed July 1, 2025, https://huggingface.co/blog/deep-rl-ppo
  36. Proximal Policy Optimization Algorithms(PPO) - 기록하기 - 티스토리, accessed July 1, 2025, https://lynnn.tistory.com/73
  37. Proximal Policy Optimization - Toloka, accessed July 1, 2025, https://toloka.ai/blog/proximal-policy-optimization/
  38. Proximal Policy Optimization (PPO) - Explained - Dilith Jayakody, accessed July 1, 2025, https://dilithjay.com/blog/ppo
  39. Proximal Policy Optimization - Adversarial Attacks on Reinforcement Learning, accessed July 1, 2025, https://aarl-ieee-nitk.github.io/reinforcement-learning,/policy-gradient-methods,/sampled-learning,/optimization/theory/2020/03/25/Proximal-Policy-Optimization.html
  40. joel-baptista.github.io, accessed July 1, 2025, https://joel-baptista.github.io/phd-weekly-report/posts/ac/#:~:text=PPO%20is%20an%20Actor%2DCritic,loss%20is%20one%20of%20them.
  41. Proximal Policy Optimization with PyTorch and Gymnasium - DataCamp, accessed July 1, 2025, https://www.datacamp.com/tutorial/proximal-policy-optimization
  42. Proximal Policy Optimization Review - sc2-korean-level - GitBook, accessed July 1, 2025, https://chris-chris.gitbook.io/sc2-korean-level/proximal-policy-optimization-review
  43. The 37 Implementation Details of Proximal Policy Optimization / The …, accessed July 1, 2025, https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/
  44. A clean and minimal implementation of PPO (Proximal Policy Optimization) algorithm in Pytorch, for continuous action spaces. - GitHub, accessed July 1, 2025, https://github.com/adi3e08/PPO
  45. Proximal Policy Optimization (PPO) [56] is an actor-critic RL algorithm that learns a policy π and a value function Vθ with th, accessed July 1, 2025, https://proceedings.neurips.cc/paper/2021/file/2b38c2df6a49b97f706ec9148ce48d86-Supplemental.pdf
  46. Proximal Policy Optimization with Generalized Advantage Estimation (PPO2) - AI 지식창고, accessed July 1, 2025, https://grooms-academy.tistory.com/15
  47. The 32 Implementation Details of Proximal Policy Optimization (PPO …, accessed July 1, 2025, https://costa.sh/blog-the-32-implementation-details-of-ppo.html
  48. High-Dimensional Continuous Control using Generalized Advantage Estimation, accessed July 1, 2025, https://dongminlee.tistory.com/12
  49. Generalized Advantage Estimation (GAE): A Deep Dive into Bias, Variance, and Policy Gradients - Shivang Shrivastav, accessed July 1, 2025, https://shivang-ahd.medium.com/generalized-advantage-estimation-a-deep-dive-into-bias-variance-and-policy-gradients-a5e0b3454dad
  50. Generalised Advantage Estimator (GAE): How does it help a policy optimisation - Reddit, accessed July 1, 2025, https://www.reddit.com/r/reinforcementlearning/comments/kjxrpk/generalised_advantage_estimator_gae_how_does_it/
    1. High-Dimensional Continuous Control using Generalized Advantage Estimation, accessed July 1, 2025, https://rlkorea.tistory.com/35
    1. Proximal Policy Optimization - RL Korea Blog - 티스토리, accessed July 1, 2025, https://rlkorea.tistory.com/36
  51. [논문 리뷰] (GAE) HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION - velog, accessed July 1, 2025, https://velog.io/@oldboy818/Paper-Review-GAE-HIGH-DIMENSIONAL-CONTINUOUS-CONTROL-USING-GENERALIZED-ADVANTAGE-ESTIMATION
  52. Generalized Advantage Estimate - Notes on AI, accessed July 1, 2025, https://notesonai.com/generalized+advantage+estimate
  53. Annonated Algorithm Visualization, accessed July 1, 2025, https://opendilab.github.io/PPOxFamily/gae.html
  54. Understanding the Mathematics of PPO in Reinforcement Learning - Towards Data Science, accessed July 1, 2025, https://towardsdatascience.com/understanding-the-mathematics-of-ppo-in-reinforcement-learning-467618b2f8d4/
  55. ML-agents/docs/Training-PPO.md at master / gzrjzcx/ML-agents …, accessed July 1, 2025, https://github.com/gzrjzcx/ML-agents/blob/master/docs/Training-PPO.md
  56. Proximal Policy Optimization Tutorial (Part 2/2: GAE and PPO loss) by DG AI Team deepgamingai Medium, accessed July 1, 2025, https://medium.com/deepgamingai/proximal-policy-optimization-tutorial-part-2-2-gae-and-ppo-loss-22337981f815
  57. Master Reinforcement Learning with Proximal Policy Optimization (PPO) - Toolify.ai, accessed July 1, 2025, https://www.toolify.ai/ai-news/master-reinforcement-learning-with-proximal-policy-optimization-ppo-1059875
  58. Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM Alignment - Hugging Face, accessed July 1, 2025, https://huggingface.co/blog/NormalUhr/rlhf-pipeline
  59. Comparison & Selection of RL Algorithms in Continuous Action Spaces - Reddit, accessed July 1, 2025, https://www.reddit.com/r/reinforcementlearning/comments/8w7mn2/comparison_selection_of_rl_algorithms_in/
  60. PPO: Efficient, Stable, and Scalable Policy Optimization by Dong-Keon Kim Medium, accessed July 1, 2025, https://medium.com/@kdk199604/ppo-efficient-stable-and-scalable-policy-optimization-15b5b9c74a88
  61. How does PPO and A2C work? : r/reinforcementlearning - Reddit, accessed July 1, 2025, https://www.reddit.com/r/reinforcementlearning/comments/r0n6nl/how_does_ppo_and_a2c_work/
  62. [Reinforcement Learning] Proximal Policy Optimization (PPO) Algorithm - velog, accessed July 1, 2025, https://velog.io/@rockgoat2/Reinforcement-Learning-PPO-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-%EB%A6%AC%EB%B7%B0
  63. all-rl-algorithms/7_ppo.ipynb at master - GitHub, accessed July 1, 2025, https://github.com/FareedKhan-dev/all-rl-algorithms/blob/master/7_ppo.ipynb
  64. SAC vs. A2C: A Comparative Analysis of Reinforcement Learning Algorithms, accessed July 1, 2025, https://shivang-ahd.medium.com/sac-vs-a2c-a-comparative-analysis-of-reinforcement-learning-algorithms-a59f89de77da
  65. Actor-Critic Methods: SAC and PPO Joel’s PhD Blog, accessed July 1, 2025, https://joel-baptista.github.io/phd-weekly-report/posts/ac/
  66. Are there any papers or theories on why SAC is better for continuous control tasks than on-policy methods? - Reddit, accessed July 1, 2025, https://www.reddit.com/r/reinforcementlearning/comments/y2af2i/are_there_any_papers_or_theories_on_why_sac_is/
  67. Does SAC perform better than PPO in sample-expensive tasks with discrete action spaces?, accessed July 1, 2025, https://ai.stackexchange.com/questions/36092/does-sac-perform-better-than-ppo-in-sample-expensive-tasks-with-discrete-action
  68. DDPG vs PPO vs SAC: when to use? : r/reinforcementlearning - Reddit, accessed July 1, 2025, https://www.reddit.com/r/reinforcementlearning/comments/holioy/ddpg_vs_ppo_vs_sac_when_to_use/
  69. MuJoCo Manipulus: A Robot Learning Benchmark for Generalizable Tool Manipulation, accessed July 1, 2025, https://openreview.net/forum?id=b9Ne5lHJ8Y
  70. A Comparison of PPO, TD3 and SAC Reinforcement Algorithms for Quadruped Walking Gait Generation - Scientific Research Publishing, accessed July 1, 2025, https://www.scirp.org/journal/paperinformation?paperid=123401
  71. PPO - Stable Baselines3 2.7.0a0 documentation - Read the Docs, accessed July 1, 2025, https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html
  72. Delve into PPO: Implementation Matters for Stable RLHF - OpenReview, accessed July 1, 2025, https://openreview.net/pdf?id=rxEmiOEIFL
  73. implementation matters in deep policy gradients:acase study on ppo and trpo - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2005.12729
  74. Implementation Matters in Deep RL: A Case Study on PPO and TRPO, accessed July 1, 2025, https://vitalab.github.io/article/2020/01/14/Implementation_Matters.html
  75. Secrets of RLHF in Large Language Models Part I: PPO - GitHub Pages, accessed July 1, 2025, https://openlmlab.github.io/MOSS-RLHF/paper/SecretsOfRLHFPart1.pdf
  76. PPO paper 리뷰 - simpling - 티스토리, accessed July 1, 2025, https://simpling.tistory.com/77
  77. Reinforcement Learning (PPO) with TorchRL Tutorial - PyTorch documentation, accessed July 1, 2025, https://docs.pytorch.org/tutorials/intermediate/reinforcement_ppo.html
  78. Simple Policy Optimization - arXiv, accessed July 1, 2025, https://arxiv.org/html/2401.16025v2
  79. Understanding PPO: A Game-Changer in AI Decision-Making Explained for RL Newcomers, accessed July 1, 2025, https://medium.com/@chris.p.hughes10/understanding-ppo-a-game-changer-in-ai-decision-making-explained-for-rl-newcomers-913a0bc98d2b
  80. PPO/best-practices-ppo.md at master / EmbersArc/PPO / GitHub, accessed July 1, 2025, https://github.com/EmbersArc/PPO/blob/master/best-practices-ppo.md
  81. Introduction to Proximal Policy Optimization (PPO) - Radek Osmulski, accessed July 1, 2025, https://radekosmulski.com/introduction-to-proximal-policy-optimization-ppo/
  82. Learning Continuous Control through Proximal Policy Optimization for Mobile Robot Navigation - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/330105099_Learning_Continuous_Control_through_Proximal_Policy_Optimization_for_Mobile_Robot_Navigation
  83. Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2405.16266
  84. Optimizing Autonomous Vehicle Performance Using Improved …, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11946678/
  85. Dynamic Task Planning for Multi-Arm Apple-Harvesting Robots Using LSTM-PPO Reinforcement Learning Algorithm - MDPI, accessed July 1, 2025, https://www.mdpi.com/2077-0472/15/6/588
  86. [1912.06680] Dota 2 with Large Scale Deep Reinforcement Learning - arXiv, accessed July 1, 2025, https://arxiv.org/abs/1912.06680
  87. Dota 2 with Large Scale Deep Reinforcement Learning - OpenAI, accessed July 1, 2025, https://cdn.openai.com/dota-2.pdf
  88. arXiv:1901.08004v6 [cs.LG] 21 Jun 2019, accessed July 1, 2025, https://arxiv.org/pdf/1901.08004
  89. (PDF) Long-Term Planning and Situational Awareness in OpenAI Five - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/337966901_Long-Term_Planning_and_Situational_Awareness_in_OpenAI_Five
  90. [Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서 - 읽을거리&정보공유 - 파이토치 한국 사용자 모임, accessed July 1, 2025, https://discuss.pytorch.kr/t/deep-research-llm/6112
  91. arXiv:2203.02155v1 [cs.CL] 4 Mar 2022, accessed July 1, 2025, https://arxiv.org/pdf/2203.02155
  92. Alignment/RLHF - LM Notes - Mohit Agarwal, accessed July 1, 2025, https://agmohit.com/llm-notes/docs/alignment-rlhf/
  93. The Shift from RLHF to DPO for LLM Alignment: Fine-Tuning Large Language Models by Nishtha kukreti May, 2025 Medium, accessed July 1, 2025, https://medium.com/@nishthakukreti.01/the-shift-from-rlhf-to-dpo-for-llm-alignment-fine-tuning-large-language-models-631f854de301
  94. LLM Alignment Techniques: A Summary by Kaige - Medium, accessed July 1, 2025, https://medium.com/@kaige.yang0110/llm-alignment-techniques-a-summary-842622621407
  95. 5 PPO Variants for Enhancing RLHF Performance - ApX Machine Learning, accessed July 1, 2025, https://apxml.com/posts/ppo-variants-for-enhancing-rlhf-performance
  96. Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback - OpenReview, accessed July 1, 2025, https://openreview.net/pdf?id=AlcABwHLov
  97. [RL] 8. PPO: Proximal Policy Optimization - 강정노트 - 티스토리, accessed July 1, 2025, https://gangjeong22.tistory.com/196
  98. [RL] 강화학습 이론: On-policy & Off-policy - 이것저것 테크블로그, accessed July 1, 2025, https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%A1%A0-On-policy-Off-policy
  99. On-Policy, Off-Policy, Online, Offline 강화학습 - 그냥 적기 - 티스토리, accessed July 1, 2025, https://seungwooham.tistory.com/entry/On-Policy-Off-Policy-Online-Offline-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5
  100. What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret - arXiv, accessed July 1, 2025, https://arxiv.org/html/2503.01491v1
  101. Explain why PPO fails at this very simple task : r/reinforcementlearning - Reddit, accessed July 1, 2025, https://www.reddit.com/r/reinforcementlearning/comments/n09ns2/explain_why_ppo_fails_at_this_very_simple_task/
  102. Mitigating the Alignment Tax of RLHF - arXiv, accessed July 1, 2025, https://arxiv.org/html/2309.06256v3
  103. Mitigating the Alignment Tax of RLHF - ACL Anthology, accessed July 1, 2025, https://aclanthology.org/2024.emnlp-main.35.pdf
  104. avalonstrel/Mitigating-the-Alignment-Tax-of-RLHF - GitHub, accessed July 1, 2025, https://github.com/avalonstrel/Mitigating-the-Alignment-Tax-of-RLHF
  105. Direct Preference Optimization: Your Language Model is Secretly a …, accessed July 1, 2025, https://arxiv.org/abs/2305.18290
  106. Direct Preference Optimization(DPO), accessed July 1, 2025, https://www.cs.toronto.edu/~cmaddis/courses/csc2541_w25/presentations/mu_cao_dpo.pdf
  107. Arxiv Dives - Direct Preference Optimization (DPO) - Oxen.ai, accessed July 1, 2025, https://www.oxen.ai/blog/arxiv-dives-direct-preference-optimization-dpo
  108. [D] Question about Direct Preference Optimization (DPO) equation : r/MachineLearning, accessed July 1, 2025, https://www.reddit.com/r/MachineLearning/comments/197yl66/d_question_about_direct_preference_optimization/
  109. Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study - arXiv, accessed July 1, 2025, https://arxiv.org/html/2404.10719v1
  110. Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback - arXiv, accessed July 1, 2025, https://arxiv.org/html/2406.09279v1
  111. [2402.10571] Direct Preference Optimization with an Offset - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2402.10571
  112. Direct Preference Optimization with an Offset - arXiv, accessed July 1, 2025, https://arxiv.org/html/2402.10571v2
  113. Direct Preference Optimization Using Sparse Feature-Level Constraints - arXiv, accessed July 1, 2025, https://arxiv.org/html/2411.07618v1
  114. towards robust alignment of language models: distributionally robustifying direct preference optimization - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2407.07880
  115. DPO Meets PPO: Reinforced Token Optimization for RLHF - arXiv, accessed July 1, 2025, https://arxiv.org/html/2404.18922v4
  116. Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model - arXiv, accessed July 1, 2025, https://arxiv.org/html/2403.19443v1
  117. DPO Meets PPO: Reinforced Token Optimization for RLHF - arXiv, accessed July 1, 2025, https://arxiv.org/html/2404.18922v1

Proximal Policy Optimization: all about the algorithm created by OpenAI - DataScientest, accessed July 1, 2025, https://datascientest.com/en/proximal-policy-optimization-all-about-the-algorithm-created-by-openai