Booil Jung

Q-러닝

인공지능(AI)의 발전사에서 강화학습(Reinforcement Learning, RL)은 기계가 시행착오를 통해 최적의 행동 전략을 스스로 학습하는 패러다임을 제시하며 중요한 이정표를 세웠다. 수많은 강화학습 알고리즘 중에서도 Q-러닝(Q-Learning)은 그 단순성과 강력한 이론적 기반 덕분에 가장 근본적이고 영향력 있는 방법론 중 하나로 자리매김했다.1 1989년 크리스토퍼 왓킨스(Christopher Watkins)에 의해 처음 제안된 이 알고리즘은, 환경에 대한 사전 모델 없이도 최적의 행동 가치 함수를 학습할 수 있는 능력으로 인해 강화학습 연구의 초석이 되었다.3

본 보고서는 Q-러닝에 대한 심층적이고 포괄적인 고찰을 제공하는 것을 목표로 한다. 이를 위해 먼저 Q-러닝이 속한 강화학습의 이론적 배경, 특히 순차적 의사결정 문제를 수학적으로 정형화하는 마르코프 결정 과정(Markov Decision Process, MDP)과 가치 기반 학습의 핵심인 벨만 방정식(Bellman Equation)을 탐구한다. 이 이론적 토대 위에서 고전적인 테이블 기반 Q-러닝 알고리즘의 작동 메커니즘을 단계별로 분석하고, 학습률(learning rate) 및 할인율(discount factor)과 같은 핵심 하이퍼파라미터의 역할과 의미를 명확히 규명한다.

나아가, 모든 강화학습 에이전트가 직면하는 본질적인 딜레마인 ‘탐험과 활용(Exploration-Exploitation)’ 문제를 심도 있게 다루고, 이를 해결하기 위한 대표적인 전략들을 비교 분석한다. 또한, Q-러닝을 유사한 시간차 학습(Temporal-Difference Learning) 알고리즘인 SARSA와 비교하며, ‘오프-폴리시(Off-Policy)’ 학습 방식이 갖는 고유한 특성과 그 의미를 파헤친다.

그러나 고전적 Q-러닝은 상태 공간(state space)이 거대해지는 현실 세계의 복잡한 문제에 적용하기 어렵다는 명백한 한계를 지닌다. 본 보고서는 이러한 ‘차원의 저주(curse of dimensionality)’를 극복하기 위해 딥러닝과 Q-러닝을 결합한 심층 Q-네트워크(Deep Q-Networks, DQN)의 등장을 조명한다. DQN의 혁신적인 아이디어와 더불어, 학습 안정화를 위해 도입된 경험 리플레이(Experience Replay)와 타겟 네트워크(Target Network)와 같은 핵심 기법들의 원리를 상세히 설명한다.

DQN의 성공 이후, 연구자들은 그 성능을 더욱 향상시키기 위해 다양한 변형 알고리즘들을 제안했다. 본 보고서는 Double DQN, Dueling DQN, Prioritized Experience Replay(PER) 등 소위 ‘DQN Zoo’를 구성하는 주요 알고리즘들을 체계적으로 검토하고, 이들이 각각 Q-러닝의 어떤 측면을 개선했는지 분석한다. 마지막으로, 그리드월드(Gridworld)와 같은 고전적 예제부터 게임 AI, 로보틱스, 금융 및 추천 시스템에 이르는 다양한 실제 적용 사례를 통해 Q-러닝의 실용적 가치를 조명하고, 현재의 도전 과제와 미래 연구 방향을 제시하며 보고서를 마무리한다.


Q-러닝을 깊이 있게 이해하기 위해서는 그것이 탄생한 이론적 배경을 먼저 살펴보아야 한다. 이 장에서는 강화학습의 기본 개념과 이를 수학적으로 정형화하는 마르코프 결정 과정, 그리고 가치 기반 학습의 수학적 근간이 되는 벨만 방정식에 대해 상세히 논한다.

강화학습은 기계학습의 한 분야로, 에이전트(agent)라는 학습 주체가 주어진 환경(environment)과 상호작용하며 누적 보상(reward)을 최대화하는 최적의 행동 방침, 즉 정책(policy)을 학습하는 과정을 다룬다.1 이는 정답이 주어진 데이터를 학습하는 지도학습이나 데이터 내의 구조를 찾는 비지도학습과는 구별되는 독자적인 패러다임이다.4

에이전트-환경 상호작용 루프

강화학습의 핵심은 에이전트와 환경 간의 순차적인 상호작용 루프에 있다.6 이 과정은 다음과 같이 전개된다.

  1. 에이전트는 시간 t에 환경의 현재 상태(state) st를 관찰한다.7
  2. 관찰된 상태 st를 바탕으로, 에이전트는 자신의 정책에 따라 특정 행동(action) at를 선택하여 수행한다.7
  3. 환경은 에이전트의 행동 at에 반응하여 새로운 상태 $s_{t+1}$로 전이하고, 그 결과에 대한 피드백으로 스칼라 값인 보상 $r_{t+1}$을 에이전트에게 전달한다.6
  4. 에이전트는 이 과정을 반복하며 상태, 행동, 보상으로 이루어진 경험의 궤적(trajectory)을 생성하고, 이 경험을 바탕으로 자신의 정책을 개선해 나간다.9 에이전트의 유일한 목표는 장기적으로 얻게 될 보상의 총합, 즉 누적 보상을 최대화하는 것이다.4

마르코프 결정 과정을 통한 문제의 정형화

이러한 순차적 의사결정 문제는 마르코프 결정 과정(Markov Decision Process, MDP)이라는 수학적 틀을 통해 엄밀하게 정의된다.2 MDP는 다음과 같은 튜플 $(S, A, P, R, \gamma)$로 구성된다.

MDP의 가장 핵심적인 가정은 마르코프 속성(Markov Property)이다. 이는 미래의 상태와 보상은 오직 현재의 상태와 행동에만 의존하며, 그 이전의 과거 이력과는 무관하다는 것을 의미한다.6 즉, $Pr(S_{t+1}=s’, R_{t+1}=r S_t, A_t, R_t,…, S_0, A_0) = Pr(S_{t+1}=s’, R_{t+1}=r S_t, A_t)$가 성립한다. 이 속성 덕분에 에이전트는 과거의 모든 이력을 기억할 필요 없이 현재 상태 정보만으로 최적의 의사결정을 내릴 수 있으며, 이는 강화학습 문제의 계산적 복잡성을 크게 낮추는 결정적인 역할을 한다.

MDP 프레임워크의 진정한 힘은 그 추상화 능력에 있다. 탁구 게임에서 에이전트의 상태를 공의 위치, 속도, 가속도로 정의하고, 행동을 라켓의 움직임으로, 보상을 득점과 실점으로 설정하는 것 4, 로봇 내비게이션에서 상태를 센서 데이터로, 행동을 모터 제어로, 보상을 목표 도달 및 장애물 충돌 여부로 정의하는 것 13, 혹은 금융 거래에서 상태를 시장 지표로, 행동을 매수/매도/보유로, 보상을 포트폴리오 가치 변화로 정의하는 것 14 등, 표면적으로 전혀 다른 문제들을 모두 동일한 MDP라는 언어로 기술할 수 있다. 따라서 Q-러닝과 같은 범용 알고리즘이 이처럼 다양한 분야에 적용될 수 있는 근본적인 이유는, 이 모든 문제들이 성공적으로 MDP로 정형화될 수 있기 때문이다. 결국 강화학습 적용의 성패는 주어진 문제를 얼마나 효과적으로 MDP의 상태, 행동, 보상으로 설계하는지에 달려있다고 해도 과언이 아니다.

가치 기반 강화학습의 목표는 각 상태나 상태-행동 쌍이 장기적으로 얼마나 “좋은지”를 나타내는 가치 함수(value function)를 학습하는 것이다. Q-러닝은 이 가치 함수 중 행동 가치 함수를 학습하는 대표적인 알고리즘이며, 그 이론적 기반에는 벨만 방정식이 있다.

가치 함수

벨만 기대 방정식

벨만 기대 방정식(Bellman Expectation Equation)은 가치 함수의 재귀적 성질을 나타내는 핵심적인 관계식이다. 이 방정식은 현재 상태(또는 상태-행동 쌍)의 가치를 즉각적인 보상과 다음 상태(또는 상태-행동 쌍)의 가치의 합으로 분해하여 표현한다.15

이 재귀적 구조는 복잡한 장기적 보상 계산 문제를 현재의 보상과 한 단계 미래의 가치로 나누어 풀 수 있게 해주며, 동적 프로그래밍(Dynamic Programming)이나 시간차 학습(Temporal-Difference Learning)과 같은 반복적 해법의 근간이 된다.15

벨만 최적 방정식

만약 우리가 특정 정책 π를 평가하는 것이 아니라, 모든 정책 중에서 가장 좋은 최적 정책(optimal policy) $\pi^*$를 찾고자 한다면, 벨만 최적 방정식(Bellman Optimality Equation)을 사용해야 한다. 최적 정책을 따를 때의 가치 함수는 다른 어떤 정책을 따를 때보다 모든 상태에서 가치가 크거나 같다. 벨만 최적 방정식은 최적 가치 함수가 만족해야 하는 조건을 명시한다.15

최적 행동 가치 함수 $Q^(s, a)$에 대한 벨만 최적 방정식은 다음과 같다:

\[Q^(s, a) = \mathbb{E}\]

이 방정식의 핵심은 기댓값 안에 포함된 maxa′ 연산자이다. 이는 다음 상태 $s’$에서 가능한 모든 행동 a′ 중에서 최적의 가치를 갖는 행동을 선택한다는 것을 의미한다. 즉, 항상 최선의 선택을 가정함으로써 최적의 가치를 계산하는 것이다. 이 방정식은 Q-러닝 알고리즘이 궁극적으로 풀고자 하는 목표 방정식이다.

수렴성 증명과 벨만 연산자 (축소 사상 증명)

Q-러닝과 같은 반복적 알고리즘이 과연 벨만 최적 방정식을 만족하는 유일한 최적해로 수렴할 수 있는지에 대한 이론적 보장은 매우 중요하다. 이 증명은 벨만 연산자(Bellman Operator)와 바나흐 고정점 정리(Banach Fixed-Point Theorem)를 통해 이루어진다.

벨만 최적 연산자 $T^$는 임의의 행동 가치 함수 Q를 입력받아 새로운 행동 가치 함수를 출력하는 함수로 정의할 수 있다.22

(T∗Q)(s,a)=E

이때, 최적 가치 함수 $Q^$는 이 연산자의 고정점(fixed point)이다. 즉, $T^Q^ = Q^*$를 만족한다.22

이 벨만 최적 연산자 $T^*$가 $\gamma$-축소 사상(γ-contraction mapping)임을 보일 수 있다. 축소 사상이란, 연산자를 적용했을 때 함수 공간 내의 두 점(여기서는 두 개의 Q함수) 사이의 거리가 최소 γ배만큼 줄어드는 성질을 의미한다. L-무한대 노름(∥⋅∥∞)을 거리 척도로 사용하면, 임의의 두 Q함수 Q1과 Q2에 대해 다음이 성립한다 22:

∥T∗Q1−T∗Q2∥∞≤γ∥Q1−Q2∥∞

바나흐 고정점 정리에 따르면, 완비 거리 공간(complete metric space)에서 정의된 축소 사상은 유일한 고정점을 가지며, 임의의 시작점에서 연산자를 반복적으로 적용하면 그 고정점으로 반드시 수렴한다.22 Q함수 공간은 완비 거리 공간이고 벨만 최적 연산자는 축소 사상이므로, 이 정리에 의해 유일한 최적 Q함수 $Q^

$가 존재하며, 반복적인 업데이트를 통해 $Q^$로 수렴함이 보장된다.24

이러한 이론적 배경은 Q-러닝 알고리즘의 타당성을 뒷받침한다. Q-러닝은 사실상 동적 프로그래밍의 한 기법인 가치 반복법(Value Iteration)을 모델 없이(model-free) 구현한 것으로 볼 수 있다. 가치 반복법은 환경의 모델(전이 확률 P와 보상 함수 R)을 알 때 벨만 최적 연산자를 모든 상태에 대해 반복적으로 적용하여 최적 가치 함수를 찾는 알고리즘이다.2

반면, Q-러닝은 환경 모델을 모르는 상태에서 실제 경험을 통해 얻은 단일 샘플 $(s, a, r, s’)$을 사용한다. Q-러닝의 업데이트 목표인 $r + \gamma \max_{a’} Q(s’, a’)$는 벨만 최적 연산자의 기댓값을 단일 샘플로 근사한 것이다. 즉, Q-러닝은 가치 반복법의 전체 백업(full backup)을 샘플 기반의 확률적 근사(stochastic approximation) 백업으로 대체한 것이다.29 이 연결고리 덕분에 Q-러닝은 가치 반복법의 수렴성을 물려받으며, 적절한 탐험과 학습률 조절 하에 최적 정책을 찾을 수 있다는 강력한 이론적 보증을 갖게 된다.30


제 2부: 표준 Q-러닝 알고리즘

이론적 토대를 바탕으로, 이 장에서는 고전적인 테이블 기반 Q-러닝 알고리즘의 구체적인 작동 방식과 핵심 요소들을 상세히 분석한다.

제 2.1절: 알고리즘 메커니즘과 Q-테이블

가장 기본적인 형태의 Q-러닝은 행동 가치 함수 $Q(s, a)$를 Q-테이블(Q-Table)이라는 2차원 배열 형태의 조회 테이블(lookup table)로 저장한다.31 이 테이블의 행은 상태(state)를, 열은 행동(action)을 나타내며, 각 셀

Q(s, a)에는 상태 s에서 행동 a를 취했을 때의 가치 추정치가 저장된다.17

알고리즘은 에피소드(episode) 단위로 진행되며, 각 에피소드는 여러 타임 스텝(time step)으로 구성된다. 전체적인 학습 과정은 다음과 같다.2

  1. 초기화 (Initialization): Q-테이블의 모든 값을 0 또는 작은 임의의 값으로 초기화한다.17

  2. 에피소드 반복 (Loop for each episode):

  3. 타임 스텝 반복 (Loop for each step of episode):

    a. 현재 상태 s를 관찰한다.

    b. 현재 Q-테이블에 기반한 정책(예: ε-탐욕 정책)을 사용하여 현재 상태 s에서 수행할 행동 a를 선택한다.18

    c. 선택한 행동 a를 수행하고, 환경으로부터 보상 r과 다음 상태 $s’$를 관찰한다.31

    d. 관찰된 (s,a,r,s′) 정보를 사용하여 벨만 업데이트 규칙에 따라 Q-테이블의 Q(s, a) 값을 갱신한다.18

    e. 다음 스텝을 위해 현재 상태를 $s’$로 변경한다 (s←s′).

  4. 에이전트가 종료 상태(terminal state)에 도달하거나 에피소드가 끝날 때까지 3번 과정을 반복한다.

  5. Q-테이블의 값들이 수렴할 때까지 2~4번 과정을 수많은 에피소드에 걸쳐 반복한다.31

학습이 충분히 진행되어 Q-테이블이 최적 행동 가치 함수 $Q^$에 가깝게 수렴하면, 최적 정책 $\pi^$는 각 상태에서 Q-값이 가장 큰 행동을 선택하는 탐욕적 정책(greedy policy)으로 간단히 도출할 수 있다.17

π∗(s)=aargmaxQ∗(s,a)

제 2.2절: Q-가치 업데이트 규칙 심층 분석

Q-러닝의 핵심은 Q-테이블을 업데이트하는 규칙에 있다. 이 규칙은 시간차 학습(Temporal-Difference Learning)의 한 형태로, 벨만 방정식에 기반한다.2

업데이트 공식

Q-값 업데이트는 다음 공식에 따라 이루어진다.31

Q(s,a)←Q(s,a)+α[r+γa′maxQ(s′,a′)−Q(s,a)]

이 공식을 분석해 보면, 업데이트는 현재 추정치 $Q(s, a)$에 시간차 오차(TD error), $\delta_t = r + \gamma \max_{a’} Q(s’, a’) - Q(s, a)$에 학습률 α를 곱한 값을 더하는 방식으로 이루어진다. 여기서 $r + \gamma \max_{a’} Q(s’, a’)$는 TD 타겟(TD target)이라 불리며, 실제 경험을 통해 얻은 더 나은 가치 추정치를 의미한다. TD 오차는 이 새로운 목표치와 기존 추정치 간의 차이를 나타내며, 에이전트는 이 오차를 줄이는 방향으로 학습을 진행한다.

학습률 (Learning Rate, α)

할인율 (Discount Factor, γ)

제 2.3절: 탐험과 활용의 딜레마

강화학습 에이전트는 매 순간 중대한 딜레마에 직면한다. 이는 현재까지의 지식을 바탕으로 최선의 행동을 할 것인가(활용), 아니면 더 나은 선택지를 찾기 위해 새로운 시도를 할 것인가(탐험)의 문제이다.

이 딜레마는 강화학습의 성공에 매우 중요하다. 활용에만 치중하면 에이전트는 초기에 발견한 국소 최적해(local optimum)에 갇혀 진정한 최적해를 놓칠 수 있다.40 반대로 탐험에만 치중하면, 이미 좋은 전략을 알고 있음에도 불구하고 비효율적인 행동을 반복하여 학습이 느려지고 전반적인 성능이 저하된다.42 따라서 성공적인 강화학습은 탐험과 활용 사이의 적절한 균형을 찾는 데 달려있다.41

주요 탐험 전략

이 딜레마를 해결하기 위해 여러 전략이 제안되었으며, 대표적인 두 가지는 다음과 같다.

특징 ε-탐욕 (Epsilon-Greedy) 소프트맥스 (Softmax / Boltzmann)
작동 방식 확률 ϵ으로 무작위 행동, 1−ϵ으로 탐욕적 행동 선택 행동의 Q-값에 비례하는 확률 분포에 따라 행동 샘플링
핵심 파라미터 ϵ (탐험 확률) \tau (온도, 탐험의 무작위성 정도)
탐험의 질 균등 무작위 (모든 비-탐욕적 행동을 동일하게 취급) 가치 비례적 (더 나은 행동을 더 자주 탐험)
장점 구현이 매우 간단하고 계산적으로 저렴함 45 더 지능적이고 효율적인 탐험 가능 48
단점 비효율적인 탐험 (명백히 나쁜 행동도 시도) 47 계산 복잡성이 높고, \tau 파라미터 튜닝이 필요함 52
적합한 환경 초기 학습 단계, 간단한 문제 나쁜 행동의 비용이 매우 큰 복잡한 문제

제 2.4절: 온-폴리시 대 오프-폴리시 학습: Q-러닝과 SARSA 비교 분석

시간차 학습 알고리즘은 학습 방식에 따라 온-폴리시(On-Policy)와 오프-폴리시(Off-Policy)로 나뉜다. 이 구분은 Q-러닝의 핵심적인 특징을 이해하는 데 매우 중요하다.

업데이트 규칙의 결정적 차이

두 알고리즘의 차이는 Q-값 업데이트 공식에서 명확하게 드러난다.

“절벽 보행(Cliff Walking)” 예제를 통한 행동 비교

이 고전적인 예제는 두 알고리즘의 행동 차이를 극명하게 보여준다.61

특징 Q-러닝 (Q-Learning) SARSA
정책 유형 오프-폴리시 (Off-policy) 56 온-폴리시 (On-policy) 56
업데이트 목표 r+γmaxa′Q(s′,a′) r+γQ(s′,a′)
학습 대상 가치 최적 (탐욕적) 정책의 가치 62 현재 행동 정책 (예: ε-탐욕)의 가치 62
절벽 보행 행동 최적이지만 위험한 경로 학습 61 차선책이지만 안전한 경로 학습 61
장점 탐험적 행동을 하면서도 최적 정책 학습 가능, 데이터 재사용성 높음 57 학습이 더 안정적이고 수렴성이 좋음 61
단점 Q-값 과대평가 경향, 함수 근사 시 불안정성 증가 56 샘플 효율성이 낮음 (과거 정책의 데이터 사용 불가) 68

Q-러닝의 오프-폴리시 특성은 양날의 검과 같다. 이는 Q-러닝의 가장 큰 강점이자 동시에 불안정성의 주요 원인이 된다. 한편으로, 행동 정책과 타겟 정책을 분리함으로써 에이전트는 자유롭게 탐험하면서도 최적 정책을 학습할 수 있다. 이는 심지어 다른 에이전트나 인간이 생성한 과거 데이터로부터 학습하는 것을 가능하게 하여 데이터 효율성을 극대화한다.57

그러나 다른 한편으로, 업데이트 규칙의 max 연산자는 Q-값의 양의 오차를 증폭시켜 시스템적으로 Q-값을 과대평가하는 최대화 편향(maximization bias)을 유발한다.56 이 문제는 함수 근사기(function approximator)와 결합될 때 더욱 심각해진다. 오프-폴리시 학습, 부트스트래핑(bootstrapping, 추정치로 다른 추정치를 업데이트하는 방식), 함수 근사는 강화학습에서 불안정성과 발산을 유발하는 “죽음의 삼각편대(the deadly triad)”로 알려져 있다.30 Q-러닝은 이 세 가지 요소를 모두 포함하고 있어, 단순한 신경망과 결합했을 때 학습이 실패하기 쉽다.67 바로 이 본질적인 불안정성 때문에 심층 Q-네트워크(DQN)의 개발 과정에서 경험 리플레이와 타겟 네트워크 같은 안정화 기법의 발명이 필수적이었다. 이 기법들은 Q-러닝의 오프-폴리시 특성에서 비롯되는 문제점들을 직접적으로 해결하기 위해 고안된 것이다.70


제 3부: 심층 Q-네트워크(DQN)의 등장

고전적 Q-러닝은 강화학습의 이론적 토대를 마련했지만, Q-테이블의 한계로 인해 복잡한 현실 문제에 적용하기 어려웠다. 이 장에서는 Q-러닝의 한계를 극복하고 심층 강화학습 시대를 연 심층 Q-네트워크(DQN)의 탄생 배경과 핵심 혁신을 다룬다.

제 3.1절: 테이블 기반 Q-러닝의 한계

테이블 기반 Q-러닝은 명확한 한계를 가지고 있으며, 이는 주로 ‘차원의 저주’ 문제로 요약된다.

제 3.2절: 심층 Q-네트워크(DQN): Q-러닝과 딥러닝의 만남

이러한 한계를 극복하기 위한 돌파구는 Q-함수를 근사하기 위해 심층 신경망(Deep Neural Network)을 사용하는 아이디어에서 나왔다.

제 3.3절: 심층 강화학습의 안정화

단순히 Q-테이블을 신경망으로 대체하는 것은 이론적으로는 간단해 보이지만, 실제로는 학습이 매우 불안정하여 실패하는 경우가 많다.70 이는 앞서 언급한 “죽음의 삼각편대”(함수 근사, 부트스트래핑, 오프-폴리시 학습의 조합) 때문이다.30 DQN은 이 문제를 해결하기 위해 두 가지 핵심적인 기법을 도입했다.

기법 1: 경험 리플레이 (Experience Replay)

기법 2: 타겟 네트워크 (Target Network)

경험 리플레이와 타겟 네트워크는 단순히 DQN을 위한 부수적인 기법이 아니다. 이들은 부트스트래핑과 오프-폴리시 데이터를 사용하는 모든 가치 기반 심층 강화학습 알고리즘의 안정성을 확보하기 위한 근본적인 원칙을 제시한다. 이 두 기법의 영향력은 DQN을 넘어, 이후에 개발된 Double DQN, Dueling DQN, 심지어 DDPG와 같은 액터-크리틱 방법에까지 이어지며 심층 강화학습의 표준적인 구성 요소로 자리 잡았다.98 이는 특정 알고리즘의 성공이 단지 새로운 구조의 발명에만 있는 것이 아니라, 학습 과정의 본질적인 불안정성을 이해하고 이를 제어하는 원리를 발견하는 데 있음을 보여준다.


제 4부: 고급 방법론과 DQN Zoo

DQN의 성공은 수많은 후속 연구를 촉발시켰다. 연구자들은 DQN의 특정 약점들을 식별하고 이를 해결하기 위한 다양한 개선안을 제시했으며, 이는 마치 동물원처럼 다양한 변종 알고리즘들, 즉 ‘DQN Zoo’를 형성하게 되었다. 이 장에서는 그 중 가장 중요하고 영향력 있는 방법론들을 살펴본다.

제 4.1절: Double DQN (DDQN): 과대평가 편향 해결

제 4.2절: Dueling DQN: Q-함수의 분해

제 4.3절: 우선순위 경험 리플레이 (PER)

제 4.4절: Rainbow DQN과 현대 강화학습으로의 길

DQN에서 Rainbow로 이어지는 발전 과정은 단일 알고리즘의 약점을 체계적으로 식별하고, 각 약점을 해결하기 위한 독립적이고 직교적인(orthogonal) 개선안을 개발한 뒤, 이를 다시 통합하는 연구 패러다임을 보여준다. 이는 복잡한 시스템을 개선하는 데 있어, 완전히 새로운 거대 알고리즘을 처음부터 발명하려는 시도보다 특정 약점을 표적화하여 수정하고 통합하는 모듈식 접근법이 얼마나 효과적인지를 입증한다. 이러한 점진적 개선의 방법론은 현대 심층 강화학습 연구의 핵심적인 흐름 중 하나가 되었다.


제 5부: 실제 적용 및 사례 연구

이 장에서는 이론적 논의를 구체적인 예제에 적용하여, Q-러닝이 다양한 분야에서 실제로 어떻게 활용되는지를 살펴본다. 각 분야의 문제를 MDP로 어떻게 정의하는지가 핵심이다.

제 5.1절: 게임 AI

그리드월드(Gridworld) 단계별 학습 과정

그리드월드는 Q-러닝의 작동 원리를 직관적으로 이해하는 데 가장 널리 사용되는 예제이다.122

2인용 게임 (예: 틱택토)

제 5.2절: 로보틱스와 자율 시스템

로봇 내비게이션 13

제 5.3절: 금융 및 추천 시스템

알고리즘 트레이딩 14

동적 추천 시스템 31

로보틱스나 금융과 같은 복잡한 실제 응용 분야에서는 보상 신호가 매우 희소(sparse)하거나(예: 로봇이 임무의 맨 마지막에만 보상을 받음) 진정한 목표와 완벽하게 일치하지 않는 경우가 많다. 이러한 상황에서 학습을 효과적으로 유도하기 위해 중간 보상을 설계하는 보상 설계(Reward Shaping)는 Q-러닝을 성공적으로 적용하는 데 있어 가장 중요하고 어려운 부분 중 하나가 된다.13

예를 들어, 로봇 내비게이션에서 최종 목적지 도달 보상만으로는 학습이 너무 느리기 때문에, 엔지니어는 목표와의 거리가 줄어들 때마다 작은 양의 보상을 추가하여 학습을 안내해야 한다.13 하지만 이 과정은 매우 섬세한 작업이다. 잘못 설계된 보상 함수는 에이전트가 의도치 않은 행동을 학습하게 만드는 ‘보상 해킹(reward hacking)’으로 이어질 수 있다.134 예를 들어, 로봇이 목표 지점 근처에서 계속 빙빙 돌면서 ‘가까워짐’ 보상을 반복적으로 얻으려 할 뿐, 실제로는 목표에 도달하지 않는 행동을 학습할 수 있다. 따라서 Q-러닝 알고리즘 자체는 범용적이지만, 복잡한 도메인에서의 성공적인 적용은 상태 공간에 대한 효과적인 특징 공학(feature engineering)과 신중하고 반복적인 보상 함수 설계에 크게 의존하며, 이는 실용화의 주요 병목 지점 중 하나이다.


제 6부: 결론 및 향후 전망

본 보고서는 Q-러닝의 이론적 기초부터 현대 심층 강화학습으로의 발전, 그리고 다양한 실제 적용 사례에 이르기까지 포괄적인 분석을 제공했다. 이 마지막 장에서는 핵심적인 내용을 종합하고, 현재의 도전 과제와 미래 연구 방향을 조망한다.

제 6.1절: 핵심 내용 종합

Q-러닝은 이론적으로 잘 정립된 테이블 기반 알고리즘에서 출발하여 2, 현대 심층 강화학습의 근간을 이루는 핵심 구성 요소로 진화했다.86 그 여정의 중심에는 다음과 같은 핵심 원리들이 자리 잡고 있다.

제 6.2절: 현재의 도전 과제와 미래 연구 방향

Q-러닝과 심층 강화학습은 눈부신 발전을 이루었지만, 여전히 해결해야 할 중요한 도전 과제들이 남아있다.

결론적으로, Q-러닝은 강화학습 분야의 이론적 근간을 제공했을 뿐만 아니라, 딥러닝과의 결합을 통해 인공지능의 가능성을 한 단계 끌어올린 기념비적인 알고리즘이다. 위에 제시된 도전 과제들을 해결하기 위한 지속적인 연구는 앞으로 Q-러닝 기반의 강화학습 기술이 더욱 정교하고 강력하며 신뢰할 수 있는 방향으로 발전해 나갈 것임을 시사한다.

참고 자료

  1. www.mindscale.kr, accessed July 10, 2025, https://www.mindscale.kr/docs/reinforcement-learning/q-learning#:~:text=Q%2D%EB%9F%AC%EB%8B%9D%EC%9D%B4%EB%9E%80%20%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80,%22%EA%B0%80%EC%B9%98%22%EB%A5%BC%20%EC%9D%98%EB%AF%B8%ED%95%A9%EB%8B%88%EB%8B%A4.
  2. [강화학습] Q-러닝 :: 마인드스케일, accessed July 10, 2025, https://www.mindscale.kr/docs/reinforcement-learning/q-learning
  3. Simulation of the navigation of a mobile robot by the Q- Learning using artificial neuron networks - CEUR-WS.org, accessed July 10, 2025, https://ceur-ws.org/Vol-547/81.pdf
    1. 강화학습의 개요 - JUST CODE IT - 티스토리, accessed July 10, 2025, https://jdjin3000.tistory.com/2
  4. Reinforcement Learning: An Introduction by Richard S. Sutton Goodreads, accessed July 10, 2025, https://www.goodreads.com/book/show/739791.Reinforcement_Learning
  5. [AI] 기초 개념 학습 #2(강화 학습) - 메모장 - 티스토리, accessed July 10, 2025, https://myungjjju.tistory.com/280
  6. 강화학습 핵심 개념 정리 (1), accessed July 10, 2025, https://infossm.github.io/blog/2019/12/15/RL-key-concepts/
  7. brunch.co.kr, accessed July 10, 2025, https://brunch.co.kr/@brunchflgu/1892#:~:text=%EC%97%90%EC%9D%B4%EC%A0%84%ED%8A%B8%2C%20%ED%99%98%EA%B2%BD%2C%20%EC%83%81%ED%83%9C%2C%20%EB%B3%B4%EC%83%81,%EA%B2%B0%EA%B3%BC%EB%A1%9C%EC%84%9C%20%EC%A3%BC%EC%96%B4%EC%A7%80%EB%8A%94%20%ED%94%BC%EB%93%9C%EB%B0%B1%EC%9D%B4%EB%8B%A4.
  8. Bellman Optimality Equation in Reinforcement Learning - Analytics Vidhya, accessed July 10, 2025, https://www.analyticsvidhya.com/blog/2021/02/understanding-the-bellman-optimality-equation-in-reinforcement-learning/
  9. [머신러닝 - 이론] 강화 학습의 기초 (Fundamental of Reinforcement Learning) - 안녕, accessed July 10, 2025, https://hi-guten-tag.tistory.com/86
  10. Q: 강화 학습이란 무엇인가요? - AWS, accessed July 10, 2025, https://aws.amazon.com/ko/what-is/reinforcement-learning/
  11. 강화학습 주요 개념 - velog, accessed July 10, 2025, https://velog.io/@kunha98/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%A3%BC%EC%9A%94-%EA%B0%9C%EB%85%90
  12. Mobile Robot Navigation Using Deep Reinforcement Learning - MDPI, accessed July 10, 2025, https://www.mdpi.com/2227-9717/10/12/2748
  13. xinyi6666/stock_trading - GitHub, accessed July 10, 2025, https://github.com/xinyi6666/stock_trading
  14. (3) 가치함수와 벨만방정식 - Jang. Inspiration, accessed July 10, 2025, https://jang-inspiration.com/bellman-equation
  15. Understanding the Bellman Equation in Reinforcement Learning - DataCamp, accessed July 10, 2025, https://www.datacamp.com/tutorial/bellman-equation-reinforcement-learning
  16. [강화학습] Q 러닝 이해하기 - Atom’s Space, accessed July 10, 2025, https://spacebike.tistory.com/53
  17. [Q-learning] 데이터로 설명하기 - 상황파악, accessed July 10, 2025, https://otch80.tistory.com/56
  18. What Is the Bellman Operator in Reinforcement Learning? Baeldung on Computer Science, accessed July 10, 2025, https://www.baeldung.com/cs/bellman-operator-reinforcement-learning
  19. 강화 학습 기초 - 정책(Policy), 가치 함수(Value Function) 그리고 벨만 방정식(Bellman Equation) - 공부Dragon - 티스토리, accessed July 10, 2025, https://wnthqmffhrm.tistory.com/5
  20. 벨만 방정식 - 성장通 - 티스토리, accessed July 10, 2025, https://kevin-rain.tistory.com/78
  21. Bellman Equation and Contraction Mapping, accessed July 10, 2025, https://teazrq.github.io/stat546/notes/contraction-mapping.html
  22. What is the Bellman operator in reinforcement learning? - AI Stack Exchange, accessed July 10, 2025, https://ai.stackexchange.com/questions/11057/what-is-the-bellman-operator-in-reinforcement-learning
  23. Proof of Convergence of the Bellman Operator - Tuan Anh Le, accessed July 10, 2025, https://www.tuananhle.co.uk/notes/bellman-convergence.html
  24. Mathematical Analysis of Reinforcement Learning - Bellman Optimality Equation by Vaibhav Kumar TDS Archive Medium, accessed July 10, 2025, https://medium.com/data-science/mathematical-analysis-of-reinforcement-learning-bellman-equation-ac9f0954e19f
  25. Bellman operator convergence enhancements in reinforcement learning algorithms - arXiv, accessed July 10, 2025, https://arxiv.org/pdf/2505.14564
  26. Detailed Proof of the Bellman Optimality equations : r/reinforcementlearning - Reddit, accessed July 10, 2025, https://www.reddit.com/r/reinforcementlearning/comments/1klmntc/detailed_proof_of_the_bellman_optimality_equations/
  27. Reward-Based Learning, Model-Based and Model-Free, accessed July 10, 2025, https://www.quentinhuys.com/pub/HuysEa14-ModelBasedModelFree.pdf
  28. Lecture 10: Q-Learning, Function Approximation, Temporal Difference Learning - Dimitrios Katselis, accessed July 10, 2025, http://katselis.web.engr.illinois.edu/ECE586/Lecture10.pdf
  29. Analyzing the convergence of Q-learning through Markov Decision Theory - University of Twente Student Theses, accessed July 10, 2025, https://essay.utwente.nl/88829/1/Overmars_MA_EEMCS.pdf
  30. Q-러닝(Q-Learning)에 대해 알아보기, accessed July 10, 2025, https://dailystoryvenus.tistory.com/42
  31. 강화학습 개념부터 Deep Q Networks까지, 10분만에 훑어보기, accessed July 10, 2025, https://jeinalog.tistory.com/20
  32. Q-Learning Explained: Learn Reinforcement Learning Basics, accessed July 10, 2025, https://www.simplilearn.com/tutorials/machine-learning-tutorial/what-is-q-learning
  33. Q-Learning in Reinforcement Learning - GeeksforGeeks, accessed July 10, 2025, https://www.geeksforgeeks.org/machine-learning/q-learning-in-python/
  34. Q-Learning Theory with an Expamle for Beginners - Kaggle, accessed July 10, 2025, https://www.kaggle.com/code/melikbugraozcelik/q-learning-theory-with-an-expamle-for-beginners
  35. An Introduction to Q-Learning: A Tutorial For Beginners - DataCamp, accessed July 10, 2025, https://www.datacamp.com/tutorial/introduction-q-learning-beginner-tutorial
  36. [강화학습] Q-Learning 이해하기 정리하여 내 것으로, AI, accessed July 10, 2025, https://hchoi256.github.io/rl/RL1/
  37. 강화학습_Q-Learning #2 - 게임 클라 개발, accessed July 10, 2025, https://tsyang.tistory.com/200
  38. [강화학습] 심층 Q-네트워크(DQN) - 마인드스케일, accessed July 10, 2025, https://www.mindscale.kr/docs/reinforcement-learning/dqn
  39. 강화학습 - (3) 탐색과 활용 - 금융덕후 - 티스토리, accessed July 10, 2025, https://jyoondev.tistory.com/136
  40. [강화학습] 탐색과 활용의 딜레마 - 마인드스케일, accessed July 10, 2025, https://www.mindscale.kr/docs/reinforcement-learning/exploration-exploitation
  41. DRL 전략에서 탐색과 활용의 균형 - FasterCapital, accessed July 10, 2025, https://fastercapital.com/ko/content/DRL-%EC%A0%84%EB%9E%B5%EC%97%90%EC%84%9C-%ED%83%90%EC%83%89%EA%B3%BC-%ED%99%9C%EC%9A%A9%EC%9D%98-%EA%B7%A0%ED%98%95.html
  42. [5] Hindsight Experience Replay (HER) - 당황했습니까 휴먼? - 티스토리, accessed July 10, 2025, https://ropiens.tistory.com/136
  43. 아름답게 나이들게 하소서, accessed July 10, 2025, https://rhr0916.tistory.com/
  44. [강화학습] 탐색 전략 :: 마인드스케일, accessed July 10, 2025, https://www.mindscale.kr/docs/reinforcement-learning/exploration-strategies
  45. 강화학습 - (15) 입실론 그리디 - 금융덕후 - 티스토리, accessed July 10, 2025, https://jyoondev.tistory.com/148
  46. [CS246] Bandits (2) - Epsilon-Greedy Algorithm - 궁금한게많은joon - 티스토리, accessed July 10, 2025, https://trivia-starage.tistory.com/237
  47. 2.3 Softmax Action Selection, accessed July 10, 2025, http://incompleteideas.net/book/ebook/node17.html
  48. 강화 학습 기본 - ε-탐욕 정책(ε-greedy Policy) 그리고 ε-decay, accessed July 10, 2025, https://wnthqmffhrm.tistory.com/8
  49. [강화학습 입문] 탐험(Exploration)과 탐사(Exploitation)의 균형 - HB의 개발 블로그, accessed July 10, 2025, https://96hb.tistory.com/m/38
  50. 강화학습 - (25) 정책 근사 - 금융덕후, accessed July 10, 2025, https://jyoondev.tistory.com/163
  51. Boltzmann Exploration (softmax) efficient action probabilities update (and roulette wheel action selection) - Stack Overflow, accessed July 10, 2025, https://stackoverflow.com/questions/73405143/boltzmann-exploration-softmax-efficient-action-probabilities-update-and-roule
  52. Why epsilon greedy for action selection? : r/reinforcementlearning - Reddit, accessed July 10, 2025, https://www.reddit.com/r/reinforcementlearning/comments/qbb175/why_epsilon_greedy_for_action_selection/
  53. [강화학습] 08 - 큐러닝(QLearning) - 시나브로_개발자 성장기 - 티스토리, accessed July 10, 2025, https://developer-lionhong.tistory.com/16
  54. What is the difference between off-policy and on-policy learning? - Cross Validated, accessed July 10, 2025, https://stats.stackexchange.com/questions/184657/what-is-the-difference-between-off-policy-and-on-policy-learning
  55. Differences between Q-learning and SARSA - GeeksforGeeks, accessed July 10, 2025, https://www.geeksforgeeks.org/artificial-intelligence/differences-between-q-learning-and-sarsa/
  56. On-policy and off-policy Reinforcement Learning: Key features and differences - Ericsson, accessed July 10, 2025, https://www.ericsson.com/en/blog/2023/12/online-and-offline-reinforcement-learning-what-are-they-and-how-do-they-compare
  57. SARSA 알고리즘, accessed July 10, 2025, https://velog.io/@koyeongmin/SARSA
  58. [강화학습] 07 - 살사(SARSA) - 시나브로_개발자 성장기, accessed July 10, 2025, https://developer-lionhong.tistory.com/15
  59. Part2 - 8. SARSA : TD기법을 활용한 최적 정책 찾기, accessed July 10, 2025, https://hh-bigdata-career.tistory.com/14
  60. On-Policy VS Off-Policy in Reinforcement Learning - Lei Mao’s Log Book, accessed July 10, 2025, https://leimao.github.io/blog/RL-On-Policy-VS-Off-Policy/
  61. Why Q-Learning is considered an off-policy method? - Google Groups, accessed July 10, 2025, https://groups.google.com/g/rl-list/c/4Efnr0gXhAU
  62. Q Learning vs SARSA. Q-learning by Priyadarshini Tamilselvan Medium, accessed July 10, 2025, https://medium.com/@priya61197/q-learning-vs-sarsa-b9e433dec930
  63. Bootcamp Summer 2020 Week 4 – On-Policy vs Off-Policy Reinforcement Learning, accessed July 10, 2025, https://core-robotics.gatech.edu/2022/02/28/bootcamp-summer-2020-week-4-on-policy-vs-off-policy-reinforcement-learning/
  64. 강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based - velog, accessed July 10, 2025, https://velog.io/@kjb0531/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EA%B0%9C%EB%85%90%EC%A0%95%EB%A6%AC3
  65. Are off-policy learning methods better than on-policy methods? - Stack Overflow, accessed July 10, 2025, https://stackoverflow.com/questions/42606589/are-off-policy-learning-methods-better-than-on-policy-methods
  66. Sutton & Barto summary chap 11 - Off-policy methods for approximation lcalem, accessed July 10, 2025, https://lcalem.github.io/blog/2019/02/02/sutton-chap11
  67. [RL] 강화학습 이론: On-policy & Off-policy - 이것저것 테크블로그, accessed July 10, 2025, https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%A1%A0-On-policy-Off-policy
  68. [강화학습] On-Policy, Off-Policy, Online, Offline - Beom’s Blog, accessed July 10, 2025, https://jebeom.github.io/fundamental/policy_diff/
  69. Bootstrapping a DQN Replay Memory with Synthetic Experiences - arXiv, accessed July 10, 2025, https://arxiv.org/pdf/2002.01370
  70. Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization Request PDF - ResearchGate, accessed July 10, 2025, https://www.researchgate.net/publication/385749895_Overcoming_the_Curse_of_Dimensionality_in_Reinforcement_Learning_Through_Approximate_Factorization
  71. Curse of dimensionality - Wikipedia, accessed July 10, 2025, https://en.wikipedia.org/wiki/Curse_of_dimensionality
  72. 1.6 History of Reinforcement Learning - Rich Sutton, accessed July 10, 2025, http://incompleteideas.net/book/1/node7.html
  73. Mastering Atari Games with Q-Learning by AI_Pioneer AI monks.io - Medium, accessed July 10, 2025, https://medium.com/aimonks/mastering-atari-games-with-q-learning-c222800c7cb3
  74. (PDF) The Importance of Experience Replay Buffer Size in Deep Reinforcement Learning, accessed July 10, 2025, https://www.researchgate.net/publication/379190323_The_Importance_of_Experience_Replay_Buffer_Size_in_Deep_Reinforcement_Learning
  75. Reinforcement learning for continuous state and action space - Stack Overflow, accessed July 10, 2025, https://stackoverflow.com/questions/54051499/reinforcement-learning-for-continuous-state-and-action-space
  76. How to discretize continuous state-action spaces in Q-learning: A symbolic control approach, accessed July 10, 2025, https://arxiv.org/html/2406.01548v3
  77. Reinforcement Learning in Continuous State and Action Spaces Hado van Hasselt, accessed July 10, 2025, https://hadovanhasselt.com/wp-content/uploads/2015/12/rl_in_continuous_spaces.pdf
  78. Can Q-learning be used for continuous (state or action) spaces? - AI Stack Exchange, accessed July 10, 2025, https://ai.stackexchange.com/questions/12255/can-q-learning-be-used-for-continuous-state-or-action-spaces
  79. Can DQN learn with discrete state spaces? - Artificial Intelligence Stack Exchange, accessed July 10, 2025, https://ai.stackexchange.com/questions/45409/can-dqn-learn-with-discrete-state-spaces
  80. Strengths, Weaknesses, and Combinations of Model-based and Model-free Reinforcement Learning Kavosh Asadi Atui - ERA - University of Alberta, accessed July 10, 2025, https://era.library.ualberta.ca/items/5f163754-3a20-47a0-8649-14d1fd816671/view/1b83b444-8e86-42ae-aa91-2b0a185a6fa8/AsadiAtui_Kavosh_201510_MSc.pdf
  81. Deep Q Network (DQN) - Investment with engineering-ladder - 티스토리, accessed July 10, 2025, https://engineering-ladder.tistory.com/68
  82. Deep Q-Learning in Reinforcement Learning - GeeksforGeeks, accessed July 10, 2025, https://www.geeksforgeeks.org/deep-learning/deep-q-learning/
  83. Real-World Applications of Q-Learning: A Gentle Introduction - Avenga, accessed July 10, 2025, https://www.avenga.com/magazine/q-learning-applications/
  84. 딥마인드, 아타리 57개 모든 게임에서 ‘인간추월’ 성과 - 한겨레, accessed July 10, 2025, https://www.hani.co.kr/arti/science/future/935551.html
  85. [RL] 강화학습 알고리즘: (1) DQN (Deep Q-Network) - 이것저것 테크블로그 - 티스토리, accessed July 10, 2025, https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-1-DQN-Deep-Q-Network
  86. DeepMind 논문으로 보는 강화학습의 기초 - STEMentor - 티스토리, accessed July 10, 2025, https://stementor.tistory.com/entry/DeepMind-%EB%85%BC%EB%AC%B8%EC%9C%BC%EB%A1%9C-%EB%B3%B4%EB%8A%94-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5%EC%9D%98-%EA%B8%B0%EC%B4%88
  87. DQN: Integration of Deep Learning and Reinforcement Learning - Medium, accessed July 10, 2025, https://medium.com/@kdk199604/dqn-integration-of-deep-learning-and-reinforcement-learning-fd5cd8ba9ac8
  88. 멀티플레이어 게임에서의 강화학습 적용사례, accessed July 10, 2025, https://velog.io/@gogostimpack/%EB%A9%80%ED%8B%B0%ED%94%8C%EB%A0%88%EC%9D%B4%EC%96%B4-%EA%B2%8C%EC%9E%84%EC%97%90%EC%84%9C%EC%9D%98-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%A0%81%EC%9A%A9%EC%82%AC%EB%A1%80
  89. Explanation and Implementation of DQN with Tensorflow and Keras - Lukas Schwarz, accessed July 10, 2025, https://lukasschwarz.de/dqn
  90. The Importance Of Experience Replay In Reinforcement Learning - FasterCapital, accessed July 10, 2025, https://fastercapital.com/topics/the-importance-of-experience-replay-in-reinforcement-learning.html/1
  91. What is the Replay Buffer in DQN (Deep Q-Learning)? - Lazy Programmer, accessed July 10, 2025, https://lazyprogrammer.me/what-is-the-replay-buffer-in-dqn-deep-q-learning/
  92. What is “experience replay” and what are its benefits? - Data Science Stack Exchange, accessed July 10, 2025, https://datascience.stackexchange.com/questions/20535/what-is-experience-replay-and-what-are-its-benefits
  93. Revisiting Fundamentals of Experience Replay - Proceedings of Machine Learning Research, accessed July 10, 2025, https://proceedings.mlr.press/v119/fedus20a/fedus20a.pdf
  94. What are target networks in DQN? - Milvus, accessed July 10, 2025, https://milvus.io/ai-quick-reference/what-are-target-networks-in-dqn
  95. deep learning - Why is a target network required? - Stack Overflow, accessed July 10, 2025, https://stackoverflow.com/questions/54237327/why-is-a-target-network-required
  96. Deep Q-Network (DQN) Architecture DQN Explained - YouTube, accessed July 10, 2025, https://www.youtube.com/watch?v=M6tauX9ySoo
  97. How does Double DQN improve Q-learning? - Milvus, accessed July 10, 2025, https://milvus.io/ai-quick-reference/how-does-double-dqn-improve-qlearning
  98. Dueling DQN Practical Reinforcement Learning for Robotics and AI, accessed July 10, 2025, https://www.reinforcementlearningpath.com/dueling-dqn/
  99. Modeling Recommendation Systems as Reinforcement Learning Problem by Rohit Thakur, accessed July 10, 2025, https://medium.com/@rthakur4298/modeling-recommendation-systems-as-reinforcement-learning-problem-a250e0727ea3
  100. DQN, DDQN, D3QN 비교 - Don’t hesitate - 티스토리, accessed July 10, 2025, https://smj990203.tistory.com/54
  101. Difference between Dueling DQN and Double DQN? - Data Science Stack Exchange, accessed July 10, 2025, https://datascience.stackexchange.com/questions/52997/difference-between-dueling-dqn-and-double-dqn
  102. DQN(Deep Q-Networks) (2) - 독학 연구소 - 티스토리, accessed July 10, 2025, https://jvvp512.tistory.com/40
  103. Rainbow - DI-engine 0.1.0 documentation, accessed July 10, 2025, https://di-engine-docs.readthedocs.io/en/latest/12_policies/rainbow.html
  104. www.reinforcementlearningpath.com, accessed July 10, 2025, https://www.reinforcementlearningpath.com/dueling-dqn/#:~:text=Dueling%20DQN%20is%20a%20variant,specific%20action%20in%20that%20state
  105. Dueling Network Architectures for Deep Reinforcement Learning, accessed July 10, 2025, https://proceedings.mlr.press/v48/wangf16.pdf
  106. Dueling Network Architectures for Deep Reinforcement Learning - Samrat Sahoo, accessed July 10, 2025, https://samratsahoo.com/2025/04/01/dueling-dqn
  107. [논문 리뷰] Dueling Network Architectures for Deep Reinforcement Learning (Dueling DQN), accessed July 10, 2025, https://limepencil.tistory.com/42
  108. Prioritized Experience Replay - arXiv, accessed July 10, 2025, https://arxiv.org/pdf/1511.05952
  109. What is Prioritized Experience Replay (PER)? - Zilliz Vector Database, accessed July 10, 2025, https://zilliz.com/ai-faq/what-is-prioritized-experience-replay-per
  110. Understanding Prioritized Experience Replay - GeeksforGeeks, accessed July 10, 2025, https://www.geeksforgeeks.org/machine-learning/understanding-prioritized-experience-replay/
  111. Prioritized experience replay based on dynamics priority - PMC, accessed July 10, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10933423/
  112. Understanding Prioritized Experience Replay - Seita’s Place, accessed July 10, 2025, https://danieltakeshi.github.io/2019/07/14/per/
  113. Rainbow DQN Explained Papers With Code, accessed July 10, 2025, https://paperswithcode.com/method/rainbow-dqn
  114. paperswithcode.com, accessed July 10, 2025, https://paperswithcode.com/method/rainbow-dqn#:~:text=Rainbow%20DQN%20is%20an%20extended,Replay%20to%20prioritize%20important%20transitions.
  115. Rainbow DQN - AgileRL Documentation, accessed July 10, 2025, https://docs.agilerl.com/en/latest/api/algorithms/dqn_rainbow.html
  116. [D] Deep Q learning for continuous action space. : r/MachineLearning - Reddit, accessed July 10, 2025, https://www.reddit.com/r/MachineLearning/comments/bfny3m/d_deep_q_learning_for_continuous_action_space/
  117. Understanding Continuous Action Spaces with Actor-Critic methods (PPO) - Reddit, accessed July 10, 2025, https://www.reddit.com/r/MLQuestions/comments/9nofgi/understanding_continuous_action_spaces_with/
  118. Continuous Action Spaces : r/reinforcementlearning - Reddit, accessed July 10, 2025, https://www.reddit.com/r/reinforcementlearning/comments/e0hs8p/continuous_action_spaces/
  119. Actor-critic algorithm - Wikipedia, accessed July 10, 2025, https://en.wikipedia.org/wiki/Actor-critic_algorithm
  120. RL introduction: simple actor-critic for continuous actions by Andy Steinbach - Medium, accessed July 10, 2025, https://medium.com/@asteinbach/rl-introduction-simple-actor-critic-for-continuous-actions-4e22afb712
  121. 18.2 Q-Learning, accessed July 10, 2025, https://kenndanielso.github.io/mlrefined/blog_posts/18_Reinforcement_Learning_Foundations/18_2_Q_learning.html
  122. (4) 그리드월드와 다이내믹 프로그래밍 - Jang. Inspiration, accessed July 10, 2025, https://jang-inspiration.com/reinforcement-learning-4
  123. A Beginner’s Guide to Q-Learning: Understanding with a Simple …, accessed July 10, 2025, https://medium.com/@goldengrisha/a-beginners-guide-to-q-learning-understanding-with-a-simple-gridworld-example-2b6736e7e2c9
  124. python - Q Learning Applied To a Two Player Game - Stack Overflow, accessed July 10, 2025, https://stackoverflow.com/questions/49451366/q-learning-applied-to-a-two-player-game
  125. (PDF) Mobile Robot Navigation Based on Q-Learning Technique - ResearchGate, accessed July 10, 2025, https://www.researchgate.net/publication/221911117_Mobile_Robot_Navigation_Based_on_Q-Learning_Technique
  126. Reinforcement Learning and Its Applications in Finance - ResearchGate, accessed July 10, 2025, https://www.researchgate.net/publication/373119463_Reinforcement_Learning_and_Its_Applications_in_Finance
  127. Reinforcement Learning in Finance Planergy Software, accessed July 10, 2025, https://planergy.com/blog/reinforcement-learning-in-finance/
  128. Reinforcement learning for Stock Market Trading - Rohan Saphal, accessed July 10, 2025, https://rohansaphal97.github.io/files/rl_final_report.pdf
  129. MagnusPetersen/DQNRecommender - GitHub, accessed July 10, 2025, https://github.com/MagnusPetersen/DQNRecommender
  130. Deep Reinforcement Learning for Recommender Systems Shaped Blog, accessed July 10, 2025, https://www.shaped.ai/blog/deep-reinforcement-learning-for-recommender-systems–a-survey
  131. Deep Reinforcement Learning for List-wise Recommendations - arXiv, accessed July 10, 2025, https://arxiv.org/pdf/1801.00209
  132. Q-Learning, 모델 없이 학습하는 강화 학습, accessed July 10, 2025, https://dongdoridong.tistory.com/entry/Q-Learning-%EB%AA%A8%EB%8D%B8-%EC%97%86%EC%9D%B4-%ED%95%99%EC%8A%B5%ED%95%98%EB%8A%94-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5
  133. 10 Pros and Cons of Reinforcement Learning [2025] - DigitalDefynd, accessed July 10, 2025, https://digitaldefynd.com/IQ/reinforcement-learning-pros-cons/
  134. Model-Based vs. Model-Free Learning in RL - GeeksforGeeks, accessed July 10, 2025, https://www.geeksforgeeks.org/machine-learning/model-based-vs-model-free-learning-in-rl/
  135. What’s the difference between model-based and model-free reinforcement learning? : r/reinforcementlearning - Reddit, accessed July 10, 2025, https://www.reddit.com/r/reinforcementlearning/comments/1ibyio9/whats_the_difference_between_modelbased_and/
  136. How does Dyna-Q work? - Milvus, accessed July 10, 2025, https://milvus.io/ai-quick-reference/how-does-dynaq-work
  137. Dyna - Machine Learning Trading - OMSCS Notes, accessed July 10, 2025, https://www.omscs-notes.com/machine-learning-trading/dyna/
  138. Dyna Algorithm in Reinforcement Learning GeeksforGeeks, accessed July 10, 2025, https://www.geeksforgeeks.org/dyna-algorithm-in-reinforcement-learning/