Booil Jung

Q-테이블

강화학습(Reinforcement Learning, RL)은 에이전트(agent)가 환경(environment)과의 상호작용을 통해 누적 보상(cumulative reward)을 최대화하는 최적의 전략, 즉 정책(policy)을 학습하는 머신러닝의 한 분야이다.1 이 패러다임의 핵심에는 에이전트가 특정 상황에서 어떤 행동이 가장 가치 있는지를 평가하고 학습하는 메커니즘이 있으며, Q-테이블은 이러한 메커니즘을 가장 직관적으로 구현한 자료 구조이다. 본 장에서는 Q-테이블이 작동하는 근본적인 강화학습의 맥락을 설정하고, Q-테이블이 표현하고자 하는 이론적 대상인 Q-함수를 정의하며, Q-테이블 자체의 개념과 구조를 확립한다.

강화학습의 근간은 에이전트와 환경 간의 상호작용 루프에 있다. 이산적인 시간 단계(time step)에 걸쳐, 의사결정 주체인 에이전트는 환경의 현재 상태(state, s)를 관찰하고, 가능한 행동(action, a) 중 하나를 선택하여 수행한다.3 그러면 환경은 새로운 상태(s′)로 전이하고, 에이전트가 취한 행동의 결과에 대한 피드백으로 보상(reward, r)을 제공한다.3 에이전트의 궁극적인 목표는 이러한 일련의 상호작용을 통해 얻는 보상의 총합을 최대화하는 정책을 학습하는 것이다.4

이러한 학습 방식 중 Q-러닝은 모델-자유(model-free) 학습 기법의 대표적인 예이다.4 이는 에이전트가 환경의 작동 방식, 즉 특정 상태에서 특정 행동을 했을 때 어떤 상태로 전이될 확률(transition probability)이나 어떤 보상을 받을지(reward function)에 대한 사전 지식을 필요로 하지 않음을 의미한다.8 대신, 에이전트는 오직 시행착오(trial-and-error)를 통해 직접 경험한 결과로부터 최적의 행동 방침을 학습한다.10 이러한 특성은 Q-러닝에 강력한 유연성과 광범위한 적용 가능성을 부여한다.

Q-러닝의 중심에는 Q-함수(Q-function), 즉 상태-행동 가치 함수(state-action value function)가 있다.5 Q-함수는 $Q(s, a)$로 표기되며, 특정 상태 s에서 특정 행동 a를 취한 후, 그 이후부터 최적의 정책을 따랐을 때 받을 것으로 기대되는 누적 할인 보상(expected cumulative discounted reward)의 총합을 의미한다.1 다시 말해, 이는 특정 상태-행동 쌍의 장기적인 “가치” 또는 “질(Quality)”을 나타내는 척도이다.

알고리즘의 명칭에 포함된 ‘Q’는 바로 이 “Quality”에서 유래한 것으로, 1989년 크리스토퍼 왓킨스(Christopher Watkins)가 자신의 박사 학위 논문에서 이 용어를 처음 도입하며 상태-행동 쌍의 가치를 평가하는 개념을 강조했다.7

강화학습의 최종 목표는 최적 정책(π∗)을 찾는 것이다. 최적 정책은 어떤 상태에 있더라도 에이전트가 취해야 할 최상의 행동을 알려준다. 만약 우리가 최적의 Q-함수인 $Q^$를 알고 있다면, 최적 정책은 매우 간단하게 결정된다. 각 상태 $s$에서 가능한 모든 행동 $a$에 대한 $Q^(s, a)$ 값들 중 가장 큰 값을 만드는 행동을 선택하면 된다.5 이를 수식으로 표현하면 다음과 같다:

π∗(s)=aargmaxQ∗(s,a)

결국, Q-러닝의 학습 과정은 최적의 Q-함수인 $Q^*$를 점진적으로 근사해 나가는 과정이라고 할 수 있다.

Q-테이블은 상태와 행동 공간이 모두 이산적(discrete)이고 유한(finite)한 환경에서 Q-함수를 구현하는 가장 직접적이고 직관적인 방법이다.15 이는 본질적으로 에이전트가 학습한 지식을 저장하는 거대한 조회 테이블(lookup table) 또는 “치트 시트(cheat sheet)”와 같다.13

Q-테이블의 구조는 2차원 행렬로, 행(row)은 환경에서 가능한 모든 상태(S)를 나타내고, 열(column)은 에이전트가 취할 수 있는 모든 행동(A)을 나타낸다.10 테이블의 각 셀 (s, a)에는 해당 상태-행동 쌍의 Q-값, 즉 $Q(s, a)$가 저장된다. 이 구조는 모든 상태-행동 쌍과 그 가치를 명시적으로 매핑한다.

학습 과정은 이 Q-테이블을 초기화하는 것에서 시작된다. 일반적으로 모든 Q-값을 0이나 임의의 작은 값으로 초기화하는데, 이는 에이전트가 환경에 대해 아무런 지식이 없는 초기 상태를 의미한다.13 이후 에이전트가 환경을 탐험하며 경험을 쌓고 보상을 받음에 따라, 이 테이블의 값들은 점진적으로 업데이트되어 실제 최적 Q-값에 가까워지게 된다.

이처럼 Q-테이블의 단순함은 강화학습의 핵심 원리를 이해하는 데 매우 효과적인 교육적 도구가 된다. 그리드 월드(Grid World)와 같은 간단한 예제에서 Q-테이블의 값이 어떻게 업데이트되고 최적 경로를 찾아가는지를 시각적으로 추적하는 것은 매우 직관적이다. 그러나 바로 이 단순성, 즉 모든 상태-행동 쌍을 명시적으로 저장해야 하는 테이블 형식의 표현 방식이 Q-테이블의 근본적인 한계로 작용하며, 이는 4장에서 다룰 ‘차원의 저주’ 문제의 직접적인 원인이 된다.

Q-러닝의 핵심에는 에이전트가 경험을 통해 Q-테이블을 어떻게 점진적으로 개선해 나가는지에 대한 수학적 원리가 있다. 이 원리는 리처드 벨만(Richard Bellman)의 동적 계획법(Dynamic Programming)에서 유래한 벨만 방정식(Bellman Equation)에 깊이 뿌리내리고 있다. 본 장에서는 Q-러닝의 학습 엔진 역할을 하는 벨만 방정식과 이를 실제 알고리즘으로 구현한 Q-러닝 업데이트 규칙을 상세히 분석한다. 또한, 구체적인 예제를 통해 Q-값이 테이블 전체로 전파되며 학습이 이루어지는 과정을 단계별로 살펴본다.

벨만 방정식은 복잡한 순차적 의사결정 문제를 더 작고 관리하기 쉬운 재귀적 하위 문제로 분해하는 동적 계획법의 기본 원리이다.19 이 방정식의 핵심 아이디어는 특정 상태의 가치가 ‘즉각적인 보상’과 ‘그 상태에서 도달 가능한 다음 상태들의 할인된 최적 가치’의 합으로 표현될 수 있다는 것이다.21

Q-함수에 대한 벨만 최적 방정식(Bellman Optimality Equation)은 최적 Q-함수인 $Q^*$가 만족해야 하는 재귀적 관계를 정의한다.21 이는 다음과 같이 표현된다:

Q∗(s,a)=E

이 방정식은 상태 s에서 행동 a를 취했을 때의 최적 가치 $Q^(s, a)$는, 그 행동으로 인해 즉시 받게 될 보상 $R_{t+1}$과, 전이된 다음 상태 $s_{t+1}$에서 취할 수 있는 모든 행동 $a’$들 중에서 가장 큰 Q-값을 선택하여 할인율 γ를 적용한 값의 기댓값과 같다는 것을 의미한다. 이 방정식은 $Q^$를 자기 자신을 이용해 정의하므로, 이를 푸는 것이 Q-러닝의 목표가 된다.

모델-자유 환경에서는 환경의 전이 확률 $P(s’ s,a)$를 모르기 때문에 벨만 방정식을 직접 푸는 것이 불가능하다.4 Q-러닝은 이 문제를 시간차 학습(Temporal Difference, TD)이라는 영리한 접근법으로 해결한다. TD 학습은 실제 경험을 통해 얻은 단일 샘플을 사용하여 가치 함수를 점진적으로 업데이트하는 방식이다.4

Q-러닝의 핵심 업데이트 규칙은 다음과 같다 1:

Qnew(s,a)←Qold(s,a)+α[r+γa′maxQ(s′,a′)−Qold(s,a)]

이 수식은 “이전의 값과 새로운 정보의 가중합”을 이용하는 간단한 값 반복법이다.4 각 구성 요소를 자세히 살펴보면 다음과 같다.

이처럼 Q-러닝 업데이트 규칙은, 풀기 어려운 벨만 방정식을 직접 해결하는 대신, 매 경험마다 TD 타겟이라는 “더 나은 추정치”를 계산하고, 현재 Q-값을 그 방향으로 조금씩 수정해 나가는 단순하고 반복적인 과정으로 변환한다. 이는 “추측으로부터 또 다른 추측을 배우는(learning a guess from another guess)” 과정으로 볼 수 있으며 23, 모델 없이도 최적해를 찾아갈 수 있는 Q-러닝의 강력함의 원천이다.


표 1: Q-러닝 하이퍼파라미터 참조 가이드

하이퍼파라미터 기호 일반적인 범위 에이전트 행동에 미치는 역할 및 영향
학습률 (Learning Rate) α (0,1] 에이전트의 학습 속도를 제어. 높은 α: 빠른 학습, 잠재적 불안정성. 낮은 α: 느리지만 안정적인 학습. 1
할인 인자 (Discount Factor) γ [0,1) 즉각적 보상과 미래 보상의 균형을 조절. γ≈0: “근시안적” 에이전트, 단기 이익에 집중. γ≈1: “원시안적” 에이전트, 장기 보상을 위해 계획. 1
탐험률 (Exploration Rate) ϵ $$ (3장에서 상세히 설명) 탐험-활용 트레이드오프를 제어. 높은 ϵ: 무작위 탐험 증가. 낮은 ϵ: 알려진 좋은 행동 활용 증가. 24

Q-테이블 업데이트 과정을 직관적으로 이해하기 위해 간단한 그리드 월드 환경을 예로 들어보자. 이 환경은 에이전트(로봇)가 출발점(S)에서 시작하여 목표 지점(G)에 도달하는 것을 목표로 한다. 중간에는 함정(H)이 있어 피해야 하며, 나머지 칸은 일반 길(F)이다.5 목표 지점에 도달하면 +1의 보상을, 함정에 빠지면 -1의 보상을, 일반 길을 이동할 때는 작은 음수 보상(-0.01)을 주어 최대한 빠른 도착을 유도한다.

  1. Q-테이블 초기화

학습 시작 시, 에이전트는 환경에 대한 지식이 전무하므로 모든 상태-행동 쌍에 대한 Q-값을 0으로 채운 Q-테이블을 생성한다.10

  1. 첫 번째 에피소드 시뮬레이션 및 Q-값 전파

에이전트는 출발점에서 무작위 행동을 선택하며 탐험을 시작한다. 예를 들어, 에이전트가 여러 번의 시행착오 끝에 마침내 목표 지점(G)에 도달했다고 가정하자. 목표 직전 상태를 $s_{pre-goal}$이라 하고, 여기서 ‘오른쪽’으로 이동하여 목표에 도달했다고 하자.

이 업데이트로 인해, $Q(s_{pre-goal}, \text{오른쪽})$의 값은 0에서 0.1로 변경된다. 이제 spre−goal 상태는 ‘오른쪽’ 행동이 긍정적인 가치를 지닌다는 정보를 갖게 되었다.

다음 에피소드에서 에이전트가 spre−goal 상태의 이전 상태인 $s_{pre-pre-goal}$에서 $s_{pre-goal}$로 이동하는 경험을 한다고 가정하자.

이 과정을 통해 목표 지점의 긍정적 보상 신호가 마치 물결처럼 Q-테이블을 통해 점차 이전 상태들로 “역전파(back-propagate)”된다.21 수많은 에피소드를 반복하면서, 목표 지점으로 이어지는 경로 상의 상태-행동 쌍들은 점차 양의 Q-값을 갖게 되고, 함정으로 이어지는 경로들은 음의 Q-값을 갖게 된다. 결국, Q-테이블에는 목표 지점으로 향하는 일종의 “가치 경사(value gradient)”가 형성되어, 에이전트가 어떤 상태에서든 Q-값이 가장 높은 행동을 따라가기만 하면 최적 경로를 찾을 수 있게 된다.16 이것이 바로 Q-러닝의 학습 과정의 본질이다.

강화학습의 모든 에이전트는 근본적인 딜레마에 직면한다: 현재까지의 지식을 최대한 활용하여 최선의 결과를 얻을 것인가(활용, Exploitation), 아니면 더 나은 전략을 발견하기 위해 미지의 선택지를 시도해볼 것인가(탐험, Exploration). 이 두 가지 상충하는 목표 사이의 균형을 맞추는 것은 효과적인 학습을 위한 핵심 과제이다.8 본 장에서는 이 탐험-활용 딜레마를 심도 있게 분석하고, 이를 해결하기 위한 대표적인 전략인 입실론-그리디(Epsilon-Greedy) 정책을 살펴본다. 나아가, Q-러닝의 학습 방식(오프-폴리시)을 SARSA 알고리즘(온-폴리시)과 비교 분석함으로써, 이 딜레마에 대한 서로 다른 철학적 접근 방식과 그 실질적인 결과를 조명한다.

활용(Exploitation)은 에이전트가 현재 Q-테이블에 기반하여 가장 높은 가치를 가질 것으로 예상되는 행동을 선택하는 것을 의미한다.1 이는 현재까지 학습한 지식을 바탕으로 즉각적인 보상을 극대화하려는 전략이다. 예를 들어, 식당을 찾는 사람이 처음 발견한 괜찮아 보이는 식당에 바로 들어가는 것과 같다.25

탐험(Exploration)은 의도적으로 현재 최선이 아닌 다른 행동을 선택하여 환경에 대한 새로운 정보를 수집하는 행위이다.27 이는 단기적인 손실을 감수하더라도 장기적으로 더 나은 정책을 발견할 가능성을 열어두는 데 필수적이다. 여러 식당을 둘러보며 더 나은 곳이 있는지 확인하는 것에 비유할 수 있다.25

이 딜레마는 매우 중요하다. 만약 에이전트가 오직 활용만 한다면, 초기에 우연히 발견한 국소 최적해(local optimum)에 갇혀 전역 최적해(global optimum)를 결코 발견하지 못할 위험이 있다.25 반대로, 오직 탐험만 한다면, 이미 학습한 유용한 지식을 전혀 활용하지 못하고 비효율적인 무작위 행동만 반복하게 될 것이다.25 따라서 성공적인 강화학습 에이전트는 이 둘 사이에서 지능적인 균형을 유지해야 한다.

입실론-그리디 정책은 탐험과 활용의 균형을 맞추기 위한 가장 간단하면서도 널리 사용되는 전략이다.13 이 정책의 작동 방식은 다음과 같다.

탐험-활용 딜레마에 대처하는 방식은 알고리즘의 학습 철학과도 깊이 연관된다. 이는 온-폴리시(On-Policy) 학습과 오프-폴리시(Off-Policy) 학습이라는 두 가지 주요 패러다임으로 나타나며, 각각 SARSA와 Q-러닝이 대표적인 예이다.

SARSA 알고리즘 소개: SARSA는 Q-러닝과 매우 유사한 시간차 학습 알고리즘이다.4 이름은 업데이트에 사용되는 경험 튜플의 순서, 즉

State, Action, Reward, State, Action에서 유래했다.29

업데이트 규칙의 결정적 차이: 두 알고리즘의 근본적인 차이는 Q-값을 업데이트하는 방식에 있다.

실질적 의미와 결과: 이 미묘한 차이는 에이전트의 학습 방식과 최종 정책에 지대한 영향을 미친다.

“절벽 걷기(Cliff Walking)” 예제: 이 고전적인 예제는 두 알고리즘의 차이를 명확하게 보여준다.32 절벽 가장자리를 따라가는 것이 최단 경로(최적 정책)인 환경에서, Q-러닝은 탐험 중 절벽으로 떨어지는 큰 음의 보상을 무시하고 최단 경로를 학습한다. 반면 SARSA는 탐험 중 실제로 절벽에 떨어져 본 경험으로부터 학습하기 때문에, 절벽에서 멀리 떨어진 더 길지만 안전한 경로를 최종 정책으로 선택하게 된다.29

결론적으로, Q-러닝의 오프-폴리시 특성은 두 가지 중요한 함의를 갖는다. 첫째, 행동 정책과 무관하게 최적 정책을 학습할 수 있다는 유연성은 나중에 설명할 ‘경험 재현(Experience Replay)’과 같은 강력한 기법의 이론적 기반이 된다.1 둘째, 학습하는 가치와 실제 행동 사이의 이러한 불일치는 학습의 분산(variance)을 높여 불안정성을 야기하는 원인이 되기도 한다.30 이는 함수 근사 기법이 도입될 때 해결해야 할 주요 과제가 된다.


표 2: Q-러닝 vs. SARSA: 비교 분석

특징 Q-러닝 SARSA
정책 유형 오프-폴리시 (Off-Policy) 31 온-폴리시 (On-Policy) 31
학습 목표 에이전트의 현재 정책과 무관하게 최적 Q-함수(Q∗)를 직접 학습 에이전트가 현재 따르고 있는 정책(예: ϵ-greedy)에 대한 Q-함수를 학습
업데이트 규칙 요소 다음 상태에서 가능한 최대 가치인 max_a' Q(s', a')를 사용 30 다음 상태에서 실제로 취한 행동의 가치인 Q(s', a')를 사용 30
탐험 전략 “낙관적”. 가치 추정에 탐험의 잠재적 비용을 무시 32 “보수적/현실적”. 탐험적 행동의 비용을 가치 추정에 포함 32
수렴 속도 일반적으로 최적 정책으로 더 빠르게 수렴 31 탐험 전략에 묶여 있어 더 느릴 수 있음 31
주요 사용 사례 절대적인 최적 경로 탐색이 중요하고 탐험 위험이 낮은 환경 (예: 게임 시뮬레이션) 학습 중 안전이 중요하고 값비싼 실수를 피해야 하는 환경 (예: 실제 로봇) 30

지금까지 Q-테이블은 강화학습의 핵심 원리를 명쾌하게 설명하는 강력한 도구였다. 그러나 이 서사의 전환점에서, 우리는 Q-테이블이 가진 근본적인 취약점을 비판적으로 분석해야 한다. 바로 가장 단순한 문제를 제외한 거의 모든 현실 문제에서 Q-테이블을 비실용적으로 만드는 ‘차원의 저주(Curse of Dimensionality)’이다. 본 장에서는 이 문제가 어떻게 Q-테이블의 메모리, 학습 시간, 일반화 능력에 연쇄적인 붕괴를 일으키는지 설명하고, 이것이 왜 심층 강화학습으로의 패러다임 전환을 촉발했는지 논증한다.

‘차원의 저주’는 데이터의 상태를 설명하는 특징(차원)의 수가 증가함에 따라, 상태 공간의 전체 부피가 기하급수적으로 팽창하는 현상을 의미한다. 이로 인해 데이터 포인트들은 극도로 희소(sparse)하게 분포하게 되어 유의미한 패턴을 학습하기가 매우 어려워진다.35

Q-테이블에 이 개념을 적용하면 그 파괴력은 명확해진다. Q-테이블의 크기는 상태의 수 $ S $와 행동의 수 $ A $의 곱, 즉 $ S \times A $에 의해 결정된다. 상태를 정의하는 변수가 단 몇 개만 추가되어도 $ S $는 천문학적으로 증가한다. 예를 들어, 체스 게임의 가능한 상태 수는 약 $10^{120}$개에 달하며, 바둑은 그보다 훨씬 많다.37 비디오 게임에서 상태를 화면의 픽셀 데이터로 정의하는 경우를 생각해보자. 아타리 게임의 한 프레임(예: 210x160 픽셀, 128색)만으로도 가능한 상태의 수는 우주에 있는 원자의 수보다 많아진다.37 이러한 거대한 상태 공간을 담을 수 있는 Q-테이블을 생성하고 메모리에 저장하는 것은 물리적으로 불가능하다.17 이것이 테이블 방식이 가진 첫 번째이자 가장 극복하기 어려운 한계이다.8

약 무한한 메모리가 주어진다 해도 Q-테이블의 문제는 해결되지 않는다. 문제는 더욱 근본적인 차원에 존재한다.

이러한 문제들은 개별적인 단점이 아니라, Q-테이블의 근본적인 표현 방식에서 비롯된 필연적인 결과이다. 상태를 고유한 식별자로 취급하는 이산적인 테이블 구조는 메모리 문제(1차 효과), 시간 및 수렴 문제(2차 효과), 그리고 일반화 부재(3차 효과)라는 연쇄적인 실패를 낳는다. 이 인과 관계는 Q-테이블을 단순히 최적화하거나 개선하는 것만으로는 복잡한 문제를 해결할 수 없음을 명백히 보여준다. 필요한 것은 Q-함수를 표현하는 방식 자체에 대한 근본적인 패러다임 전환이었다.

Q-테이블이 직면한 ‘차원의 저주’라는 위기는 강화학습 분야에 혁신적인 해결책을 요구했다. 그 해답은 ‘함수 근사법(Function Approximation)’이라는 개념적 도약에서 나왔다. 이 접근법은 강화학습의 확장성을 극적으로 높였으며, 마침내 현대 심층 강화학습(Deep Reinforcement Learning, DRL)의 시대를 연 심층 Q-네트워크(Deep Q-Network, DQN)의 탄생으로 이어졌다. 본 장에서는 Q-테이블의 한계를 극복하기 위한 함수 근사법의 원리를 설명하고, 이것이 어떻게 심층 신경망과 결합하여 DQN이라는 강력한 모델로 진화했는지 그 과정을 추적한다.

함수 근사법의 핵심 아이디어는 거대한 Q-테이블을 명시적으로 저장하는 대신, 파라미터(θ)를 가진 함수 $Q(s, a; \theta)$를 사용하여 Q-함수를 근사하는 것이다.38 여기서 학습의 목표는 모든 상태-행동 쌍의 Q-값을 개별적으로 찾는 것이 아니라, 실제 Q-값을 가장 잘 추정하는 함수의 최적 파라미터 θ를 찾는 것으로 전환된다.22

이러한 접근 방식은 Q-테이블의 핵심 문제들을 정면으로 해결한다:

함수 근사법의 초기 시도는 선형 모델을 사용하는 것이었다. 이 방식에서는 Q-함수를 사전에 정의된 특징(feature)들의 선형 결합으로 표현한다. 예를 들어, $Q(s, a) = \sum_{i} \theta_i f_i(s, a)$와 같이, 상태와 행동으로부터 추출한 특징 벡터 $f(s, a)$와 가중치 벡터 θ의 내적으로 Q-값을 계산한다.38 이는 중요한 진전이었지만, 두 가지 큰 한계를 가졌다. 첫째, 효과적인 특징을 사람이 직접 설계해야 하는 ‘특징 공학(feature engineering)’ 과정이 매우 어렵고 많은 노력을 요구했다. 둘째, 문제의 본질이 비선형적일 경우 선형 모델로는 최적의 정책을 표현하기 어려웠다.38

이러한 한계는 딥러닝의 부상과 함께 극복되었다. 심층 신경망(Deep Neural Networks, DNNs)은 복잡한 비선형 관계를 모델링할 수 있는 강력한 범용 함수 근사기이다.38 특히, 심층 신경망은 원시 데이터(raw data)로부터 계층적인 특징을 자동으로 학습하는 능력이 뛰어나, 수동적인 특징 공학의 필요성을 제거했다.41

2013년과 2015년, 딥마인드(DeepMind) 연구팀은 심층 신경망을 Q-러닝에 성공적으로 결합하여 아타리(Atari) 비디오 게임을 원시 픽셀 입력만으로 인간 전문가 수준으로 플레이하는 인공지능을 개발했다고 발표했다.20 이것이 바로 ‘심층 Q-러닝’의 탄생이었고, 이 모델을 심층 Q-네트워크(DQN)라고 부른다.

DQN의 구조는 다음과 같다. 일반적으로 컨볼루션 신경망(Convolutional Neural Network, CNN)으로 구성된 심층 신경망이 상태 s(예: 게임 화면 픽셀 데이터)를 입력으로 받아, 가능한 모든 행동에 대한 Q-값을 담은 벡터를 출력한다.28 즉, 거대하고 이산적인 Q-테이블이 연속적이고 일반화 가능한 Q-네트워크로 완전히 대체된 것이다.44

학습 과정 역시 Q-러닝의 원리를 계승하면서 딥러닝의 방식으로 변환되었다. 네트워크의 가중치(θ)는 손실 함수(loss function)를 최소화하는 방향으로 경사 하강법(gradient descent)을 통해 업데이트된다. 이때 손실 함수는 주로 평균 제곱 오차(Mean Squared Error, MSE)를 사용하며, 네트워크가 예측한 Q-값과 벨만 방정식으로부터 계산된 TD 타겟 간의 차이를 측정한다.45

Loss(θ)=E[(r+γa′maxQ(s′,a′;θ)−Q(s,a;θ))2]

이처럼 DQN은 Q-러닝의 핵심적인 벨만 업데이트 원리를 딥러닝의 강력한 최적화 프레임워크와 우아하게 결합시켰다. DQN은 Q-러닝을 대체하는 새로운 알고리즘이 아니라, Q-러닝의 원리를 거대한 규모에서 실현 가능하게 만든 진화된 형태이다. TD 타겟을 계산하고 현재의 가치 추정치를 그 방향으로 업데이트한다는 근본적인 알고리즘의 DNA는 그대로 유지된 채, 가치를 저장하는 자료 구조(테이블에서 네트워크로)와 그 값을 업데이트하는 메커니즘(단일 셀 수정에서 경사 하강법으로)만이 변경된 것이다. 이 패러다임 전환은 강화학습이 해결할 수 있는 문제의 복잡성과 규모를 극적으로 확장시키는 계기가 되었다.


표 3: 테이블 방식 Q-러닝과 심층 Q-러닝(DQN) 비교

특징 테이블 방식 Q-러닝 (Q-Table) 심층 Q-러닝 (DQN)
표현 방식 이산적인 Q-테이블 (행렬) 17 신경망 (함수 근사기) 17
확장성 작고 이산적인 상태/행동 공간으로 제한됨. ‘차원의 저주’로 인해 실패. 17 고차원 및 연속적인 상태 공간(예: 이미지) 처리 가능. 17
일반화 없음. 상태 간 지식 공유 불가. 37 높음. 특징을 학습하여 유사하지만 새로운 상태에 대해 일반화. 17
메모리 요구사항 $ S
문제 해결 단순하고 잘 정의된 문제(예: 작은 미로)에 최적. 17 원시 감각 입력을 다루는 복잡한 문제(예: 비디오 게임, 로봇 공학)에 탁월. 17
해석 가능성 높음. Q-테이블은 투명하고 검사하기 쉬움. 17 낮음. 신경망은 “블랙박스”로, 의사 결정 과정의 해석이 어려움. 17

Q-러닝의 원칙은 딥러닝으로의 전환 과정에서 살아남았을 뿐만 아니라, 오늘날 수많은 최첨단 심층 강화학습(DRL) 알고리즘의 근간을 형성하며 그 유산을 이어가고 있다. 본 장에서는 Q-러닝의 역사적 중요성을 되짚어보고, DQN을 안정적으로 만든 핵심 혁신 기술들을 분석한다. 나아가, DQN의 핵심 논리를 개선하고 확장한 다양한 후속 알고리즘들을 살펴보며, Q-러닝의 원리가 어떻게 더 넓은 강화학습 생태계, 특히 액터-크리틱 및 연속 제어 분야로까지 확장되었는지 탐구한다.

Q-러닝의 여정은 1989년 크리스토퍼 왓킨스(Christopher Watkins)의 박사 학위 논문 “지연된 보상으로부터의 학습(Learning from Delayed Rewards)”에서 시작되었다.7 이 논문은 동적 계획법과 시간차(TD) 학습 사이의 중요한 다리를 놓았으며, 특정 조건 하에서 수렴이 보장되는 최초의 모델-자유, 오프-폴리시 강화학습 알고리즘을 제시했다.23 이후 1992년, 왓킨스와 피터 다얀(Peter Dayan)이 발표한 수렴 증명은 Q-러닝에 이론적 견고함을 더하며, 신뢰할 수 있는 방법론으로 자리매김하게 했다.7

Q-러닝의 가장 근본적인 유산은 ‘행동-가치(action-value)’, 즉 Q-값이라는 개념 그 자체이다. 특정 상태에서 특정 행동의 ‘질’을 평가하는 이 아이디어는 이후 등장하는 방대한 강화학습 알고리즘들의 핵심 구성 요소(building block)가 되었다.23

Q-러닝의 벨만 방정식을 이용한 업데이트(부트스트래핑)와 비선형 함수 근사기(신경망)의 결합은 본질적으로 불안정하여, 학습 과정이 발산하거나 심하게 진동할 수 있다.9 딥마인드는 이 문제를 해결하기 위해 두 가지 핵심적인 혁신을 도입했다.

기본적인 DQN의 성공 이후, 연구자들은 Q-러닝 프레임워크의 미묘한 약점들을 해결하기 위한 다양한 개선안을 제시했다.

Q-러닝의 유산은 가치 기반 방법론을 넘어 강화학습의 다른 영역으로까지 확장된다.

이러한 발전의 역사는 Q-러닝에서 시작된 핵심 아이디어들이 어떻게 문제점을 발견하고, 이를 체계적으로 해결하는 과정을 통해 현대의 정교한 DRL 알고리즘으로 진화해왔는지를 명확히 보여준다. 각각의 DQN 변종이나 액터-크리틱 방법론은 무작위적인 발명이 아니라, Q-러닝 프레임워크가 가진 특정 약점을 보완하기 위한 논리적이고 필연적인 결과물이었다.

본 보고서는 강화학습의 초석이 되는 Q-테이블의 개념적 기원부터 시작하여, 그 알고리즘적 작동 원리, 내재된 한계, 그리고 마침내 심층 강화학습 시대를 연 심층 Q-네트워크(DQN)로의 진화 과정을 포괄적으로 고찰했다. 마지막으로, Q-테이블에서 시작된 이 여정의 의미를 종합하고, 그 유산이 현대 인공지능 분야에서 어떻게 이어지고 있는지, 그리고 앞으로의 방향을 전망하며 분석을 마무리한다.

Q-테이블의 서사는 단순함과 강력함에서 시작하여, 그 구조적 한계로 인한 필연적 붕괴, 그리고 새로운 패러다임의 촉매제가 되기까지의 과정을 담고 있다.

초기에 Q-테이블은 작고 이산적인 환경에서 강화학습 문제를 해결하는 데 매우 효과적이고 직관적인 도구였다. 상태와 행동을 행과 열로 하는 명시적인 테이블 구조는 가치 기반, 모델-자유, 오프-폴리시 학습과 같은 강화학습의 핵심 개념을 이해하는 데 가장 이상적인 교육적 도구로 기능한다. 에이전트가 경험을 통해 테이블의 각 셀을 숫자로 채워나가며 최적의 길을 찾아가는 과정은 강화학습의 본질을 명쾌하게 보여준다.

그러나 Q-테이블의 바로 그 구조, 즉 모든 상태-행동 쌍을 개별적으로 저장해야 한다는 점은 ‘차원의 저주’라는 거대한 벽 앞에서 스스로의 종말을 예고했다. 상태 공간이 조금만 복잡해져도 테이블의 크기는 관리 불가능한 수준으로 폭발했고, 이는 메모리, 학습 시간, 일반화 능력의 부재라는 연쇄적인 문제로 이어졌다. Q-테이블의 실패는 단순한 기술적 한계가 아니었다. 이는 강화학습이 더 복잡하고 현실적인 문제로 나아가기 위해 반드시 넘어야 할 산이었으며, 이산적인 표현 방식에서 벗어나 일반화가 가능한 ‘함수 근사법’을 채택하도록 강제하는 결정적인 계기가 되었다.

결론적으로, Q-테이블의 가장 큰 유산은 그 성공이 아니라 역설적으로 그 실패에 있다. Q-테이블의 명백한 한계는 딥러닝과의 결합을 촉발했고, 심층 Q-네트워크(DQN)의 탄생을 이끌며 현대 심층 강화학습 혁명의 서막을 열었다. 따라서 Q-테이블은 강화학습의 역사에서 사라진 유물이 아니라, 다음 시대를 연 위대한 첫걸음으로 평가되어야 한다.

Q-러닝과 그 직계 후손인 DQN의 원리는 단순히 역사적 개념에 머무르지 않고, 오늘날에도 다양한 인공지능 분야에서 활발히 응용되고 있다. 특히 로봇 공학 분야에서 경로 계획, 자율 주행, 객체 조작과 같은 복잡한 문제 해결에 DQN 기반 알고리즘들이 적극적으로 활용되고 있다.73 이는 Q-값을 추정하고 이를 통해 정책을 개선한다는 근본적인 아이디어가 여전히 현대 AI 툴킷의 중요한 일부임을 증명한다.

앞으로의 전망 또한 Q-러닝의 유산 위에서 펼쳐질 것이다. 더 안정적이고, 더 효율적이며, 더 일반화 성능이 뛰어난 방식으로 행동-가치(Q-값)를 추정하고 전파하려는 연구는 강화학습 분야의 핵심적인 동력으로 계속 작용할 것이다. Double DQN, Dueling DQN, PER과 같은 개선안들을 넘어, 더 정교한 네트워크 아키텍처, 더 발전된 탐험 전략, 그리고 자기 지도 학습(self-supervised learning)과의 결합 등을 통해 가치 기반 강화학습은 계속해서 진화할 것이다.

1989년 크리스토퍼 왓킨스가 제시했던, 지연된 보상 속에서 행동의 ‘질(Quality)’을 학습한다는 단순하면서도 심오한 아이디어는, 수십 년이 지난 지금도 인공지능이 더 복잡한 세상과 상호작용하며 지능을 발전시켜 나가는 여정의 변치 않는 이정표로 남아 있다.76 Q-테이블에서 시작된 이 지적 탐구는 앞으로도 인공지능의 새로운 지평을 열어갈 것이다.

  1. Q-Learning Explained: Learn Reinforcement Learning Basics - Simplilearn.com, accessed July 11, 2025, https://www.simplilearn.com/tutorials/machine-learning-tutorial/what-is-q-learning
  2. Inside Reinforcement Learning. Part 1: A PhD Student’s Perspective on… by Krystie Dickson Jul, 2025 Medium, accessed July 11, 2025, https://medium.com/@krystiedickson/inside-reinforcement-learning-112ab51ae4e1
  3. Reinforcement Q-Learning from Scratch in Python with OpenAI Gym - LearnDataSci, accessed July 11, 2025, https://www.learndatasci.com/tutorials/reinforcement-q-learning-scratch-python-openai-gym/
  4. Q 러닝 - 위키백과, 우리 모두의 백과사전, accessed July 11, 2025, https://ko.wikipedia.org/wiki/Q_%EB%9F%AC%EB%8B%9D
  5. [강화학습] Q 러닝 이해하기 - Atom’s Space, accessed July 11, 2025, https://spacebike.tistory.com/53
  6. What is Q-Learning? Q-Learning Defined Dremio, accessed July 11, 2025, https://www.dremio.com/wiki/q-learning/
  7. Q-Learning - Synaptic Labs Blog, accessed July 11, 2025, https://blog.synapticlabs.ai/q-learning
  8. Q-learning algorithm - Educative.io, accessed July 11, 2025, https://www.educative.io/answers/q-learning-algorithm
  9. Q-learning - Wikipedia, accessed July 11, 2025, https://en.wikipedia.org/wiki/Q-learning
  10. Q-Learning in Reinforcement Learning - GeeksforGeeks, accessed July 11, 2025, https://www.geeksforgeeks.org/machine-learning/q-learning-in-python/
  11. What is Q-Learning? - Wandb, accessed July 11, 2025, https://wandb.ai/cosmo3769/Q-Learning/reports/What-is-Q-Learning—Vmlldzo1NTI1NzE0
  12. Mastering Q-Learning in AI - Number Analytics, accessed July 11, 2025, https://www.numberanalytics.com/blog/mastering-q-learning-in-ai
  13. deep-rl-class/units/en/unit2/q-learning.mdx at main / huggingface …, accessed July 11, 2025, https://github.com/huggingface/deep-rl-class/blob/main/units/en/unit2/q-learning.mdx
  14. Origins of Reinforcement Learning in AI by alvin rogers - Medium, accessed July 11, 2025, https://medium.com/@rogers.alvin/origins-of-reinforcement-learning-in-ai-74fe2945fda1
  15. velog.io, accessed July 11, 2025, https://velog.io/@euisuk-chung/%EC%84%A4%EB%AA%85%EC%B6%94%EA%B0%80-Q-Learning-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5%EC%9D%98-%ED%95%B5%EC%8B%AC-%EA%B0%9C%EB%85%90%EA%B3%BC-%EC%9D%B4%ED%95%B4#:~:text=6.-,Q%2DTable%EC%9D%B4%EB%9E%80%3F,%EC%9D%98%20%ED%96%89%EB%8F%99%EC%9D%84%20%ED%95%99%EC%8A%B5%ED%95%A9%EB%8B%88%EB%8B%A4.
  16. Reinforcement Learning Explained Visually (Part 4): Q Learning, step-by-step, accessed July 11, 2025, https://towardsdatascience.com/reinforcement-learning-explained-visually-part-4-q-learning-step-by-step-b65efb731d3e/
  17. Difference Between Q Learning and Deep Q Learning - BytePlus, accessed July 11, 2025, https://www.byteplus.com/en/topic/514150
  18. [모두RL-(2)] Dummy Q-Learning (table) - 딥러닝 소터디 - 티스토리, accessed July 11, 2025, https://sotudy.tistory.com/34
  19. Understanding the Bellman Equation in Reinforcement Learning …, accessed July 11, 2025, https://www.datacamp.com/tutorial/bellman-equation-reinforcement-learning
  20. Reinforcement Learning: Deep Q-Learning by Simon Palma - Medium, accessed July 11, 2025, https://medium.com/@simon.palma/reinforcement-learning-deep-q-learning-8dc006dad2bb
  21. Bellman Equation - GeeksforGeeks, accessed July 11, 2025, https://www.geeksforgeeks.org/machine-learning/bellman-equation/
  22. Lecture 10: Q-Learning, Function Approximation, Temporal Difference Learning - Dimitrios Katselis, accessed July 11, 2025, http://katselis.web.engr.illinois.edu/ECE586/Lecture10.pdf
  23. How was the term ‘Q-learning’ coined? - Quora, accessed July 11, 2025, https://www.quora.com/How-was-the-term-Q-learning-coined
  24. What is an epsilon-greedy policy? - Milvus, accessed July 11, 2025, https://milvus.io/ai-quick-reference/what-is-an-epsilongreedy-policy
  25. Balancing Exploration and Exploitation with Epsilon-Greedy Strategy CodeSignal Learn, accessed July 11, 2025, https://codesignal.com/learn/courses/game-on-integrating-rl-agents-with-environments/lessons/balancing-exploration-and-exploitation-with-epsilon-greedy-strategy
  26. (4) 그리드월드와 다이내믹 프로그래밍 - Jang. Inspiration, accessed July 11, 2025, https://jang-inspiration.com/reinforcement-learning-4
  27. Exploration–exploitation dilemma - Wikipedia, accessed July 11, 2025, https://en.wikipedia.org/wiki/Exploration%E2%80%93exploitation_dilemma
  28. 강화 학습 (DQN) 튜토리얼, accessed July 11, 2025, https://tutorials.pytorch.kr/intermediate/reinforcement_q_learning.html
  29. What is the difference between Q-learning and SARSA learning? - Quora, accessed July 11, 2025, https://www.quora.com/What-is-the-difference-between-Q-learning-and-SARSA-learning
  30. When to choose SARSA vs. Q Learning - Cross Validated - Stack Exchange, accessed July 11, 2025, https://stats.stackexchange.com/questions/326788/when-to-choose-sarsa-vs-q-learning
  31. Differences between Q-learning and SARSA - GeeksforGeeks, accessed July 11, 2025, https://www.geeksforgeeks.org/artificial-intelligence/differences-between-q-learning-and-sarsa/
  32. Q Learning vs SARSA. Q-learning by Priyadarshini Tamilselvan Medium, accessed July 11, 2025, https://medium.com/@priya61197/q-learning-vs-sarsa-b9e433dec930
  33. What is the difference between Q-learning and SARSA? - Milvus, accessed July 11, 2025, https://milvus.io/ai-quick-reference/what-is-the-difference-between-qlearning-and-sarsa
  34. Q-Learning and SARSA in RL - Similarities and Differences Explained Dilith Jayakody, accessed July 11, 2025, https://dilithjay.com/blog/q-learning-and-sarsa
  35. 차원의 저주 개념, 발생 원인과 해결 방법, accessed July 11, 2025, https://for-my-wealthy-life.tistory.com/40
  36. [딥러닝] 차원의 저주 (Curse of dimensionality) 해설, 정리, 요약 - START_101 - 티스토리, accessed July 11, 2025, https://hyunhp.tistory.com/745
  37. Convergence time of Q-learning Vs Deep Q-learning - Stack Overflow, accessed July 11, 2025, https://stackoverflow.com/questions/67261599/convergence-time-of-q-learning-vs-deep-q-learning
  38. Q-function approximation - Mastering Reinforcement Learning, accessed July 11, 2025, https://gibberblot.github.io/rl-notes/single-agent/function-approximation.html
  39. Deep Q-Learning (DQN) - Medium, accessed July 11, 2025, https://medium.com/@samina.amin/deep-q-learning-dqn-71c109586bae
  40. Provably Efficient Q-learning with Function Approximation via Distribution Shift Error Checking Oracle - NIPS, accessed July 11, 2025, http://papers.neurips.cc/paper/9018-provably-efficient-q-learning-with-function-approximation-via-distribution-shift-error-checking-oracle.pdf
  41. DQN - 나무위키, accessed July 11, 2025, https://namu.wiki/w/DQN
  42. [RL] 강화학습 알고리즘: (1) DQN (Deep Q-Network) - 이것저것 테크블로그 - 티스토리, accessed July 11, 2025, https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-1-DQN-Deep-Q-Network
  43. Q-Learning equation in Deep Q Network - Stack Overflow, accessed July 11, 2025, https://stackoverflow.com/questions/50581232/q-learning-equation-in-deep-q-network
  44. Reinforcement Learning Explained Visually (Part 5): Deep Q Networks, step-by-step, accessed July 11, 2025, https://towardsdatascience.com/reinforcement-learning-explained-visually-part-5-deep-q-networks-step-by-step-5a5317197f4b/
  45. The Deep Q-Learning Algorithm - Hugging Face Deep RL Course, accessed July 11, 2025, https://huggingface.co/learn/deep-rl-course/unit3/deep-q-algorithm
  46. Deep Q-Networks Explained - Number Analytics, accessed July 11, 2025, https://www.numberanalytics.com/blog/deep-q-networks-explained
  47. Experience Replay Explained - Papers With Code, accessed July 11, 2025, https://paperswithcode.com/method/experience-replay
  48. What is the Replay Buffer in DQN (Deep Q-Learning)? - Lazy Programmer, accessed July 11, 2025, https://lazyprogrammer.me/what-is-the-replay-buffer-in-dqn-deep-q-learning/
  49. Deep Reinforcement Learning with Experience Replay by Hey Amit - Medium, accessed July 11, 2025, https://medium.com/@heyamit10/deep-reinforcement-learning-with-experience-replay-1222ea711897
  50. What is “experience replay” and what are its benefits? - Data Science Stack Exchange, accessed July 11, 2025, https://datascience.stackexchange.com/questions/20535/what-is-experience-replay-and-what-are-its-benefits
  51. Reinforcement Learning with Deep Q-Networks (DQN) by Old Noisy Speaker Medium, accessed July 11, 2025, https://medium.com/@old.noisy.speaker/reinforcement-learning-with-deep-q-networks-dqn-d56990c78179
  52. What are target networks in DQN? - Milvus, accessed July 11, 2025, https://milvus.io/ai-quick-reference/what-are-target-networks-in-dqn
  53. How does Deep Q-Networks (DQN) work? - BytePlus, accessed July 11, 2025, https://www.byteplus.com/en/topic/400784
  54. Dueling Double Deep Q Learning using Tensorflow 2.x - Towards Data Science, accessed July 11, 2025, https://towardsdatascience.com/dueling-double-deep-q-learning-using-tensorflow-2-x-7bbbcec06a2a/
  55. Double Deep Q Networks. Tackling maximization bias in Deep… by Chris Yoon TDS Archive Medium, accessed July 11, 2025, https://medium.com/data-science/double-deep-q-networks-905dd8325412
  56. Double Q-learning - NIPS, accessed July 11, 2025, https://proceedings.neurips.cc/paper/3964-double-q-learning.pdf
  57. How does Double DQN improve Q-learning? - Milvus, accessed July 11, 2025, https://milvus.io/ai-quick-reference/how-does-double-dqn-improve-qlearning
  58. DDQN: Tackling Overestimation Bias in Deep Reinforcement Learning by Dong-Keon Kim, accessed July 11, 2025, https://medium.com/@kdk199604/ddqn-tackling-overestimation-bias-in-deep-reinforcement-learning-b1b0d6fa72a4
  59. Dueling Network Explained Papers With Code, accessed July 11, 2025, https://paperswithcode.com/method/dueling-network
  60. Dueling Network Architectures for Deep Reinforcement Learning, accessed July 11, 2025, https://proceedings.mlr.press/v48/wangf16.pdf
  61. milvus.io, accessed July 11, 2025, https://milvus.io/ai-quick-reference/what-is-prioritized-experience-replay-per#:~:text=Prioritized%20Experience%20Replay%20(PER)%20is,randomly%20samples%20them%20during%20training.
  62. What is Prioritized Experience Replay (PER)? - Milvus, accessed July 11, 2025, https://milvus.io/ai-quick-reference/what-is-prioritized-experience-replay-per
  63. Prioritized Experience Replay Explained Papers With Code, accessed July 11, 2025, https://paperswithcode.com/method/prioritized-experience-replay
  64. Understanding Prioritized Experience Replay - GeeksforGeeks, accessed July 11, 2025, https://www.geeksforgeeks.org/machine-learning/understanding-prioritized-experience-replay/
  65. Actor-critic algorithm - Wikipedia, accessed July 11, 2025, https://en.wikipedia.org/wiki/Actor-critic_algorithm
  66. 6.6 Actor-Critic Methods, accessed July 11, 2025, http://incompleteideas.net/book/ebook/node66.html
  67. Actor-critic methods - Mastering Reinforcement Learning, accessed July 11, 2025, https://gibberblot.github.io/rl-notes/single-agent/actor-critic.html
  68. Actor-critic methods – Mastering Reinforcement Learning, accessed July 11, 2025, https://uq.pressbooks.pub/mastering-reinforcement-learning/chapter/actor-critic-methods/
  69. Advantage Actor Critic Tutorial: minA2C Towards Data Science, accessed July 11, 2025, https://towardsdatascience.com/advantage-actor-critic-tutorial-mina2c-7a3249962fc8/
  70. Deep Deterministic Policy Gradient - Spinning Up documentation - OpenAI, accessed July 11, 2025, https://spinningup.openai.com/en/latest/algorithms/ddpg.html
  71. What is a deep deterministic policy gradient (DDPG)? - Milvus, accessed July 11, 2025, https://milvus.io/ai-quick-reference/what-is-a-deep-deterministic-policy-gradient-ddpg
  72. How DDPG (Deep Deterministic Policy Gradient) Algorithms works in reinforcement learning ? by Amaresh Marekar Medium, accessed July 11, 2025, https://medium.com/@amaresh.dm/how-ddpg-deep-deterministic-policy-gradient-algorithms-works-in-reinforcement-learning-117e6a932e68
  73. Deep reinforcement learning and robust SLAM based robotic control algorithm for self-driving path optimization - Frontiers, accessed July 11, 2025, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2024.1428358/full
  74. Path planning of mobile robot based on improved double deep Q-network algorithm, accessed July 11, 2025, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2025.1512953/full
  75. Deep Q-Networks in Robotics - Number Analytics, accessed July 11, 2025, https://www.numberanalytics.com/blog/deep-q-networks-in-robotics
  76. The Roots of AI: Q-Learning (1989) - YouTube, accessed July 11, 2025, https://www.youtube.com/watch?v=6RJQcNbA2yk