16.44 해밀턴 역학과 최적 제어 이론의 관계

1. 개요

해밀턴 역학과 최적 제어 이론(optimal control theory)은 구조적으로 깊이 연관되어 있다. 최적 제어 문제의 필요 조건은 해밀턴 역학의 정준 방정식과 유사한 형식으로 표현되며, 해밀턴 주함수는 최적 제어의 가치 함수와 대응된다. 본 절에서는 두 이론 사이의 구조적 관계를 체계적으로 다룬다. 최적 제어 문제의 정식화, 해밀턴 방정식의 출현, 퐁트랴긴 최소 원리의 기본 구조, 해밀턴-야코비-벨만 방정식과 해밀턴-야코비 방정식의 관계, 그리고 로봇공학에서의 의의를 논의한다.

2. 최적 제어 문제의 정식화

2.1 일반 형식

최적 제어 문제는 다음과 같이 정식화된다. 상태 방정식

$\dot{\mathbf{x}} = \mathbf{f}(\mathbf{x}, \mathbf{u}, t)$

에 종속된 시스템에 대해, 비용 함수

$J[\mathbf{u}] = \phi(\mathbf{x}(t_f), t_f) + \int_{t_0}^{t_f}L(\mathbf{x}(t), \mathbf{u}(t), t)\,dt$

를 최소화하는 제어 입력 $\mathbf{u}(t)$ 를 결정한다. 여기서 $\mathbf{x}\in\mathbb{R}^n$ 은 상태, $\mathbf{u}\in\mathbb{R}^m$ 은 제어 입력, $L$ 은 운영 비용, $\phi$ 는 종단 비용이다.

2.2 경계 조건

경계 조건은 문제의 종류에 따라 다양하게 설정된다.

초기 조건: $\mathbf{x}(t_0) = \mathbf{x}_0$ (주어진 초기 상태)
종단 조건: $\mathbf{x}(t_f)$ 가 고정, 자유, 또는 제약 집합에 속함
시간 조건: $t_f$ 가 고정 또는 자유

2.3 제어 제약

제어 입력이 허용 제어 집합 $\mathcal{U}\subset\mathbb{R}^m$ 에 속해야 한다는 제약이 일반적이다.

$\mathbf{u}(t)\in\mathcal{U}\quad\forall t\in[t_0, t_f]$

3. 변분 원리와 해밀턴 형식

3.1 작용 범함수의 구성

최적 제어 문제를 변분 원리의 관점에서 접근하기 위해 라그랑주 승수 $\boldsymbol{\lambda}(t)$ 를 도입하여 증대된 작용 범함수를 정의한다.

$\tilde J = \phi(\mathbf{x}(t_f), t_f) + \int_{t_0}^{t_f}\left[L(\mathbf{x}, \mathbf{u}, t) + \boldsymbol{\lambda}^\top(\mathbf{f}(\mathbf{x}, \mathbf{u}, t) - \dot{\mathbf{x}})\right]dt$

여기서 $\boldsymbol{\lambda}(t)$ 는 공상태 변수(costate variable) 또는 수반 변수(adjoint variable)이다.

3.2 제어 해밀터니안

제어 해밀터니안(control Hamiltonian)은 다음과 같이 정의된다.

$\mathcal{H}(\mathbf{x}, \mathbf{u}, \boldsymbol{\lambda}, t) = L(\mathbf{x}, \mathbf{u}, t) + \boldsymbol{\lambda}^\top\mathbf{f}(\mathbf{x}, \mathbf{u}, t)$

이 해밀터니안은 물리학의 해밀터니안과 구조적으로 유사하지만, 제어 입력 $\mathbf{u}$ 를 추가 변수로 포함한다.

3.3 변분의 수행

증대된 작용의 변분 $\delta\tilde J = 0$ 을 적용하고 부분 적분을 수행하면 다음의 조건을 얻는다.

상태 방정식: $\dot{\mathbf{x}} = \frac{\partial \mathcal{H}}{\partial \boldsymbol{\lambda}} = \mathbf{f}(\mathbf{x}, \mathbf{u}, t)$
수반 방정식: $\dot{\boldsymbol{\lambda}} = -\frac{\partial \mathcal{H}}{\partial \mathbf{x}}$
고정점 조건: $\frac{\partial \mathcal{H}}{\partial \mathbf{u}} = 0$
경계 조건: $\boldsymbol{\lambda}(t_f) = \frac{\partial \phi}{\partial \mathbf{x}}(\mathbf{x}(t_f), t_f)$ (자유 종단의 경우)

처음 두 조건은 해밀턴 정준 방정식과 구조적으로 일치한다. $\mathbf{x}$ 와 $\boldsymbol{\lambda}$ 는 각각 좌표와 운동량의 역할을 한다.

3.4 해밀턴 역학과의 형식적 대응

물리학의 해밀턴 역학과 최적 제어의 구조적 대응은 다음과 같다.

좌표 $\mathbf{q}$ ↔ 상태 $\mathbf{x}$
운동량 $\mathbf{p}$ ↔ 공상태 $\boldsymbol{\lambda}$
해밀터니안 $H$ ↔ 제어 해밀터니안 $\mathcal{H}$
정준 방정식 ↔ 상태 방정식과 수반 방정식
해밀턴 원리 ↔ 비용 최소화 원리

이러한 대응은 최적 제어 이론이 해밀턴 역학의 자연스러운 확장임을 보여준다.

4. 퐁트랴긴 최소 원리

4.1 원리의 진술

퐁트랴긴(Pontryagin) 최소 원리는 최적 제어의 필요 조건을 제공한다. 최적 제어 $\mathbf{u}^*(t)$ 가 각 시각에서 제어 해밀터니안을 최소화한다.

$\mathbf{u}^*(t) = \arg\min_{\mathbf{u}\in\mathcal{U}}\mathcal{H}(\mathbf{x}^*(t), \mathbf{u}, \boldsymbol{\lambda}^*(t), t)$

이는 제어 입력이 제약 집합에 있는 경우에도 유효하며, 고정점 조건 $\frac{\partial\mathcal{H}}{\partial\mathbf{u}} = 0$ 보다 일반적이다.

4.2 원리의 의의

퐁트랴긴 최소 원리는 고전 변분법의 오일러-라그랑주 접근을 확장한 것으로, 제어 제약이 있는 경우에도 최적성 조건을 제공한다. 1950년대 후반에 퐁트랴긴과 그의 제자들에 의해 확립된 이 원리는 최적 제어 이론의 기본 정리로 자리 잡았다.

4.3 제약이 있는 경우의 해밀터니안 구조

제어 제약이 있는 경우 고정점 조건이 성립하지 않을 수 있으며, 대신 해밀터니안을 최소화하는 제어가 경계에서 결정된다. 이는 뱅뱅 제어(bang-bang control)와 같은 특수한 형태의 최적 제어를 발생시킨다.

4.4 수반 변수의 물리적 해석

수반 변수 $\boldsymbol{\lambda}$ 는 비용 함수의 민감도로 해석된다. 즉 $\lambda_i$ 는 상태 변수 $x_i$ 의 미소 변화에 대한 최적 비용의 변화율을 나타낸다. 이는 가치 함수(value function)의 그래디언트에 해당한다.

5. 해밀턴-야코비-벨만 방정식

5.1 가치 함수의 정의

최적 제어 문제의 가치 함수(value function)는 주어진 시각과 상태에서 출발하여 최적 제어를 적용할 때의 최소 비용으로 정의된다.

$V(\mathbf{x}, t) = \min_{\mathbf{u}}\left[\phi(\mathbf{x}(t_f), t_f) + \int_{t}^{t_f}L(\mathbf{x}(s), \mathbf{u}(s), s)\,ds\right]$

여기서 최소화는 $(\mathbf{x}(s), \mathbf{u}(s))$ 가 상태 방정식을 만족하고 $\mathbf{x}(t) = \mathbf{x}$ 라는 조건 아래에서 수행된다.

5.2 벨만의 최적성 원리

벨만(Bellman)의 최적성 원리는 다음과 같이 진술된다.

최적 궤적의 어떤 중간 시점으로부터의 나머지 부분은 그 중간 시점의 상태를 초기 상태로 하는 문제의 최적 궤적이다.

이 원리는 동적 계획법(dynamic programming)의 기반이며, 가치 함수의 편미분 방정식을 유도하는 데 사용된다.

5.3 해밀턴-야코비-벨만 방정식

가치 함수가 만족하는 편미분 방정식은 해밀턴-야코비-벨만(Hamilton-Jacobi-Bellman, HJB) 방정식이다.

$\frac{\partial V}{\partial t} + \min_{\mathbf{u}\in\mathcal{U}}\left[L(\mathbf{x}, \mathbf{u}, t) + \nabla V\cdot\mathbf{f}(\mathbf{x}, \mathbf{u}, t)\right] = 0$

경계 조건은 $V(\mathbf{x}, t_f) = \phi(\mathbf{x}, t_f)$ 이다.

5.4 해밀턴-야코비 방정식과의 관계

HJB 방정식은 고전 해밀턴-야코비 방정식의 직접적 확장이다. 제어 해밀터니안을 최소화한 결과의 해밀터니안을 $H^*(\mathbf{x}, \nabla V, t)$ 라 하면 HJB 방정식은 다음과 같이 쓰여진다.

$\frac{\partial V}{\partial t} + H^*(\mathbf{x}, \nabla V, t) = 0$

이는 고전 해밀턴-야코비 방정식과 형식적으로 동일하다. 가치 함수는 고전 역학의 해밀턴 주함수에 대응한다.

5.5 최적 피드백 제어

HJB 방정식의 해인 가치 함수로부터 최적 피드백 제어를 직접 구성할 수 있다.

$\mathbf{u}^*(\mathbf{x}, t) = \arg\min_{\mathbf{u}\in\mathcal{U}}\left[L(\mathbf{x}, \mathbf{u}, t) + \nabla V\cdot\mathbf{f}(\mathbf{x}, \mathbf{u}, t)\right]$

이러한 피드백 형식은 전역 최적 제어를 제공하며, 상태에 대한 폐루프(closed-loop) 제어 법칙을 정의한다.

6. 두 정식화의 관계

6.1 필요 조건과 충분 조건

퐁트랴긴 최소 원리: 최적성의 필요 조건을 제공한다. 궤적을 따라 성립하는 지역적 조건이다.
HJB 방정식: 최적성의 충분 조건을 포함한다. 가치 함수의 전역적 특성에 기반한다.

두 접근은 동등한 해를 제공하지만, 서로 다른 관점을 취한다. 퐁트랴긴 접근은 특정 궤적의 최적성을 분석하며, HJB 접근은 상태 공간 전체의 최적 제어를 탐색한다.

6.2 수반 변수와 가치 함수의 관계

수반 변수와 가치 함수의 그래디언트 사이에는 다음의 관계가 성립한다.

$\boldsymbol{\lambda}(t) = \nabla V(\mathbf{x}^*(t), t)$

이는 퐁트랴긴 접근의 수반 변수가 HJB 접근의 가치 함수 그래디언트와 일치함을 보여준다. 이 관계는 두 접근의 구조적 동등성의 핵심이다.

6.3 해밀턴 원리의 구조

두 접근 모두 변분 원리와 해밀턴 형식의 구조를 공유한다. 이는 최적 제어 이론이 해밀턴 역학의 구조적 일반화임을 시사하며, 고전 역학의 도구와 기법이 최적 제어에 체계적으로 적용될 수 있음을 의미한다.

7. 특수한 경우

7.1 선형 이차 문제

상태 방정식이 선형이고 비용 함수가 이차 형식인 경우, 선형 이차(linear quadratic, LQ) 최적 제어 문제가 된다. 이 경우 HJB 방정식은 리카티 방정식(Riccati equation)으로 환원되며, 해석적 해가 존재한다.

$\mathbf{u}^* = -\mathbf{K}(t)\mathbf{x}$

여기서 $\mathbf{K}(t)$ 는 리카티 방정식의 해로부터 계산된 피드백 이득이다.

7.2 최단 시간 문제

비용 함수가 $\int dt = t_f - t_0$ 인 최단 시간 문제의 최적 해는 일반적으로 뱅뱅 제어 형태를 가진다. 제어가 제약 경계 사이를 순간적으로 전환하며, 스위칭 시각은 해밀턴 역학의 수반 방정식으로 결정된다.

7.3 에너지 최적 제어

에너지 소비를 최소화하는 최적 제어 문제는 비용 함수를 $\int \|\mathbf{u}\|^2 dt$ 로 설정한다. 이러한 문제의 해는 매끄러운 제어 입력을 산출하며, 로봇 시스템의 에너지 효율적 동작 계획에 활용된다.

8. 로봇공학에서의 응용

8.1 로봇 궤적 계획

로봇의 최적 궤적 계획은 전형적 최적 제어 문제이다. 매니퓰레이터의 점-대-점 궤적, 이동 로봇의 경로 생성, 드론의 비행 궤적 등에서 퐁트랴긴 최소 원리와 HJB 방정식이 활용된다.

8.2 모델 예측 제어

모델 예측 제어(model predictive control, MPC)는 각 시각에서 유한 구간의 최적 제어 문제를 반복적으로 풀어 피드백 제어를 구성하는 기법이다. 퐁트랴긴 접근은 MPC의 계산에 자주 사용된다.

8.3 강화 학습과의 연결

강화 학습의 가치 함수는 HJB 방정식의 이산화된 대응물인 벨만 방정식을 만족한다. 심층 강화 학습은 방대한 상태 공간에서 가치 함수를 신경망으로 근사하는 접근이며, 그 이론적 기반은 HJB 방정식에 있다.

8.4 최적 피드백 제어

HJB 접근을 통해 얻어지는 피드백 제어 법칙은 외란에 대한 강건성과 상태 종속성을 갖는다. 이는 로봇 시스템의 실시간 제어에서 개루프 궤적 추종보다 우수한 성능을 제공한다.

8.5 협력 로봇의 최적 제어

다중 로봇 시스템에서 각 로봇의 행동을 협력적으로 최적화하는 문제는 고차원 최적 제어 문제로 정식화된다. 해밀턴 역학의 관점은 분산 최적화와 게임 이론적 접근의 기반을 제공한다.

9. 본 절의 의의

본 절은 해밀턴 역학과 최적 제어 이론의 구조적 관계를 체계적으로 다루었다. 최적 제어 문제의 정식화, 제어 해밀터니안과 수반 방정식의 유도, 퐁트랴긴 최소 원리, 해밀턴-야코비-벨만 방정식, 그리고 두 정식화의 관계를 논의하였다. 또한 특수한 경우(선형 이차, 최단 시간, 에너지 최적)와 로봇공학에서의 다양한 응용을 분석하였다. 해밀턴 역학의 구조는 최적 제어 이론의 자연스러운 언어이며, 두 이론의 긴밀한 관계는 로봇 제어의 체계적 이해와 설계에 중요한 기반을 제공한다.

10. 학습 권장사항

최적 제어 문제의 기본 정식화와 변분 원리의 적용을 학습한다.
퐁트랴긴 최소 원리와 그 적용 예시를 이해한다.
HJB 방정식의 유도와 가치 함수의 의미를 파악한다.
수반 변수와 가치 함수 그래디언트의 관계를 명확히 한다.

11. 참고 문헌

Pontryagin, L. S., Boltyanskii, V. G., Gamkrelidze, R. V., & Mishchenko, E. F. (1962). The Mathematical Theory of Optimal Processes. Wiley.
Bellman, R. (1957). Dynamic Programming. Princeton University Press.
Bryson, A. E., & Ho, Y.-C. (1975). Applied Optimal Control. Taylor & Francis.
Kirk, D. E. (2004). Optimal Control Theory: An Introduction. Dover.
Liberzon, D. (2011). Calculus of Variations and Optimal Control Theory. Princeton University Press.

version: 1.0