16.45 퐁트랴긴의 최소 원리와 해밀터니안
1. 개요
퐁트랴긴의 최소 원리(Pontryagin’s Minimum Principle, PMP)는 최적 제어 이론의 핵심 결과로서, 제약 조건이 존재하는 동적 시스템의 최적 제어 입력을 결정하기 위한 필요 조건을 제공한다. 이 원리는 1956년경 소비에트 수학자 레프 퐁트랴긴(Lev Pontryagin)과 그의 연구진에 의하여 정립되었으며, 본래 명칭은 최대 원리(maximum principle)였으나 비용 함수의 최소화 형태로 재구성될 때에는 최소 원리로 칭한다. 본 절에서는 해밀턴 역학에서 정의되는 해밀터니안 함수가 최적 제어 문제에서 어떠한 형태로 확장되며, 이를 통하여 최적 궤적과 최적 입력이 어떻게 특성화되는지를 학술적으로 기술한다.
해밀턴 역학과 퐁트랴긴 원리는 모두 변분법(calculus of variations)에 깊은 뿌리를 두고 있으며, 양자 모두 정준 형태(canonical form)의 운동 방정식을 통하여 시스템의 진화를 기술한다. 이러한 구조적 유사성은 단순한 수학적 형식의 일치가 아니라, 두 이론이 동일한 변분 원리로부터 파생되었음을 반영한다. 본 절은 이 관계의 정확한 수학적 형태와 로봇공학적 응용을 다룬다.
2. 최적 제어 문제의 정식화
먼저 표준적인 최적 제어 문제를 정식화한다. 상태 변수를 x(t) \in \mathbb{R}^n, 제어 입력을 u(t) \in U \subset \mathbb{R}^m로 정의하며, 시스템의 동역학은 다음의 상미분 방정식으로 주어진다.
\dot{x}(t) = f(x(t), u(t), t), \quad x(t_0) = x_0
여기서 U는 허용 제어 집합으로서 일반적으로 컴팩트(compact) 부분집합이며, 입력의 크기 제한이나 포화(saturation)와 같은 물리적 제약을 반영한다. 비용 함수(cost functional)는 다음과 같이 적분형 비용과 종말 비용의 합으로 표현된다.
J[u] = \phi(x(t_f), t_f) + \int_{t_0}^{t_f} L(x(t), u(t), t) \, dt
여기서 L은 운행 비용(running cost) 또는 라그랑지안(Lagrangian)이고, \phi는 종말 비용(terminal cost)이다. 최적 제어 문제는 동역학 제약과 입력 제약을 만족하면서 J[u]를 최소화하는 제어 함수 u^*(t)를 찾는 것이다.
3. 제어 해밀터니안의 정의
퐁트랴긴 원리의 중심에는 제어 해밀터니안(control Hamiltonian) 또는 퐁트랴긴 해밀터니안이라 부르는 스칼라 함수가 자리한다. 공상태 변수(costate variable) 또는 수반 변수(adjoint variable) \lambda(t) \in \mathbb{R}^n을 도입하면, 제어 해밀터니안은 다음과 같이 정의된다.
H(x, u, \lambda, t) = L(x, u, t) + \lambda^T f(x, u, t)
이 함수는 형식적으로 고전 해밀턴 역학의 해밀터니안 H(q, p, t)와 유사한 구조를 지니지만, 그 의미와 기원에는 본질적인 차이가 존재한다. 고전 해밀턴 역학에서 p는 일반화 운동량으로서 라그랑지안의 일반화 속도에 대한 르장드르 변환을 통하여 도입되는 반면, 제어 해밀터니안의 공상태 \lambda는 동역학 제약 조건에 대응하는 라그랑주 승수(Lagrange multiplier)로서 도입된다.
4. 퐁트랴긴 최소 원리의 진술
퐁트랴긴 원리의 핵심 주장은 다음과 같다. u^*(t)가 위 최적 제어 문제의 최적해이고 x^*(t)가 이에 대응하는 최적 궤적이라면, 다음을 만족하는 공상태 함수 \lambda^*(t)가 존재한다.
상태 방정식은 다음과 같다.
\dot{x}^*(t) = \frac{\partial H}{\partial \lambda}(x^*, u^*, \lambda^*, t) = f(x^*, u^*, t)
공상태 방정식 또는 수반 방정식은 다음과 같다.
\dot{\lambda}^*(t) = -\frac{\partial H}{\partial x}(x^*, u^*, \lambda^*, t)
최소 조건은 다음과 같이 표현된다. 거의 모든 t \in [t_0, t_f]에 대하여,
H(x^*(t), u^*(t), \lambda^*(t), t) \leq H(x^*(t), v, \lambda^*(t), t), \quad \forall v \in U
즉 최적 제어 입력은 매 순간 제어 해밀터니안을 허용 입력 집합 U 위에서 점별로 최소화한다.
종말 조건(transversality condition)은 최종 시간이 자유로운 경우와 고정된 경우에 따라 달라지며, 자유 종말 상태의 경우 다음과 같다.
\lambda^*(t_f) = \frac{\partial \phi}{\partial x}(x^*(t_f), t_f)
5. 해밀턴 정준 방정식과의 형식적 대응
상태 방정식과 공상태 방정식은 다음과 같이 정준 형태로 다시 쓸 수 있다.
\dot{x} = \frac{\partial H}{\partial \lambda}, \quad \dot{\lambda} = -\frac{\partial H}{\partial x}
이 방정식은 고전 해밀턴 역학의 정준 방정식 \dot{q} = \partial H / \partial p, \, \dot{p} = -\partial H / \partial q와 정확히 동일한 형식을 지닌다. 이러한 형식적 대응은 우연이 아니며, 두 이론이 모두 변분 원리로부터 도출된다는 사실에 기인한다. 고전 역학에서는 해밀턴의 원리 \delta \int L \, dt = 0로부터, 최적 제어에서는 비용 함수의 변분 \delta J = 0로부터 동일한 정준 구조가 자연스럽게 출현한다.
차이점은 공상태 \lambda의 해석에 있다. 고전 역학의 p는 측정 가능한 물리량으로서 일반화 운동량을 나타내는 반면, 최적 제어의 \lambda는 비용 함수의 상태에 대한 민감도(sensitivity)를 나타내는 추상적 변수이다. 구체적으로, 최적 비용 V(x, t)를 가치 함수(value function)라 할 때 다음 관계가 성립한다.
\lambda^*(t) = \frac{\partial V}{\partial x}(x^*(t), t)
이 관계는 동적 계획법(dynamic programming)과 변분법적 접근의 연결고리를 제공한다.
6. 변분법적 유도
퐁트랴긴 원리는 비용 함수의 변분을 통하여 유도할 수 있다. 동역학 제약을 라그랑주 승수 \lambda(t)를 사용하여 비용 함수에 결합하면 확장 비용 함수는 다음과 같다.
\bar{J} = \phi(x(t_f), t_f) + \int_{t_0}^{t_f} \left[ L(x, u, t) + \lambda^T (f(x, u, t) - \dot{x}) \right] dt
부분 적분을 적용하여 \lambda^T \dot{x} 항을 변환하면,
\bar{J} = \phi(x(t_f), t_f) - \lambda^T(t_f) x(t_f) + \lambda^T(t_0) x(t_0) + \int_{t_0}^{t_f} \left[ H(x, u, \lambda, t) + \dot{\lambda}^T x \right] dt
이 확장 비용을 x, u, \lambda에 대한 변분에 대하여 정류점(stationary point) 조건을 부여하면 상태 방정식, 공상태 방정식, 그리고 비제약 입력의 경우 \partial H / \partial u = 0이 도출된다. 입력에 제약이 존재할 경우 이 정류 조건은 점별 최소화 조건으로 일반화된다.
7. 자율 시스템과 해밀터니안의 보존
시스템 동역학과 운행 비용이 시간에 명시적으로 의존하지 않는 자율(autonomous) 문제의 경우, 즉 f = f(x, u), L = L(x, u)일 때, 최적 궤적을 따라 제어 해밀터니안은 보존된다. 이는 다음과 같이 보일 수 있다.
\frac{dH}{dt} = \frac{\partial H}{\partial x} \dot{x} + \frac{\partial H}{\partial u} \dot{u} + \frac{\partial H}{\partial \lambda} \dot{\lambda} + \frac{\partial H}{\partial t}
상태 방정식과 공상태 방정식을 대입하고 자율 조건 \partial H / \partial t = 0을 사용하면,
\frac{dH}{dt} = -\dot{\lambda}^T \dot{x} + \frac{\partial H}{\partial u} \dot{u} + \dot{x}^T \dot{\lambda} = \frac{\partial H}{\partial u} \dot{u}
최적 입력이 내부 점에 있을 때는 \partial H / \partial u = 0이 성립하므로 H는 보존된다. 입력이 경계에 있을 때에도 점별 최소화 조건에 의하여 H는 일정하게 유지된다. 이 보존 법칙은 고전 해밀턴 역학에서 자율 시스템의 해밀터니안이 에너지로서 보존되는 사실과 정확히 대응한다.
8. 단순 예시: 시간 최적 문제
이중 적분기 시스템을 통하여 퐁트랴긴 원리의 적용을 예시한다. 동역학은 다음과 같다.
\dot{x}_1 = x_2, \quad \dot{x}_2 = u, \quad |u| \leq 1
원점으로의 시간 최적 도달 문제는 L = 1, \phi = 0, t_f 자유, x(t_f) = 0로 설정된다. 제어 해밀터니안은 다음과 같다.
H = 1 + \lambda_1 x_2 + \lambda_2 u
공상태 방정식은 다음과 같다.
\dot{\lambda}_1 = 0, \quad \dot{\lambda}_2 = -\lambda_1
따라서 \lambda_1(t) = c_1, \lambda_2(t) = c_2 - c_1 t이며 \lambda_2는 시간의 선형 함수이다. 점별 최소화 조건 \min_{|u| \leq 1} \lambda_2 u는 다음의 뱅뱅(bang-bang) 제어 법칙을 산출한다.
u^*(t) = -\text{sgn}(\lambda_2(t))
\lambda_2가 시간에 대하여 선형이므로 부호는 최대 한 번 변화하며, 최적 제어는 두 구간에서 \pm 1의 값을 취한다. 이러한 결과는 최소 시간 제어 문제에서 입력 포화의 본질적 역할을 보여 준다.
9. 해밀턴-야코비-벨만 방정식과의 관계
퐁트랴긴 원리는 필요 조건을 제공하는 반면, 해밀턴-야코비-벨만(Hamilton-Jacobi-Bellman, HJB) 방정식은 충분 조건을 제공한다. 가치 함수 V(x, t)는 다음의 편미분 방정식을 만족한다.
-\frac{\partial V}{\partial t} = \min_{u \in U} \left[ L(x, u, t) + \frac{\partial V}{\partial x}^T f(x, u, t) \right]
우변의 최소화 대상이 정확히 제어 해밀터니안 H(x, u, \partial V / \partial x, t)임을 관찰할 수 있다. 따라서 HJB 방정식은 다음과 같이 간결하게 표현된다.
-\frac{\partial V}{\partial t} = \min_{u \in U} H\left(x, u, \frac{\partial V}{\partial x}, t\right)
이 형태는 고전 역학의 해밀턴-야코비 방정식 \partial S / \partial t + H(q, \partial S / \partial q, t) = 0과 형식적으로 동등하다. 두 이론에서 가치 함수 또는 작용 함수의 상태에 대한 기울기가 각각 공상태 또는 일반화 운동량의 역할을 수행한다.
10. 로봇공학에서의 응용
퐁트랴긴 최소 원리는 로봇공학에서 광범위한 응용을 가진다. 첫째, 매니퓰레이터(manipulator)의 최소 시간 궤적 계획은 토크 한계를 입력 제약으로 두고 종말 자세를 목표 상태로 설정하여 정식화된다. 이때 최적 토크는 일반적으로 뱅뱅 형태를 띠며, 임계 곡선(switching curve)의 결정이 핵심 과제가 된다.
둘째, 모바일 로봇과 비홀로노믹(nonholonomic) 시스템의 최적 경로 계획에서 PMP는 최적 곡선의 구조를 결정한다. Reeds-Shepp 곡선과 Dubins 곡선은 입력 제약 하에서 PMP를 적용한 결과로 도출되는 최적 경로의 표준적 예시이다.
셋째, 우주 로봇과 위성의 자세 제어에서 연료 소모를 최소화하는 문제는 PMP를 통하여 분석되며, 결과적으로 최적 입력은 종종 임펄스(impulse) 형태를 띤다.
넷째, 보행 로봇의 에너지 최적 보행 패턴 생성에서 PMP는 관절 토크의 시간 프로파일을 결정하는 도구로 사용된다.
다섯째, 모델 예측 제어(Model Predictive Control, MPC)의 기저에는 유한 구간 최적 제어 문제가 존재하며, 이를 풀기 위한 직접법(direct method)과 간접법(indirect method) 모두 PMP의 정준 구조를 활용한다. 간접 사격법(indirect shooting method)은 공상태 방정식을 명시적으로 적분하여 경계값 문제를 푸는 대표적 기법이다.
11. 본 절의 의의
본 절에서 다룬 퐁트랴긴 최소 원리는 해밀턴 역학의 정준 구조가 최적 제어 이론으로 자연스럽게 확장됨을 보여 준다. 제어 해밀터니안의 도입을 통하여 상태와 공상태가 정준 변수의 쌍을 이루며, 이로부터 도출되는 정준 방정식은 고전 역학의 운동 방정식과 동일한 수학적 형태를 지닌다. 이러한 통일된 관점은 로봇공학자가 동역학과 최적 제어를 단일한 수학적 틀 안에서 사고할 수 있게 한다.
또한 PMP는 입력 제약이 존재하는 현실적 상황에서 최적성의 필요 조건을 명확히 제공하므로, 비제약 변분법으로는 다룰 수 없는 포화 입력, 뱅뱅 제어, 임펄스 제어와 같은 비정칙(singular) 해를 체계적으로 분석할 수 있게 한다. 이러한 능력은 로봇 시스템의 물리적 한계를 존중하는 제어 설계에 필수적이다.
12. 학습 권장사항
본 절의 내용을 충분히 이해하기 위하여 다음의 선행 학습이 권장된다. 변분법의 기초 개념, 해밀턴 역학의 정준 방정식, 라그랑주 승수법, 그리고 동적 계획법의 기본 원리를 숙지할 필요가 있다. 또한 본 절의 내용을 심화 학습하기 위해서는 해밀턴-야코비-벨만 방정식의 점성 해(viscosity solution) 이론, 비정칙 최적 제어, 그리고 직접 및 간접 수치 최적화 기법에 대한 학습이 권장된다.
13. 참고 문헌
- Pontryagin, L. S., Boltyanskii, V. G., Gamkrelidze, R. V., and Mishchenko, E. F. (1962). The Mathematical Theory of Optimal Processes. Interscience Publishers.
- Bryson, A. E., and Ho, Y.-C. (1975). Applied Optimal Control: Optimization, Estimation, and Control. Hemisphere Publishing.
- Athans, M., and Falb, P. L. (1966). Optimal Control: An Introduction to the Theory and Its Applications. McGraw-Hill.
- Liberzon, D. (2012). Calculus of Variations and Optimal Control Theory: A Concise Introduction. Princeton University Press.
- Lewis, F. L., Vrabie, D., and Syrmos, V. L. (2012). Optimal Control (3rd ed.). Wiley.
- Kirk, D. E. (2004). Optimal Control Theory: An Introduction. Dover Publications.
- Sussmann, H. J., and Willems, J. C. (1997). “300 Years of Optimal Control: From the Brachystochrone to the Maximum Principle.” IEEE Control Systems Magazine, 17(3), 32–44.
version: 1.0