7.75 공상태 변수와 해밀토니안 형식
1. 공상태 변수의 도입 배경
최적 제어 문제에서 시스템의 동역학 제약 \dot{\mathbf{x}} = \mathbf{f}(\mathbf{x}, \mathbf{u}, t)은 성능 지표의 최적화를 제한하는 등식 제약으로 작용한다. 유한 차원 최적화에서 등식 제약을 처리하기 위해 라그랑주 승수를 도입하는 것과 동일한 원리로, 연속 시간 최적 제어 문제에서는 각 시각 t마다 동역학 제약에 대응하는 승수 함수를 도입한다. 이 시간 함수를 공상태 변수(costate variable) 또는 수반 변수(adjoint variable)라 하며, \boldsymbol{\lambda}(t) \in \mathbb{R}^n으로 표기한다.
2. 확장 범함수와 라그랑주 승수의 연속 확장
볼차 형식의 성능 지표를 고려하라.
J = \phi(\mathbf{x}(t_f), t_f) + \int_{t_0}^{t_f} L(\mathbf{x}(t), \mathbf{u}(t), t) \, dt
동역학 제약 \dot{\mathbf{x}} - \mathbf{f}(\mathbf{x}, \mathbf{u}, t) = \mathbf{0}을 라그랑주 승수 함수 \boldsymbol{\lambda}(t)와 결합하여 확장 범함수(augmented functional)를 구성한다.
\bar{J} = \phi(\mathbf{x}(t_f), t_f) + \int_{t_0}^{t_f} \left[ L(\mathbf{x}, \mathbf{u}, t) + \boldsymbol{\lambda}^T(t) \left( \mathbf{f}(\mathbf{x}, \mathbf{u}, t) - \dot{\mathbf{x}} \right) \right] dt
이 표현에서 동역학 제약이 만족되면 \bar{J} = J이므로, 확장 범함수의 정류 조건(stationarity condition)을 구하는 것이 원래 제약 최적화 문제를 푸는 것과 동치이다.
3. 해밀토니안의 정의
확장 범함수의 피적분 함수를 재구성하면 해밀토니안(Hamiltonian) 함수가 자연스럽게 정의된다.
H(\mathbf{x}, \boldsymbol{\lambda}, \mathbf{u}, t) = L(\mathbf{x}, \mathbf{u}, t) + \boldsymbol{\lambda}^T \mathbf{f}(\mathbf{x}, \mathbf{u}, t)
해밀토니안은 적분 비용(running cost) L과 동역학 제약의 가중합으로 구성되며, 공상태 벡터 \boldsymbol{\lambda}가 가중치 역할을 수행한다. 이를 통해 확장 범함수는 다음과 같이 간결하게 표현된다.
\bar{J} = \phi(\mathbf{x}(t_f), t_f) + \int_{t_0}^{t_f} \left[ H(\mathbf{x}, \boldsymbol{\lambda}, \mathbf{u}, t) - \boldsymbol{\lambda}^T \dot{\mathbf{x}} \right] dt
4. 최적성의 필요 조건 유도
확장 범함수 \bar{J}의 1차 변분(first variation)을 \delta \mathbf{x}, \delta \mathbf{u}, \delta \boldsymbol{\lambda}에 대해 계산하고, 이를 영으로 놓으면 최적성의 필요 조건이 도출된다.
4.1 상태 방정식
\delta \boldsymbol{\lambda}에 대한 변분을 영으로 놓으면 원래의 상태 방정식을 복원한다.
\dot{\mathbf{x}}^* = \frac{\partial H}{\partial \boldsymbol{\lambda}} = \mathbf{f}(\mathbf{x}^*, \mathbf{u}^*, t)
이는 해밀토니안이 \boldsymbol{\lambda}에 선형이므로, \boldsymbol{\lambda}에 대한 편미분이 단순히 \mathbf{f}를 반환하는 것이다.
4.2 공상태 방정식
\delta \mathbf{x}에 대한 변분을 영으로 놓고 부분 적분을 수행하면 공상태 방정식을 얻는다.
\dot{\boldsymbol{\lambda}}^* = -\frac{\partial H}{\partial \mathbf{x}} = -\frac{\partial L}{\partial \mathbf{x}} - \left( \frac{\partial \mathbf{f}}{\partial \mathbf{x}} \right)^T \boldsymbol{\lambda}^*
성분별로 전개하면 다음과 같다.
\dot{\lambda}_i^* = -\frac{\partial L}{\partial x_i} - \sum_{j=1}^{n} \lambda_j^* \frac{\partial f_j}{\partial x_i}, \quad i = 1, 2, \ldots, n
공상태 방정식은 상태 방정식과 대칭적인 구조를 가지되, 부호가 반대이다. 상태 방정식이 초기 조건으로부터 시간 순방향으로 적분되는 반면, 공상태 방정식은 종단 조건으로부터 시간 역방향으로 적분된다.
4.3 정류 조건
\delta \mathbf{u}에 대한 변분을 영으로 놓으면 다음의 정류 조건을 얻는다.
\frac{\partial H}{\partial \mathbf{u}} = \frac{\partial L}{\partial \mathbf{u}} + \left( \frac{\partial \mathbf{f}}{\partial \mathbf{u}} \right)^T \boldsymbol{\lambda}^* = \mathbf{0}
이 조건은 제어 입력에 제약이 없는 경우에 성립하며, 제어 입력에 구간 제약이 있는 경우에는 폰트랴긴의 최대 원리에 의한 해밀토니안 최소화 조건으로 대체된다.
5. 종단 조건과 횡단성 조건
부분 적분 과정에서 경계항이 발생하며, 이로부터 공상태 변수의 종단 조건(transversality condition)이 결정된다.
자유 종단 상태의 경우:
\boldsymbol{\lambda}^*(t_f) = \frac{\partial \phi}{\partial \mathbf{x}} \bigg\vert_{\mathbf{x}^*(t_f)}
종단 등식 제약 \boldsymbol{\psi}(\mathbf{x}(t_f)) = \mathbf{0}이 있는 경우:
\boldsymbol{\lambda}^*(t_f) = \frac{\partial \phi}{\partial \mathbf{x}} \bigg\vert_{\mathbf{x}^*(t_f)} + \left( \frac{\partial \boldsymbol{\psi}}{\partial \mathbf{x}} \bigg\vert_{\mathbf{x}^*(t_f)} \right)^T \boldsymbol{\nu}
여기서 \boldsymbol{\nu}는 종단 제약에 대응하는 미지의 승수 벡터이다.
고정 종단 상태 \mathbf{x}(t_f) = \mathbf{x}_f의 경우: \delta \mathbf{x}(t_f) = \mathbf{0}이므로 경계항이 소멸하여 \boldsymbol{\lambda}^*(t_f)에 대한 별도의 조건이 부과되지 않는다. 이 경우 \boldsymbol{\lambda}^*(t_f)는 상태 방정식과 공상태 방정식의 결합 해로부터 간접적으로 결정된다.
6. 해밀토니안 정준 방정식
상태 방정식과 공상태 방정식을 해밀토니안으로 통합하면 다음의 정준 방정식(canonical equations)을 얻는다.
\dot{x}_i^* = \frac{\partial H}{\partial \lambda_i}, \quad \dot{\lambda}_i^* = -\frac{\partial H}{\partial x_i}, \quad i = 1, 2, \ldots, n
이를 벡터 형식으로 표현하면 다음과 같다.
\begin{bmatrix} \dot{\mathbf{x}}^* \\ \dot{\boldsymbol{\lambda}}^* \end{bmatrix} = \begin{bmatrix} \frac{\partial H}{\partial \boldsymbol{\lambda}} \\ -\frac{\partial H}{\partial \mathbf{x}} \end{bmatrix}
이 구조는 고전 역학의 해밀턴 정준 방정식과 동일한 형태이며, 심플렉틱(symplectic) 구조를 갖는다. 2n차원 위상 공간(phase space)에서 상태와 공상태가 해밀토니안에 의해 지배되는 정준 흐름(canonical flow)을 형성한다.
7. 공상태 변수의 물리적 해석
7.1 비용 민감도로서의 해석
공상태 변수 \lambda_i(t)는 시각 t에서 상태 x_i의 미소 변화가 최적 비용에 미치는 한계적 영향을 나타낸다.
\lambda_i^*(t) = \frac{\partial J^*}{\partial x_i(t)}
여기서 J^*는 시각 t에서 상태 \mathbf{x}(t)를 초기 조건으로 하여 잔여 구간 [t, t_f]에서 얻어지는 최적 비용(cost-to-go)이다. 따라서 \lambda_i(t)의 절대값이 큰 상태 변수는 성능 지표에 대한 영향이 크므로, 제어 설계 시 해당 상태의 정밀한 조절이 중요함을 의미한다.
7.2 경제학적 해석
경제학에서 라그랑주 승수가 자원 제약의 그림자 가격(shadow price)을 나타내는 것과 유사하게, 공상태 변수는 동역학 제약의 한계 가치를 나타낸다. \lambda_i(t)는 시각 t에서 상태 x_i에 한 단위의 자원을 추가로 투입할 때 얻어지는 비용 절감의 크기로 해석된다.
7.3 로봇 시스템에서의 해석
로봇 매니퓰레이터의 에너지 최적 제어에서 상태 벡터가 관절 위치와 속도로 구성될 때, 위치에 대응하는 공상태 변수는 위치 편차의 비용 민감도를, 속도에 대응하는 공상태 변수는 속도 편차의 비용 민감도를 나타낸다. 이 정보는 어느 관절의 위치 또는 속도 제어가 전체 성능에 가장 큰 영향을 미치는지 식별하는 데 활용된다.
8. 해밀토니안의 시간 보존 성질
자율 시스템(autonomous system)에서 해밀토니안은 최적 궤적을 따라 시간 불변이다. 해밀토니안의 전미분을 계산하면 다음을 얻는다.
\frac{dH^*}{dt} = \frac{\partial H}{\partial \mathbf{x}} \dot{\mathbf{x}}^* + \frac{\partial H}{\partial \boldsymbol{\lambda}} \dot{\boldsymbol{\lambda}}^* + \frac{\partial H}{\partial \mathbf{u}} \dot{\mathbf{u}}^* + \frac{\partial H}{\partial t}
정준 방정식을 대입하면 처음 두 항이 상쇄되고, 정류 조건에 의해 세 번째 항도 소멸한다. 따라서 다음이 성립한다.
\frac{dH^*}{dt} = \frac{\partial H}{\partial t}
H가 t에 명시적으로 의존하지 않으면 dH^*/dt = 0이므로, 해밀토니안은 최적 궤적을 따라 상수이다. 이 보존량은 고전 역학에서 에너지 보존에 대응하며, 수치 해의 정확성을 검증하는 척도로 활용된다.
9. 해밀토니안 형식과 라그랑주 형식의 관계
라그랑주 역학에서 해밀턴 역학으로의 전환이 르장드르 변환(Legendre transformation)을 통해 이루어지는 것과 동일한 구조가 최적 제어에서도 나타난다.
라그랑주 형식에서 오일러-라그랑주 방정식은 n개의 2차 미분 방정식으로 구성된다. 해밀토니안 형식에서는 일반화 운동량(고전 역학) 또는 공상태 변수(최적 제어)를 새로운 독립 변수로 도입하여, 2n개의 1차 미분 방정식으로 변환된다. 이 변환의 이점은 다음과 같다.
- 정준 구조의 활용: 심플렉틱 구조에 기반한 수치 적분법(symplectic integrator)을 적용하여 장시간 시뮬레이션의 안정성을 확보할 수 있다.
- 정준 변환의 적용: 적절한 정준 변환을 통해 문제를 보다 단순한 형태로 변환할 수 있다.
- 보존량의 체계적 식별: 해밀토니안의 대칭성으로부터 보존량을 뇌터 정리(Noether’s theorem)를 통해 체계적으로 도출할 수 있다.
10. 선형 시스템에서의 공상태 방정식
선형 시간 불변(Linear Time-Invariant, LTI) 시스템 \dot{\mathbf{x}} = \mathbf{A}\mathbf{x} + \mathbf{B}\mathbf{u}와 이차 비용 함수를 고려하면, 공상태 방정식은 다음과 같은 선형 형태를 갖는다.
\dot{\boldsymbol{\lambda}}^* = -\mathbf{Q}\mathbf{x}^* - \mathbf{A}^T\boldsymbol{\lambda}^*
여기서 \mathbf{Q}는 상태 가중 행렬이다. 공상태를 \boldsymbol{\lambda}^*(t) = \mathbf{P}(t)\mathbf{x}^*(t)로 가정하면, \mathbf{P}(t)가 대칭 양정치 행렬 리카티 미분 방정식을 만족함을 보일 수 있다.
-\dot{\mathbf{P}} = \mathbf{P}\mathbf{A} + \mathbf{A}^T\mathbf{P} - \mathbf{P}\mathbf{B}\mathbf{R}^{-1}\mathbf{B}^T\mathbf{P} + \mathbf{Q}
이 결과는 공상태 변수가 상태 변수의 선형 함수로 표현되며, 비례 이득 행렬 \mathbf{P}(t)가 리카티 방정식에 의해 결정됨을 보여 준다. 정상 상태(t_f \to \infty)에서 \dot{\mathbf{P}} = \mathbf{0}으로 놓으면 대수 리카티 방정식(Algebraic Riccati Equation, ARE)을 얻으며, 이는 선형 이차 조절기(LQR)의 핵심 방정식이다.
11. 수치 해법에서의 고려 사항
상태-공상태 시스템은 본질적으로 불안정한 구조를 갖는다. 상태 방정식이 안정적인 모드를 가지더라도, 공상태 방정식은 시간 역방향 적분 시 해당 모드가 불안정하게 된다. 이러한 특성은 사격법(shooting method)에서 초기 공상태의 추정 오차가 지수적으로 증폭되는 현상으로 나타나며, 수치적 어려움의 주요 원인이 된다. 이를 완화하기 위해 다중 사격법(multiple shooting), 배치법(collocation), 또는 리카티 변환을 이용한 안정화 기법이 사용된다.
12. 참고 문헌
- Bryson, A. E., & Ho, Y.-C. (1975). Applied Optimal Control: Optimization, Estimation, and Control. Hemisphere Publishing.
- Kirk, D. E. (2004). Optimal Control Theory: An Introduction. Dover Publications.
- Lewis, F. L., Vrabie, D., & Syrmos, V. L. (2012). Optimal Control (3rd ed.). Wiley.
- Liberzon, D. (2012). Calculus of Variations and Optimal Control Theory: A Concise Introduction. Princeton University Press.
- Goldstein, H., Poole, C., & Safko, J. (2002). Classical Mechanics (3rd ed.). Addison-Wesley.
version: 1.0