7.77 선형 이차 조절기(LQR)의 유도

1. 문제의 설정

선형 이차 조절기(Linear Quadratic Regulator, LQR)는 선형 시스템과 이차 성능 지표의 조합으로 구성되는 최적 제어 문제의 해석적 해이다. 다음의 선형 시간 가변(Linear Time-Varying, LTV) 시스템을 고려하라.

$\dot{\mathbf{x}}(t) = \mathbf{A}(t)\mathbf{x}(t) + \mathbf{B}(t)\mathbf{u}(t), \quad \mathbf{x}(t_0) = \mathbf{x}_0$

여기서 $\mathbf{x}(t) \in \mathbb{R}^n$ 은 상태 벡터, $\mathbf{u}(t) \in \mathbb{R}^m$ 은 제어 입력 벡터, $\mathbf{A}(t) \in \mathbb{R}^{n \times n}$ 은 시스템 행렬, $\mathbf{B}(t) \in \mathbb{R}^{n \times m}$ 은 입력 행렬이다.

최소화할 이차 성능 지표는 다음과 같다.

$J = \frac{1}{2}\mathbf{x}^T(t_f)\mathbf{S}_f\mathbf{x}(t_f) + \frac{1}{2}\int_{t_0}^{t_f} \left[ \mathbf{x}^T(t)\mathbf{Q}(t)\mathbf{x}(t) + \mathbf{u}^T(t)\mathbf{R}(t)\mathbf{u}(t) \right] dt$

여기서 $\mathbf{S}_f \in \mathbb{R}^{n \times n}$ 은 대칭 양의 반정치(positive semi-definite) 종단 가중 행렬, $\mathbf{Q}(t) \in \mathbb{R}^{n \times n}$ 은 대칭 양의 반정치 상태 가중 행렬, $\mathbf{R}(t) \in \mathbb{R}^{m \times m}$ 은 대칭 양정치(positive definite) 제어 입력 가중 행렬이다. $\mathbf{R}(t) \succ 0$ 의 양정치 조건은 제어 입력의 비용이 항상 양수임을 보장하며, 최적화 문제의 볼록성(convexity)을 확보한다.

2. 해밀토니안의 구성

공상태 벡터 $\boldsymbol{\lambda}(t) \in \mathbb{R}^n$ 을 도입하여 해밀토니안을 다음과 같이 정의한다.

$H = \frac{1}{2}\mathbf{x}^T\mathbf{Q}\mathbf{x} + \frac{1}{2}\mathbf{u}^T\mathbf{R}\mathbf{u} + \boldsymbol{\lambda}^T[\mathbf{A}\mathbf{x} + \mathbf{B}\mathbf{u}]$

3. 최적성의 필요 조건

폰트랴긴의 최대 원리를 적용하면 다음의 조건들이 도출된다.

상태 방정식:

$\dot{\mathbf{x}}^* = \frac{\partial H}{\partial \boldsymbol{\lambda}} = \mathbf{A}\mathbf{x}^* + \mathbf{B}\mathbf{u}^*$

공상태 방정식:

$\dot{\boldsymbol{\lambda}}^* = -\frac{\partial H}{\partial \mathbf{x}} = -\mathbf{Q}\mathbf{x}^* - \mathbf{A}^T\boldsymbol{\lambda}^*$

정류 조건 (제어 입력에 제약이 없으므로):

$\frac{\partial H}{\partial \mathbf{u}} = \mathbf{R}\mathbf{u}^* + \mathbf{B}^T\boldsymbol{\lambda}^* = \mathbf{0}$

정류 조건으로부터 최적 제어를 공상태의 함수로 표현할 수 있다.

$\mathbf{u}^*(t) = -\mathbf{R}^{-1}(t)\mathbf{B}^T(t)\boldsymbol{\lambda}^*(t)$

종단 조건:

$\boldsymbol{\lambda}^*(t_f) = \mathbf{S}_f\mathbf{x}^*(t_f)$

4. 리카티 변환

최적 제어를 상태의 함수로 표현하기 위해, 공상태와 상태 사이의 선형 관계를 가정한다.

$\boldsymbol{\lambda}^*(t) = \mathbf{P}(t)\mathbf{x}^*(t)$

여기서 $\mathbf{P}(t) \in \mathbb{R}^{n \times n}$ 은 시간 가변 대칭 행렬이다. 종단 조건 $\boldsymbol{\lambda}^*(t_f) = \mathbf{S}_f\mathbf{x}^*(t_f)$ 로부터 $\mathbf{P}(t_f) = \mathbf{S}_f$ 가 성립한다.

이 가정의 양변을 시간에 대해 미분하면 다음을 얻는다.

$\dot{\boldsymbol{\lambda}}^* = \dot{\mathbf{P}}\mathbf{x}^* + \mathbf{P}\dot{\mathbf{x}}^*$

좌변에 공상태 방정식을, 우변의 $\dot{\mathbf{x}}^*$ 에 상태 방정식을 대입하고, $\boldsymbol{\lambda}^* = \mathbf{P}\mathbf{x}^*$ 를 사용하면 다음을 얻는다.

$-\mathbf{Q}\mathbf{x}^* - \mathbf{A}^T\mathbf{P}\mathbf{x}^* = \dot{\mathbf{P}}\mathbf{x}^* + \mathbf{P}[\mathbf{A}\mathbf{x}^* - \mathbf{B}\mathbf{R}^{-1}\mathbf{B}^T\mathbf{P}\mathbf{x}^*]$

이 등식이 임의의 $\mathbf{x}^*$ 에 대해 성립해야 하므로, 행렬 계수를 비교하면 다음을 얻는다.

$-\dot{\mathbf{P}}(t) = \mathbf{P}(t)\mathbf{A}(t) + \mathbf{A}^T(t)\mathbf{P}(t) - \mathbf{P}(t)\mathbf{B}(t)\mathbf{R}^{-1}(t)\mathbf{B}^T(t)\mathbf{P}(t) + \mathbf{Q}(t)$

경계 조건: $\mathbf{P}(t_f) = \mathbf{S}_f$

이것이 행렬 리카티 미분 방정식(matrix Riccati differential equation)이다. 이 방정식은 $\mathbf{P}(t)$ 에 대한 이차 항 $\mathbf{P}\mathbf{B}\mathbf{R}^{-1}\mathbf{B}^T\mathbf{P}$ 를 포함하는 비선형 행렬 미분 방정식이며, 종단 시각 $t_f$ 로부터 시간 역방향으로 적분하여 풀어야 한다.

5. 최적 상태 피드백 제어 법칙

리카티 방정식의 해 $\mathbf{P}(t)$ 를 이용하면, 최적 제어는 상태의 선형 피드백으로 표현된다.

$\mathbf{u}^*(t) = -\mathbf{R}^{-1}(t)\mathbf{B}^T(t)\mathbf{P}(t)\mathbf{x}^*(t) = -\mathbf{K}(t)\mathbf{x}^*(t)$

여기서 $\mathbf{K}(t) = \mathbf{R}^{-1}(t)\mathbf{B}^T(t)\mathbf{P}(t) \in \mathbb{R}^{m \times n}$ 은 시간 가변 최적 이득 행렬(optimal gain matrix)이다. 이 결과는 LQR 문제의 최적 제어가 상태에 대한 선형 피드백 법칙으로 주어짐을 보여 주며, 이는 시스템과 비용 함수의 선형-이차 구조에 기인한다.

6. 폐루프 시스템의 동역학

최적 제어 $\mathbf{u}^* = -\mathbf{K}(t)\mathbf{x}$ 를 상태 방정식에 대입하면 폐루프 시스템의 동역학을 얻는다.

$\dot{\mathbf{x}}^* = [\mathbf{A}(t) - \mathbf{B}(t)\mathbf{K}(t)]\mathbf{x}^* = [\mathbf{A}(t) - \mathbf{B}(t)\mathbf{R}^{-1}(t)\mathbf{B}^T(t)\mathbf{P}(t)]\mathbf{x}^*$

이 폐루프 시스템의 안정성은 리카티 방정식의 해 $\mathbf{P}(t)$ 에 의해 결정된다.

7. 무한 시간 LQR

종단 시각 $t_f \to \infty$ 이고 시스템이 시간 불변( $\mathbf{A}(t) = \mathbf{A}$ , $\mathbf{B}(t) = \mathbf{B}$ , $\mathbf{Q}(t) = \mathbf{Q}$ , $\mathbf{R}(t) = \mathbf{R}$ )인 경우, 리카티 미분 방정식의 해는 정상 상태(steady-state)에 수렴한다. $\dot{\mathbf{P}} = \mathbf{0}$ 으로 놓으면 다음의 대수 리카티 방정식(Algebraic Riccati Equation, ARE)을 얻는다.

$\mathbf{0} = \mathbf{P}\mathbf{A} + \mathbf{A}^T\mathbf{P} - \mathbf{P}\mathbf{B}\mathbf{R}^{-1}\mathbf{B}^T\mathbf{P} + \mathbf{Q}$

이 방정식의 대칭 양의 반정치 해 $\mathbf{P}$ 가 존재하기 위한 충분 조건은 다음과 같다.

안정화 가능성(stabilizability): 쌍 $(\mathbf{A}, \mathbf{B})$ 이 안정화 가능하다.
검출 가능성(detectability): 쌍 $(\mathbf{A}, \mathbf{Q}^{1/2})$ 이 검출 가능하다.

여기서 $\mathbf{Q}^{1/2}$ 는 $\mathbf{Q} = (\mathbf{Q}^{1/2})^T\mathbf{Q}^{1/2}$ 를 만족하는 행렬이다. 이 조건이 만족되면, 대수 리카티 방정식은 유일한 양정치 해 $\mathbf{P}$ 를 가지며, 결과적으로 최적 이득 행렬은 시간 불변 상수 행렬이 된다.

$\mathbf{K} = \mathbf{R}^{-1}\mathbf{B}^T\mathbf{P}$

8. 폐루프 안정성

무한 시간 LQR의 폐루프 시스템 $\dot{\mathbf{x}} = (\mathbf{A} - \mathbf{B}\mathbf{K})\mathbf{x}$ 는 점근적으로 안정(asymptotically stable)하다. 이는 가치 함수 $V(\mathbf{x}) = \mathbf{x}^T\mathbf{P}\mathbf{x}$ 가 리아프노프 함수(Lyapunov function)의 역할을 수행하기 때문이다. 대수 리카티 방정식을 재정리하면 다음을 얻는다.

$(\mathbf{A} - \mathbf{B}\mathbf{K})^T\mathbf{P} + \mathbf{P}(\mathbf{A} - \mathbf{B}\mathbf{K}) = -\mathbf{Q} - \mathbf{K}^T\mathbf{R}\mathbf{K}$

우변이 음의 반정치이므로, $V(\mathbf{x}) = \mathbf{x}^T\mathbf{P}\mathbf{x}$ 의 시간 미분은 다음과 같다.

$\dot{V} = -\mathbf{x}^T(\mathbf{Q} + \mathbf{K}^T\mathbf{R}\mathbf{K})\mathbf{x} \leq 0$

검출 가능성 조건에 의해 $\dot{V} = 0$ 이 되는 것은 $\mathbf{x} = \mathbf{0}$ 일 때뿐이므로, 라살 불변 원리(LaSalle’s invariance principle)에 의해 원점이 점근적으로 안정함이 보장된다.

9. 이득 여유와 위상 여유

무한 시간 LQR은 우수한 강건성 특성을 갖는다. 단일 입력(SISO) 시스템의 경우, LQR이 보장하는 안정성 여유는 다음과 같다.

이득 여유(gain margin): $[1/2, \infty)$ , 즉 이득이 절반으로 감소하거나 무한대로 증가하여도 폐루프 안정성이 유지된다.
위상 여유(phase margin): $\pm 60°$ 이상

이러한 강건성은 칼만 부등식(Kalman inequality)으로부터 유도된다.

$\mathbf{I} + \mathbf{K}(j\omega\mathbf{I} - \mathbf{A})^{-1}\mathbf{B}$

의 최소 특이값이 1 이상임이 보장되며, 이는 반환 차이 행렬(return difference matrix)의 성질에 기인한다. 다만, 이러한 강건성 보장은 다입력(MIMO) 시스템에서는 일반적으로 성립하지 않는다.

10. 리카티 방정식의 수치적 해법

10.1 미분 방정식 직접 적분

유한 시간 LQR에서 리카티 미분 방정식은 종단 조건 $\mathbf{P}(t_f) = \mathbf{S}_f$ 로부터 시간 역방향으로 적분한다. $\mathbf{P}(t)$ 가 $n \times n$ 대칭 행렬이므로, 실제로 풀어야 하는 독립 방정식의 수는 $n(n+1)/2$ 개이다. 4차 룽게-쿠타법 등의 표준 수치 적분 기법을 적용할 수 있다.

10.2 대수 리카티 방정식의 해법

무한 시간 LQR의 대수 리카티 방정식은 다음과 같은 방법으로 풀 수 있다.

슈어 분해법(Schur decomposition method): 해밀토니안 행렬

$\mathbf{H} = \begin{bmatrix} \mathbf{A} & -\mathbf{B}\mathbf{R}^{-1}\mathbf{B}^T \\ -\mathbf{Q} & -\mathbf{A}^T \end{bmatrix}$

의 슈어 분해를 수행하여 안정 고유 부분 공간(stable eigensubspace)을 추출한다. 안정 고유값에 대응하는 고유 벡터 행렬을 $\begin{bmatrix} \mathbf{X}_1 \\ \mathbf{X}_2 \end{bmatrix}$ 로 구성하면, 리카티 방정식의 해는 $\mathbf{P} = \mathbf{X}_2\mathbf{X}_1^{-1}$ 로 주어진다.

반복법: 뉴턴 반복법 기반의 접근법으로, 초기 추정치 $\mathbf{P}_0$ 에서 출발하여 수렴할 때까지 반복한다.

11. 가중 행렬의 선택

LQR 설계에서 가중 행렬 $\mathbf{Q}$ 와 $\mathbf{R}$ 의 선택은 폐루프 성능을 결정하는 핵심 설계 변수이다.

물리적 해석: $\mathbf{Q}$ 의 대각 원소 $q_{ii}$ 는 상태 $x_i$ 의 편차에 대한 벌점을 의미하며, $\mathbf{R}$ 의 대각 원소 $r_{jj}$ 는 제어 입력 $u_j$ 의 사용에 대한 벌점을 의미한다. $q_{ii}/r_{jj}$ 의 비율이 클수록 해당 상태의 조절이 우선시되며, 비율이 작을수록 제어 에너지의 절약이 우선시된다.

브라이슨 규칙(Bryson’s rule): 가중 행렬의 초기 선택을 위한 경험적 지침으로, 각 상태와 입력의 허용 가능 최대 편차를 기반으로 다음과 같이 설정한다.

$q_{ii} = \frac{1}{x_{i,\max}^2}, \quad r_{jj} = \frac{1}{u_{j,\max}^2}$

이 설정은 각 변수가 허용 범위의 경계에 도달할 때 비용이 1이 되도록 정규화하는 것에 해당한다.

12. 로봇 공학에서의 응용

LQR은 로봇 공학에서 다음과 같은 문제에 적용된다.

선형화된 로봇 동역학의 안정화: 비선형 로봇 동역학을 원하는 동작점(operating point) 주위에서 선형화한 후, LQR을 적용하여 국소 안정화 제어기를 설계한다. 관절 위치와 속도를 상태로, 관절 토크를 입력으로 정의하여 선형 상태 방정식을 구성한다.

균형 제어: 도립 진자(inverted pendulum)나 이족 보행 로봇의 균형 유지 문제에서, 불안정 평형점 주위의 선형화 모델에 LQR을 적용하여 안정화 이득을 결정한다.

궤적 추종 제어: 기준 궤적 주위에서 시간 가변 선형화를 수행하고, 유한 시간 LQR을 적용하여 시간 가변 최적 이득을 산출한다. 이 접근법은 시간 가변 LQR(TV-LQR)로 불리며, 비선형 로봇 시스템의 궤적 안정화에 널리 사용된다.

13. 참고 문헌

Anderson, B. D. O., & Moore, J. B. (1990). Optimal Control: Linear Quadratic Methods. Prentice Hall.
Lewis, F. L., Vrabie, D., & Syrmos, V. L. (2012). Optimal Control (3rd ed.). Wiley.
Bryson, A. E., & Ho, Y.-C. (1975). Applied Optimal Control: Optimization, Estimation, and Control. Hemisphere Publishing.
Kirk, D. E. (2004). Optimal Control Theory: An Introduction. Dover Publications.
Tedrake, R. (2023). Underactuated Robotics: Algorithms for Walking, Running, Swimming, Flying, and Manipulation. MIT.

version: 1.0