7.160 임피던스 제어의 파라미터 최적화

1. 임피던스 제어의 개요

임피던스 제어(impedance control)는 로봇 말단 장치의 역학적 거동을 원하는 임피던스(질량-댐핑-강성) 모델로 조절하는 제어 방법이다. 하간(Hogan, 1985)이 제안한 이 방법은 위치 제어와 힘 제어의 통합적 프레임워크를 제공하며, 로봇-환경 상호 작용에서 안전하고 유연한 거동을 실현한다.

원하는 임피던스 모델은 다음과 같다.

$\mathbf{M}_d\ddot{\tilde{\mathbf{x}}} + \mathbf{D}_d\dot{\tilde{\mathbf{x}}} + \mathbf{K}_d\tilde{\mathbf{x}} = \mathbf{f}_{ext}$

여기서 $\tilde{\mathbf{x}} = \mathbf{x} - \mathbf{x}_d$ 는 위치 오차, $\mathbf{M}_d$ 는 원하는 관성, $\mathbf{D}_d$ 는 원하는 댐핑, $\mathbf{K}_d$ 는 원하는 강성, $\mathbf{f}_{ext}$ 는 외부 힘이다.

2. 임피던스 파라미터의 역할

강성 $\mathbf{K}_d$ : 위치 편차에 대한 복원력의 크기를 결정한다. 높은 강성은 정밀한 위치 유지를, 낮은 강성은 유연한 접촉 거동을 제공한다.

댐핑 $\mathbf{D}_d$ : 운동의 감쇠를 결정한다. 적절한 댐핑은 진동을 억제하고 안정적 접촉을 보장한다. 임계 감쇠 조건은 $\mathbf{D}_d = 2\sqrt{\mathbf{M}_d\mathbf{K}_d}$ 이다.

관성 $\mathbf{M}_d$ : 외부 힘에 대한 가속도 응답의 크기를 결정한다. 낮은 관성은 빠른 반응을, 높은 관성은 안정적 거동을 제공한다.

3. 파라미터 최적화의 동기

임피던스 파라미터 $(\mathbf{M}_d, \mathbf{D}_d, \mathbf{K}_d)$ 의 선택은 작업의 성격에 크게 의존한다. 자유 공간 이동에서는 높은 강성과 빠른 응답이 요구되지만, 접촉 과업(삽입, 연마, 조립)에서는 낮은 강성과 적절한 감쇠가 필요하다. 최적의 임피던스 파라미터를 체계적으로 결정하기 위해 최적화 기법이 적용된다.

4. 비용 함수 기반 최적화

4.1 추종 성능과 접촉력의 복합 비용

$\min_{\mathbf{K}_d, \mathbf{D}_d} \quad \int_0^T \left(w_x \lVert\tilde{\mathbf{x}}(t)\rVert^2 + w_f \lVert\mathbf{f}_{ext}(t) - \mathbf{f}_d(t)\rVert^2\right) dt$

위치 추종 정확도와 접촉력 조절의 가중 합을 최소화한다.

4.2 에너지 소산 최적화

접촉 시 충격 에너지를 최대한 흡수하도록 댐핑을 최적화한다.

$\min_{\mathbf{D}_d} \quad -\int_0^T \dot{\tilde{\mathbf{x}}}^T\mathbf{D}_d\dot{\tilde{\mathbf{x}}} \, dt + \lambda\lVert\mathbf{D}_d\rVert^2$

5. 가변 임피던스 제어(Variable Impedance Control)

고정 임피던스로는 다양한 과업 단계(접근, 접촉, 힘 인가, 이탈)에 최적으로 대응하기 어렵다. 가변 임피던스 제어는 시간 또는 상태에 따라 임피던스 파라미터를 연속적으로 변화시킨다.

5.1 궤적 기반 가변 임피던스

$\mathbf{K}_d(t) = \mathbf{K}_d(\mathbf{x}(t), \dot{\mathbf{x}}(t), \mathbf{f}_{ext}(t))$

접촉 순간에는 강성을 낮추고, 정밀 작업 시에는 강성을 높이는 프로파일을 설계한다. 임피던스 프로파일의 최적화는 다음의 문제로 정식화된다.

$\min_{\mathbf{K}_d(\cdot), \mathbf{D}_d(\cdot)} \quad J[\mathbf{K}_d(\cdot), \mathbf{D}_d(\cdot)]$

이는 함수 공간에서의 최적화로, 이산화하여 유한 차원 NLP로 변환한다.

6. 강화 학습에 의한 임피던스 파라미터 학습

비용 함수의 해석적 그래디언트를 구하기 어려운 경우, 강화 학습에 의해 임피던스 파라미터를 경험적으로 최적화한다. 정책 매개변수로서 임피던스 파라미터(또는 그 스케줄)를 설정하고, 실제 과업 수행의 보상을 최대화하는 파라미터를 학습한다.

PI²(Policy Improvement with Path Integrals), CMA-ES 등의 도함수 불요 방법이 임피던스 파라미터의 학습에 적용되어 있다.

7. 안정성 보장

가변 임피던스 제어에서 파라미터의 변화가 시스템의 안정성을 위협할 수 있다. 에너지 기반 분석(passivity analysis)에 의해 임피던스 파라미터의 변화율에 대한 제약을 도출하여 안정성을 보장한다.

강성의 감소는 에너지를 방출하므로 수동적(passive)이지만, 강성의 증가는 에너지를 주입할 수 있으므로 주의가 필요하다. 에너지 탱크(energy tank) 개념을 도입하여 시스템의 총 에너지를 모니터링하고, 에너지 주입이 허용 한계를 초과하면 파라미터 변화를 제한하는 방법이 사용된다.

8. 참고 문헌

Hogan, N. (1985). “Impedance Control: An Approach to Manipulation.” Journal of Dynamic Systems, Measurement, and Control, 107(1), 1–24.
Buchli, J., Stulp, F., Theodorou, E., & Schaal, S. (2011). “Learning Variable Impedance Control.” IJRR, 30(7), 820–833.
Kronander, K., & Billard, A. (2016). “Stability Considerations for Variable Impedance Control.” IEEE Transactions on Robotics, 32(5), 1298–1305.
Siciliano, B., et al. (2009). Robotics: Modelling, Planning and Control. Springer.

version: 1.0