7.92 경사 하강법의 로봇 학습 응용

1. 로봇 학습에서 경사 기반 최적화의 위상

로봇 학습(robot learning)은 데이터와 경험으로부터 로봇의 행동 정책, 인식 모델, 동역학 모델 등을 자동으로 개선하는 분야이다. 이 과정에서 경사 하강법과 그 변형은 파라미터 최적화의 핵심 도구로 기능한다. 로봇 학습 문제는 통상 고차원 파라미터 공간에서의 비볼록 최적화로 정식화되며, 확률적 경사 하강법과 적응적 학습률 방법이 실용적으로 가장 널리 활용된다.

2. 모방 학습(Imitation Learning)

2.1 행동 복제(Behavioral Cloning)

인간 시범자(demonstrator)의 행동 데이터 $\{(\mathbf{o}_i, \mathbf{a}_i)\}_{i=1}^{N}$ 으로부터 관측-행동 매핑 정책 $\pi_\theta(\mathbf{a} \vert \mathbf{o})$ 를 학습하는 지도 학습 문제이다. 목적 함수는 다음의 손실 함수를 최소화하는 것이다.

$\mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell(\pi_\theta(\mathbf{o}_i), \mathbf{a}_i)$

여기서 $\ell$ 은 연속 행동 공간에서는 평균 제곱 오차, 이산 행동 공간에서는 교차 엔트로피(cross-entropy)가 통상적으로 사용된다. 정책 $\pi_\theta$ 가 심층 신경망으로 매개변수화되면, 미니 배치 SGD 또는 Adam에 의해 파라미터 $\theta$ 를 학습한다.

2.2 역강화 학습(Inverse Reinforcement Learning)

시범 데이터로부터 보상 함수를 추론하는 문제에서도 경사 기반 최적화가 사용된다. 최대 엔트로피 역강화 학습(maximum entropy IRL)에서 보상 함수의 파라미터는 시범 궤적의 가능도(likelihood)를 최대화하도록 경사 상승법(gradient ascent)으로 갱신된다.

3. 강화 학습(Reinforcement Learning)

3.1 정책 그래디언트(Policy Gradient)

정책 $\pi_\theta(\mathbf{a} \vert \mathbf{s})$ 의 파라미터 $\theta$ 를 기대 누적 보상 $J(\theta) = \mathbb{E}_{\pi_\theta}[\sum_{t=0}^{T} \gamma^t r_t]$ 를 최대화하도록 갱신한다. REINFORCE 알고리즘에 의한 그래디언트 추정은 다음과 같다.

$\nabla_\theta J(\theta) \approx \frac{1}{M}\sum_{m=1}^{M}\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(\mathbf{a}_t^{(m)} \vert \mathbf{s}_t^{(m)}) R_t^{(m)}$

여기서 $M$ 은 궤적 샘플 수, $R_t^{(m)}$ 은 시각 $t$ 이후의 할인된 누적 보상이다. 이 확률적 그래디언트를 경사 상승법에 적용하여 정책을 개선한다.

정책 그래디언트의 분산이 매우 크므로, 기저선 차감(baseline subtraction), 일반화 이점 추정(Generalized Advantage Estimation, GAE) 등의 분산 감소 기법이 필수적이다.

3.2 근접 정책 최적화(Proximal Policy Optimization, PPO)

정책 갱신의 안정성을 확보하기 위해, 갱신 전후 정책의 변화를 제한하는 대리 목적 함수(surrogate objective)를 경사 기반으로 최적화한다.

$\mathcal{L}^{CLIP}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]$

여기서 $r_t(\theta) = \pi_\theta(\mathbf{a}_t \vert \mathbf{s}_t)/\pi_{\theta_{old}}(\mathbf{a}_t \vert \mathbf{s}_t)$ 는 확률비, $\hat{A}_t$ 는 이점(advantage) 추정값이다. Adam 최적화기와 미니 배치 SGD의 결합이 PPO의 표준 구현이다.

4. 동역학 모델 학습

4.1 신경망 기반 동역학 모델

로봇의 순방향 동역학 $\mathbf{x}_{t+1} = f_\theta(\mathbf{x}_t, \mathbf{u}_t)$ 을 신경망으로 근사하고, 관측 데이터로부터 학습한다.

$\mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N} \lVert \mathbf{x}_{i+1} - f_\theta(\mathbf{x}_i, \mathbf{u}_i) \rVert^2$

학습된 모델은 모델 기반 강화 학습(model-based RL)이나 모델 예측 제어(MPC)의 예측 모델로 사용된다. 그래디언트는 역전파(backpropagation)로 계산되며, Adam이 주로 사용된다.

4.2 미분 가능 시뮬레이션과 경사 관통

미분 가능 물리 시뮬레이터(differentiable physics simulator)를 통해 시뮬레이션 궤적 전체에 대한 그래디언트를 역전파로 계산할 수 있다. 이 경우 제어 입력의 시퀀스 $\{\mathbf{u}_0, \ldots, \mathbf{u}_{T-1}\}$ 을 직접적으로 경사 하강법으로 최적화하여 원하는 궤적을 생성한다. 접촉과 충돌의 불연속성으로 인한 그래디언트의 비매끄러움이 주요 도전 과제이며, 평활화(smoothing) 기법이나 랜덤화된 평활화(randomized smoothing)가 이를 완화하는 데 사용된다.

5. 인식 모델 학습

5.1 물체 감지와 자세 추정

합성곱 신경망(CNN) 기반의 물체 감지, 분할, 6자유도 자세 추정 모델의 학습에서 경사 하강법이 핵심이다. 로봇 비전에서 사용되는 대표적인 손실 함수는 다음을 포함한다.

분류 손실: 교차 엔트로피, 초점 손실(focal loss)
회귀 손실: 매끄러운 L1 손실, IoU(Intersection over Union) 기반 손실
자세 손실: 쿼터니언 거리, 측지 거리(geodesic distance)

5.2 시각-운동 정책 학습(Visuomotor Policy Learning)

카메라 영상으로부터 직접 로봇 행동을 출력하는 종단간(end-to-end) 정책 학습에서, 신경망의 그래디언트가 영상 인코더와 행동 디코더를 관통하여 흐르며, 전체 파이프라인이 경사 하강법으로 공동 최적화된다.

6. 로봇 학습에서의 실용적 고려 사항

데이터 효율성: 실물 로봇에서의 데이터 수집은 비용이 높으므로, 소량의 데이터로 효율적으로 학습하는 것이 중요하다. 사전 학습과 전이 학습(transfer learning)을 통해 필요 데이터 양을 줄이며, 미세 조정 시 작은 학습률과 적은 에폭이 사용된다.

안전성: 학습 과정에서 탐색(exploration)에 의한 위험한 행동을 방지해야 한다. 정책 갱신의 크기를 제한하는 신뢰 영역(trust region) 방법과 경사 클리핑(gradient clipping)이 안전한 학습에 기여한다.

그래디언트 클리핑: 그래디언트의 노름이 과도하게 커지는 경우 이를 제한하여 수치적 안정성을 확보한다.

$\mathbf{g}_k \leftarrow \begin{cases} \mathbf{g}_k & \text{if } \lVert \mathbf{g}_k \rVert \leq c \\ c \frac{\mathbf{g}_k}{\lVert \mathbf{g}_k \rVert} & \text{if } \lVert \mathbf{g}_k \rVert > c \end{cases}$

여기서 $c > 0$ 은 클리핑 임계값이다. 순환 신경망(RNN) 기반의 로봇 시계열 학습에서 특히 중요하다.

7. 참고 문헌

Levine, S., Finn, C., Darrell, T., & Abbeel, P. (2016). “End-to-End Training of Deep Visuomotor Policies.” Journal of Machine Learning Research, 17(39), 1–40.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). “Proximal Policy Optimization Algorithms.” arXiv:1707.06347.
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). “Policy Gradient Methods for Reinforcement Learning with Function Approximation.” Advances in Neural Information Processing Systems (NeurIPS), 12.
Nagabandi, A., Kahn, G., Fearing, R. S., & Levine, S. (2018). “Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning.” Proceedings of ICRA, 7559–7566.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

version: 1.0