VIDEOMIMIC - 시각적 모방을 통한 상황인지형 휴머노이드 제어
1. 새로운 패러다임의 서막: 관찰을 통한 학습
1.1 궁극적 도전: 비정형 환경에서의 휴머노이드 상호작용
인간 중심의 비정형 환경에서 자유롭게 활동할 수 있는 휴머노이드 로봇을 개발하는 것은 로봇 공학계의 오랜 목표였다.1 계단, 의자, 고르지 않은 지면과 같은 환경적 맥락을 이해하고 이에 적응하기 위해서는, 로봇의 자기중심적 인지(egocentric perception) 능력과 전신 제어(whole-body control) 능력이 긴밀하게 통합되어야 한다.2
기존의 접근 방식들은 이러한 목표를 달성하는 데 명백한 한계를 보여왔다. 첫째, 전신 원격 조종(whole-body teleoperation)을 통해 수집된 실제 데이터를 이용한 모방 학습은 데이터 수집 비용이 높고 확장성이 떨어지는 문제를 안고 있다.1 둘째, 외부 모션 캡처 시스템이나 사전에 정의된 환경에 의존하는 방식들은 새롭고 예측 불가능한 ‘실제 환경(in-the-wild)’ 시나리오에 대한 일반화 능력이 부족하다.3 이러한 방법론들은 통제된 실험실 환경을 벗어나는 순간 그 효용성이 급격히 감소한다.
1.2 VIDEOMIMIC의 핵심 제안: 일상 비디오를 통한 확장 가능한 기술 습득
VIDEOMIMIC은 이러한 한계를 극복하기 위한 혁신적인 해법을 제시한다. 그 핵심 명제는, 스마트폰으로 촬영된 일상적인 인간의 활동 영상이 로봇에게 복잡하고 상황 인식적인 기술을 가르치기 위한 확장 가능한 데이터 소스가 될 수 있다는 것이다.2 이 접근법은 로봇 학습의 패러다임을 근본적으로 전환한다. 전통적인 로봇 프로그래밍이 특정 계단을 오르는 방법과 같은 ’어떻게(how)’를 명시적으로 설계하는 데 초점을 맞췄다면, VIDEOMIMIC은 “사람이 계단을 오르는 이 비디오를 보라“와 같이 ’무엇을(what)’을 지정하고 시스템이 ’어떻게’를 스스로 학습하게 만든다. 이는 방대한 비정형 인간 활동 데이터를 값비싼 구조적 엔지니어링 노력을 대체하는 자원으로 활용하는 것으로, 로봇 기술 라이브러리를 프로그래머가 아닌 비디오 데이터 큐레이션을 통해 채워나가는 미래를 시사한다.
이러한 비전을 실현하기 위해 VIDEOMIMIC은 ‘실제-시뮬레이션-실제(real-to-sim-to-real)’ 파이프라인을 제안한다.2 이 파이프라인은 비정형 시각 데이터와 물리적으로 구현된 로봇 행동 사이의 간극을 메우는 핵심 아키텍처 역할을 한다. 또한, 이 시스템은 ’상황인지 제어(contextual control)’라는 개념을 명시적인 과업 레이블 없이 환경에 적합한 행동을 수행하는 능력으로 정의하며, 이를 학습의 최종 목표로 삼는다.5
2. VIDEOMIMIC 아키텍처: 픽셀에서 물리적 기술까지
2.1 인지 전처리: 동적 세계의 재구성 (Real-to-Sim)
VIDEOMIMIC의 성공은 정교한 데이터 처리 파이프라인에 크게 의존한다. 이는 단순한 전처리가 아니라, 실제 세계의 복잡하고 불완전한 데이터를 시뮬레이션과 학습 알고리즘이 소화할 수 있는 형태로 정제하는 핵심 혁신이다. 이 파이프라인은 ’현실 격차(reality gap)’와 ’체화 격차(embodiment gap)’를 동시에 해결하는 복합적인 솔루션이다.
2.1.1 데이터 큐레이션 및 초기 처리
모든 과정은 다양한 환경에서 사람들이 일상적인 활동을 수행하는 123개의 스마트폰 비디오를 큐레이션하는 것에서 시작된다.3 이 비디오들은 사전 훈련된 모델들을 통해 초기 처리 과정을 거친다. 인간 자세 추정을 위해 VIMO와 ViTPose가, 장면 재구성을 위해 MegaSaM과 MonST3R가, 그리고 발 접촉 회귀를 위해 BSTRO가 사용된다. 이 단계를 통해 2D/3D 키포인트, SMPL 파라미터(자세, 체형), 그리고 원시 장면 포인트 클라우드와 같은 예비 데이터가 추출된다.5
2.1.2 인간-장면 동시 재구성
초기 데이터는 스케일 모호성과 인간의 움직임-장면 기하학 간의 불일치 문제를 내포한다. 이를 해결하기 위해, 인간의 전역 이동(\gamma_{1:T}), 전역 방향(\phi_{1:T}), 지역 자세(\theta_{1:T}), 그리고 장면 포인트 클라우드의 스케일(\alpha)을 동시에 최적화하는 과정이 수행된다.5 이 최적화에서 SMPL 모델에 내재된 인간의 신장 사전 정보(height prior)가 미터법 스케일을 결정하는 기준점 역할을 한다.5
최적화는 다음 목적 함수를 최소화하는 방향으로 진행된다 5:
\arg \min_{\alpha,\gamma,\phi,\theta} w_{3D}L_{3D} + w_{2D}L_{2D} + L_{\text{Smooth}}
-
L_{3D}: Structure-from-Motion(SfM)으로부터 추정된 3D 관절과 SMPL 모델의 3D 관절 간의 L1 거리 손실.
L_{3D} = \sum_{t} \Vert J^t_{3D} - \tilde{J}^t_{3D} \Vert_1 -
L_{2D}: 3D 관절을 2D 이미지 평면에 재투영했을 때 발생하는 오차.
L_{2D} = \sum_{t} \Vert \tilde{J}^t_{2D} - \Pi ( K ) \Vert_1 -
L_{Smooth}: 프레임 간 움직임의 떨림(jitter)을 억제하여 시간적 일관성을 부여하는 정규화 항.
L_{Smooth} = \lambda_\gamma \sum_{t} \Vert \gamma^t - \gamma^{t-1} \Vert^2_2 + \lambda_\theta \sum_{t} \Vert \theta^t - \theta^{t-1} \Vert^2_2
2.1.3 시뮬레이션용 에셋 생성
최적화된 데이터는 물리 시뮬레이터에서 사용 가능한 형태로 변환된다. GeoCalib을 사용하여 재구성된 장면을 중력 방향과 정렬하고, NKSR을 통해 노이즈가 많은 포인트 클라우드를 경량화된 메시(mesh)로 변환한다.3 마지막으로, 재구성된 인간의 움직임을 휴머노이드 로봇에 맞게 재조정하는 ’모션 리타겟팅(motion retargeting)’이 수행된다. 이 과정에서는 로봇의 관절 한계, 지면 접촉, 충돌 제약 조건 등을 고려하여 물리적 타당성을 확보한다.3
2.2 제어 후처리: 범용 정책의 형성 (Policy Learning)
VIDEOMIMIC의 제어 정책 학습은 모델 기반 접근과 모델 프리 접근의 장점을 결합한 하이브리드 시스템으로 볼 수 있다. ‘Real-to-Sim’ 전처리 단계는 인간과 장면에 대한 명시적인 3D 모델을 구축하는 모델 기반 접근법이다. 이 모델은 고품질의 상황인지적 참조 데이터를 생성하는 데 사용되며, 이 데이터는 모델 프리 강화학습 에이전트가 무작위 탐색으로는 발견하기 어려운 행동을 학습하도록 안내한다. 이후 모델 프리 강화학습은 순수 모델 기반 궤적 추종 시스템이 갖기 어려운 강인함과 반응성을 정책에 부여한다.
2.2.1 기반: DeepMimic 스타일의 모방 학습
정책 학습의 근간은 DeepMimic의 원리를 따른다.7 DeepMimic은 보상 함수를 통해 시뮬레이션된 캐릭터가 참조 모션을 모방하도록 유도하는 강화학습 프레임워크다.5 핵심 아이디어는 단순히 움직임을 복제하는 것을 넘어, 외부 교란으로부터 회복할 수 있는 강인한 정책을 학습하는 데 있다.7
2.2.2 다단계 훈련 프로토콜
VIDEOMIMIC은 체계적인 4단계 훈련 프로토콜을 통해 최종 정책을 완성한다. 이 과정은 시뮬레이션에서만 사용 가능한 특권 정보(privileged information)에 대한 의존성을 점진적으로 제거하는 ‘깔때기’ 구조로 설계될 수 있다. 성공적인 실제 환경으로의 이전은 완벽한 시뮬레이션을 만드는 것이 아니라, 불완전한 정보의 부재 속에서도 강인하게 작동하는 정책을 훈련시키는 데 있음을 시사한다.
- 모션 캡처 사전 훈련 (MPT): 정책은 대규모 모션 캡처 데이터셋(LAFAN)을 사용하여 사전 훈련된다. 이를 통해 기본적인 이동 운동(locomotion) 사전 지식을 학습한다.6
- 장면 조건부 추종: 사전 훈련된 정책은 비디오에서 재구성된 특정 움직임과 그에 해당하는 장면 메시 내에서 미세 조정된다. 이 단계에서 정책은 환경적 맥락을 인지하는 능력을 갖추게 된다.6
- 정책 증류 (DAgger): 실제 환경으로의 이전을 위한 결정적인 단계다. 목표 관절 각도와 같은 특권 정보에 접근할 수 있는 ‘교사’ 정책을 사용하여, 실제 환경에서 관측 가능한 정보에만 의존하는 ‘학생’ 정책을 훈련시킨다.5 이 과정을 통해 테스트 시 참조 궤적에 대한 의존성이 제거된다.
- PPO 미세 조정: 마지막으로, 증류된 정책은 축소된 관측값 집합을 사용하여 PPO(Proximal Policy Optimization) 알고리즘으로 한 번 더 미세 조정된다. 이를 통해 최종적인 범용 제어기가 완성된다.5
2.2.3 정책 입출력
- 관측 (입력): 최종 정책은 실제 로봇에 탑재된 센서로 얻을 수 있는 최소한의 정보에만 의존한다. 이는 고유수용감각(관절 위치/속도, 각속도, 중력 벡터), 로봇 동체 중심의 11 \times 11 지역 높이 맵(height-map) 패치, 그리고 목표 루트 방향 벡터를 포함한다.5
- 행동 (출력): 정책은 PD 제어기를 위한 목표 관절 각도와 같은 저수준 모터 명령을 출력한다.5
2.2.4 보상 구조
VIDEOMIMIC은 “보상 공학을 우회한다“고 주장하지만 5, DeepMimic 스타일의 훈련은 본질적으로 모방 기반 보상 함수를 사용함을 시사한다. 이 보상 함수는 데이터 기반 추종 항(링크/관절 위치, 속도, 발 접촉 추적)과 시뮬레이터의 물리 엔진을 악용하는 것을 방지하기 위한 페널티 항(과도한 행동 비율 등)을 결합한다.6 중요한 점은 이 보상 구조가 ’계단 오르기’와 같은 특정 과업이 아닌, ’모방’이라는 일반적인 목표에 맞춰져 있다는 것이다.
3. 실증적 검증: 시뮬레이션에서 현실 세계로
3.1 시연된 상황인지 행동
VIDEOMIMIC의 최종 정책은 실제 Unitree G1 휴머노이드 로봇에 성공적으로 배포되어 그 성능을 입증했다. 로봇은 프로젝트의 보충 비디오에서 볼 수 있듯이 다양한 상황인지 행동을 수행했다.4
- 계단 오르기: 다양한 형태의 계단을 안정적으로 오르내리며 적응형 이동 능력을 선보였다.2
- 앉기/서기: 높이와 모양이 다른 의자와 벤치에 부드럽게 앉고 일어서는 동작을 수행했다.2
- 지형 통과: 고르지 않은 지면, 경사로, 작은 장애물을 넘어가는 등 다양한 지형을 탐색했다.4
가장 주목할 만한 결과는, 이 모든 다양한 행동이 명시적인 기술 전환 메커니즘 없이, 오직 지역 높이 맵과 루트 방향 명령에만 의존하는 *단일 통합 정책(single, unified policy)*에 의해 수행되었다는 점이다.4 이는 정책 네트워크가 지역적 기하학 특성(예: 특정 높이의 평평한 표면, 연속적인 계단)과 그에 상응하는 운동 기술 사이의 매핑을 학습했음을 시사한다. 즉, 복잡하고 의미론적인 행동이 상징적 계획가나 유한 상태 기계 없이, 다양하고 맥락이 풍부한 데이터에 대한 고용량 신경망 훈련을 통해 자발적으로 발현될 수 있음을 보여준다.
3.2 Sim-to-Real 이전 및 일반화
학습된 정책이 시뮬레이션을 넘어 실제 로봇에 직접 배포되어 성공적으로 작동했다는 사실은 VIDEOMIMIC 파이프라인 전체의 유효성을 입증하는 강력한 증거다.5 특히 로봇이 훈련 데이터에 포함되지 않았던 처음 보는 환경(새로운 계단, 새로운 의자)에 대해서도 적절한 행동을 수행했다는 점은 성공적인 일반화 능력을 보여준다.5
3.3 비교 분석
VIDEOMIMIC의 독창적인 기여를 명확히 하기 위해, 기존의 주요 휴머노이드 제어 방법론들과 비교 분석할 필요가 있다. 아래 표는 각 방법론의 핵심 특징을 요약하여 VIDEOMIMIC의 차별점을 부각한다.
표 1: 상황인지형 휴머노이드 제어 방법론 비교 분석
| 방법론 | 환경 모델링 | 데이터 소스 | 제어 전략 | 실제 로봇 배포 |
|---|---|---|---|---|
| DeepMimic [Peng et al. 2018]7 | 평지 가정 | 모션 캡처 | 모방 강화학습 | 아니요 (시뮬레이션 캐릭터) |
| H2O / ExBody2 5 | 평지 가정 | 모션 캡처 | 모방 강화학습 | 예 |
| Parkour [Li et al.]5 | 사전 스캔/설계 | 모션 캡처 | 모방 강화학습 | 예 |
| VIDEOMIMIC (본 연구) 3 | 비디오에서 재구성 | 단안 비디오 | 증류된 모방 강화학습 | 예 |
이 표는 VIDEOMIMIC이 왜 중요한 진전인지를 명확하게 보여준다. 기존의 선도적인 연구들이 모션 캡처 데이터와 평지 혹은 사전에 모델링된 환경에 의존했던 반면, VIDEOMIMIC은 일상적인 비디오로부터 환경과 움직임을 동시에 재구성하고 이를 실제 로봇 제어에 성공적으로 적용한 최초의 사례 중 하나다.
4. 비판적 평가와 미래 방향
4.1 현 시스템의 구조적 한계 분석
VIDEOMIMIC은 중요한 성과를 거두었지만, 저자들이 인정한 바와 같이 여러 구조적 한계를 가지고 있다.11 이러한 한계들은 최종 정책의 품질이 상위 데이터 처리 파이프라인의 충실도에 직접적으로 제약을 받는다는 ‘쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)’ 원칙을 명확히 보여준다. 재구성 단계의 결함은 결함 있는 시뮬레이션 환경을 만들고, 이는 부정확한 행동 학습이나 과도한 회복 기동 의존으로 이어진다. 따라서 단순히 비디오 데이터의 양을 늘리는 것만으로는 근본적인 문제 해결이 어려우며, 고충실도 3D 비전 기술과 대규모 학습의 동시적인 발전이 필수적이다.
- 재구성의 취약성: 단안 4D 복원은 여전히 해결되지 않은 문제다. MegaSaM의 카메라 자세 드리프트로 인한 ‘유령’ 기하학 생성, 텍스처가 적은 표면에서의 성능 저하, NKSR에 의한 계단 모서리와 같은 미세한 디테일의 과도한 평활화 등은 시뮬레이션 환경의 질을 저하시켜 학습된 정책에 직접적인 악영향을 미친다.11
- 리타겟팅 실패: 복잡한 장면에서는 발 접촉 유지와 충돌 회피 같은 상충하는 비용 함수로 인해 운동학적 최적화기가 부적절한 지역 최솟값에 빠질 수 있다. 이 경우, 강화학습 정책이 물리적으로 불가능한 참조 모션을 ’정리’해야 하는 추가적인 학습 부담을 안게 된다.11
- 인지적 병목 현상: 11 \times 11 LiDAR 높이 맵은 세상을 매우 거칠게 표현한다. 이는 정밀한 조작이나 돌출된 장애물에 대한 추론을 불가능하게 하며, 로봇이 수행할 수 있는 과업의 범위를 근본적으로 제한한다.11
- 시뮬레이션 충실도 가정: 시스템 전체가 단일 강체 메시로 표현될 수 있다고 가정하므로, 문을 열거나 부드러운 의자를 미는 등 관절이 있거나 변형 가능한 물체와의 상호작용은 불가능하다.11
- 데이터 규모와 모션 품질: 단 123개의 비디오 클립으로 훈련되었기 때문에, 최종 정책에서 관찰되는 ’툭툭 끊기는 움직임’과 회복 행동에 대한 과도한 의존은 데이터 부족에 기인할 가능성이 높다.11
4.2 차세대 시각적 모방을 위한 로드맵
이러한 한계들은 현재 시스템이 상황인지적 ’이동’에는 성공했지만, 상황인지적 ’상호작용’이라는 다음 단계의 도전과는 거리가 있음을 보여준다. 로봇이 의자에 앉을 수는 있지만, 테이블 밑에서 의자를 빼낼 수는 없다. 이는 현재의 한계점들이 단순한 이동을 넘어 동적인 세계를 조작하는 다음 단계의 과제를 명확히 지목하고 있음을 의미한다. 저자들이 제안한 향후 연구 방향은 이러한 과제를 해결하기 위한 일관된 연구 의제를 형성한다.11
- 인지 능력 향상: 거친 높이 맵을 넘어 RGB-D 데이터나 학습된 3D 점유 격자(occupancy grid)와 같은 풍부한 지각 입력을 통합하여 의미론적 이해와 복잡한 상호작용을 가능하게 해야 한다.
- 재구성 기술 강화: 재구성 과정에서 동적-정적 분리 성능을 개선하고, 디테일을 보존하는 강인한 메시 생성 알고리즘과 객체 수준의 재구성 파이프라인을 개발해야 한다.
- 리타겟팅 고도화: 복잡한 장면에 대응할 수 있도록 더 정교한 비용 함수를 가진 적응형 리타겟팅 알고리즘을 만들어야 한다.
- 데이터 및 학습 확장: 수천, 수백만 개의 비디오로 학습 데이터셋을 확장하고, 반복적인 실제 환경 미세 조정을 결합하여 모션의 부드러움과 강인성을 개선해야 한다.
5. 결론: 확장 가능한 로봇 학습에 대한 VIDEOMIMIC의 영향
5.1 기여 요약
VIDEOMIMIC은 다음과 같은 핵심적인 기여를 통해 휴머노이드 로봇 학습 분야에 중요한 이정표를 세웠다.
- 단안 비디오로부터 휴머노이드 제어를 학습하는 완전한 종단간 ‘실제-시뮬레이션-실제’ 파이프라인을 최초로 제안하고 구현했다.
- 일상적인 비디오에서 미터법 스케일의 시뮬레이션용 환경과 참조 모션을 제공하는 새로운 인간-장면 동시 재구성 방법을 개발했다.
- 다양한 상황인지적 이동 기술을 수행하는 단일 범용 정책을 성공적으로 훈련하고 실제 휴머노이드 로봇에 배포했다.
5.2 광범위한 함의와 최종 전망
VIDEOMIMIC은 지구상에서 가장 거대한 행동 데이터 저장소인 인간 활동 비디오를 활용하여 로봇을 가르치는 확장 가능한 방법을 향한 중요한 발걸음을 내디뎠다.2 이 연구는 로봇이 보고 배우는 오랜 비전이, 비록 인지와 데이터 충실도에 상당한 도전 과제가 남아있지만, 기술적으로 실현 가능해지고 있음을 증명한다. VIDEOMIMIC은 인간을 위해 만들어진 복잡하고 역동적인 세상에서 작동하는 방법을 학습할 수 있는, 더 적응력 있고 다재다능하며 유능한 휴머노이드 로봇의 시대를 여는 길을 닦고 있다.2
6. 참고 자료
- VisualMimic Visual Humanoid Loco-Manipulation via Motion Tracking and Generation, https://arxiv.org/html/2509.20322v1
- AI-Powered Paper Summarization about the arXiv paper 2505.03729v1, https://www.summarizepaper.com/en/arxiv-id/2505.03729v1/
- Visual Imitation Enables Contextual Humanoid Control - ChatPaper, https://chatpaper.com/paper/134668
- VideoMimic, https://www.videomimic.net/
- Visual Imitation Enables Contextual Humanoid Control - VideoMimic, https://www.videomimic.net/VideoMimic.pdf
- [Literature Review] Visual Imitation Enables Contextual Humanoid Control - Moonlight, https://www.themoonlight.io/en/review/visual-imitation-enables-contextual-humanoid-control
- DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills | alphaXiv, https://www.alphaxiv.org/overview/1804.02717v3
- DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills - ResearchGate, https://www.researchgate.net/publication/386791122_DeepMimic_Example-Guided_Deep_Reinforcement_Learning_of_Physics-Based_Character_Skills
- DeepMimic: Example-Guided Deep Reinforcement Learning … - arXiv, https://arxiv.org/pdf/1804.02717
- [2505.03729] Visual Imitation Enables Contextual Humanoid Control - arXiv, https://arxiv.org/abs/2505.03729
- Visual Imitation Enables Contextual Humanoid Control - arXiv, https://arxiv.org/html/2505.03729v1
- Visual Imitation Enables Contextual Humanoid Control | AI Research Paper Details, https://www.aimodels.fyi/papers/arxiv/visual-imitation-enables-contextual-humanoid-control