12.4 휴머노이드 시대를 앞당기다: 프로젝트 그루트(Project GR00T)
수 세기 동안 SF 소설 작가들이 부르짖고, 엘론 머스크(Elon Musk)가 옵티머스(Optimus)를 무대에 올려 허세를 부릴 때만 해도 인간의 모습을 한 거대 쇳덩어리, ’휴머노이드(Humanoid)’는 영원히 도달할 수 없는 코미디와 같았다. 하지만 이 구식 기계공학의 늪에 엔비디아(NVIDIA) 젠슨 황(Jensen Huang)이 무자비한 ‘파운데이션 인공지능(Foundation AI)’ 모델을 들고 강림하는 순간, 몽상은 가장 피 튀기는 냉혹한 현실의 전쟁터로 변모했다.
12.4장에서는 엔비디아가 선포한 인류 역사상 가장 폭력적이고 위대한 로보틱스 선언, ‘프로젝트 그루트(Project GR00T, Generalist Robot 00 Technology)’ 의 뼈대를 파헤친다.
지구상의 그 어떤 회사(보스턴 다이내믹스, 테슬라, 유니트리 등)가 만든 각기 다른 휴머노이드라도, 단 하나의 공통된 안드로이드 두뇌 모델(GR00T)을 통해 똑같이 사람의 움직임을 모방하고 진화시키는 소름 돋는 ’범용 두뇌’의 탄생.
그리고 인간의 육체를 통제하기 위해 특별히 제작된 새로운 신체강탈 칩십, ‘젯슨 토르(Jetson Thor)’ 의 등장을 통해, 모니터 속 인공지능이 마침내 인간의 물리적 형상을 빌려 지상을 활보하기 시작하는 궁극의 신인류 진화 과정을 추적해 보자.
12.4.1 범용 로봇 파운데이션 모델(Generalist Robot Foundation Model)의 탄생
과거 휴머노이드를 만드는 천재들은 각자 자기가 만든 로봇의 모터를 움직이기 위해 처음부터 끝까지 새로운 두뇌 코드 언어를 발명해야 했다. 그 결과 보스턴 다이내믹스(Boston Dynamics)의 개 로봇과 피규어(Figure)의 이족 보행 로봇은 서로 뇌 구조가 달라 단 하나의 지식도 호환 공유할 수가 없었다. 이것은 인류 지능 시스템 발전의 거대한 낭비였다.
엔비디아(NVIDIA)가 이 난장판을 정리하기 위해 하늘에서 떨어뜨린 궁극의 통일 뇌 신경망, 그것이 바로 ‘프로젝트 그루트(Project GR00T)’ 로 대변되는 ‘범용 로봇 파운데이션 모델(Generalist Robot Foundation Model)’ 이다.
오픈AI(OpenAI)의 GPT-4가 세상 모든 텍스트를 이해하는 ’범용 언어 뇌’라면, 그루트(GR00T)는 세상 모든 휴머노이드의 팔다리를 어떻게 움직여야 하는지 그 자체를 깨달은 ’범용 행동 뇌’였다.
이제 어떤 중소기업이 철판을 때려 이어붙여 어설픈 인간형 로봇을 만들지라도, 모터와 센서만 겨우 연결해 놓은 채 깡통 머리에 이 그루트라는 파운데이션 모델을 다운로드하여 꽂아 넣기만 하면? 그 로봇은 즉시 자신이 어떻게 걸어야 중력에 넘어지지 않는지, 토마토를 집을 때 얼마나 힘을 빼야 터지지 않는지를 인간과 유사한 직관으로 완벽하게 이해하고 움직이기 시작한다.
세상에 존재하는 수만 가지 이질적인 휴머노이드의 몸(Body)들을 단 하나의 거대한 중앙 통치 인공지능(엔비디아의 뇌)이 통일하여 지배하게 되는 소름 돋고 완벽한 영혼의 통일장 이론이 열린 것이다.
12.4.2 인간의 움직임을 관찰하고 스스로 모방 학습하는 메커니즘
인간형 로봇(Humanoid)이 가장 구현하기 힘든 징그러운 과제는 바로 “인간처럼 드립 커피를 타거나 셔츠를 개는 것“과 같은 비정형적인 동작들이다. 프로그래머가 손목관절 몇 도, 악력 몇 뉴턴(N)을 엑셀처럼 코딩(Coding)해서는 영원히 달성할 수 없는 미지의 마찰 구역이었다.
하지만 프로젝트 그루트(GR00T)에 내장된 엔비디아의 시각-행동 지능은 이 모든 수학적 코딩 행위를 원시 시대의 짓거리로 폐기 처분해 버렸다. 그루트의 핵심은 인간의 행동을 마치 어린아이가 부모를 보듯 ‘관찰하고 스스로 모방(Imitation Learning)’ 하는 악마적인 직관력에 있었다.
인간 작업자가 머리에 VR 기기나 카메라(텔레오퍼레이션, Tele-operation)를 쓰고 양손으로 자연스럽게 오렌지를 썰고 설거지를 하는 시범을 보여준다. 그러면 그루트 시스템은 그 영상을 수십 번 돌려보면서 스스로 자신의 모터 회전값과 그 상황의 물리적 힘을 역산하여 머릿속에서 알고리즘 규칙으로 찍어내 버린다.
“아! 인간은 미끄러운 접시를 쥘 때 엄지에 힘을 30% 더 주며 천천히 들어 올리는군!”
명령을 내릴 필요도 없다. 그냥 인간의 비디오(Video) 영상과 행동 수십 번을 보여주면, 그루트는 혼자서 아이작 심(Isaac Sim) 가상 훈련장으로 기어들어가 1만 번을 더 연습한 뒤, 다음 날 아침 완벽하게 커피를 타서 인간의 책상 위에 올려놓는다. 인공지능이 인간 육체의 은밀한 직관의 비밀을 눈으로 훔쳐 내 기계의 몸뚱이로 완벽히 복사해 내는 이 소음 없는 침탈의 과정은, 육체노동자들의 종말을 예고하는 가장 섬뜩한 사이렌이었다.
12.4.3 차세대 휴머노이드 전용 컴퓨터 ’젯슨 토르(Jetson Thor)’의 등장
아무리 파운데이션 모델(GR00T)이 똑똑하고 천재적이어도, 100kg이 넘는 쇳덩어리 휴머노이드가 뛰고 점프하며 균형을 잡으려면 로봇의 가슴팍 안에 무시무시한 연산력을 뿜어내는 ’물리적인 심장(하드웨어)’이 박혀 있어야만 했다. 하지만 기존의 자동차용 자율주행 칩(오린)을 로봇에 박기에는, 로봇의 움직임이 훨씬 다관절적이었고 인간과의 상호작용 속도가 더 치명적으로 빨라야 했다.
이에 엔비디아(NVIDIA) 젠슨 황(Jensen Huang)은 또 한 번 반도체 시장의 멱살을 잡고 흔들며, 오직 인간형 로봇의 뼈대 속에 장착하기 위해 특별히 설계된 괴물, ‘젯슨 토르(Jetson Thor)’ 시스템 온 칩(SoC)을 세상에 던졌다.
토르 칩은 소름 돋게도 차세대 블랙웰(Blackwell) 아키텍처 기반의 트랜스포머 엔진(Transformer Engine)을 품고 태어났다. 즉, 스스로 인간의 언어를 씹어 먹는 초거대 LLM을 칩 자체에서 가속하고, 뒤통수에 매달린 배터리 속 전기를 극단적으로 아끼면서 초당 800테라플롭스(TFLOPS)의 미친 연산력으로 수십 개의 관절 모터를 0.001초 단위로 흔들리지 않게 잡아준다.
“세상의 모든 휴머노이드 회사들은 뇌(모터 알고리즘)를 짜느라 밤새지 마라. 우리 젯슨 토르를 가슴에 꽂고 그루트(GR00T)를 다운받으면 그 즉시 당신의 깡통은 인조인간으로 환생한다.”
이 젯슨 토르 물리 칩의 등장은, 소프트웨어로 시작한 젠슨 황의 로봇 야망이 철저하게 “마지막 금속의 육체 통제권“마저 완벽히 엔비디아의 독점 하드웨어로 귀속시켜 버리는 가장 확실하고 묵직한 하드 록(Hard Lock-in)의 선포였다.