12.1 로보틱스의 새로운 패러다임: 체화된 AI(Embodied AI)
과거 수십 년 동안 공장에서 쓰이던 로봇 팔들은 멍청했다. 그저 프로그래머가 수학적으로 짜놓은 XY 좌표의 동선만을 1mm의 오차도 없이 반복하던 ’무식한 기계 노동자’에 불과했다. 앞에 예기치 못한 장애물이 나타나거나 부품 모양이 조금만 바뀌어도 스스로 멈추지 못하고 박살이 나버렸다. 결국 전통적인 로봇 공학은 ’미리 입력된 명령(Rule-based)’이라는 감옥에 갇힌 채 성장의 한계에 부딪혀 있었다.
바로 이 지점에서 엔비디아(NVIDIA)는 챗GPT(ChatGPT)로 대변되는 거대한 생성형 인공지능(Generative AI)의 영혼을 기계의 차가운 쇳덩어리 속으로 강제로 이식하는, ‘체화된 AI(Embodied AI)’ 라는 섬뜩하고 파괴적인 혁명의 방아쇠를 당겼다.
이 12.1장에서는 “단순히 모니터 뒤에서 텍스트나 뱉어내는 AI는 진짜가 아니다. 스스로 팔다리를 움직이며 현실 세계의 중력과 마찰, 낯선 환경을 ’인지(Perception)’하고 ’행동(Action)’으로 연결하는 지능만이 진정한 로보틱스의 구원이다!“라고 선포한 젠슨 황(Jensen Huang)의 통찰을 해부한다.
디지털 세계의 거대한 뇌수(소프트웨어)가 쇳덩어리 물리 관절(하드웨어)과 어떻게 기괴하고도 완벽하게 융합하기 시작했는지, 새로운 패러다임의 심장부로 들어가 보자.
12.1.1 물리적 세계와 디지털 세계의 융합
챗GPT(ChatGPT) 같은 대형 언어 모델(LLM)이 아무리 똑똑하다 한들, 그 위대한 지능은 모니터 화면이라는 2D 유리벽 뒤에 영원히 갇힌 유령(Ghost)일 뿐이었다. 내가 목마르다고 화면에 타이핑을 치면 그 유령은 수천 가지의 완벽한 칵테일 레시피를 술술 읊어주겠지만, 정작 내 물컵에 차가운 보리차 한 잔조차 물리적으로 따라주지 못하는 무능한 지능이었다.
엔비디아(NVIDIA) 젠슨 황(Jensen Huang)이 노린 가장 폭력적인 세계관의 통합은 바로 이 유령(소프트웨어)에게 강력한 근육(하드웨어)을 쥐여주는 일이었다.
“AI가 텍스트와 사진을 외우는 단계를 넘어, 이제 자신에게 손과 발이 달렸음을 자각(Awareness)하고, 수십 개의 카메라 눈(Vision Sensor)으로 물리적 현실 세계의 원근감과 무게를 분석해 직접 관절의 모터를 돌리게 만들어야 한다.”
이것이 이른바 모니터 뒤의 디지털 세계와, 시멘트 바닥의 물리적 세계가 충돌하며 하나로 녹아내리는 ‘융합(Convergence)의 특이점’ 이다. 엔비디아는 과거 자동차를 바퀴 달린 컴퓨터로 재정의했듯, 이제 공장의 로봇과 휴머노이드를 ‘다리와 팔이 달린 자율형 AI 컴퓨터’ 로 재창조하며, 오직 쇳물 튀기는 기계공학자와 전기공학자들의 전유물이었던 로봇 산업의 설계 권력을 실리콘밸리의 AI 코딩 전문가들에게 완벽히 강제 인도하는 잔혹한 제어권 강탈을 선언했다.
12.1.2 생성형 AI가 로봇의 두뇌를 진화시키는 방식
과거의 공학자들은 사과를 줍기 위해 로봇 팔의 각도를 모터의 몇 도(Degree) 단위로 일일이 하드코딩(Hard-coding)하여 집어넣어야 했다. 사과가 조금만 비스듬히 놓여있으면 병신처럼 허공을 긁다가 멈춰버렸다.
그런데 엔비디아(NVIDIA)가 로봇 안에 엄청난 연산력의 보드(Board)를 박아놓고 ‘생성형 AI(Generative AI)’ 와 ‘우주적 스케일의 강화 학습(Reinforcement Learning)’ 을 때려 박자, 이 쇳덩어리들이 인류가 소름 돋아야 할 수준의 ’직관적 창조성’을 발휘하기 시작했다.
인간이 “음, 사과를 집어서 저쪽 바구니에 좀 부드럽게 놔줄래?“라고 애매모호한 문장(Natural Language)으로 명령을 던지면,
로봇 안에 탑재된 대형 언어 모델(LLM)과 비전(Vision) AI 모델이 이 인간의 추상적 의도를 빛의 속도로 씹어 먹는다.
graph TD
A["인간의 모호한 자연어 명령<br>"사과 좀 집어서 놔줘""]
A --> B[VLM / LLM 시각 및 언어 처리 인공지능]
B --> C[명령을 기계의 목표로 해석하고 수만 가지 방법 즉각 추론]
C --> D[로봇 팔의 모터와 관절에 실시간 경로 생성]
D --> E[물리 법칙마찰력, 무게을 고려하며<br>스스로 궤적을 수정하며 사과 획득]
E --> F((미리 프로그래밍 된 코드가 아닌<br>AI가 실시간으로 자가 발전시켜 생성해 내는 행동 지능 완성))
style B fill:#f9f,stroke:#333,stroke-width:2px,color:#fff
style F fill:#f55,stroke:#333,stroke-width:2px,color:#fff
생성형 AI는 사과의 빨간색과 둥근 형태를 인지하고, 그것이 미끄러운 껍질을 가졌음을 과거 학습 데이터를 통해 추론어낸 뒤, 스스로 모터의 토크(힘)를 부드럽게 계산하여 쥐어 올린다. 이것은 누가 가르쳐준 코드가 아니라 AI가 매 순간 스스로 창조해 내는 ’유연한 물리 행동의 생성(Action Generation)’이다!
단순히 그림을 예쁘게 그려주는 생성형 AI 따위와는 질적으로 다르다. 현실 속에서 어떤 돌발 상황(사과가 굴러간다든지)이 벌어져도 AI가 실시간으로 수만 가지 대처 알고리즘을 지 스스로 짜내어 동작을 끝까지 완수해 버리는, 그야말로 기계가 ’생각의 근육’을 갖게 된 대역전극이 완성된 것이다.
12.1.3 젠슨 황의 비전: “움직이는 모든 것이 자율화될 것이다”
대중들이 “앞으로 집집마다 설거지를 해주는 인간형 휴머노이드가 돌아다닐 거야“라며 흥분하며 상상의 나래를 펼칠 때, 젠슨 황(Jensen Huang)의 시선은 한두 개의 인간형 장난감 로봇에 국한되지 않았다. 그는 훨씬 더 폭력적이고 포괄적인 스케일로 세계의 물리 구조 자체를 겨냥했다.
젠슨 황의 신약 성서라 불릴 반한 압도적인 비전 체계는 이 한마디로 요약된다.
“먼 미래가 아니라 당장 몇 년 안에, 전기를 먹고 스스로 조금이라도 움직이는(Moving) 지구상의 모든 개체는 100% 자율화(Autonomous)될 것이다.”
이 무시무시한 선언의 맥락은 파괴적이다. 포크레인, 농기계의 트랙터, 창고의 지게차, 병원의 휠체어, 하늘을 나는 드론, 바다를 가르는 화물선까지. 인간의 육체 노동이 조종간을 필요로 했던 모든 움직이는 깡통 기계들은 예외 없이 엔비디아(NVIDIA)의 AI 반도체를 뇌수에 처박고, 눈(카메라)을 달고, 인간의 개입이 전혀 없는 완벽한 자기 의지의 기계로 아포칼립토처럼 변태할 것이라는 예언이었다.
결국 엔비디아의 모빌리티와 로보틱스 정복기는 자율주행 자동차 하나 만들고 끝날 시시콜콜한 프로젝트가 아니었다.
그것은 인간의 수동 조작으로 돌파해 오던 근현대 중공업 문명全体の 스위치를 끄고, 그 자리에 AI라는 영혼이 깃든 움직이는 거대 지능 로봇 생태계의 새판을 짜며, 지구상 모든 물리적 노동의 지휘권과 통행세를 실리콘밸리의 칩 제조사가 지배하겠다는, 역사상 가장 숭고하며 살벌한 지능형 마스터 플랜의 대공개였다.