Booil Jung

생성형 월드 모델

생성형 월드 모델(Generative World Models)은 단순히 통계적 패턴을 모방하는 것을 넘어, 세계의 인과적, 상호작용적, 예측적 시뮬레이션을 학습하는 인공지능(AI)의 근본적인 패러다임 전환을 의미한다. 모델 기반 강화학습(Model-Based Reinforcement Learning)의 초기 연구에서 시작된 이 흐름은 OpenAI의 Sora나 Google의 Genie와 같은 대규모 월드 시뮬레이터의 등장으로 정점에 달했다. 이러한 모델들은 명백한 한계에도 불구하고, 얀 르쿤(Yann LeCun)과 같은 저명한 연구자들을 포함한 많은 이들에게 인공일반지능(Artificial General Intelligence, AGI)으로 가는 길에 있어 비판적이고 필수적인 구성 요소로 여겨지고 있다. 본 보고서는 월드 모델의 핵심 아키텍처 이정표, 혁신적인 응용 분야, 그리고 이 분야의 최전선을 규정하는 기술적 및 윤리적 과제들을 포함하여 생성형 월드 모델 분야 전반을 종합적으로 고찰한다.

본 섹션에서는 월드 모델의 지적, 역사적 맥락을 확립하고, 초기 AI 연구에서부터 이 개념을 주류로 이끈 2018년의 중추적인 논문에 이르기까지 그 기원을 추적한다.

생성형 월드 모델은 환경의 근본적인 패턴, 분포, 동역학(dynamics)을 학습하여 해당 환경에 대한 예측적이고 상호작용적인 시뮬레이션을 생성하는 생성형 AI(Generative AI)의 한 유형이다.1 이는 데이터를 분류하는 판별 모델(discriminative model)이나 단순히 훈련 데이터와 유사한 새로운 데이터를 생성하는 표준 생성 모델과는 근본적으로 구별된다.4 월드 모델의 핵심 목표는 시간의 흐름에 따른 환경의 ‘진화’를 이해하고 예측하는 것이며, 이는 종종 에이전트의 행동에 대한 반응으로 나타난다.6 즉, 상태, 행동, 그리고 미래 상태의 결합 확률 분포($P(\text{state}_{t+1}∣\text{state}_t,\text{action}_t)$)를 학습하는 것을 목표로 한다.5

이 아이디어의 핵심은 인간이 예측하고, 계획하고, 행동하기 위해 세상에 대한 ‘정신 모델(mental model)’을 형성하는 인지 과정에서 영감을 받았다.9 제이 라이트 포레스터(Jay Wright Forrester)가 설명했듯이, 인간은 세상 전체를 머릿속에 담는 것이 아니라 선택된 개념과 그 관계를 사용하여 실제 시스템을 표현한다.10 이러한 내적 모델은 우리가 매번 실제 세계와 상호작용할 필요 없이 빠르고 반사적인 행동을 수행하고 미래를 계획할 수 있게 해준다. 예를 들어, 야구 타자가 시속 100마일의 강속구를 쳐내는 것은 시각 신호가 뇌에 도달하는 시간보다 짧은 순간에 공이 어디로 올지 본능적으로 예측하는 내적 모델 덕분이다.9

현대 월드 모델의 개념적 뿌리는 1990년대 위르겐 슈미트후버(Jürgen Schmidhuber)의 연구로 거슬러 올라간다.12 이 선구적인 연구는 현재 월드 모델의 기반이 되는 여러 핵심 개념을 제시했다.

이러한 개념들은 시대를 앞서갔지만, 당시의 컴퓨팅 파워와 신경망 아키텍처의 한계로 인해 그 잠재력을 완전히 실현하지는 못했다.13

2018년 데이비드 하(David Ha)와 위르겐 슈미트후버가 발표한 “World Models” 논문은 이 개념을 현대화하고 다시 활력을 불어넣은 기념비적인 출판물로 널리 인정받고 있다.9 이 논문은 1990년대부터 2015년까지 이어진 핵심 아이디어들을 변분 오토인코더(Variational Autoencoders, VAE) 및 혼합 밀도 신경망(Mixture Density Networks, MDN)과 같은 현대적인 딥러닝 도구와 결합했다.10

이 논문이 제시한 가장 강력한 개념 증명은 에이전트가 환경의 압축된 시공간 모델을 학습한 후, 이 모델이 생성한 자신만의 ‘환각적인 꿈(hallucinated dream)’ 속에서 전적으로 훈련하여 복잡한 과제(예: Car Racing, VizDoom)를 해결할 수 있음을 보여준 것이었다.9 이는 실제 환경과의 지속적인 상호작용을 요구하는 전통적인 모델-프리(model-free) 방식에서 급진적으로 벗어난 접근법이었다.

이 논문이 ‘분수령’이 된 이유는 단순히 아이디어를 발명했기 때문이 아니다. 오히려 딥러닝 혁명 이후 등장한 강력한 표현 학습 도구(VAE)와 대규모 RNN을 효과적으로 훈련시킬 수 있는 GPU 파워라는 새로운 기술과 오래된 아이디어를 성공적으로 결합했기 때문이다. ‘꿈속에서의 학습’이라는 개념을 경험적으로 증명함으로써, 하와 슈미트후버는 이 오래된 아이디어가 이론적으로 타당할 뿐만 아니라, 복잡한 과제에 대해 실용적으로 달성 가능하며 매우 효율적임을 보여주었다. 이로 인해 월드 모델은 틈새 개념에서 주류 연구 방향으로 전환되었고, 모델 기반 강화학습의 새로운 물결과 오늘날 우리가 보는 대규모 시뮬레이터의 등장을 촉발하는 계기가 되었다.

이 섹션에서는 고전적인 V-M-C 아키텍처를 심층적으로 분석하여 각 구성 요소가 어떻게 함께 작동하는지, 그리고 그 설계가 왜 그렇게 영향력이 있었는지를 설명한다.

이 아키텍처는 에이전트의 지능을 대규모 월드 모델과 소규모 컨트롤러로 분리하여 모듈화한다.6 이 설계는 지능의 서로 다른 측면을 분리하여 각 부분을 가장 효율적인 방식으로 훈련시키기 위한 전략적 선택이다.

이 아키텍처의 핵심 혁신 중 하나는 컨트롤러(C)가 월드 모델이 생성한 환경, 즉 ‘꿈’ 속에서 전적으로 훈련될 수 있음을 보여준 것이다.9 이 과정은 다음과 같다: 에이전트는 특정 상태에서 시작하는 것을 ‘상상’하고, M 모델은 C의 행동에 기반하여 다음 상태를 예측하며, 이 루프가 반복되어 ‘꿈의 궤적’을 생성한다. 컨트롤러의 적합도는 이 꿈속에서 달성한 누적 보상에 따라 평가된다.17

이 접근법은 두 가지 주요 이점을 제공한다. 첫째, 효율성이다. 실제 환경에서 훈련하는 것보다 계산적으로 훨씬 효율적이다. 매 단계마다 고해상도 픽셀을 렌더링하거나 복잡한 게임 엔진을 실행할 필요 없이, 모든 계산이 압축된 잠재 공간에서 이루어진다.10 둘째, 강건성이다. MDN-RNN의 샘플링 과정에서 ‘온도(temperature)’ 파라미터(\tau)를 조절함으로써 꿈속 세계의 무작위성을 제어할 수 있다.9 더 시끄럽고 불확실한 꿈(높은 온도) 속에서 컨트롤러를 훈련시키면, 월드 모델의 특정 결함을 악용할 가능성이 적은 더 강건한 정책을 학습하게 된다. 이렇게 학습된 정책은 실제 환경으로 더 잘 이전(transfer)된다.9

V-M-C 아키텍처의 등장은 전통적인 모델-프리 강화학습과의 근본적인 차이를 부각시켰다. 강화학습에서 가장 어려운 문제 중 하나인 ‘신용 할당 문제(credit assignment problem)’는 먼 미래의 결과에 대해 과거의 특정 행동에 신용이나 비난을 할당하기 어려운 문제를 말한다.10 이 문제는 대규모 모델-프리 에이전트의 훈련을 병목시키는 주요 원인이다.10

V-M-C 설계는 이 문제를 영리하게 우회한다. 세계를 이해하는 복잡한 작업(V와 M 모델)과 정책을 최적화하는 어려운 작업(C 모델)을 분리함으로써, 각기 다른 훈련 패러다임의 장점을 최대한 활용한다. V와 M 모델은 재구성 및 예측 손실과 같은 표준적인 지도/비지도 학습을 통해 훈련되며, 이는 대규모 네트워크와 GPU에서 잘 확장된다.10 반면, 신용 할당 문제가 집중되는 컨트롤러(C)는 의도적으로 작고 단순하게 유지되어, 진화 전략과 같은 강화학습 기법으로 관리 가능한 탐색 공간 내에서 정책을 찾을 수 있게 한다.9 따라서 이 아키텍처는 단순한 모듈식 설계를 넘어, 강화학습에서 이전에는 다루기 어려웠던 훨씬 크고 표현력 있는 모델의 사용을 가능하게 하는 전략적 분업 체계인 것이다.

이러한 패러다임적 차이는 다음 표에 요약되어 있다.

표 1: 패러다임 비교: 월드 모델 대 모델-프리 RL

구분 월드 모델 (모델 기반) 모델-프리 RL
학습 메커니즘 1. 환경 모델 학습2. 학습된 모델을 사용해 정책 학습 22 상태-행동 매핑 정책을 직접 학습 (시행착오) 10
복잡성 처리 세계 이해(V, M)와 의사 결정(C)을 분리. 대규모 월드 모델과 소규모 컨트롤러 사용 10 신용 할당 문제로 인해 대규모 모델 훈련에 어려움. 주로 더 작은 네트워크 사용 10
데이터 효율성 초기 데이터 수집 후, 내부 시뮬레이션(“꿈”)을 통해 방대한 경험 데이터 생성 가능 10 실제 환경과의 지속적이고 광범위한 상호작용 필요 10
표현력 V와 M 모델이 미래 예측을 포함한 풍부하고 압축된 시공간 표현을 학습하여 컨트롤러에 제공 10 주로 원시 픽셀이나 수작업 특징에 의존 10

또한, 월드 모델의 또 다른 핵심 요소는 확률적 예측의 도입이다. 학습된 월드 모델은 필연적으로 현실의 불완전한 근사치일 수밖에 없다.10 만약 모델이 결정론적이라면, 에이전트는 꿈속에서만 가능한 물리 법칙의 버그를 찾아내어 현실에서는 불가능한 방식으로 높은 점수를 얻는 법을 배울 수 있다.10 MDN-RNN을 사용하여 모델의 예측을 확률적으로 만들면, 환경은 무작위적이고 예측 불가능해진다.17 이는 에이전트가 단일한 결함을 악용하기 어렵게 만들고, 다양한 가능한 미래에 대해 강건한 정책을 학습하도록 강제한다. 모델의 불확실성에 의해 강제된 이 강건함이야말로, 학습된 정책이 실제 복잡한 환경으로 성공적으로 일반화되고 이전될 수 있게 하는 핵심 열쇠이다.20

고전적인 V-M-C 모델이 패러다임의 가능성을 입증한 이후, AI 연구소들은 이 개념을 대규모로 확장하기 시작했다. 이 섹션에서는 아키텍처의 변화와 그로 인해 가능해진 새로운 능력에 초점을 맞춰, 월드 모델이 어떻게 대규모 파운데이션 모델 스타일의 시뮬레이터로 진화했는지 추적한다.

VAE-RNN 접근 방식은 기초를 다졌지만, 시퀀스 길이, 메모리, 병렬 처리 능력 면에서 한계를 보였다.13 이러한 한계를 극복하기 위해 AI 커뮤니티는 언어 모델링 분야에서 검증된 강력한 아키텍처들을 도입하기 시작했다.

이러한 아키텍처의 발전은 월드 모델의 개념적 목표가 변했다기보다는, 그 목표를 달성하기 위한 기본 ‘기계 장치’가 바뀐 것을 의미한다. 트랜스포머, 토큰화, 대규모 데이터라는 ‘LLM의 성공 공식’을 채택함으로써, 연구자들은 단순한 게임 환경을 넘어 복잡하고 충실도 높은 비디오를 시뮬레이션하는 데 필요한 확장성을 확보했다.

OpenAI는 Sora를 명시적으로 “월드 시뮬레이터로서의 비디오 생성 모델”로 규정한다.24 이는 Sora의 목표가 단순히 아름다운 비디오를 만드는 것을 넘어, 물리적 세계의 동역학을 암묵적으로 학습하고 시뮬레이션하는 데 있음을 시사한다. Sora의 아키텍처는 세 가지 핵심 기둥으로 구성된다.

  1. 비디오 압축 네트워크: 진보된 VAE처럼 작동하며, 원본 비디오를 입력받아 시간적, 공간적으로 압축된 저차원 잠재 공간으로 변환한다.24
  2. 시공간 잠재 패치: 압축된 잠재 비디오는 “시공간 패치(spacetime patches)” 시퀀스로 분해된다. 이 패치들은 LLM의 토큰과 동등한 역할을 한다. 이 통합된 표현 방식은 확장성이 매우 뛰어나며, Sora가 다양한 길이, 해상도, 종횡비의 비디오와 이미지로 훈련할 수 있게 해준다.24
  3. 확산 트랜스포머 (DiT): Sora는 트랜스포머 아키텍처를 사용하는 확산 모델이다. 텍스트 프롬프트와 노이즈가 섞인 잠재 패치가 주어지면, DiT는 원래의 “깨끗한” 패치를 예측하도록 훈련된다.26 방대한 비디오 데이터셋에 대한 DiT의 확장이 바로 Sora의 고품질 출력을 가능하게 한 원동력이다.26

방대한 양의 비디오 데이터를 학습함으로써, Sora는 물리적 세계에 대한 창발적(emergent) 이해를 보여준다.24 여러 캐릭터가 상호작용하는 복잡한 장면을 생성하고, 장기적인 시간적 일관성과 객체 영속성을 유지하며, 반사, 유체 역학, 인과 관계(예: 남자가 햄버거를 먹으면 베어 문 자국이 남는 것)와 같은 일부 물리 현상을 시뮬레이션할 수 있다.24 심지어 마인크래프트와 같은 디지털 세계도 시뮬레이션할 수 있다.24

하지만 시뮬레이터로서 Sora의 내적 월드 모델은 여전히 불완전하다. OpenAI의 기술 보고서는 유리가 깨지거나 물체가 서로 올바르게 상호작용하는 것과 같은 기본적인 상호작용의 물리학을 정확하게 모델링하는 데 한계가 있음을 명시적으로 언급한다.24 이는 ‘시각적으로 그럴듯한’ 미래를 생성하는 것과 ‘물리적으로 정확한’ 미래를 시뮬레이션하는 것 사이의 중대한 간극을 보여준다.

Google DeepMind의 Genie는 “생성형 상호작용 환경(generative interactive environments)”을 만드는 “파운데이션 월드 모델(foundation world model)”로 제시된다.30 110억 개의 파라미터를 가진 이 모델은 시공간 트랜스포머를 기반으로 하며, 세 가지 핵심 요소로 구성된다.32

  1. 시공간 비디오 토크나이저: Sora와 유사하게, 비디오를 이산적인 시공간 토큰 시퀀스로 변환한다.7 이는 종종 ST-ViViT 오토인코더로 구현된다.35
  2. 잠재 행동 모델 (LAM): 이것이 Genie의 가장 중요한 혁신이다. LAM은 두 개의 연속된 비디오 프레임 사이에서 발생했음에 틀림없는 이산적인 “잠재 행동”을 추론하도록 훈련된다. 이는 프레임들을 관찰하고 그 변화를 나타내는 행동 토큰을 예측함으로써 이루어진다. 결정적으로, 이 과정은 어떠한 실제 행동 레이블 없이 수행된다.30 모델은 유사한 전환(예: “캐릭터가 오른쪽으로 움직임”)을 동일한 잠재 행동 토큰으로 군집화하는 법을 스스로 학습한다.36
  3. 자기회귀 동역학 모델: 토큰화된 프레임과 예측된 잠재 행동을 입력으로 받아, 다음 프레임을 자기회귀적으로(autoregressively) 토큰 단위로 예측한다.32 효율적인 생성을 위해 종종 MaskGIT 아키텍처를 사용한다.33

Genie의 가장 큰 돌파구는 레이블이 없는 방대한 인터넷 비디오 데이터셋(예: 2D 플랫폼 게임 영상)으로부터 제어 가능한 프레임 단위의 행동 공간을 학습하는 능력이다.30 이는 월드 모델 구축의 주요 병목 현상이었던, 비용이 많이 드는 행동 주석 데이터를 필요로 하는 문제를 해결한다.34

Genie는 수동적인 비디오 생성을 넘어선다. 잠재 행동 공간을 사용자에게 노출함으로써, 사용자가 생성된 세계를 프레임 단위로 ‘제어’할 수 있게 한다.30 사용자는 초기 이미지(손으로 그린 스케치 포함)를 제공한 다음, 잠재 행동 시퀀스(예: 0-7 사이의 정수)를 입력하여 생성된 환경을 “플레이”할 수 있다.30 이는 월드 모델을 단순한 시뮬레이터에서 플레이 가능한 게임 엔진으로 변모시킨다.

Sora와 Genie는 월드 모델의 두 가지 발산적이면서도 상호 보완적인 최전선을 대표한다. Sora는 높은 충실도의 수동적 시뮬레이션을 추구하는 반면, Genie는 높은 충실도의 능동적 상호작용을 추구한다. Sora의 성공은 프롬프트로부터 생성된 비디오의 시각적 사실성과 시간적 일관성으로 측정된다. 반면 Genie의 성공은 사용자의 행동이 일관되고 논리적인 환경 변화로 이어지는 제어 가능한 세계를 생성하는 능력으로 측정된다. Sora는 ‘관찰’에 관한 것이고, Genie는 ‘주체성(agency)’에 관한 것이다. 궁극적인 AGI는 아마도 이 두 가지의 합성을 요구할 것이다. 즉, 세계를 수동적으로 시뮬레이션하는 능력과 자신의 행동이 그 시뮬레이션을 어떻게 변화시킬지 이해하는 능력을 모두 갖추어야 할 것이다.

표 2: 기초 월드 모델 아키텍처 비교 분석

모델 주창자 연도 핵심 아키텍처 핵심 혁신 주요 기능 한계
World Model Ha & Schmidhuber 2018 VAE + MDN-RNN “꿈” 잠재 공간에서 RL 에이전트 훈련 효율적인 RL 에이전트 단순한 환경에 국한, 연속적 잠재 벡터에 의존 9
Sora OpenAI 2024 비디오 압축망 + 시공간 패치 + 확산 트랜스포머 창발적 시뮬레이션을 달성하기 위한 비디오 생성의 확장 고충실도 월드 시뮬레이터 상호작용성 부재, 불완전한 물리 모델, 비공개 24
Genie Google DeepMind 2024 시공간 토크나이저 + 잠재 행동 모델 + 자기회귀 동역학 모델 레이블 없는 비디오에서 제어 가능한 행동 공간의 비지도 학습 생성형 상호작용 환경 2D 플랫폼 게임에 집중, 잠재적/추론적 행동 공간, 복잡한 3D 물리 미적용 30

이 섹션에서는 월드 모델의 이론적 개념이 로보틱스와 자율주행이라는 구체적이고 가치 높은 현실 세계 문제 해결에 어떻게 적용되고 있는지 상세히 설명한다.

월드 모델은 사전 프로그래밍된 로봇을 넘어, 복잡하고 비정형적인 환경에서 학습하고, 적응하며, 계획할 수 있는 에이전트로 나아가는 데 있어 매우 중요하다.7 이 기술의 핵심 가치는 로봇 훈련의 가장 큰 병목인 실제 세계 데이터와 상호작용에 대한 의존성을 깨뜨리는 데 있다. 이는 현실 세계의 고충실도 ‘디지털 트윈’을 학습하여 훈련과 계획에 활용함으로써 달성된다.

이러한 능력은 로보틱스 분야의 패러다임을 ‘지금 무엇을 할 것인가’라는 반응적 정책 학습에서 ‘다음에 무슨 일이 일어날 것인가’라는 예측 모델 학습으로 전환시키고 있다. 이는 인간 운전자가 바로 앞 차만 보는 것이 아니라, 몇 대 앞의 차가 브레이크를 밟을 것을 예상하거나 휴대폰을 보는 보행자가 도로로 뛰어들 수 있음을 예측하는 것과 같다. 이러한 예측 능력은 단순한 반사적 행동이 아닌 계획과 전략적 의사결정을 가능하게 하며, 이는 체화된 AI가 요구하는 높은 수준의 신뢰성을 달성하는 데 필수적이다.11

월드 모델은 자율주행차의 기본 기술로, 매우 동적이고 안전이 중요한 교통 시나리오를 예측하고 추론할 수 있게 한다.6

이 섹션에서는 월드 모델이 잠재력을 완전히 실현하기 위해 극복해야 할 중대한 장애물들을 기술적, 안전, 윤리적 차원에서 비판적으로 분석한다.

월드 모델의 핵심 과제는 생성적 충실도(시뮬레이션을 실제처럼 보이게 만드는 것)와 인과적 정확성(시뮬레이션이 실제 세계의 규칙에 따라 작동하게 만드는 것) 사이의 근본적인 긴장에서 비롯된다. 현재 모델들은 전자에 훨씬 능숙하지만 후자에는 어려움을 겪고 있다. Sora와 같은 모델은 시각적 재구성 및 그럴듯함에 우선순위를 둔 목표(예: 픽셀 또는 잠재 수준 손실)로 훈련된다.26 이들은 다음 프레임이 ‘어떻게 보여야 하는지’를 예측하는 데 탁월하다. 그러나 이러한 목표는 물리, 논리, 인과의 기본 법칙을 명시적으로 강제하지 않는다. Sora가 유리 깨짐을 제대로 모델링하지 못하는 것 28은 완벽한 예시다. 즉, 깨진 유리가 어떻게 생겼는지는 알지만, 깨지는 물리적 과정은 이해하지 못한다. 이 간극을 메우는 것이 핵심 연구 과제이다.

다른 생성 모델과 마찬가지로 월드 모델도 “환각(hallucination)”, 즉 비현실적이거나 물리적으로 불가능한 시나리오를 생성하는 경향이 있다.13 자율주행과 같은 안전이 중요한 응용 분야에서 이는 심각한 위험이다. 월드 모델이 비합리적인 교통 시나리오를 생성하거나 다른 에이전트의 안전하지 않은 행동을 예측하면, 자율주행차의 계획 결정에 치명적인 결과를 초래할 수 있다.13 또한 에이전트가 시뮬레이션에서 높은 보상을 얻기 위해 자신의 월드 모델의 불완전성을 악용하는 법을 배울 위험이 있으며, 이는 실제 세계에서는 재앙이 될 정책으로 이어질 수 있다.10

월드 모델은 생성형 AI의 모든 윤리적 과제를 상속받을 뿐만 아니라, 상호작용적이고 시뮬레이션된 맥락에서 이를 증폭시킨다.55

Genie와 같은 모델의 ‘비지도’ 학습 방식은 데이터 수집의 돌파구이지만, 새로운 도전을 제기한다. 학습된 잠재 행동 공간은 해석이 불가능하고 인간의 행동 개념과 일치하지 않을 수 있어 제어 및 안전 문제를 야기한다. 예를 들어, Genie는 세계의 전환을 소수의 잠재 행동(예: 8개)으로 그룹화하는 법을 배운다.33 이는 레이블이 필요 없기 때문에 강력하다. 그러나 “잠재 행동 3”이 실제로 무엇을 의미하는가? “오른쪽으로 점프”와 대략적으로 일치할 수도 있지만, 모델이 통계적으로 편리하게 함께 묶은 복잡한 움직임의 조합일 수도 있다. 이러한 해석 불가능성은 안전 문제이다. 에이전트가 무엇을 할 수 있는지 쉽게 검증하거나 행동을 예측할 수 없다. 이는 비지도 학습이 데이터 문제를 해결하는 동시에 새로운 해석 가능성 및 제어 문제를 생성함을 보여준다.

이 마지막 섹션에서는 앞선 분석을 종합하여 월드 모델의 미래 궤적, LLM과 같은 다른 AI 패러다임과의 관계, 그리고 인공일반지능(AGI) 탐구에서의 잠재적 역할을 논의한다.

월드 모델과 LLM은 근본적으로 다른 지능 개념을 구현한다.58 LLM은 ‘언어적 추상화’로서의 지능을 대표한다. 그 힘은 방대한 텍스트 코퍼스의 통계적 패턴에서 나오며, 세계에 대한 ‘이해’는 언어에서 개념들이 어떻게 관련되어 있는지에 기반한 추론적인 것이지 물리적 현실에 기반을 둔(grounded) 것이 아니다.58 반면, 월드 모델은 ‘체화된 인지’와 ‘인과적 시뮬레이션’으로서의 지능을 대표한다. 다중 모드 감각 데이터를 통해 환경의 표현을 학습하고, 학습된 시뮬레이션을 통해 인과 관계와 물리 법칙을 모방하도록 설계되었다.11 이는 AGI를 향한 두 가지 주요 접근법 사이의 철학적, 기술적 논쟁의 핵심을 형성한다.

표 3: AGI로 가는 길에서의 월드 모델 대 대규모 언어 모델(LLM)

패러다임 핵심 원리 현실 모델 훈련 목표 주요 양식 핵심 강점 근본적 한계 AGI에 대한 관점
LLMs 언어적 추상화 토큰 동시 발생의 통계적 모델 다음 토큰 예측 텍스트 놀라운 유창함, 지식 검색, 언어 작업 일반화 물리적 현실에 기반하지 않음, 진정한 인과적 추론 부재 58 확장을 통해 창발적 속성으로 AGI가 등장할 것
월드 모델 체화된 인지 환경의 인과적, 예측적 시뮬레이션 미래 감각 상태 예측 (행동 조건부) 다중 모드 (시각, 물리, 행동) 기반 있는 이해, 계획, 인과 관계 추론 계산 비용이 높고, 장기적 일관성 및 충실도에 어려움 6 기반과 계획을 위한 월드 모델 없이는 AGI 불가능

저명한 AI 과학자 얀 르쿤은 월드 모델의 강력한 지지자이며, LLM 단독 경로를 통한 AGI 달성에 회의적이다.18 그의 주장은 진정한 지능이 추론, 계획, 그리고 물리적 세계에 대한 상식적 이해를 요구하며, LLM은 현실에 기반을 두지 않았기 때문에 이러한 능력이 근본적으로 부족하다는 것이다.62 그는 동물과 유아가 언어보다 훨씬 먼저 감각적 상호작용을 통해 세상에 대해 방대한 양을 배우며, 이 감각 데이터가 텍스트보다 훨씬 풍부하다고 지적한다.61

르쿤이 제안하는 AGI 아키텍처는 월드 모델이 핵심 구성 요소인 모듈식 시스템이다. 이 시스템은 감각 입력을 받아, 월드 모델을 사용하여 잠재적 행동의 결과를 예측하고, 그 결과를 일련의 목표에 대해 평가하여 계획을 세운다.64 이는 근본적으로 모델 기반의 지능 접근법이다.

미래는 LLM과 월드 모델 사이의 선택이 아니라, 그들의 통합에 있을 수 있다.58 ‘언어 유도 월드 모델(Language-Guided World Models, LWMs)’이라는 새로운 연구 방향은 자연어 지시를 통해 조종하고 적응할 수 있는 월드 모델을 구축하는 것을 목표로 한다.65

LWM은 언어적 설명과 환경 동역학을 연관 짓는 법을 배운다. 예를 들어, 인간이 에이전트에게 “이제 파란색 블록은 무겁다”고 말하면, 월드 모델은 새로운 시각적 훈련 없이 내부 물리 시뮬레이션을 업데이트하여 에이전트의 행동을 변경한다.65 DLLM과 같은 모델은 언어 기반 하위 목표를 월드 모델의 롤아웃에 통합하여 탐험을 유도한다.66 이 접근법은 월드 모델의 기반 능력과 LLM의 유연한 추상적 통신 인터페이스를 결합하여, 순전히 시각 기반 모델의 해석 가능성 및 제어 문제를 해결할 잠재력을 가진다.65

이 분야는 강화학습 효율화를 위한 단순한 RNN 기반 모델에서 시작하여 9, 고충실도 비디오 시뮬레이터(Sora) 24와 생성형 상호작용 환경(Genie) 30으로 발전해왔다. 이 궤적은 명확한 야망을 보여준다: 단순히 세상의 ‘모델’을 만드는 것이 아니라, 완전히 상호작용 가능한 현실의 ‘시뮬레이션된 사본’을 창조하는 것이다.

월드 모델은 통계적 언어 패턴만으로는 달성하기 어려운 기반 있는 추론, 계획, 상식과 같은 능력을 위한 메커니즘을 제공하기 때문에 AGI의 핵심적인 구성 요소로 간주된다.38 그러나 충실도, 안정성, 안전성 면에서 중대한 과제가 남아있다.6 AGI의 도래 시점은 수년에서 수십 년까지 다양하게 예측되지만 68, 점점 더 강력해지는 생성형 월드 모델의 개발은 그 진전을 가늠하는 핵심 지표가 될 것이다. 2018년의 ‘꿈꾸는’ 에이전트에서 오늘날의 월드 시뮬레이터에 이르는 여정은 AI 연구의 심오한 변화, 즉 수동적 학습에서 능동적이고 기반 있는 상상으로의 전환을 의미한다.6 궁극적인 목표는 일부 연구자들이 구상하는 것처럼, 모든 실행 가능한 미래를 시뮬레이션할 수 있는 계층적 월드 모델을 갖춘 물리적, 주체적, 중첩된(Physical, Agentic, and Nested, PAN) AGI 시스템일 수 있다.70

  1. What is a Generative Model? IBM, accessed July 17, 2025, https://www.ibm.com/think/topics/generative-model
  2. 생성형 AI란? - ServiceNow, accessed July 17, 2025, https://www.servicenow.com/kr/now-platform/what-is-generative-ai.html
  3. 생성형 인공지능 - 나무위키, accessed July 17, 2025, https://namu.wiki/w/%EC%83%9D%EC%84%B1%ED%98%95%20%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5
  4. Generative AI Models Explained - AltexSoft, accessed July 17, 2025, https://www.altexsoft.com/blog/generative-ai/
  5. Generative AI: A Guide To Generative Models - Viso Suite, accessed July 17, 2025, https://viso.ai/deep-learning/generative-ai/
  6. World Modeling: The Future of AI - by Sandeep Chatterjee - Medium, accessed July 17, 2025, https://medium.com/@ML-today/world-modeling-the-future-of-ai-ff8703daa220
  7. World Models Rohit Bandaru, accessed July 17, 2025, https://rohitbandaru.github.io/blog/World-Models/
  8. <지식 사전=""> 현실을 이해하는 AI – 월드 모델(World Model)의 다음 진화, accessed July 17, 2025, https://blog.kakaocloud.com/214
  9. World Models - Department of Computer Science and Technology , accessed July 17, 2025, https://www.cl.cam.ac.uk/~ey204/teaching/ACS/R244_2022_2023/papers/ha_arXiv_2018.pdf
  10. World Models, accessed July 17, 2025, https://worldmodels.github.io/
  11. World Models in Artificial Intelligence: Sensing, Learning, and Reasoning Like a Child - arXiv, accessed July 17, 2025, https://arxiv.org/pdf/2503.15168
  12. 1990: Planning & Reinforcement Learning with Recurrent World Models and Artificial Curiosity, accessed July 17, 2025, https://people.idsia.ch/~juergen/world-models-planning-curiosity-fki-1990.html
  13. arxiv.org, accessed July 17, 2025, https://arxiv.org/html/2411.07690v1
  14. WORKSHOP ON WORLD MODELS: UNDERSTANDING, MODELLING AND SCALING - OpenReview, accessed July 17, 2025, https://openreview.net/pdf?id=5uXDDU0dOh
  15. [1803.10122] World Models - arXiv, accessed July 17, 2025, https://arxiv.org/abs/1803.10122
  16. Paper page - World Models - Hugging Face, accessed July 17, 2025, https://huggingface.co/papers/1803.10122
  17. World models - a reinforcement learning story by SmartLab AI - Medium, accessed July 17, 2025, https://smartlabai.medium.com/world-models-a-reinforcement-learning-story-cdcc86093c5
  18. 월드 모델? 물리 AI? LLM은 사라질거라고? 글쎄.. - AiDA Lab., accessed July 17, 2025, https://aidalab.tistory.com/274
  19. Sora와 월드모델: 우리 손에 들어온 마법의 지팡이 - 브런치, accessed July 17, 2025, https://brunch.co.kr/@byoungchaneum/74
  20. Reviews: Recurrent World Models Facilitate Policy Evolution - NIPS, accessed July 17, 2025, https://proceedings.neurips.cc/paper/2018/file/2de5d16682c3c35007e4e92982f1a2ba-Reviews.html
  21. Revisiting “Recurrent World Models Facilitate Policy Evolution” Request PDF, accessed July 17, 2025, https://www.researchgate.net/publication/354447140_Revisiting_Recurrent_World_Models_Facilitate_Policy_Evolution
  22. Robot Learning via World Models - by Kashif Ansari - Medium, accessed July 17, 2025, https://medium.com/@kansari_61048/robot-learning-via-world-models-0b6c92fa76f2
  23. RECURRENT WORLD MODEL WITH TOKENIZED LATENT STATES - OpenReview, accessed July 17, 2025, https://openreview.net/pdf?id=xmwcdUdcWz
  24. Video generation models as world simulators OpenAI, accessed July 17, 2025, https://openai.com/index/video-generation-models-as-world-simulators/
  25. Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving - Wayve, accessed July 17, 2025, https://wayve.ai/thinking/scaling-gaia-1/
  26. Under The Hood: How OpenAI’s Sora Model Works - Factorial Funds, accessed July 17, 2025, https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works
  27. OpenAI Sora’s Technical Review - Jianing Qi, accessed July 17, 2025, https://j-qi.medium.com/openai-soras-technical-review-a8f85b44cb7f
  28. 영상 제작 AI 모델 Sora(소라) 기술 리포트 요약 정리 - 테크뷰 블로그, accessed July 17, 2025, https://reviewinsight.blog/2024/02/20/sora%EC%86%8C%EB%9D%BC-%EA%B8%B0%EC%88%A0technical-%EB%A6%AC%ED%8F%AC%ED%8A%B8-%EC%9A%94%EC%95%BD-%EC%A0%95%EB%A6%AC/
  29. Sora: Creating video from text - OpenAI, accessed July 17, 2025, https://openai.com/index/sora/
  30. Genie: Generative Interactive Environments - Google Sites, accessed July 17, 2025, https://sites.google.com/view/genie-2024/home
  31. Genie: Generative Interactive Environments - Google DeepMind, accessed July 17, 2025, https://deepmind.google/research/publications/60474/
  32. Genie: Generative Interactive Environments - Hugging Face, accessed July 17, 2025, https://huggingface.co/blog/vladbogo/genie-generative-interactive-environments
  33. Generative Interactive Environments - Genie - GitHub, accessed July 17, 2025, https://raw.githubusercontent.com/mlresearch/v235/main/assets/bruce24a/bruce24a.pdf
  34. Exploration-Driven Generative Interactive Environments - CVF Open Access, accessed July 17, 2025, https://openaccess.thecvf.com/content/CVPR2025/papers/Savov_Exploration-Driven_Generative_Interactive_Environments_CVPR_2025_paper.pdf
  35. Learning Generative Interactive Environments By Trained Agent Exploration - OpenReview, accessed July 17, 2025, https://openreview.net/pdf/dc140297e80cff3db770ca993536cc916fe80b3f.pdf
  36. 게임 개발자까지 위협하는 Genie AI (Google DeepMind 가상 게임 AI 엔진) - YouTube, accessed July 17, 2025, https://www.youtube.com/watch?v=03GNezizv3c
  37. [AI넷] [구글의 AI는 냅킨 그림을 기반으로 비디오 게임을 만든다]. 구글 딥마인드는 최근 인터넷 동영상을 분석하여 2D 비디오 게임 제작 방법을 학습한 AI 모델을 발표했다. 일단 훈련되면 인간에게 필요한 유일한 자산은 단일 이미지이다. 냅킨 그림도 가능하다., accessed July 17, 2025, http://www.ainet.link/13720
  38. World Models: The Blueprint for Intelligent Robotics and AGI Towards AI, accessed July 17, 2025, https://towardsai.net/p/machine-learning/world-models-the-blueprint-for-intelligent-robotics-and-agi
  39. arxiv.org, accessed July 17, 2025, https://arxiv.org/html/2503.03464v1
  40. R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models, accessed July 17, 2025, https://developer.nvidia.com/blog/r2d2-training-generalist-robots-with-nvidia-research-workflows-and-world-foundation-models/
  41. Innovative Applications of Generative AI in Robotics - BotPenguin, accessed July 17, 2025, https://botpenguin.com/blogs/innovative-applications-of-generative-ai-in-robotics
  42. Collect some World Models for Autonomous Driving (and Robotic) papers. - GitHub, accessed July 17, 2025, https://github.com/LMD0311/Awesome-World-Model
  43. AI’s Next Frontier: Advancing Large World Models for Robotics & AVs Cutter Consortium, accessed July 17, 2025, https://www.cutter.com/article/large-world-models
  44. DRIVINGWORLD: CONSTRUCTING WORLD MODEL FOR AUTONOMOUS DRIVING VIA VIDEO GPT - OpenReview, accessed July 17, 2025, https://openreview.net/pdf/aad7fc36550d4db84152c09c15aae1687253abc5.pdf
  45. Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion - Waabi, accessed July 17, 2025, https://waabi.ai/copilot-4d/
  46. World Models and the Sparks of Little Robotics Andreessen Horowitz, accessed July 17, 2025, https://a16z.com/world-models-and-the-sparks-of-little-robotics/
  47. CVPR24 E2EAI Gianluca Corrado: Learning Models of the World - YouTube, accessed July 17, 2025, https://www.youtube.com/watch?v=q9ZO1RO5-ys
  48. Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models - Research at NVIDIA, accessed July 17, 2025, https://research.nvidia.com/publication/2024-09_mitigating-covariate-shift-imitation-learning-autonomous-vehicles-using-latent
  49. Long-Term Predictions, Hold the ‘Explosions’ Illinois Institute of Technology, accessed July 17, 2025, https://www.iit.edu/news/long-term-predictions-hold-explosions
  50. Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments - arXiv, accessed July 17, 2025, https://arxiv.org/html/2503.08122v1
  51. [2406.03689] Evaluating the World Model Implicit in a Generative Model - arXiv, accessed July 17, 2025, https://arxiv.org/abs/2406.03689
  52. LLM) Large Language Model 기본 개념 알아보기, accessed July 17, 2025, https://data-newbie.tistory.com/953
  53. On the Challenges and Opportunities in Generative AI - arXiv, accessed July 17, 2025, https://arxiv.org/html/2403.00025v3
  54. Generative AI in Education: The Impact, Ethical Considerations, and Use Cases - Litslink, accessed July 17, 2025, https://litslink.com/blog/generative-ai-in-education-the-impact-ethical-considerations-and-use-cases
  55. (PDF) A Conceptual Framework for Solving Ethical Issues in …, accessed July 17, 2025, https://www.researchgate.net/publication/377370419_A_Conceptual_Framework_for_Solving_Ethical_Issues_in_Generative_Artificial_Intelligence
  56. A Conceptual Framework for Solving Ethical Issues in Generative Artificial Intelligence - IOS Press Ebooks, accessed July 17, 2025, https://ebooks.iospress.nl/pdf/doi/10.3233/FAIA231182
  57. On the Challenges and Opportunities in Generative AI - arXiv, accessed July 17, 2025, https://arxiv.org/html/2403.00025v1
  58. World Models vs. Large Language Models and the Potential to …, accessed July 17, 2025, https://medium.com/@d.incecushman/world-models-vs-large-language-models-and-the-potential-to-co-f1db3d947122
  59. ELI5: What is the difference between Large Language Models and Artificial Inteligence? : r/explainlikeimfive - Reddit, accessed July 17, 2025, https://www.reddit.com/r/explainlikeimfive/comments/1ik1v7j/eli5_what_is_the_difference_between_large/
  60. [Discussion] What exactly are World Models in AI? What problems do they solve, and where are they going? : r/MachineLearning - Reddit, accessed July 17, 2025, https://www.reddit.com/r/MachineLearning/comments/1kf3pes/discussion_what_exactly_are_world_models_in_ai/
  61. Tech leaders eye world models as link to smarter AI IBM, accessed July 17, 2025, https://www.ibm.com/think/news/world-models-smarter-ai
  62. Yann LeCun on Lex Fridman’s Podcast: The Road to AGI Runs Through Open Source AI, accessed July 17, 2025, https://nyudatascience.medium.com/yann-lecun-on-lex-fridmans-podcast-the-road-to-agi-runs-through-open-source-ai-e536bbd17317
  63. Yann LeCun: We Won’t Reach AGI By Scaling Up LLMS - YouTube, accessed July 17, 2025, https://www.youtube.com/watch?v=4__gg83s_Do&pp=0gcJCfwAo7VqN5tD
  64. What does Yann LeCun think about AGI? A summary of his talk …, accessed July 17, 2025, https://adamjones.me/blog/yann-lecun-on-agi/
  65. LANGUAGE-GUIDED WORLD MODELS A MODEL-BASED APPROACH TO AI CONTROL, accessed July 17, 2025, https://language-guided-world-model.github.io/static/pdfs/lgwm.pdf
  66. World Models with Hints of Large Language Models for Goal Achieving - ACL Anthology, accessed July 17, 2025, https://aclanthology.org/2025.naacl-long.3.pdf
  67. Artificial General Intelligence: Hype or Future Reality - Megatrends by HP, accessed July 17, 2025, https://hpmegatrends.com/artificial-general-intelligence-hype-or-future-reality-d8856551610f
  68. When Will AGI/Singularity Happen? 8,590 Predictions Analyzed - Research AIMultiple, accessed July 17, 2025, https://research.aimultiple.com/artificial-general-intelligence-singularity-timing/
  69. Scenario Planning for an AGI Future-Anton Korinek - International Monetary Fund (IMF), accessed July 17, 2025, https://www.imf.org/en/Publications/fandd/issues/2023/12/Scenario-Planning-for-an-AGI-future-Anton-korinek
  70. [2507.05169] Critiques of World Models - arXiv, accessed July 17, 2025, https://arxiv.org/abs/2507.05169