Booil Jung

월드 파운데이션 모델

인공지능(AI) 연구의 지평이 물리적 세계를 이해하고 시뮬레이션하는 능력으로 확장되면서, ‘월드 파운데이션 모델(World Foundation Model, WFM)’이라는 새로운 패러다임이 부상하고 있다. 이는 단순히 데이터를 인식하고 분류하는 수준을 넘어, 세상의 동적인 작동 원리를 내재적으로 학습하여 미래를 예측하고 가상으로 경험하는 능력을 AI에 부여하려는 야심 찬 시도이다. 본 보고서는 월드 파운데이션 모델의 개념적 뿌리부터 기술적 기반, 주요 모델 분석, 응용 사례, 그리고 당면한 도전 과제와 윤리적 함의에 이르기까지 포괄적이고 심층적인 고찰을 제공하고자 한다.

월드 파운데이션 모델이라는 용어는 그 자체로 두 가지 강력한 AI 개념의 융합을 시사한다: ‘월드 모델’과 ‘파운데이션 모델’이다.

첫째, ‘월드 모델(World Model)’의 개념은 AI 분야보다 앞서 심리학과 제어 공학에서 수십 년간 논의되어 온 아이디어에 뿌리를 두고 있다.1 이는 지능적 에이전트가 환경의 동역학, 즉 세상이 어떻게 변화하고 특정 행동이 어떤 결과를 낳는지를 내재적으로 학습하고 시뮬레이션하는 내부 모델을 갖춘다는 개념이다.3 이러한 내적 시뮬레이션 능력은 에이전트가 실제 세계에서 위험하거나 비용이 많이 드는 시행착오를 겪기 전에, 다양한 행동 순서를 ‘상상’ 속에서 미리 시도해보고 최적의 계획을 수립할 수 있게 하는 핵심 요소이다.1 AI 분야의 거두인 얀 르쿤(Yann LeCun)은 이러한 월드 모델을 인간과 같은 수준의 지능을 달성하기 위한 필수 불가결한 요소로 간주하며, AI가 관찰을 통해 세상의 작동 방식을 스스로 학습하는 능력의 중요성을 지속적으로 역설해왔다.4

둘째, ‘파운데이션 모델(Foundation Model)’은 2021년 스탠포드 인간 중심 AI 연구소(HAI)에 의해 명명된 용어로, 현대 AI 개발의 패러다임을 정의한다.4 파운데이션 모델은 인터넷 규모의 방대한 비정형 데이터(unlabeled data)를 사용하여 대규모로 사전 학습(pre-training)된 후, 특정 목적을 가진 다양한 다운스트림 작업(downstream tasks)에 맞게 미세조정(fine-tuning)될 수 있는 거대 신경망 모델을 지칭한다.4 대규모 언어 모델(LLM)을 필두로 한 파운데이션 모델들은 자연어 처리(NLP)와 컴퓨터 비전 분야에서 놀라운 일반화(generalization) 능력과, 별도의 훈련 없이도 새로운 작업을 수행하는 제로샷(zero-shot) 능력을 입증하며 그 잠재력을 과시했다.7

월드 파운데이션 모델(WFM)은 바로 이 두 개념의 전략적 결합이다. 즉, 파운데이션 모델의 ‘대규모 데이터 기반 사전학습 및 미세조정’이라는 강력한 방법론을 ‘월드 모델’ 구축이라는 목표에 적용한 것이다.6 WFM은 물리 세계의 동역학을 시뮬레이션하는 범용 모델(general-purpose model)로서 사전 학습된 후, 로보틱스나 자율주행과 같은 특정 물리 AI 시스템의 고유한 환경과 요구사항에 맞게 맞춤화될 수 있다.9

WFM의 등장은 특히 ‘물리적 AI(Physical AI)’ 분야에서 근본적인 패러다임 전환을 예고한다. 물리적 AI란 센서를 통해 현실 세계를 관찰하고, 액추에이터를 통해 물리적 세계와 상호작용하며 이를 변화시킬 수 있는 AI 시스템을 의미한다.9 로봇, 자율주행차, 드론 등이 대표적인 예이다.

기존 물리적 AI 개발 방식은 몇 가지 본질적인 한계에 직면해 있었다. 실제 물리적 환경에서 로봇이나 차량을 훈련시키기 위한 데이터를 수집하는 과정은 막대한 비용과 시간을 소모하며, 예측 불가능한 사고의 위험을 항상 내포한다.10 더욱이, 현실에서는 거의 발생하지 않지만 일단 발생하면 치명적인 결과를 초래할 수 있는 ‘롱테일(long-tail)’ 시나리오(예: 도로 위로 갑자기 동물이 뛰어드는 상황)에 대한 충분한 데이터를 확보하는 것은 거의 불가능에 가깝다.12

WFM은 이러한 문제들에 대한 확장 가능하고 효율적인 대안을 제시한다. WFM은 물리 법칙과 현실 세계의 복잡한 상호작용을 학습하여, 사진처럼 사실적인 합성 데이터(photorealistic synthetic data)를 무한에 가깝게 생성할 수 있다.6 이를 통해 개발자들은 안전하고 통제된 가상 환경 내에서 로봇과 자율주행차를 수없이 훈련시키고 테스트할 수 있으며, 이는 학습 과정을 극적으로 가속화하고 실제 필드 테스트의 필요성을 대폭 줄여준다.8 이는 AI의 능력을 기존의 2D 소프트웨어나 디지털 콘텐츠의 영역을 넘어, 유형의(tangible) 현실 세계 경험으로 확장하는 결정적인 열쇠이다.6 엔비디아의 CEO 젠슨 황은 WFM이 로보틱스 분야에서 LLM이 언어 분야에 가져온 것과 같은 ‘ChatGPT 순간’을 만들어낼 잠재력이 있다고 평가하며, 물리 AI 기술의 민주화를 촉진할 것이라고 전망했다.3

이러한 변화는 AI 개발 철학의 근본적인 전환을 의미한다. 과거의 AI가 주로 주어진 데이터를 ‘인식’하고 분류하는 반응적(reactive) 시스템에 가까웠다면, WFM은 세계의 작동 방식을 내재화하여 미래를 ‘예측’하고 ‘시뮬레이션’하는 능동적(proactive) 시스템으로의 진화를 상징한다. 이는 AI가 단순한 패턴 인식기를 넘어, 원인과 결과를 추론하고 3 복잡한 계획을 수립하는 1 진정한 ‘추론 엔진’으로 발전하는 중요한 이정표이다. ‘물리적 AI’라는 용어의 부상은 WFM의 핵심 가치가 디지털 콘텐츠 생성이 아닌, 현실 세계와의 안전하고 유용한 상호작용에 있음을 명확히 하며, 기술의 성공 기준을 ‘생성된 결과물의 사실성’에서 ‘현실 세계에서의 유용성과 안전성’으로 확장시키고 있다.

본 보고서는 이러한 WFM의 중요성을 인식하고, 그 다층적인 측면을 심도 있게 분석한다. II장에서는 WFM을 구성하는 핵심 기술인 시공간 트랜스포머, 확산 모델, 자기회귀 모델 등의 기술적 기반을 수학적 원리와 함께 상세히 다룬다. III장에서는 엔비디아 Cosmos, 구글 Genie, OpenAI Sora, 메타 V-JEPA 등 현재 WFM 연구를 선도하는 주요 모델들을 심층적으로 비교 분석한다. IV장에서는 로보틱스, 자율주행, 그리고 기후 모델링과 같은 과학적 발견에 이르기까지 WFM의 구체적인 응용 사례를 탐구한다. V장에서는 막대한 계산 비용, 물리적 현실성 확보의 어려움, 그리고 ‘진정한 이해’에 대한 근본적인 질문 등 WFM이 직면한 도전 과제와 한계를 비판적으로 검토한다. VI장에서는 딥페이크와 같은 악용 가능성부터 데이터 편향, AI 정렬 문제에 이르기까지 WFM이 제기하는 안전성 및 윤리적 쟁점을 논의한다. 마지막으로 VII장에서는 얀 르쿤의 비전과 AGI 개발에서의 역할을 조망하며 WFM의 미래를 전망하고, 기술적/사회적 제언으로 보고서를 마무리한다.

월드 파운데이션 모델(WFM)의 구현은 컴퓨터 비전, 생성 모델링, 그리고 대규모 아키텍처 설계의 최신 기술들이 집약된 결과물이다. WFM이 물리 세계의 복잡한 시공간적 동역학을 학습하고 시뮬레이션하기 위해서는 기존 AI 모델의 한계를 뛰어넘는 정교한 기술적 기반이 요구된다. 본 장에서는 WFM의 핵심을 이루는 시공간 트랜스포머 아키텍처, 두 가지 주요 생성 패러다임인 확산 모델과 자기회귀 모델의 원리, 그리고 비디오 데이터를 처리하기 위한 토큰화 기법에 대해 상세히 분석한다.

파운데이션 모델 시대를 연 일등 공신은 단연 트랜스포머(Transformer) 아키텍처이다. 셀프 어텐션(self-attention) 메커니즘을 기반으로 하는 트랜스포머는 데이터 내의 장거리 의존성(long-range dependency)을 효과적으로 포착하고, 모델과 데이터의 규모를 확장함에 따라 성능이 예측 가능하게 향상되는 뛰어난 확장성(scalability)을 보여주었다. 이러한 특성 덕분에 트랜스포머는 텍스트, 이미지, 음성 등 다양한 데이터 양식(modality)에 걸쳐 파운데이션 모델을 구축하는 사실상의 표준(de facto choice)으로 자리매김했다.4

그러나 트랜스포머를 비디오 데이터에 직접 적용하는 데에는 심각한 도전 과제가 존재한다. 비디오는 이미지에 시간이라는 차원이 추가된 데이터 형태로, 프레임의 수와 해상도가 증가함에 따라 처리해야 할 정보의 양, 즉 토큰의 수가 기하급수적으로 늘어난다. 표준 트랜스포머의 셀프 어텐션은 입력 시퀀스 길이에 대해 이차적인 계산 및 메모리 비용($O(N^2)$)을 요구하기 때문에, 수백만 개의 픽셀로 구성된 긴 비디오 시퀀스를 처리하는 것은 현실적으로 불가능에 가깝다.13

이러한 문제를 해결하기 위해, 비디오의 공간적(spatial) 특성과 시간적(temporal) 특성을 효율적으로 동시에 처리할 수 있는 다양한 ‘시공간 트랜스포머(Spatiotemporal Transformer)’ 아키텍처가 제안되었다.

확산 모델(Diffusion Model)은 최근 몇 년간 이미지 및 비디오 생성 분야에서 가장 뛰어난 성능을 보여준 생성 패러다임으로, OpenAI의 Sora를 비롯한 여러 WFM의 핵심 엔진으로 사용되고 있다.10 확산 모델의 기본 아이디어는 깨끗한 원본 데이터에 점진적으로 노이즈를 추가하여 완전히 무작위적인 노이즈로 만드는 ‘순방향 프로세스(forward process)’와, 이 과정을 정확히 역으로 거슬러 올라가 순수한 노이즈로부터 원본 데이터를 점진적으로 복원하는 ‘역방향 프로세스(reverse process)’를 학습하는 것이다.

확산 모델의 수학적 기반은 Denoising Diffusion Probabilistic Models(DDPM) 논문에서 체계적으로 정립되었다.

자기회귀(Autoregressive) 모델은 대규모 언어 모델(LLM)의 성공을 이끈 핵심 패러다임으로, WFM 분야에서도 중요한 한 축을 담당하고 있다. Google의 Genie가 이 접근법을 활용한 대표적인 예이다.10 자기회귀 모델의 기본 원리는 데이터를 하나의 긴 시퀀스로 간주하고, 시퀀스의 각 요소를 이전 요소들의 조건부로 순차적으로 예측하여 생성하는 것이다.24

자기회귀 모델은 확률의 연쇄 법칙(chain rule of probability)에 수학적 기반을 둔다. 데이터 $x$가 $N$개의 요소(예: 비디오의 토큰 또는 픽셀) $x_1, \dots, x_N$으로 구성된 시퀀스라고 할 때, 이 데이터의 결합 확률 분포 $p(x)$는 다음과 같이 조건부 확률의 곱으로 분해될 수 있다.26 \(p(x) = p(x_1, \dots, x_N) = \prod_{i=1}^{N} p(x_i | x_1, \dots, x_{i-1})\) 자기회귀 모델의 목표는 이 조건부 확률 분포 $p(x_i | x_{<i}; \theta)$를 파라미터 $\theta$를 가진 신경망(주로 트랜스포머)으로 모델링하고, 주어진 데이터셋에 대해 이 확률을 최대화하도록(Maximum Likelihood Estimation) 학습하는 것이다.

생성 시에는 먼저 첫 번째 요소 $x_1$을 샘플링하고, 이를 조건으로 두 번째 요소 $x_2$를 샘플링하며, 다시 $x_1, x_2$를 조건으로 $x_3$를 샘플링하는 과정을 시퀀스의 끝까지 반복한다.

이 두 생성 패러다임의 선택은 단순히 기술적 선호의 문제가 아니라, 모델이 추구하는 철학과 목표를 반영하는 전략적 결정이다. 확산 모델은 전체 시퀀스를 양방향으로 고려하며 전역적 일관성과 높은 시각적 충실도를 추구하므로, ‘세계를 있는 그대로 시뮬레이션’하는 고품질의 ‘영화’를 만드는 데 적합하다. 반면, 자기회귀 모델은 순차적 생성을 통해 외부 입력을 쉽게 통합할 수 있으므로, ‘상호작용 가능한 세계’인 ‘비디오 게임’을 만드는 데 더 유리하다. 이 두 패러다임의 경쟁과 융합이 WFM의 미래를 형성할 것이다.

WFM이 트랜스포머 아키텍처를 효과적으로 활용하기 위해서는, 연속적인 시공간 데이터인 비디오를 트랜스포머가 처리할 수 있는 형태, 즉 토큰(token)의 시퀀스로 변환하는 과정이 필수적이다. 이 ‘비디오 토큰화’ 과정은 WFM의 성능과 효율을 결정하는 매우 중요한 단계이다.9

결국 WFM의 발전은 단순히 더 큰 트랜스포머 모델을 만드는 것을 넘어, 비디오의 본질적인 시공간 정보를 손실 없이, 그러면서도 효율적으로 압축하는 더 정교한 토크나이저(tokenizer)를 개발하는 경쟁에 크게 의존할 것이다. LLM의 성공이 효과적인 텍스트 토큰화에서 비롯되었듯 15, WFM의 미래 혁신 역시 이 ‘입력단’의 혁신에서 나올 가능성이 매우 크다.

월드 파운데이션 모델(WFM) 분야는 소수의 선도적인 기술 기업들이 각기 다른 철학과 기술적 접근법을 바탕으로 치열하게 경쟁하며 발전하고 있다. 본 장에서는 현재 WFM 연구를 이끌고 있는 대표적인 네 가지 모델-NVIDIA의 Cosmos, Google의 Genie, OpenAI의 Sora, 그리고 Meta의 V-JEPA-을 심층적으로 분석하고 비교한다. 각 모델의 목표, 핵심 기술, 그리고 명시된 한계를 살펴봄으로써 WFM 분야의 다양한 지형도를 입체적으로 조망한다.

NVIDIA의 Cosmos는 특정 모델 하나를 지칭하기보다는, 물리적 AI 개발자들이 각자의 응용 분야에 최적화된 맞춤형 월드 모델을 효율적으로 구축할 수 있도록 지원하는 개방형 플랫폼이자 모델 제품군(suite)이다.9 이는 GPU 하드웨어 생태계를 기반으로 AI 개발 도구와 플랫폼을 제공하려는 NVIDIA의 광범위한 전략과 맥을 같이 한다.

Google DeepMind가 개발한 Genie는 WFM의 또 다른 가능성, 즉 ‘상호작용 가능한 세계의 창조’에 초점을 맞춘 모델이다.29 Genie는 단순히 비디오를 생성하는 것을 넘어, 사용자가 직접 조작하고 탐험할 수 있는 ‘플레이 가능한(playable)’ 가상 환경을 만들어낸다는 점에서 혁신적이다.

OpenAI의 Sora는 공개와 동시에 전 세계에 충격을 안겨준 모델로, 텍스트 설명만으로 놀라울 정도로 사실적이고 일관성 있는 비디오를 생성하는 능력을 보여주었다. Sora의 목표는 단순히 보기 좋은 비디오를 만드는 것을 넘어, 물리 세계의 법칙과 객체 간의 상호작용을 이해하고 시뮬레이션하는 범용 시뮬레이터를 구축하는 것이다.15

Meta AI의 V-JEPA(Video Joint-Embedding Predictive Architecture)는 앞선 세 모델과는 근본적으로 다른 철학적 접근을 취한다. 이는 얀 르쿤의 오랜 비전이 구체화된 결과물로, ‘생성’이 아닌 ‘예측’을 통해 세계를 이해하려는 시도이다.17

이처럼 WFM 분야는 단일한 경로가 아닌, 서로 다른 철학과 강점을 가진 여러 접근법들이 경쟁하고 있다. NVIDIA Cosmos는 개발자 생태계를 지원하는 ‘플랫폼’ 전략을, OpenAI Sora와 Google Genie는 그 자체로 강력한 성능을 보여주는 ‘제품’ 전략을 취하고 있다. 한편, Meta의 V-JEPA는 주류 생성 모델들과는 궤를 달리하는 ‘추상적 예측’이라는 근본적인 ‘반론(counter-argument)’을 제시하며 독자적인 노선을 구축하고 있다. ‘생성을 통한 이해’와 ‘추상화를 통한 이해’라는 두 거대한 철학적 흐름의 경쟁과 융합이 앞으로의 AI 기술 지형도를 결정하게 될 것이다.

구분 (Category) NVIDIA Cosmos Google Genie OpenAI Sora Meta V-JEPA
핵심 철학 (Core Philosophy) 물리 AI 개발을 위한 범용 플랫폼 및 도구 제공 (Platform & Tools for Physical AI) 이미지로부터 상호작용 가능한 세계 생성 (Generative Interactive Worlds from Images) 고충실도 시각적 시뮬레이션을 통한 세계 이해 (World Understanding via High-Fidelity Simulation) 추상적 예측을 통한 세계의 근본 원리 학습 (Learning World Principles via Abstract Prediction)
주요 아키텍처 (Key Architecture) 확산 & 자기회귀 트랜스포머 (Diffusion & Autoregressive Transformers) 자기회귀 ST-Transformer (Autoregressive ST-Transformer) 확산 트랜스포머 (Diffusion Transformer, DiT) 결합 임베딩 예측 아키텍처 (JEPA) on ViT
핵심 기술 (Key Technology) 사전학습-미세조정 패러다임 (Pre-train & Fine-tune Paradigm) 잠재 행동 모델 (Latent Action Model) 시공간 잠재 패치 (Spacetime Latent Patches) 표현 공간에서의 마스크된 예측 (Masked Prediction in Representation Space)
주요 학습 데이터 (Primary Training Data) 다양한 인터넷 비디오 (Diverse Internet Videos) 2D 플랫폼 게임 비디오 (2D Platformer Game Videos) 다양한 해상도/길이의 비디오 및 이미지 (Mix of Videos/Images of varied resolutions/durations) 대규모 인터넷 비디오 + 로봇 데이터 (Large-scale Internet Videos + Robot Data)
주요 목표 (Primary Goal) 로보틱스/자율주행용 맞춤형 모델 개발 지원 (Support custom model dev for robotics/AV) 새로운 창작 및 에이전트 훈련 방식 제공 (Enable new creation & agent training) 범용 물리 세계 시뮬레이터 구축 (Build a general-purpose physical world simulator) 효율적인 제로샷 로봇 계획 (Enable efficient, zero-shot robot planning)

월드 파운데이션 모델(WFM)의 능력, 즉 물리 세계의 동역학을 학습하고 시뮬레이션하는 능력은 이론적 탐구를 넘어 다양한 산업 분야에서 실질적인 가치를 창출하기 시작했다. 특히 로보틱스와 자율주행과 같이 현실 세계와의 상호작용이 필수적인 분야에서 WFM은 기존의 개발 패러다임을 혁신하고 있다. 더 나아가, 그 응용 범위는 기후 변화 예측이나 신약 개발과 같은 복잡계 과학 분야로까지 확장될 잠재력을 보이고 있다.

로봇이 인간과 같은 유연성과 적응력을 갖추기 위해서는 주변 환경에 대한 깊은 이해, 즉 ‘공간 지능(spatial intelligence)’이 필수적이다. WFM은 로봇이 이러한 지능을 안전하고 효율적으로 습득할 수 있는 이상적인 훈련장을 제공한다.6

자율주행차(AV)의 상용화를 가로막는 가장 큰 장벽은 무한에 가까운 실제 도로 상황, 특히 예측하기 어렵고 드물게 발생하는 위험 상황에 대한 안전성을 입증하는 것이다. WFM은 이러한 ‘롱테일 문제(long-tail problem)’를 해결하고 AV 시스템의 신뢰성을 확보하는 데 결정적인 역할을 한다.

WFM의 핵심 능력인 ‘복잡한 동역학 시스템을 데이터로부터 학습하고 시뮬레이션하는 힘’은 물리적 AI의 영역을 넘어 과학적 발견의 방법론 자체를 혁신할 잠재력을 지니고 있다.

이처럼 WFM은 단순히 ‘로봇을 위한 시뮬레이터’를 넘어, 데이터로부터 복잡계의 작동 원리를 학습하는 ‘범용 시뮬레이션 엔진’으로 진화하고 있다. 이는 물리적 AI의 상업적 가치를 증명하는 동시에, 전통적인 물리 기반 시뮬레이션의 한계를 보완하고 과학적 발견의 새로운 지평을 여는 혁신적인 도구가 될 잠재력을 명확히 보여준다.

월드 파운데이션 모델(WFM)이 제시하는 혁신적인 비전에도 불구하고, 이 기술이 널리 보급되고 신뢰받기까지는 해결해야 할 수많은 기술적, 개념적 도전 과제들이 산적해 있다. 막대한 자원 소모 문제부터 물리적 현실성 확보의 어려움, 그리고 모델이 과연 세상을 ‘이해’하는지에 대한 근본적인 질문에 이르기까지, WFM은 여러 한계에 직면해 있다.

WFM 개발의 가장 현실적인 장벽은 막대한 양의 컴퓨팅 자원과 데이터를 필요로 한다는 점이다.

WFM의 핵심 목표는 물리 세계를 사실적으로 시뮬레이션하는 것이지만, 현재의 기술 수준은 이 목표를 완벽하게 달성하지 못하고 있다.

WFM이 제공하는 가상 환경이 아무리 사실적으로 보일지라도, 그것이 복잡하고 예측 불가능한 현실 세계의 모든 미묘한 변수들을 완벽하게 재현할 수는 없다. 이로 인해 ‘시뮬레이션과 현실 간의 간극(Sim-to-Real Gap)’이라는 고질적인 문제가 발생한다. 시뮬레이션에서 완벽하게 작동하도록 훈련된 AI 에이전트가 실제 물리적 환경에 배치되었을 때, 예상치 못한 센서 노이즈, 미세한 마찰력의 차이, 조명의 변화 등 시뮬레이션에서 고려되지 않은 요인들로 인해 성능이 급격히 저하되거나 실패할 수 있다.10 이 간극을 최소화하고 시뮬레이션에서 학습한 지식을 현실로 효과적으로 이전하는 기술은 WFM의 실용성을 결정짓는 핵심 과제로 남아있다.

WFM의 능력에 대한 가장 근본적인 비판은, 이 모델들이 과연 세상의 작동 원리를 진정으로 ‘이해’하고 있는 것인지, 아니면 단지 방대한 데이터에서 발견한 통계적 패턴을 정교하게 ‘모방’하고 있을 뿐인지에 대한 질문에서 비롯된다.

이러한 결과는 현재의 WFM이 현상을 ‘기술’하는 케플러의 단계에는 도달했을지 모르나, 그 현상의 근본 원인을 ‘설명’하는 뉴턴의 단계에는 이르지 못했음을 시사한다. 모델은 깊은 구조적 이해를 바탕으로 추론하는 것이 아니라, 특정 작업에만 효율적인 표면적인 지름길, 즉 ‘발견적 방법(heuristics)’을 학습했을 가능성이 높다. 이는 단순히 모델과 데이터의 규모를 키우는 ‘스케일링’ 전략만으로는 해결하기 어려운, 질적으로 다른 차원의 문제이다. WFM이 진정한 의미의 지능으로 나아가기 위해서는, 스케일링과 더불어 인과관계 추론(causal inference), 기호적 추론(symbolic reasoning), 또는 물리 법칙을 모델 구조에 직접 통합하는(physics-informed) 등의 새로운 접근법이 통합적으로 연구되어야 할 필요성을 제기한다.43

월드 파운데이션 모델(WFM)은 물리 세계를 시뮬레이션하고 그 안에서 작동하는 AI를 개발하는 강력한 도구이지만, 그 힘은 동시에 심각한 안전성, 윤리, 그리고 정렬(alignment) 문제를 야기한다. WFM이 생성하는 결과물은 현실과 구별하기 어려울 정도로 사실적이며, 물리적 AI에 탑재될 경우 그 결정이 현실 세계에 직접적인 영향을 미치기 때문에, 이러한 문제들에 대한 고찰은 기술 개발과 병행하여 최우선으로 다루어져야 한다.

WFM의 가장 즉각적이고 명백한 위험은 사실적인 비디오 생성 능력이 악의적으로 사용될 가능성이다.

모든 파운데이션 모델과 마찬가지로, WFM 역시 훈련에 사용된 데이터에 내재된 사회적 편향을 그대로 학습하고, 심지어 증폭시킬 위험이 있다.45 WFM이 생성하는 ‘세계’가 편향된 데이터에 기반한다면, 그 세계 역시 편향된 현실을 반영하거나 왜곡된 가치관을 고착화시킬 수 있다.

AI 정렬(AI Alignment)은 AI 시스템이 개발자의 의도를 벗어나지 않고, 궁극적으로 인류의 보편적 가치에 부합하도록 행동하게 만드는 것을 목표로 하는 연구 분야이다.46 WFM은 물리적 세계와 직접 상호작용하기 때문에, 정렬의 실패는 디지털 공간에서의 오류와는 비교할 수 없을 정도로 치명적인 결과를 초래할 수 있다.

월드 파운데이션 모델(WFM)은 인공지능이 디지털 정보를 처리하는 단계를 넘어, 물리적 현실의 구조와 동역학을 이해하고 예측하는 새로운 시대를 열고 있다. 이 기술은 아직 초기 단계에 머물러 있지만, 그 잠재력은 로보틱스와 자율주행을 넘어 과학적 발견과 범용 인공지능(AGI)의 미래에까지 깊은 영향을 미칠 것으로 전망된다. 본 장에서는 WFM의 미래를 조망하고, 기술적/사회적 제언을 통해 종합적인 결론을 제시한다.

AI 분야의 선구자 중 한 명인 얀 르쿤은 현재 AI 연구의 주류를 이루는 자기회귀 대규모 언어 모델(LLM)만으로는 인간 수준의 지능에 도달할 수 없다고 일관되게 주장해왔다. 그는 LLM이 유창한 언어를 구사하지만, 세상이 어떻게 작동하는지에 대한 깊이 있는 내재적 모델, 즉 월드 모델이 부족하며, 이로 인해 계획(planning)과 추론(reasoning) 능력에 근본적인 한계가 있다고 지적한다.49

르쿤이 제안하는 미래 AI 아키텍처의 중심에는 바로 ‘예측적 월드 모델(predictive world model)’이 자리 잡고 있다.2 그가 구상하는 지능 시스템은 단순히 관찰을 통해 세상에 대한 방대한 배경지식과 물리 법칙을 스스로 학습한다. 이 내재화된 월드 모델을 사용하여, 시스템은 자신의 행동이 미래에 어떤 결과를 초래할지 예측하고, 여러 가능한 시나리오를 시뮬레이션하여 최적의 행동 계획을 수립할 수 있다. Meta에서 개발 중인 JEPA(Joint-Embedding Predictive Architecture)와 같은 모델들은 픽셀 수준의 생성을 지양하고 추상적인 표현 공간에서 예측을 수행함으로써, 이러한 비전을 구현하려는 구체적인 첫걸음이다.33 이 접근법은 AI가 인간과 같이 ‘상식(common sense)’을 습득하고, 더 적은 데이터로 더 효율적으로 학습하며, 이전에 겪어보지 못한 낯선 상황에도 유연하게 적응하는 진정한 ‘자율 지능(autonomous intelligence)’으로 나아가는 경로를 제시한다.5

많은 연구자들은 WFM을 범용 인공지능(AGI), 즉 인간이 수행할 수 있는 어떠한 지적 과업도 성공적으로 해낼 수 있는 AI로 가는 핵심적인 디딤돌로 간주한다.1

AGI를 향한 길은 현재 크게 두 개의 축을 중심으로 발전하고 있는 것으로 보인다. 첫 번째 축은 LLM으로 대표되는 ‘언어 기반의 추상적 지능’이다. 이 지능은 인간의 지식, 문화, 논리 등 추상적인 개념을 이해하고 소통하는 데 강력한 능력을 보인다. 두 번째 축은 WFM이 대표하는 ‘물리 기반의 현실 접지 지능(grounded intelligence)’이다. 이 지능은 시공간의 구조, 객체의 상호작용, 인과관계 등 현실 세계의 법칙을 이해하고 시뮬레이션하는 데 강점을 보인다.

얀 르쿤을 비롯한 많은 연구자들은 언어만으로는 진정한 의미의 지능에 도달할 수 없으며, 언어로 표현되지 않는 방대한 양의 비언어적 세계 지식(non-verbal world knowledge)을 학습하는 것이 필수적이라고 주장한다.49 WFM은 언어 모델이 접근하기 어려운 방대한 시각적, 물리적 정보를 처리함으로써, AI의 이해를 현실 세계에 단단히 뿌리내리게 할 잠재력을 가지고 있다.1 WFM이 제공하는 ‘상상력’, 즉 행동의 결과를 미리 시뮬레이션해보는 능력은 인간과 같은 상식적 추론과 문제 해결 능력의 근간을 이룬다.

궁극적인 AGI는 이 두 축의 융합을 통해 탄생할 가능성이 높다. 즉, LLM의 정교한 언어 및 추론 능력과 WFM의 물리적 상상력이 결합된, 언어를 통해 세상과 소통하면서도 물리 법칙을 이해하고 그 안에서 행동을 계획할 수 있는 통합 모델이 미래 AGI의 모습일 것이다. Google의 Gemini와 같이 텍스트, 이미지, 비디오 등 다양한 양식의 데이터를 동시에 처리하는 멀티모달 모델들은 이러한 융합을 향한 초기 단계의 시도라고 볼 수 있다.10

월드 파운데이션 모델은 물리 세계와 상호작용하는 AI를 개발하는 데 있어 가장 혁신적이고 유망한 기술 중 하나로 부상했다. 이는 시뮬레이션을 통해 데이터 수집, 모델 훈련, 시스템 검증의 전통적인 패러다임을 근본적으로 바꾸고 있으며, 로보틱스와 자율주행을 넘어 과학 연구의 방법론까지 혁신할 잠재력을 보여주고 있다. 그러나 이 기술은 막대한 계산 비용, 물리적 현실성 확보의 어려움, 그리고 ‘진정한 이해’에 대한 근본적인 의문과 같은 기술적 도전과제와 더불어, 딥페이크, 데이터 편향, AI 정렬과 같은 심각한 사회적/윤리적 문제를 안고 있다.

이러한 고찰을 바탕으로, WFM의 건전하고 책임감 있는 발전을 위해 다음과 같은 제언을 하고자 한다.

결론적으로, 월드 파운데이션 모델은 인공지능이 가상 세계를 넘어 현실 세계의 복잡성을 이해하고 상호작용하는 능력을 갖추게 될 것이라는 흥미로운 미래를 약속한다. 이 여정은 수많은 기술적 난관과 윤리적 도전을 수반하겠지만, 인류의 지적 지평을 넓히고 현실의 난제들을 해결하는 데 기여할 무한한 가능성을 품고 있다. 책임감 있는 연구와 신중한 사회적 합의를 통해 이 가능성을 실현해 나가는 것이 우리 앞에 놓인 중요한 과제이다.

  1. Topic 35: What are World Models?, 8월 3, 2025에 액세스, https://www.turingpost.com/p/topic-35-what-are-world-models
  2. A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27 - OpenReview, 8월 3, 2025에 액세스, https://openreview.net/pdf?id=BZ5a1r-kVsf
  3. World models help AI learn what five-year-olds know about gravity IBM, 8월 3, 2025에 액세스, https://www.ibm.com/think/news/cosmos-ai-world-models
  4. Foundation model - Wikipedia, 8월 3, 2025에 액세스, https://en.wikipedia.org/wiki/Foundation_model
  5. Yann LeCun on a vision to make AI systems learn and reason like animals and humans, 8월 3, 2025에 액세스, https://ai.meta.com/blog/yann-lecun-advances-in-ai-research/
  6. What are World Foundation Models? NVIDIA Glossary, 8월 3, 2025에 액세스, https://www.nvidia.com/en-us/glossary/world-models/
  7. Foundation Models in Robotics: Applications, Challenges, and the Future - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2312.07843v1
  8. www.nvidia.com, 8월 3, 2025에 액세스, https://www.nvidia.com/en-us/glossary/world-models/#:~:text=World%20foundation%20models%20(WFMs)%20are,training%20robots%20and%20autonomous%20vehicles.
  9. Cosmos World Foundation Model Platform for Physical AI - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2501.03575v1
  10. World Foundation Models: 10 Use Cases & Examples [2025], 8월 3, 2025에 액세스, https://research.aimultiple.com/world-foundation-model/
  11. Why World Foundation Models Will Be Key to Advancing Physical AI - NVIDIA Blog, 8월 3, 2025에 액세스, https://blogs.nvidia.com/blog/world-foundation-models-advance-physical-ai/
  12. Prospective Role of Foundation Models in Advancing Autonomous Vehicles - PMC - PubMed Central, 8월 3, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11249913/
  13. Genie: Generative Interactive Environments - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2402.15391v1
  14. OpenAI Sora’s Technical Review - Jianing Qi, 8월 3, 2025에 액세스, https://j-qi.medium.com/openai-soras-technical-review-a8f85b44cb7f
  15. Video generation models as world simulators OpenAI, 8월 3, 2025에 액세스, https://openai.com/index/video-generation-models-as-world-simulators/
  16. NumByNum :: Understanding Sora Technical Report (OpenAI, 2024) Medium, 8월 3, 2025에 액세스, https://medium.com/@AriaLeeNotAriel/numbynum-understanding-sora-technical-report-openai-2024-5a135bf0bed0
  17. V-JEPA 2: Meta’s World Model for AI Robotics and Planning, 8월 3, 2025에 액세스, https://learnopencv.com/v-jepa-2-meta-world-model-robotics-guide/
  18. End-to-End Semantic Video Transformer for Zero-Shot Action Recognition - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/pdf/2203.05156
  19. Zero-Shot Action Recognition with Transformer-based Video Semantic Embedding - University of South Florida, 8월 3, 2025에 액세스, http://sis.eng.usf.edu/Papers/cvprw23.pdf
  20. Google Genie vs. OpenAI Sora: The Battle of Interactive World Models - Generative AI, 8월 3, 2025에 액세스, https://generativeai.pub/google-genie-vs-openai-sora-the-battle-of-interactive-world-models-096c4d0ce88b
  21. Genie 2 by DeepMind: A Complete Game-Changer - Forward Future AI, 8월 3, 2025에 액세스, https://www.forwardfuture.ai/p/genie-2-by-google-deepmind
  22. Improved Denoising Diffusion Probabilistic Models - arXiv, 8월 3, 2025에 액세스, http://arxiv.org/pdf/2102.09672
  23. An In-Depth Guide to Denoising Diffusion Probabilistic Models DDPM – Theory to Implementation - LearnOpenCV, 8월 3, 2025에 액세스, https://learnopencv.com/denoising-diffusion-probabilistic-models/
  24. Autoregressive Models in Vision: A Survey - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2411.05902v1
  25. What are Autoregressive Models? - AR Models Explained - AWS, 8월 3, 2025에 액세스, https://aws.amazon.com/what-is/autoregressive-models/
  26. Autoregressive Models, 8월 3, 2025에 액세스, https://deepgenerativemodels.github.io/notes/autoregressive/
  27. What are Autoregressive Generative Models - Drops of AI, 8월 3, 2025에 액세스, https://dropsofai.com/what-are-autoregressive-generative-models/
  28. Playing with Transformer at 30+ FPS via Next-Frame Diffusion - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/pdf/2506.01380
  29. Genie: Generative Interactive Environments - Google Sites, 8월 3, 2025에 액세스, https://sites.google.com/view/genie-2024/home
  30. Google Genie - a generative AI model - Firmbee, 8월 3, 2025에 액세스, https://firmbee.com/google-genie-a-generative-ai-model
  31. Sora: Creating video from text - OpenAI, 8월 3, 2025에 액세스, https://openai.com/index/sora/
  32. Sora is here - OpenAI, 8월 3, 2025에 액세스, https://openai.com/index/sora-is-here/
  33. I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI, 8월 3, 2025에 액세스, https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/
  34. [2506.09985] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/abs/2506.09985
  35. World Models for Autonomous Driving: An Initial Survey - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2403.02622v1
  36. From Terabytes to Turnkey: AI-Powered Climate Models Go Mainstream - NVIDIA Developer, 8월 3, 2025에 액세스, https://developer.nvidia.com/blog/from-terabytes-to-turnkey-ai-powered-climate-models-go-mainstream/
  37. Clear Skies Ahead: New NVIDIA Earth-2 Generative AI Foundation Model Simulates Global Climate at Kilometer-Scale Resolution, 8월 3, 2025에 액세스, https://blogs.nvidia.com/blog/earth2-generative-ai-foundation-model-global-climate-kilometer-scale-resolution/
  38. Foundation Models for Atomistic Simulation of Chemistry and Materials - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2503.10538v2
  39. Can Test-Time Scaling Improve World Foundation Model? - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/html/2503.24320v1
  40. What Has a Foundation Model Found? Inductive Bias Reveals World Models - ICML 2025, 8월 3, 2025에 액세스, https://icml.cc/virtual/2025/poster/44374
  41. What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models - [Arxiv: 2507.06952] : r/mlscaling - Reddit, 8월 3, 2025에 액세스, https://www.reddit.com/r/mlscaling/comments/1m4zaim/what_has_a_foundation_model_found_using_inductive/
  42. [2507.06952] What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models - arXiv, 8월 3, 2025에 액세스, https://arxiv.org/abs/2507.06952
  43. World Models in Artificial Intelligence: Sensing, Learning, and Reasoning Like a Child, 8월 3, 2025에 액세스, https://arxiv.org/html/2503.15168v1
  44. Generative AI Ethics in 2025: Top 6 Concerns - Research AIMultiple, 8월 3, 2025에 액세스, https://research.aimultiple.com/generative-ai-ethics/
  45. Ethical Considerations of Using GenAI Tools Online Teaching, 8월 3, 2025에 액세스, https://onlineteaching.umich.edu/articles/ethical-considerations-of-using-genai-tools/
  46. AI alignment - Wikipedia, 8월 3, 2025에 액세스, https://en.wikipedia.org/wiki/AI_alignment
  47. Our approach to alignment research OpenAI, 8월 3, 2025에 액세스, https://openai.com/index/our-approach-to-alignment-research/
  48. How we think about safety and alignment - OpenAI, 8월 3, 2025에 액세스, https://openai.com/safety/how-we-think-about-safety-alignment/
  49. Objective-Driven AI - UW Department of Electrical & Computer Engineering - University of Washington, 8월 3, 2025에 액세스, https://www.ece.uw.edu/wp-content/uploads/2024/01/lecun-20240124-uw-lyttle.pdf
  50. Yann LeCun’s Home Page, 8월 3, 2025에 액세스, http://yann.lecun.com/