Booil Jung

NVIDIA Cosmos Reason (물리 AI 시대를 위한 추론 엔진)

물리 AI(Physical AI)는 센서와 액추에이터를 통해 물리적 세계를 관찰하고, 이해하며, 상호작용하는 지능형 시스템으로 정의된다.1 이는 단순히 디지털 데이터를 처리하는 것을 넘어, 현실 세계의 복잡성과 불확실성 속에서 유의미한 행동을 수행할 수 있는 능력을 요구한다. 로보틱스, 자율주행차, 산업 자동화와 같은 분야에서 물리 AI의 중요성은 날로 증대되고 있으나, 기존 AI 모델들은 근본적인 한계에 직면해 있다.

GPT-4o, Gemini 등 현존하는 최첨단 대규모 언어 모델(LLM) 및 시각 언어 모델(VLM)은 텍스트와 정적 이미지 데이터 처리에서 괄목할 만한 성능을 보이지만, 물리적 세계에 대한 깊이 있는 이해, 즉 ‘물리적 상식(physical common sense)’이 결여되어 있다.2 이들 모델은 시간의 흐름에 따른 사건의 인과관계(temporal order), 공간적 연속성, 객체가 보이지 않아도 계속 존재한다는 사실(object permanence)과 같은 물리적으로 기반한 추론(physically grounded reasoning)에 취약한 모습을 보인다.2 이러한 한계는 예측 불가능한 변수가 끊임없이 발생하는 실제 물리 환경에서 작동해야 하는 로봇이나 자율주행 시스템에 치명적인 약점으로 작용하며, 안전과 신뢰성에 직접적인 위협이 된다.4

이러한 기술적 공백은 NVIDIA와 같은 기업에게 새로운 전략적 방향을 제시한다. NVIDIA의 성공은 AI 혁명을 위한 핵심 컴퓨팅 하드웨어(GPU)를 제공하는 데 기반을 두고 있다.7 LLM의 폭발적인 성장이 첫 번째 거대한 물결이었다면, 이제 시장은 점차 성숙기에 접어들고 있다. 다음으로 가장 유망하고 거대한 응용 분야는 물리적 세계와 직접 상호작용하는 AI, 즉 물리 AI다.6 이 새로운 영역의 AI는 언어적 유창함을 넘어 물리 법칙, 인과관계, 시공간 동역학에 대한 근본적인 이해를 필요로 한다.10 NVIDIA가 Cosmos 플랫폼, 특히 Cosmos Reason과 같은 기반 모델을 개발하고 오픈 소스로 공개하는 것은 10, 이 새로운 시장을 선점하고 생태계를 조성하려는 명백한 전략이다. 이는 필수적인 소프트웨어 계층을 제공함으로써 Blackwell GPU, DGX Cloud와 같은 자사의 특화된 하드웨어에 대한 수요를 견인하는 선순환 구조를 구축하는 것이다.8 결국 이는 NVIDIA를 물리 AI 시대를 위한 대체 불가능한 ‘운영 체제’ 제공자로 자리매김하게 하는 거대한 플랫폼 구축 전략의 일환이라 할 수 있다.

NVIDIA Cosmos Reason은 바로 이러한 배경 속에서 탄생했다. Cosmos Reason은 물리적 세계에 대한 깊이 있는 이해를 바탕으로, 다중 모드 지각(multimodal perception)과 실제 세계에서의 의사결정(real-world decision-making) 사이의 깊은 간극을 메우기 위해 설계된 개방형, 맞춤형 추론 시각 언어 모델(reasoning vision language model, VLM)이다.10

이 모델의 핵심 목표는 로봇과 비전 AI 에이전트가 단순히 시각적 패턴을 인식하는 것을 넘어, 인간처럼 사전 지식, 물리적 법칙에 대한 이해, 그리고 상식을 종합적으로 활용하여 실제 세계를 ‘이해’하고 그에 기반하여 ‘행동’할 수 있도록 하는 것이다.6 이는 AI의 패러다임을 단순한 ‘보기(seeing)’에서 복잡한 ‘추론(reasoning)’으로 전환하려는 시도이며, 지능형 시스템이 보다 자율적이고 신뢰성 있게 작동하기 위한 필수적인 단계다.18

본 보고서는 NVIDIA Cosmos Reason에 대한 다각적이고 심층적인 분석을 제공하는 것을 목표로 한다. 먼저, 모델의 기술적 근간이 되는 아키텍처를 상세히 해부하고, 그 성능을 결정짓는 독특한 3단계 훈련 파이프라인과 추론 메커니즘을 분석한다. 이어서, 모델의 철학적 기반이 되는 물리적 상식과 체화된 추론의 온톨로지를 고찰하고, 객관적인 성능 평가 및 벤치마크 분석 결과를 제시한다. 나아가, Cosmos 생태계 내에서 다른 모델들과의 시너지를 통해 어떻게 가치를 창출하는지 살펴보고, 로보틱스, 자율주행 등 주요 산업 분야에서의 응용 사례와 그 파급 효과를 분석한다. 마지막으로, 모델이 가진 내재적 한계와 물리 AI 분야가 앞으로 나아가야 할 연구 방향을 비판적으로 고찰하며 보고서를 마무리한다.

NVIDIA Cosmos Reason의 아키텍처는 기존의 강력한 멀티모달 모델을 기반으로, 물리적 세계 추론이라는 특정 목표를 달성하기 위해 정교하게 설계되었다. 이는 검증된 기술을 활용하여 안정성과 성능을 확보하는 동시에, 새로운 도메인에 특화된 기능을 추가하는 효율적인 개발 전략을 보여준다.

Cosmos-Reason1-7B 모델은 알리바바 클라우드에서 개발한 Qwen2.5-VL-7B-Instruct 모델을 기반으로 후속 훈련(post-trained)되었다.13 Qwen2.5-VL은 이미 높은 수준의 멀티모달 이해 능력이 검증된 기반 아키텍처로, 이를 활용함으로써 NVIDIA는 완전히 새로운 모델을 처음부터 개발하는 데 따르는 시간과 비용을 절감하고, 물리 AI 추론 능력 강화라는 핵심 목표에 집중할 수 있었다.

Qwen2.5-VL 아키텍처는 기본적으로 Vision Transformer(ViT)와 대규모 언어 모델(LLM)을 결합한 엔코더-디코더 구조를 따른다.12 이 구조는 이미지와 텍스트 입력을 하나의 통합된 잠재 공간(latent space)에서 처리하여, 두 양식 간의 복잡한 의미적 관계를 효과적으로 학습하는 데 강점을 가진다. Cosmos Reason은 이 아키텍처의 능력을 정적인 이미지에서 동적인 비디오 입력으로 자연스럽게 확장하여, 시간에 따라 변화하는 물리적 현상을 이해하는 기반을 마련했다.

Cosmos Reason 모델은 크게 세 가지 핵심 구성 요소로 이루어져 있으며, 각 요소는 특정 역할을 수행하며 유기적으로 상호작용한다.

ViT는 모델의 ‘눈’에 해당하는 부분으로, 입력된 비디오나 이미지를 처리하여 시각적 특징을 추출하는 역할을 담당한다. 비디오가 입력되면, ViT는 이를 일련의 프레임으로 분해하고 각 프레임을 다시 작은 패치(patch)들로 나눈다. 이 패치들은 선형 임베딩(linear embedding)을 통해 벡터 시퀀스로 변환된 후, Transformer 인코더를 통과하며 이미지 내의 공간적, 의미적 관계를 학습한다. Cosmos-Reason1-7B 모델에서 ViT는 약 6억 7,500만 개(6.75×108)의 파라미터로 구성되어, 고차원의 시각 정보를 효과적으로 압축하고 표현하는 능력을 갖추고 있다.15

프로젝터는 시각 정보와 언어 정보를 연결하는 핵심적인 ‘번역기’ 역할을 수행한다. ViT를 통해 추출된 시각적 임베딩은 LLM이 직접 이해할 수 없는 고유의 벡터 공간에 존재한다. 프로젝터는 이 시각적 임베딩을 LLM이 사용하는 텍스트 임베딩 공간으로 투영(projection) 또는 정렬(alignment)하는 역할을 하는 특수 신경망이다.12 이 과정을 통해 모델은 “차가 달리는 이미지”와 “차가 달린다”라는 텍스트를 동일한 의미적 맥락에서 이해할 수 있게 된다. 이는 이질적인 두 데이터 양식을 하나의 의미 공간에서 결합하여 진정한 멀티모달 추론을 가능하게 하는 필수적인 장치다.

LLM 백본은 모델의 ‘뇌’에 해당하며, 프로젝터를 통해 정렬된 시각-언어 통합 토큰을 입력받아 최종적인 추론과 응답 생성을 담당한다. 이 LLM은 사전 훈련된 방대한 지식과 물리 AI 특화 미세조정을 통해 학습된 물리적 상식을 바탕으로, 입력된 정보에 대해 단계별 추론을 수행한다. 7B 모델의 경우, LLM 백본은 약 70억 7,000만 개(7.07×109)의 파라미터로 구성되어 복잡한 논리적 관계를 처리할 수 있다.15 NVIDIA의 연구 논문에서는 확장성과 효율성을 고려하여, 표준적인 Transformer 구조 외에 Mamba와 같은 최신 아키텍처를 결합한 하이브리드 Mamba-MLP-Transformer 아키텍처를 LLM 백본으로 채택했다고 언급하고 있다.12 이는 긴 시퀀스 데이터를 처리하는 데 있어 계산 효율성을 높이기 위한 전략으로 해석된다.

Cosmos Reason의 데이터 처리 흐름은 멀티모달 입력을 받아 사고의 연쇄(Chain-of-Thought, CoT) 기반의 구조화된 텍스트를 출력하는 과정으로 요약할 수 있다.

  1. 입력 (Input): 사용자는 분석하고자 하는 비디오(다양한 해상도 및 프레임 속도 지원)와 함께, 모델의 추론 방향을 유도하는 텍스트 프롬프트를 제공한다. 프롬프트는 “이 로봇이 다음에 해야 할 가장 적절한 행동은 무엇인가?”와 같은 직접적인 질문일 수도 있고, “영상에서 발생할 수 있는 잠재적 위험 요소를 설명하라”와 같은 분석 요청일 수도 있다.14
  2. 처리 (Processing):
    • 입력된 비디오는 ViT에 의해 프레임 단위로 처리되어 시각적 특징 벡터 시퀀스로 토큰화된다.
    • 이 시각 토큰들은 프로젝터를 거쳐 LLM의 텍스트 임베딩 공간과 정렬된다.
    • 텍스트 프롬프트 역시 토큰화되어 시각 토큰과 결합된다.
    • LLM 백본은 이 결합된 시퀀스를 입력으로 받아, 문제 해결을 위한 단계별 추론 과정을 내부적으로 생성한다. 이것이 바로 CoT 과정이다.11
  3. 출력 (Output): 최종적으로 모델은 구조화된 자연어 텍스트를 출력한다. 이 출력은 일반적으로 두 부분으로 구성된다. 첫째는 <think>...</think> 태그로 둘러싸인 부분으로, 모델이 결론에 도달하기까지의 논리적 전개, 즉 ‘생각의 과정’을 보여준다. 둘째는 <answer>...</answer> 태그로 둘러싸인 최종 답변 또는 결정이다.20 이러한 출력 형식은 모델의 의사결정 과정을 투명하게 만들어 사용자가 결과를 신뢰하고, 오류가 발생했을 때 원인을 분석하기 용이하게 하는 중요한 역할을 한다.

Cosmos Reason의 뛰어난 물리적 추론 능력은 체계적으로 설계된 3단계 훈련 파이프라인의 결과물이다. 이 파이프라인은 범용적인 지식을 습득하는 단계에서 시작하여, 특정 도메인에 대한 깊이 있는 이해를 심어주고, 최종적으로는 보상을 통해 최적의 의사결정 능력을 갖추도록 모델을 점진적으로 강화한다.

훈련의 첫 단계는 기반 모델인 Qwen2.5-VL이 거치는 사전 훈련 과정이다. 이 단계에서 모델은 웹에서 수집된 방대한 양의 이미지, 비디오, 텍스트 데이터를 학습한다.11 이 과정의 목표는 물리 AI라는 특정 도메인에 특화되기 전에, 세상에 대한 폭넓고 일반적인 지식을 습득하는 것이다. 모델은 이 단계를 통해 기본적인 시각적 개념(객체, 배경, 색상 등), 언어적 구조(문법, 의미), 그리고 시각과 언어 간의 기본적인 연관성(예: ‘고양이’라는 텍스트와 고양이 이미지의 관계)을 학습한다. 이 사전 훈련 단계는 후속 미세조정 단계에서 더 빠르고 효과적으로 특정 지식을 학습할 수 있도록 하는 견고한 토대를 마련한다.

사전 훈련이 범용 지식의 토대를 쌓는 과정이라면, SFT는 Cosmos Reason에 물리 AI로서의 정체성을 부여하는 핵심적인 단계다. 이 단계에서는 물리적 상식과 체화된 추론 온톨로지(IV장 참조)에 따라 특별히 설계되고 큐레이션된 데이터셋을 사용하여 모델을 미세 조정한다.10

이 데이터셋은 단순한 이미지-텍스트 쌍을 넘어, 물리적 세계의 동역학을 가르치기 위해 구성된다. 여기에는 객체가 특정 상황에서 어떻게 행동하는지(object behaviors), 다단계 작업을 완수하기 위한 올바른 순서는 무엇인지(action sequences), 그리고 공간적으로 어떤 배치가 가능하고 불가능한지(spatial feasibility)에 대한 예시들이 포함된다.11 NVIDIA는 이 SFT 단계를 위해 약 182만 개의 질의응답(QA) 쌍과 194만 개의 긴 사고의 연쇄(CoT) 추론 데이터를 구축하여 사용했다.21

SFT의 수학적 목표는 표준적인 지도 학습과 마찬가지로, 주어진 입력(비디오 V와 질문 Q)에 대해 정답 텍스트 A를 생성할 확률을 최대화하는 것이다. 이는 일반적으로 교차 엔트로피 손실(cross-entropy loss) 함수를 최소화하는 방식으로 이루어진다. 모델 파라미터를 θ라고 할 때, SFT 손실 함수 $\mathcal{L}{SFT}$는 다음과 같이 표현할 수 있다. \(\mathcal{L}_{SFT} = - \sum_{(V, Q, A) \in \mathcal{D}_{SFT}} \log P(A | V, Q; \theta)\) 여기서 $\mathcal{D}{SFT}$는 물리 AI 특화 미세조정 데이터셋을 의미한다. 이 과정을 통해 모델은 주어진 정답을 정확하게 모방하도록 학습하며, 물리적 세계에 대한 구조화된 지식을 내재화하게 된다.

SFT가 정답을 모방하는 학습이라면, RL은 정답이 명확하지 않은 상황에서 더 나은 결정을 내리도록 모델을 훈련시키는 과정이다. 이 단계에서 모델은 시행착오를 겪고, 그 결과에 대한 보상(reward) 또는 페널티(penalty)를 받으며 스스로의 정책(policy)을 개선해 나간다.11

Cosmos Reason의 RL 훈련은 인간이 직접 피드백을 제공하는 RLHF(Reinforcement Learning from Human Feedback) 방식 대신, 사전에 정의된 규칙에 기반한 보상(rule-based rewards) 시스템을 채택했다. 이는 대규모 훈련의 효율성과 확장성을 높이기 위한 전략적 선택이다. 보상 함수는 다음과 같은 핵심 요소들을 평가하여 결정된다:

이 RL 단계에서는 별도의 비평가 모델(critic model)을 훈련시킬 필요가 없어 계산적으로 효율적인 GRPO(Generalized Reward Policy Optimization)와 같은 알고리즘이 사용될 수 있다.21 RL의 목표는 모델의 정책 $\pi_{\theta}$가 생성하는 응답

y에 대해 기대 보상(expected reward) $J(\theta)$를 최대화하는 것이다. \(J(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x)}\) 여기서 x는 입력(비디오와 프롬프트), y는 모델이 생성한 응답, $R(y)$는 규칙 기반 보상 함수에 의해 계산된 보상 값이다. 이 최적화 과정을 통해 모델은 단순히 그럴듯한 문장을 생성하는 것을 넘어, 물리적으로 타당하고 목표 달성에 유리한 ‘최적의 결정’을 내리는 방향으로 학습된다.

사고의 연쇄(CoT)는 Cosmos Reason의 훈련 및 추론 과정 전반에 걸쳐 핵심적인 역할을 수행한다. CoT는 복잡한 문제에 대해 최종 답변을 즉시 내놓는 대신, 문제 해결에 필요한 중간 단계의 추론 과정을 명시적으로 생성하는 능력이다.10

Cosmos Reason은 CoT를 통해 입력된 시각 정보를 해석하고, 주어진 프롬프트를 바탕으로 가능한 결과들을 예측하며, 어떤 결정이 최적의 보상을 가져올지 평가하는 일련의 과정을 언어로 표현한다.11 예를 들어, “로봇이 컵을 옮겨야 한다”는 지시가 주어지면, 모델은 “1. 컵의 위치를 파악한다. 2. 로봇 팔이 컵에 닿을 수 있는지 확인한다. 3. 컵을 잡기 위한 적절한 힘을 계산한다. 4. 목표 지점까지의 경로에 장애물이 없는지 확인한다.”와 같은 중간 추론 단계를 생성할 수 있다.

이러한 CoT 능력은 SFT 단계에서 CoT 데이터가 포함된 데이터셋을 학습함으로써 구현되며, RL 단계에서 더 정교하게 다듬어진다. CoT는 두 가지 중요한 이점을 제공한다. 첫째, 모델의 ‘생각하는 과정’을 투명하게 보여줌으로써(explainability), 사용자가 결과의 신뢰도를 판단하고 디버깅을 수행하기 쉽게 만든다. 둘째, 복잡한 문제를 작은 단위로 분해하여 처리함으로써, 더 정확하고 논리적인 결론에 도달할 가능성을 높인다. 특히, 인간의 명시적인 주석 없이도 비디오 속 세계의 동역학을 스스로 이해하고 학습하는 데 중요한 역할을 한다.13

Cosmos Reason 개발의 가장 독창적인 측면 중 하나는 순수하게 데이터 규모에만 의존하는 접근법에서 벗어나, AI가 학습해야 할 지식의 구조를 먼저 정의하는 ‘온톨로지 기반 AI 개발(Ontology-Driven AI Development)’ 방식을 채택했다는 점이다. 이는 물리 AI가 직면한 문제의 본질에 대한 깊은 통찰을 보여준다. 물리적 세계의 상호작용은 무한에 가까운 경우의 수를 가지며, 특히 드물게 발생하는 엣지 케이스(long-tail events)가 많다.3 따라서 모든 상황을 데이터셋으로 포착하는 것은 불가능하다. 이러한 데이터 기반 접근법의 한계는 훈련 데이터 분포 내에서는 보간(interpolation)을 잘하지만, 새로운 상황에서는 외삽(extrapolation)에 치명적으로 실패하는 모델을 낳는다.4

NVIDIA 연구팀은 이러한 문제에 대응하기 위해, 먼저 문제 공간에 대한 개념적 지도, 즉 온톨로지를 구축했다.10 이 온톨로지는 AI를 위한 일종의 ‘교육 과정(curriculum)’ 역할을 한다. 그런 다음, 이 온톨로지의 각 개념에 직접적으로 대응하는 데이터를 의도적으로 수집하고, 훈련 목표(SFT 보상, RL 규칙)를 설계했다. 예를 들어, ‘객체 영속성’이나 ‘시간의 방향성’과 같은 개념을 직접적으로 테스트하고 학습하도록 유도하는 것이다.11 이 접근법은 모델이 단순히 픽셀의 통계적 상관관계를 학습하는 것을 넘어, 물리적 세계의 근본적인 원리를 명시적으로 학습하도록 안내한다. 이는 순수한 스케일링 법칙에만 의존하는 것보다 물리적 과제에 대해 더 견고하고 일반화 성능이 뛰어난, 원칙에 기반한 AI 개발 방식으로 평가할 수 있다.

NVIDIA 연구팀은 AI가 갖추어야 할 물리적 상식을 체계적으로 정의하고 측정하기 위해 계층적 온톨로지를 제안했다.10 이 온톨로지는 모델이 학습하고 평가받아야 할 지식의 범위를 명확하게 규정하는 이론적 틀을 제공한다.

온톨로지는 세 가지 최상위 카테고리로 구성되며, 이는 다시 총 16개의 세부 하위 카테고리로 나뉜다.12

이 온톨로지는 단순히 이론적 분류에 그치지 않고, SFT 및 RL 단계에서 사용될 데이터셋을 체계적으로 큐레이션하고, 모델의 물리적 상식 수준을 정량적으로 평가할 벤치마크를 구축하는 실질적인 가이드라인으로 활용되었다.10

물리적 상식이 세상이 ‘어떻게 작동하는지’에 대한 수동적 지식이라면, 체화된 추론은 에이전트가 그 지식을 바탕으로 특정 목표를 달성하기 위해 ‘어떻게 행동해야 하는지’에 대한 능동적 능력이다. NVIDIA는 이 능력을 정의하기 위해 2차원 온톨로지를 제안했다.10

이 두 온톨로지는 Cosmos Reason이 단순한 패턴 인식기를 넘어, 물리적 세계의 원리를 이해하고 그 안에서 목적 지향적인 행동을 계획할 수 있는 진정한 ‘추론 엔진’으로 발전하기 위한 이론적 청사진을 제공한다.

Cosmos Reason의 성능은 NVIDIA가 자체적으로 구축한 벤치마크와 널리 알려진 공개 데이터셋을 통해 다각적으로 평가되었다. 평가는 모델의 훈련 파이프라인 각 단계가 성능에 얼마나 기여하는지를 정량적으로 보여주고, 다른 최첨단 모델과의 비교를 통해 그 상대적 우위를 입증하는 데 초점을 맞춘다.

Cosmos Reason의 능력을 종합적으로 평가하기 위해, 로보틱스, 자율주행, 인간 행동 분석 등 물리 AI의 핵심 분야를 아우르는 다양한 벤치마크 데이터셋이 사용되었다.10

NVIDIA의 발표에 따르면, Cosmos Reason의 3단계 훈련 파이프라인은 각 단계마다 뚜렷한 성능 향상을 가져왔다. 이는 훈련 전략의 유효성을 명확히 보여주는 결과다.

아래 표는 이러한 성능 향상을 요약하고, 각 훈련 단계의 기여도를 명확히 보여준다.

표 1: Cosmos-Reason1-7B 체화된 추론 벤치마크 성능

벤치마크  
RoboVQA  
AV  
BridgeDataV2  
AgiBot  
HoloAssist  
RoboFail  
평균  

이 표는 질적인 주장(“모델이 향상되었다”)을 양적인 증거(“특정 작업에서 X% 향상되었다”)로 전환하여 보고서의 기술적 신뢰도를 높인다. 이는 NVIDIA의 3단계 훈련 파이프라인의 각 단계가 최종 성능에 의미 있게 기여했음을 구체적인 수치로 증명하며, 온톨로지 기반 SFT와 목표 지향적 RL 접근법의 타당성을 뒷받침한다. 또한, 이 벤치마크 수치들은 향후 개발될 다른 Vision-Language-Action(VLA) 모델들과의 성능을 비교하는 중요한 기준점(baseline) 역할을 할 것이다.

Cosmos Reason은 범용 VLM들과의 비교에서도 물리적 추론 영역에서의 특화된 강점을 보여주었다.

다만, 이러한 성능 수치들은 대부분 NVIDIA가 자체적으로 설계하고 구축한 벤치마크에 기반하고 있다는 점을 유의해야 한다. 모델의 진정한 일반화 성능과 객관적인 위치를 파악하기 위해서는 향후 제3자 기관에 의한 독립적인 평가와 더 넓은 범위의 표준 벤치마크에서의 검증이 필수적이다.14

NVIDIA Cosmos는 Cosmos Reason이라는 단일 모델을 지칭하는 것이 아니라, 물리 AI 개발의 전 과정을 가속화하기 위해 설계된 통합 플랫폼이다.19 이 생태계는 각각 고유한 역할을 수행하는 Predict, Transfer, Reason 세 가지 핵심 기반 모델(World Foundation Models, WFMs)로 구성되며, 이들은 상호 보완적으로 작동하여 강력한 시너지를 창출한다.

Cosmos 생태계의 다른 두 축인 Predict와 Transfer는 주로 고품질의 합성 데이터를 대규모로 생성하는 역할을 담당한다.

이 세 가지 모델은 물리 AI 개발의 선순환 구조(flywheel)를 형성하는 ‘생성-검증-개선’ 워크플로우의 각 단계를 담당한다.25

  1. 생성 (Generate): 개발 파이프라인의 첫 단계에서는 Cosmos Predict가 새로운 시나리오를 ‘상상’하여 생성하고, Cosmos Transfer가 기존 데이터를 다양한 조건으로 ‘증강’하여 방대한 양의 원시 합성 데이터를 만들어낸다.25
  2. 검증 (Validate): 이 단계에서 Cosmos Reason이 핵심적인 역할을 수행한다. 생성된 수많은 합성 데이터가 물리적으로 타당하고 훈련에 유용한지를 인간이 일일이 검수하는 것은 엄청난 비용과 시간을 요구하는 병목 현상을 유발한다. Cosmos Reason은 이 과정을 자동화하는 ‘AI 비평가(AI Critic)’ 역할을 한다. 이 모델은 생성된 비디오를 분석하여 “이 로봇의 움직임이 관절 한계를 벗어나지 않았는가?”, “생성된 차량의 가속도가 물리 법칙에 위배되지 않는가?”, “두 객체가 비현실적으로 서로를 통과하지는 않았는가?”와 같은 질문에 답하며 데이터의 품질을 자동으로 검증하고 필터링한다.19
  3. 개선 (Refine): Cosmos Reason의 검증을 통과한 고품질의 데이터만이 최종 훈련 데이터셋으로 선별된다. 또한, 검증 과정에서 발견된 문제점(예: 특정 조건에서 비현실적인 데이터가 자주 생성됨)은 데이터 생성 파라미터를 조정하는 데 피드백으로 활용되어, 향후 더 높은 품질의 데이터를 생성하도록 파이프라인 전체를 개선한다. 이 정제된 데이터셋은 로봇 제어 정책 모델이나 자율주행 인지 모델과 같은 다운스트림 모델을 훈련시키는 데 사용된다.

이 통합 워크플로우는 물리 AI 개발의 핵심 난제 중 하나인 ‘데이터 문제’에 대한 NVIDIA의 전략적 해법을 보여준다. 견고한 로봇을 훈련시키기 위해서는 방대하고 다양한, 특히 엣지 케이스를 포함하는 데이터가 필수적이지만, 실제 세계에서의 데이터 수집은 느리고, 비싸며, 때로는 위험하기까지 하다.11 Omniverse, Predict, Transfer를 통한 합성 데이터 생성(SDG)은 양적 문제를 해결하지만, 질적 문제를 남긴다. 수백만 개의 비현실적인 데이터는 훈련에 오히려 해가 될 수 있다.

Cosmos Reason은 바로 이 ‘품질 관리’라는 병목을 자동화된 방식으로 해결한다. 물리적 타당성에 대한 이해를 바탕으로 데이터셋을 대규모로 큐레이션하는 능력은, 생성 -> 인간 검수 -> 훈련이라는 전통적이고 확장 불가능한 워크플로우를 생성 -> AI 검수 -> 훈련이라는 완전 자동화된 순환 구조로 전환시킨다. 이 자동화된 데이터 큐레이션 파이프라인은 물리 AI 개발의 속도와 규모를 획기적으로 향상시키는, 통합된 Cosmos 플랫폼의 핵심적인 경쟁 우위라 할 수 있다.

Cosmos Reason은 그 강력한 물리적 추론 능력을 바탕으로, 로보틱스, 자율주행, 지능형 비디오 분석 등 다양한 산업 분야에서 혁신을 주도할 잠재력을 가지고 있다. 이미 다수의 선도 기업들이 Cosmos 플랫폼을 조기 도입하여 가시적인 성과를 창출하고 있으며, 이는 물리 AI 개발 패러다임의 근본적인 변화를 예고한다.

로보틱스 분야에서 Cosmos Reason은 Vision-Language-Action(VLA) 모델의 핵심적인 ‘두뇌’ 역할을 수행할 수 있다.6 VLA 모델은 시각 정보와 자연어 명령을 이해하여 로봇의 행동을 생성하는 차세대 로봇 제어 패러다임이다.28 기존의 VLA 모델들이 주로 입력과 출력의 직접적인 매핑에 집중했다면, Cosmos Reason은 그 사이에 ‘추론과 계획’이라는 중요한 단계를 추가한다.

로봇에게 “부엌에 가서 시원한 물 한 잔을 가져와”와 같은 복잡한 명령이 주어졌을 때, Cosmos Reason은 이 명령을 다음과 같은 실행 가능한 하위 작업들로 분해할 수 있다: (1) ‘부엌’의 위치로 이동한다. (2) ‘컵’을 찾는다. (3) ‘정수기’ 또는 ‘냉장고’를 찾아 ‘시원한 물’을 컵에 따른다. (4) 명령을 내린 사람에게 컵을 전달한다. 이 과정에서 모델은 낯선 환경에서도 상식을 바탕으로 장애물을 피하고, 물체의 속성을 이해하며(예: 컵은 깨지기 쉬움), 최적의 행동 순서를 계획한다. 이는 로봇이 보다 유연하고 지능적으로 복잡한 임무를 수행할 수 있게 하는 핵심 기술이다.

자율주행 분야에서 가장 큰 과제 중 하나는 방대한 양의 주행 데이터 속에서 의미 있고 중요한 시나리오, 특히 사고로 이어질 수 있는 위험한 엣지 케이스를 식별하고 학습하는 것이다. Cosmos Reason은 이 데이터 큐레이션 과정을 자동화하는 데 강력한 도구로 사용된다.6

예를 들어, 수천 시간의 주행 비디오 데이터에서 “보행자가 갑자기 차도로 뛰어드는 장면”이나 “앞차가 비정상적으로 급정거하는 장면”과 같이 위험도가 높은 이벤트를 자동으로 필터링하고, 해당 장면에 “잠재적 충돌 위험”과 같은 의미 있는 주석(annotation)을 자동으로 생성할 수 있다. 이는 개발자들이 고품질의 훈련 데이터를 훨씬 빠르고 효율적으로 구축할 수 있게 해준다. 실제로 차량 공유 기업 Uber는 자율주행 훈련 데이터의 주석 처리 및 캡셔닝 작업에 Cosmos Reason을 활용하고 있으며, 자동차 부품 기업 Magna는 자사의 도심 배송 플랫폼에서 차량이 새로운 도시에 더 빨리 적응할 수 있도록 장기 경로 계획기의 세계 이해 능력을 강화하는 데 이 모델을 도입하고 있다.6

Cosmos Reason은 NVIDIA의 지능형 비디오 분석 플랫폼인 Metropolis와 통합되어, 스마트 시티 및 산업 자동화 분야에서 강력한 AI 에이전트를 구축하는 데 사용된다.14 도시의 교통 관제 시스템은 Cosmos Reason을 통해 수많은 CCTV 영상 속에서 교통 흐름의 패턴을 분석하고, 사고 발생 시 즉각적으로 원인을 파악하며, 잠재적인 정체 구간을 예측할 수 있다.

공장이나 물류 창고에서는 생산 라인이나 작업자의 움직임을 실시간으로 분석하여 비효율적인 동선을 개선하거나, 안전 규정을 위반하는 위험한 행동(예: 안전모 미착용, 위험 구역 진입)을 즉시 감지하여 경고할 수 있다. Cosmos Reason의 비교적 컴팩트한 모델 크기는 고성능 서버가 필요한 클라우드 환경뿐만 아니라, 현장에 설치된 엣지 디바이스에도 배포가 용이하게 하여 실시간 분석의 응답성을 높인다.14 데이터 플랫폼 기업 VAST Data와 영상 관리 소프트웨어 기업 Milestone Systems 등은 이미 교통 모니터링 및 산업 현장의 시각적 검사 자동화에 Cosmos Reason을 도입하고 있다.6

휴머노이드 로봇 개발사인 Agility RoboticsFigure AI, 자율주행 시뮬레이션 기업 Foretellix 등 각 분야의 산업 리더들이 Cosmos 플랫폼을 선도적으로 도입하고 있다.6 이러한 조기 도입 사례들은 물리 AI 개발의 패러다임이 근본적으로 변화하고 있음을 명확히 보여준다. 과거에는 엔지니어들이 수작업으로 데이터를 수집하고, 규칙 기반으로 로봇의 행동을 프로그래밍하는 방식이 주를 이루었다. 그러나 이제는 Cosmos 플랫폼이 제공하는 대규모 합성 데이터를 기반으로 AI 모델을 훈련시키고, Cosmos Reason과 같은 추론 엔진을 통해 지능적인 의사결정을 내리는 방식으로 전환되고 있다.

이러한 패러다임 전환은 개발 비용을 획기적으로 절감하고, 혁신의 주기를 단축시키는 강력한 파급 효과를 가져올 것이다.16 기업들은 더 이상 값비싼 실제 로봇이나 테스트 차량을 수백 대씩 운영하며 데이터를 수집할 필요 없이, 시뮬레이션 환경에서 훨씬 더 다양하고 복잡한 시나리오를 안전하게 테스트하고 모델을 검증할 수 있게 된다. Cosmos Reason은 이 새로운 개발 패러다임의 핵심적인 추론 및 검증 엔진으로서, 물리 AI 기술의 대중화와 산업 전반으로의 확산을 가속화하는 기폭제가 될 것으로 전망된다.

NVIDIA Cosmos Reason은 물리 AI 분야에서 중요한 진전을 이루었지만, 동시에 여러 기술적, 철학적 한계를 내포하고 있으며, 이는 향후 연구가 나아가야 할 방향을 제시한다.

현재까지 발표된 Cosmos Reason의 뛰어난 성능 지표들은 대부분 NVIDIA 내부에서 설계하고 관리하는 벤치마크에 기반하고 있다.14 이는 모델이 해당 벤치마크에 과적합(overfitting)되었을 가능성을 배제할 수 없게 하며, 성능 평가의 객관성과 신뢰성에 대한 의문을 제기한다. 모델의 진정한 능력을 검증하기 위해서는 Open-X-Embodiment와 같이 학계와 산업계에서 널리 인정받는 표준화된 로보틱스 벤치마크에서의 독립적이고 공정한 제3자 평가가 시급하다.32

또한, 특정 훈련 데이터셋과 시뮬레이션 환경에서 높은 성능을 보이는 것이 다양한 실제 로봇 플랫폼과 예측 불가능한 현실 환경에서도 동일한 성능으로 이어질 것이라는 보장은 없다. 모델의 진정한 가치는 얼마나 넓은 범위의 과제와 환경에 걸쳐 일관된 성능을 보이는지, 즉 일반화(generalization) 성능에 달려 있으며, 이는 앞으로 지속적인 검증이 필요한 핵심 과제다.

Cosmos 생태계의 근간을 이루는 합성 데이터 생성(SDG) 패러다임은 강력한 확장성을 제공하는 동시에, 내재적인 한계를 가진다. 시뮬레이션은 현실 세계의 복잡성과 미묘함을 완벽하게 모사할 수 없으며, 이로 인해 발생하는 ‘sim-to-real’ 갭은 시뮬레이션에서 훈련된 모델이 실제 환경에서 예상치 못하게 실패하는 주요 원인이 된다.34

더욱이, Cosmos Reason의 ‘AI 비평가’ 역할은 미묘한 역설을 낳는다. 이 모델은 합성 데이터의 물리적 현실성을 보증하는 임무를 맡고 있지만, 정작 그 자신도 현실 세계의 ‘표상(representation)’인 비디오 데이터와 큐레이션된 데이터셋을 통해 물리 법칙을 학습했다. 이는 한 번도 물리적 세계를 직접 ‘경험’해보지 못한 AI가 물리적 현실성의 최종 판정자가 될 수 있는가에 대한 근본적인 질문을 던진다.

이러한 구조는 다음과 같은 잠재적 위험을 내포한다. 첫째, 훈련 데이터에 내재된 편향(예: 특정 문화권의 영상 데이터)이 증폭되어 편향된 물리적 상식을 학습할 수 있다.35 둘째, 훈련 데이터에는 존재하지 않는, 새롭지만 물리적으로는 가능한 시나리오를 비현실적이라고 잘못 판단할 수 있다. 셋째, AI가 생성한 데이터를 다시 AI 훈련에 사용하는 과정이 반복될 경우, 생성 모델이 점차 현실에서 벗어나 자체적으로 생성한 데이터의 특징만을 학습하게 되는 ‘모델 붕괴(model collapse)’ 현상이 발생하여, 전체 생태계가 실제 물리 세계와는 미묘하게 다른 ‘초현실(hyper-reality)’에 최적화될 위험이 있다.36 이 문제를 근본적으로 해결하기 위해서는 시뮬레이션 내의 ‘생성-검증’ 루프를 넘어, 실제 세계와의 지속적인 상호작용을 통한 피드백으로 모델을 끊임없이 보정(grounding)하는 과정이 필수적이다.

인간에게는 너무나 직관적이고 당연한 상식 추론이 AI에게는 여전히 가장 어려운 문제 중 하나로 남아있다.3 이는 인과관계, 인간의 의도, 사회적 맥락 등 아직 우리 스스로도 완벽하게 이해하거나 정형화하지 못한 지식 영역을 다루기 때문이다.3 Cosmos Reason은 온톨로지를 통해 이 문제에 대한 구조적인 접근을 시도했지만, 이는 방대한 상식의 세계의 일부를 포착한 것에 불과하다.

또한, 진정한 의미의 체화된 지능(embodied intelligence)은 단순히 센서 데이터를 처리하는 것을 넘어, 물리적인 신체(하드웨어)와 환경 간의 능동적인 상호작용을 통해 세상을 배우는 과정, 즉 ‘체화된 인지(embodied cognition)’를 요구한다.41 현재의 AI 모델들은 이러한 신체적 경험이 결여되어 있으며, 이로 인해 물리적 세계에 대한 이해는 근본적으로 피상적일 수밖에 없다.

이러한 한계들을 극복하고 물리 AI를 한 단계 더 발전시키기 위해 다음과 같은 연구 방향이 요구된다.

NVIDIA Cosmos Reason은 인공지능 기술 발전의 역사에서 중요한 전환점을 상징하는 모델이다. 이는 단순히 더 크고 강력한 모델의 등장을 넘어, AI의 역할과 개발 방법론에 대한 근본적인 패러다임 전환을 예고한다.

Cosmos Reason의 핵심 기여는 세 가지로 요약할 수 있다. 첫째, AI의 역할을 수동적인 ‘관찰자’에서 능동적인 ‘행위자’로 격상시켰다. 체계적인 온톨로지 기반의 훈련 방법론과 사고의 연쇄(CoT) 추론 메커니즘을 통해, 단순히 시각적 패턴을 인식하는 ‘보는 AI’를 넘어, 물리적 세계의 원리를 이해하고 목적 지향적으로 ‘생각하고 행동하는 AI’로의 전환을 위한 중요한 기술적 이정표를 제시했다.

둘째, 물리 AI 개발의 핵심 병목이었던 데이터 문제를 해결하기 위한 혁신적인 워크플로우를 제안했다. Cosmos 생태계 내에서 ‘AI 비평가’라는 독특한 역할을 수행함으로써, 확장 가능하고 자동화된 고품질 합성 데이터 생성 파이프라인의 핵심적인 구성 요소를 담당하게 되었다. 이는 물리 AI 개발의 속도와 규모를 획기적으로 향상시킬 잠재력을 가진다.

셋째, 물리적 세계에 대한 깊이 있는 이해와 추론 능력을 VLM에 성공적으로 부여함으로써, AI가 디지털 공간을 넘어 물리적 현실과 상호작용할 수 있는 길을 열었다.

Cosmos Reason과 같은 강력한 추론 모델은 미래의 범용 로봇(general-purpose robots), 완전 자율주행차, 그리고 고도로 자동화된 지능형 공장 및 물류 시스템의 핵심 기반 기술이 될 것이다. 이러한 시스템들은 더 이상 사전에 프로그래밍된 제한된 작업만을 수행하는 기계가 아니라, 변화하는 환경을 스스로 이해하고, 복잡한 문제를 해결하며, 인간과 자연스럽게 협력하는 진정한 의미의 지능형 파트너로 발전할 것이다. Cosmos Reason의 등장은 AI 개발의 주 무대가 순수한 디지털 공간에서 복잡하고 역동적인 물리적 현실 세계로 확장되는 중요한 변곡점을 나타낸다.34

장기적인 관점에서, Cosmos 플랫폼과 Cosmos Reason의 출시는 NVIDIA의 전략적 비전을 명확히 보여준다. NVIDIA는 더 이상 고성능 GPU를 공급하는 하드웨어 기업에 머무르지 않고, 다가오는 물리 AI 시대를 위한 ‘필수 인프라 제공자(indispensable infrastructure provider)’로 자리매김하고 있다.34 Cosmos 플랫폼을 개방형 모델 라이선스로 제공하는 전략은 전 세계 개발자들의 참여를 유도하여 활발한 개발자 생태계를 구축하고, 이는 결국 NVIDIA의 하드웨어 및 클라우드 서비스에 대한 강력한 수요를 창출하는 선순환 구조를 강화할 것이다.

미래 AI 시대의 경쟁력은 특정 기업이 독점적으로 보유한 데이터셋의 양보다, 그 데이터를 지능으로 변환하는 압도적인 ‘계산 능력(computational power)’과 그 위에서 작동하는 강력한 기반 모델, 그리고 이를 둘러싼 생태계에서 나올 가능성이 크다.34 NVIDIA는 Cosmos Reason을 통해 바로 그 미래를 설계하고 있으며, 이는 향후 수십 년간 AI 산업의 지형을 결정지을 중요한 행보로 기록될 것이다.

  1. Cosmos World Foundation Model Platform for Physical AI - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2501.03575v1
  2. This AI Paper from NVIDIA Introduces Cosmos-Reason1: A Multimodal Model for Physical Common Sense and Embodied Reasoning - MarkTechPost, 8월 23, 2025에 액세스, https://www.marktechpost.com/2025/03/24/this-ai-paper-from-nvidia-introduces-cosmos-reason1-a-multimodal-model-for-physical-common-sense-and-embodied-reasoning/
  3. Commonsense reasoning - Wikipedia, 8월 23, 2025에 액세스, https://en.wikipedia.org/wiki/Commonsense_reasoning
  4. common sense is all you need - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/pdf/2501.06642?
  5. Common Sense Is All You Need - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2501.06642v1
  6. NVIDIA Opens Portals to World of Robotics With New Omniverse Libraries, Cosmos Physical AI Models and AI Computing Infrastructure, 8월 23, 2025에 액세스, https://nvidianews.nvidia.com/news/nvidia-opens-portals-to-world-of-robotics-with-new-omniverse-libraries-cosmos-physical-ai-models-and-ai-computing-infrastructure
  7. NVIDIA Cosmos, 8월 23, 2025에 액세스, https://resources.nvidia.com/en-us-dgx-cloud/cosmos/
  8. NVIDIA Launches New Cosmos Reason Model to Accelerate the Development of Robotics and Physical AI - AI NEWS, 8월 23, 2025에 액세스, https://news.aibase.com/news/20419
  9. AI for the Industrial Sector - NVIDIA, 8월 23, 2025에 액세스, https://www.nvidia.com/en-us/industries/industrial-sector/
  10. Cosmos-Reason 1: From Physical AI Common Sense to Embodied Decisions Research, 8월 23, 2025에 액세스, https://research.nvidia.com/publication/2025-03_cosmos-reason-1-physical-ai-common-sense-embodied-decisions
  11. Scale Synthetic Data and Physical AI Reasoning with NVIDIA …, 8월 23, 2025에 액세스, https://developer.nvidia.com/blog/scale-synthetic-data-and-physical-ai-reasoning-with-nvidia-cosmos-world-foundation-models/
  12. Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2503.15558v1
  13. Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes. - GitHub, 8월 23, 2025에 액세스, https://github.com/nvidia-cosmos/cosmos-reason1
  14. NVIDIA debuts Cosmos Reason AI model to advance physical AI and robotics, 8월 23, 2025에 액세스, https://mlq.ai/news/nvidia-debuts-cosmos-reason-ai-model-to-advance-physical-ai-and-robotics/
  15. Maximize Robotics Performance by Post-Training NVIDIA Cosmos Reason, 8월 23, 2025에 액세스, https://developer.nvidia.com/blog/maximize-robotics-performance-by-post-training-nvidia-cosmos-reason/
  16. NVIDIA’s Cosmos Reason and the Rise of Physical AI: A Disruptive Force in Urban and Industrial Automation - AInvest, 8월 23, 2025에 액세스, https://www.ainvest.com/news/nvidia-cosmos-reason-rise-physical-ai-disruptive-force-urban-industrial-automation-2508/
  17. nvidia/Cosmos-Reason1-7B - Hugging Face, 8월 23, 2025에 액세스, https://huggingface.co/nvidia/Cosmos-Reason1-7B
  18. What a fantastic breakdown of NVIDIA’s Cosmos Reason architecture! You’ve expertly cut through the technical jargon and sci-fi hype to explain what’s truly a game-changer for robotics. Your point on… - Mustavi Tonoy - Medium, 8월 23, 2025에 액세스, https://medium.com/@aslamtonoy/what-a-fantastic-breakdown-of-nvidias-cosmos-reason-architecture-48dbc988ec07
  19. NVIDIA Cosmos for Developers, 8월 23, 2025에 액세스, https://developer.nvidia.com/cosmos
  20. Mungert/Cosmos-Reason1-7B-GGUF - Hugging Face, 8월 23, 2025에 액세스, https://huggingface.co/Mungert/Cosmos-Reason1-7B-GGUF
  21. VLM for Video Understanding with Spatial and Temporal Context: NVIDIA Cosmos Reason1 - LearnOpenCV, 8월 23, 2025에 액세스, https://learnopencv.com/cosmos-reason-vlm-video-vqa/
  22. (PDF) Critical Review: Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning - ResearchGate, 8월 23, 2025에 액세스, https://www.researchgate.net/publication/394041687_Critical_Review_Cosmos-Reason1_From_Physical_Common_Sense_To_Embodied_Reasoning
  23. NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools, 8월 23, 2025에 액세스, https://nvidianews.nvidia.com/news/nvidia-announces-major-release-of-cosmos-world-foundation-models-and-physical-ai-data-tools
  24. NVIDIA Cosmos - Physical AI with World Foundation Models, 8월 23, 2025에 액세스, https://www.nvidia.com/en-us/ai/cosmos/
  25. Simplify End-to-End Autonomous Vehicle Development with New NVIDIA Cosmos World Foundation Models, 8월 23, 2025에 액세스, https://developer.nvidia.com/blog/simplify-end-to-end-autonomous-vehicle-development-with-new-nvidia-cosmos-world-foundation-models/
  26. Develop Custom Physical AI Foundation Models with NVIDIA Cosmos Predict-2, 8월 23, 2025에 액세스, https://developer.nvidia.com/blog/develop-custom-physical-ai-foundation-models-with-nvidia-cosmos-predict-2/
  27. Tag: Cosmos NVIDIA Technical Blog, 8월 23, 2025에 액세스, https://developer.nvidia.com/blog/tag/cosmos/
  28. Vision Language Action Models in Robotic Manipulation: A Systematic Review - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2507.10672v1
  29. CoT-VLA, 8월 23, 2025에 액세스, https://cot-vla.github.io/
  30. NVIDIA and Partners Bring Physical AI to Cities and Industrial Infrastructure, 8월 23, 2025에 액세스, https://blogs.nvidia.com/blog/physical-ai-partners-metropolis-updates-siggraph/
  31. NVIDIA’s Cosmos to Revolutionize Physical AI Development - RTInsights, 8월 23, 2025에 액세스, https://www.rtinsights.com/nvidias-cosmos-to-revolutionize-physical-ai-development/
  32. Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2411.05821v2
  33. A SURVEY OF EMBODIED ARTIFICIAL INTELLIGENCE DATA ENGINEERING, 8월 23, 2025에 액세스, https://airs.cuhk.edu.cn/sites/default/files/2025-06/Survey_Arxiv.pdf
  34. Nvidia Cosmos Explained - NVIDIA’s Secret Plan to Build the Real-World Matrix - YouTube, 8월 23, 2025에 액세스, https://www.youtube.com/watch?v=zCq3zwf8GF4
  35. Enhancing manufacturing operations with synthetic data: a systematic framework for data generation, accuracy, and utility - Frontiers, 8월 23, 2025에 액세스, https://www.frontiersin.org/journals/manufacturing-technology/articles/10.3389/fmtec.2024.1320166/full
  36. The Pros and Cons of Using Synthetic Data when Training GenAI Models, 8월 23, 2025에 액세스, https://orange-bridge.com/latest-ai-data-trends/the-pros-and-cons-of-using-synthetic-data-when-training-genai-models
  37. Best Practices and Lessons Learned on Synthetic Data for Language Models - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2404.07503v1
  38. The Curious Case of Commonsense Intelligence American Academy of Arts and Sciences, 8월 23, 2025에 액세스, https://www.amacad.org/publication/daedalus/curious-case-commonsense-intelligence
  39. With artificial intelligence, common sense is uncommon - USC Today, 8월 23, 2025에 액세스, https://today.usc.edu/commonsense-artificial-intelligence-ai/
  40. Commonsense Reasoning and Commonsense Knowledge in Artificial Intelligence Ernest Davis, Dept. of Computer Science, New York Uni, 8월 23, 2025에 액세스, https://cs.nyu.edu/davise/papers/CommonsenseFinal.pdf
  41. Future Directions Workshop on Embodied Intelligence - Basic Research, 8월 23, 2025에 액세스, https://basicresearch.defense.gov/Portals/61/Documents/future-directions/Future%20Directions%20on%20Embodied%20Intelligence%20workshop%20report_clean.pdf?ver=eAR-1vdgCheJ069HKJoaag%3D%3D
  42. A Comprehensive Survey on Embodied Intelligence: Advancements, Challenges, and Future Perspectives - ResearchGate, 8월 23, 2025에 액세스, https://www.researchgate.net/journal/CAAI-Artificial-Intelligence-Research-2097-3691/publication/386744078_A_Comprehensive_Survey_on_Embodied_Intelligence_Advancements_Challenges_and_Future_Perspectives/links/67d13d5132265243f5851dfa/A-Comprehensive-Survey-on-Embodied-Intelligence-Advancements-Challenges-and-Future-Perspectives.pdf?origin=journalDetail
  43. The Future of AI with Embodied Cognition - Number Analytics, 8월 23, 2025에 액세스, https://www.numberanalytics.com/blog/future-of-ai-with-embodied-cognition
  44. Nvidia Expands Cosmos World Models for Physical AI - The AI Track, 8월 23, 2025에 액세스, https://theaitrack.com/nvidia-cosmos-world-models-physical-ai/