NVIDIA Alpamayo-R1

2025-12-06, G30DR

1. 서론: 자율주행 패러다임의 근본적 전환

1.1 연구 배경 및 목적

자율주행 기술은 지난 10년 동안 인지(Perception) 능력의 비약적인 향상과 하드웨어 성능의 증대에 힘입어 급격한 발전을 이루었다. 그러나 레벨 4(Level 4) 및 레벨 5(Level 5) 완전 자율주행으로 나아가는 길목에서, 업계는 소위 ‘롱테일(Long-tail)’ 문제라는 거대한 장벽에 직면해 있다. 기존의 딥러닝 기반 모델들은 수만 시간의 주행 데이터를 학습했음에도 불구하고, 학습 데이터 분포에 존재하지 않는 희귀한 상황이나 복잡한 사회적 상호작용이 요구되는 시나리오에서 취약성을 드러냈다. 이는 기존 시스템이 데이터와 제어 신호 간의 상관관계를 학습하는 ‘패턴 매칭(Pattern Matching)’ 방식에 의존하고 있었기 때문이다. 이러한 방식은 “무엇(What)“을 해야 하는지는 예측할 수 있으나, “왜(Why)” 그렇게 해야 하는지에 대한 인과적 이해가 결여되어 있어, 낯선 환경에서의 일반화(Generalization) 성능이 떨어진다는 근본적인 한계를 지닌다.

이러한 맥락에서 엔비디아(NVIDIA)가 NeurIPS 2025에서 공개한 Alpamayo-R1은 자율주행 기술의 새로운 분기점을 제시한다. Alpamayo-R1은 단순한 주행 제어 모델이 아니라, 시각적 정보를 언어적으로 해석하고 논리적 추론 과정을 거쳐 물리적 행동을 결정하는 비전-언어-행동(Vision-Language-Action, VLA) 모델이다. 이는 인지심리학에서 말하는 ‘시스템 2(System 2)’ 사고, 즉 느리지만 논리적이고 분석적인 사고 과정을 자율주행차에 이식하려는 시도로 해석된다.

본 보고서는 엔비디아의 Alpamayo-R1 모델을 중심으로, 자율주행 기술이 ’데이터 기반의 모방 학습(Imitation Learning)’에서 ’인과적 추론 기반의 물리적 AI(Physical AI with Causal Reasoning)’로 진화하는 과정을 기술적, 전략적, 산업적 관점에서 심층 분석한다. 특히 기존 상용 L3 솔루션인 ‘Alpamayo’ 제품군과 연구용 오픈소스 모델인 ’Alpamayo-R1’의 관계를 명확히 하고, 이 모델이 제시하는 ’설명 가능한 AI(Explainable AI, XAI)’의 가능성과 기술적 아키텍처, 그리고 엔비디아가 그리는 자율주행 생태계의 미래 전략을 포괄적으로 논의한다.

quadrantChart
    title "자율주행 난제와 Alpamayo-R1의 타겟 영역"
    x-axis "데이터 빈도 (희귀함 <---> 흔함)"
    y-axis "상황 복잡도 (단순함 <---> 복잡함/사회적 상호작용)"
    quadrant-1 "Alpamayo-R1의 핵심 영역 (인과적 추론 필요)"
    quadrant-2 "기존 딥러닝의 한계 (데이터 부족)"
    quadrant-3 "기존 모델 해결 가능 (단순 규칙)"
    quadrant-4 "기존 모델 최적화 영역 (패턴 매칭)"
    
    "고속도로 정속 주행": [0.8, 0.2]
    "일반적인 교차로 통과": [0.7, 0.4]
    "비오는 밤 무단횡단": [0.2, 0.6]
    "수신호하는 공사 현장": [0.1, 0.9]
    "전복된 트럭과 경찰 통제": [0.05, 0.95]

1.2 보고서의 범위 및 구성

본 보고서는 Alpamayo-R1의 기술적 백서, 엔비디아의 공식 발표 자료, 관련 학술 논문 및 산업 분석 보고서를 기반으로 작성되었다. 보고서의 구성은 다음과 같다. 2장에서는 자율주행 아키텍처의 진화 과정과 VLA 모델의 등장 배경을 살펴본다. 3장에서는 Alpamayo-R1의 핵심 아키텍처인 Cosmos-Reason 백본과 확산 기반 궤적 디코더를 상세히 분석한다. 4장에서는 1,727시간 분량의 데이터셋 구축 방법론과 강화학습 기반의 훈련 파이프라인을 다룬다. 5장에서는 정량적 성능 지표와 기존 SOTA(State-of-the-Art) 모델인 UniAD, VAD와의 비교 분석을 수행한다. 6장에서는 엔비디아의 오픈소스 전략과 ‘물리적 AI’ 생태계 확장 전략을 논의하며, 마지막 7장에서는 기술적 한계와 향후 과제를 제시한다.

2. 자율주행 아키텍처의 진화와 VLA의 등장

graph TD
    subgraph "1세대: 모듈형 파이프라인 (Modular)"
        A1["센서 입력"] --> A2["인지 (Perception)"]
        A2 --> A3["측위 (Localization)"]
        A3 --> A4["예측 (Prediction)"]
        A4 --> A5["계획 (Planning)"]
        A5 --> A6["제어 (Control)"]
        style A1 fill:#f9f,stroke:#333
        style A6 fill:#f9f,stroke:#333
        A7["특징: 오류 전파 문제, 수동 규칙(Rule-based)"]
    end

    subgraph "2세대: 엔드투엔드 (E2E - UniAD/VAD)"
        B1["센서 입력"] --> B2["거대 신경망 (단일 모델)"]
        B2 --"BEV 특징 공유"--> B3["제어 출력"]
        style B1 fill:#9cf,stroke:#333
        style B3 fill:#9cf,stroke:#333
        B4["특징: 블랙박스(Why 부재), 패턴 매칭, 전역 최적화"]
    end

    subgraph "3세대: VLA 모델 (Alpamayo-R1)"
        C1["멀티 카메라 + 에고모션"] --> C2["비전 인코더"]
        C2 --> C3["LLM 기반 추론 (Cosmos-Reason)"]
        C3 --"인과적 사슬(CoC)"--> C4["설명(Text) + 논리"]
        C4 --> C5["확산 기반 액션 디코더"]
        C5 --> C6["물리적 궤적 (Trajectory)"]
        style C1 fill:#fc9,stroke:#333
        style C6 fill:#fc9,stroke:#333
        C7["특징: 설명 가능(XAI), 시스템 2 사고, 롱테일 대응"]
    end

    A6 -.-> B1
    B3 -.-> C1

2.1 모듈형 파이프라인의 한계와 엔드투엔드 모델의 부상

초기 자율주행 시스템은 인지, 측위, 예측, 계획, 제어 등 각 기능이 독립적인 소프트웨어 모듈로 구성된 ‘모듈형 파이프라인(Modular Pipeline)’ 구조를 채택했다. 이 방식은 각 모듈을 개별적으로 개발하고 검증하기 용이하다는 장점이 있었으나, 모듈 간 정보 전달 과정에서 정보의 손실이 발생하고, 상위 모듈의 오류가 하위 모듈로 전파되어 증폭되는 ‘오류 전파(Error Propagation)’ 문제를 안고 있었다. 또한, 각 모듈을 연결하기 위한 수동적인 규칙(Heuristic Rules)들이 복잡해짐에 따라 시스템의 유연성이 저하되는 현상이 발생했다.1

이러한 한계를 극복하기 위해 등장한 것이 엔드투엔드(End-to-End) 자율주행 모델이다. 엔드투엔드 모델은 센서 입력부터 제어 출력까지를 하나의 거대한 신경망으로 연결하여 학습함으로써, 정보 손실을 최소화하고 전체 시스템을 전역적으로 최적화(Global Optimization)할 수 있다. 대표적인 예로 **UniAD(Unified Autonomous Driving)**와 **VAD(Vectorized Autonomous Driving)**가 있다. 이들은 중간 표현(Intermediate Representation)으로 BEV(Bird’s Eye View) 특징을 공유하며 인식과 예측, 계획을 통합적으로 수행하여 학계의 주목을 받았다.1 그러나 이들 모델 역시 입력과 출력 사이의 과정이 불투명한 ’블랙박스(Black-box)’라는 비판을 피하기 어려웠으며, 특히 모델이 왜 그런 결정을 내렸는지 설명할 수 없다는 점은 안전성이 최우선인 자동차 산업에서 치명적인 약점으로 지적되었다.

graph LR
    subgraph "기존 모델: 블랙박스 (Black-box)"
        Old_In["입력 (Image)"] --> Old_Net["거대 신경망\n(패턴 매칭)"]
        Old_Net --"???"--> Old_Out["출력 (Steering/Brake)"]
        style Old_Net fill:#333,color:#fff
    end

    subgraph "Alpamayo-R1: 화이트박스 (White-box)"
        New_In["입력 (Image)"] --> New_Reason["추론 백본\n(System 2 사고)"]
        New_Reason --"텍스트 설명 (Why)"--> New_Check["인과적 사슬 (CoC)"]
        New_Check --> New_Dec["액션 디코더"]
        New_Dec --> New_Out["출력 (Trajectory)"]
        style New_Reason fill:#fff,stroke:#333
        style New_Check fill:#e1f5fe,stroke:#0277bd
    end

2.2 비전-언어-행동(VLA) 모델로의 패러다임 전환

Alpamayo-R1은 기존 엔드투엔드 모델에 대규모 언어 모델(LLM)의 추론 능력을 결합한 VLA 모델이다. VLA 모델은 시각 정보(Vision)를 통해 상황을 인식하고, 언어(Language)를 매개로 상황을 논리적으로 추론하며, 이를 바탕으로 물리적 행동(Action)을 생성한다. 이는 자율주행차가 단순히 “장애물이 있으니 멈춘다“는 반사적 반응을 넘어, “공사 현장이라 인부가 수신호를 보내고 있으니, 중앙선을 넘어서라도 진행해야 한다“는 식의 고차원적인 상황 판단을 가능하게 한다.3

구분	모듈형 파이프라인	초기 엔드투엔드 (UniAD, VAD)	VLA 모델 (Alpamayo-R1)
핵심 접근법	규칙 기반(Rule-based) 및 개별 최적화	데이터 기반(Data-driven) 패턴 매칭	인과적 추론(Causal Reasoning) 기반
정보 처리	단계적 손실 발생	특징(Feature) 공유 및 최적화	비전-언어-행동의 통합 처리
해석 가능성	각 모듈별로는 높음, 전체적으론 낮음	낮음 (블랙박스 성격 강함)	높음 (자연어 설명 가능)
롱테일 대응	모든 예외 상황에 대한 규칙 정의 불가능	학습 데이터 외 상황에 취약	일반 상식과 논리적 추론으로 대응
대표 기술	Waymo (초기), Mobileye	UniAD, VAD, Tesla FSD v12	Alpamayo-R1, EMMA

표 1. 자율주행 아키텍처의 진화 비교

Alpamayo-R1의 등장은 자율주행 AI가 단순히 운전 기술을 모방하는 단계를 지나, 인간과 유사한 사고 과정을 통해 복잡한 물리적 세계를 이해하고 상호작용하는 단계로 진입했음을 시사한다.5

flowchart TD
    Start(("주행 시작")) --> Detect["인지: 전방 공사 콘(Cone) 및 인부 감지"]
    
    Detect --> Reason1{"추론: 인부가 수신호를 하는가?"}
    
    Reason1 --"Yes (수신호 감지)"--> Reason2["해석: '멈추라'는 신호인가, '가라'는 신호인가?"]
    Reason1 --"No"--> Reason3["판단: 일반적인 공사 구간 회피 주행"]
    
    Reason2 --"가라(Go) 신호"--> Action1["판단: 중앙선 침범 허용 및 서행 통과"]
    Reason2 --"멈춤(Stop) 신호"--> Action2["판단: 정지선 이전에 부드럽게 정차"]
    
    Action1 --> Traj1["궤적 생성: 인부와의 안전 거리 유지하며 통과"]
    Action2 --> Traj2["궤적 생성: 감속 프로파일 생성"]
    
    Reason3 --> Traj3["궤적 생성: 콘(Cone)을 따라 차선 변경"]

    style Reason1 fill:#fff,stroke:#f00
    style Action1 fill:#ff9,stroke:#333

3. NVIDIA Alpamayo-R1 기술적 아키텍처 심층 분석

Alpamayo-R1은 ’추론(Reasoning)’과 ’행동(Action)’을 결합하기 위해 설계된 정교한 멀티모달 아키텍처를 기반으로 한다. 전체 모델의 파라미터 수는 약 105억 개(10.5B)로 추정되며, 이는 82억 개(8.2B)의 추론 백본과 23억 개(2.3B)의 액션 디코더로 구성된다.7

flowchart TD
    subgraph "Input Processing"
        I1["다중 카메라 이미지"] --> E1["비전 인코더 (Vision Encoder)"]
        I2["에고모션 (Egomotion)"] --> E1
        E1 --> T1["압축된 시각 토큰 (Visual Tokens)"]
    end

    subgraph "Reasoning Backbone (8.2B)"
        T1 --> CR["Cosmos-Reason 파운데이션 모델"]
        CR --> K1["물리적 상식 내재화"]
        CR --> K2["인과적 사슬 (CoC) 생성"]
        K2 --> O1["텍스트 출력: 상황 설명 및 판단 근거"]
    end

    subgraph "Action Decoder (2.3B)"
        O1 --> D1["확산 모델 (Diffusion Model)"]
        D1 --> D2["플로우 매칭 (Flow Matching)"]
        D2 --"추론-행동 정렬 (Alignment)"--> D3["동적 타당성 검증"]
    end

    D3 --> RES["최종 출력: 주행 궤적 (Trajectory)"]

    style CR fill:#ff9,stroke:#333,stroke-width:2px
    style O1 fill:#fff,stroke:#f66,stroke-width:2px,stroke-dasharray: 5 5

3.1 비전 인코더 및 멀티 카메라 토큰화 전략

자율주행 차량은 단일 이미지가 아닌, 전후좌우를 커버하는 다수의 카메라로부터 연속적인 영상 데이터를 입력받는다. Alpamayo-R1의 첫 번째 단계는 이러한 방대한 시각 데이터를 LLM이 처리할 수 있는 형태의 ’토큰(Token)’으로 변환하는 것이다.

시공간적 통합: Alpamayo-R1은 다중 카메라 이미지와 시간적 흐름(Multi-timestep)을 반영한 에고모션(Egomotion) 데이터를 입력받는다. 이는 차량의 속도, 가속도, 회전 등의 동역학적 상태와 주변 환경의 변화를 동시에 포착하기 위함이다.7
토큰화 효율성: 고해상도 이미지를 그대로 처리하는 것은 연산 비용상 불가능하다. 따라서 모델은 시각적 정보를 압축된 잠재 공간(Latent Space)의 토큰으로 변환하며, 이 과정에서 공간적 위치 정보와 시간적 순서 정보를 보존하는 특수한 인코딩 방식을 사용한다.8

graph TD
    subgraph "Spatial Inputs (공간)"
        C1["전방 카메라"]
        C2["후방 카메라"]
        C3["측면 카메라 (좌/우)"]
    end

    subgraph "Temporal Inputs (시간)"
        T1["과거 프레임 (t-1)"]
        T2["현재 프레임 (t)"]
        T3["에고모션 (차량 상태)"]
    end

    C1 & C2 & C3 --> Enc["비전 트랜스포머 (ViT)"]
    T1 & T2 & T3 --> Enc

    Enc --> Proc1["공간적 특징 추출 (Spatial Attention)"]
    Proc1 --> Proc2["시간적 특징 통합 (Temporal Attention)"]
    
    Proc2 --> Out["압축된 시각 토큰 시퀀스"]
    
    style Out fill:#ff9,stroke:#333

3.2 코스모스-리즌(Cosmos-Reason) 백본과 인과적 사슬(CoC)

Alpamayo-R1의 중추는 엔비디아가 개발한 Cosmos-Reason 파운데이션 모델이다. 이 모델은 일반적인 텍스트 기반 LLM과 달리 ’물리적 AI’를 위해 특화된 학습 과정을 거쳤다.

물리적 상식의 내재화: Cosmos-Reason은 인터넷 텍스트뿐만 아니라 물리 법칙, 공간적 관계, 시간적 인과성 등을 포함한 데이터로 사전 학습되었다. 이는 모델이 “차가 벽에 부딪히면 멈춘다“거나 “가속하면 속도가 빨라진다“는 기본적인 물리 상식을 이해하고 있음을 의미한다.9
인과적 사슬(Chain of Causation, CoC): 기존의 ’생각의 사슬(Chain of Thought, CoT)’이 문제 해결을 위한 논리적 단계를 나열하는 것이라면, Alpamayo-R1의 CoC는 도로 위 객체들의 상호작용과 인과관계를 규명하는 데 초점을 맞춘다. 예를 들어, “전방에 자전거가 비틀거린다(원인) -> 자전거가 넘어질 가능성이 있다(예측) -> 안전 거리를 넓게 확보하고 서행해야 한다(판단)“와 같은 구조화된 추론 과정을 생성한다.5 이 추론 과정은 텍스트 형태로 출력되어 시스템의 투명성을 보장한다.

sequenceDiagram
    participant S as "상황 (Situation)"
    participant P as "인지 (Perception)"
    participant R as "추론 (Reasoning - CoC)"
    participant A as "행동 (Action)"

    S->>P: "전방 자전거 비틀거림 감지"
    P->>R: "시각 토큰 전달"
    
    rect rgb(240, 248, 255)
        Note over R: "시스템 2 사고 과정 (느리지만 논리적)"
        R->>R: "원인 분석: 자전거가 불안정함"
        R->>R: "예측: 넘어지거나 차선 침범 가능성 있음"
        R->>R: "판단: 안전 거리 확보 및 감속 필요"
    end
    
    R->>A: "의도 전달: '서행하며 우회 공간 확보'"
    A->>A: "물리적 제어 신호 생성 (브레이크/조향)"
    A->>S: "실제 차량 감속 수행"

3.3 확산 기반 궤적 디코더 (Diffusion-based Action Decoder)

추론 백본이 생성한 논리적 판단은 확산 모델(Diffusion Model) 기반의 액션 디코더를 통해 구체적인 주행 궤적(Trajectory)으로 변환된다.

플로우 매칭(Flow Matching) 기법: 일반적인 확산 모델은 노이즈를 제거하며 이미지를 생성하는 과정이 느려 실시간 제어에 부적합할 수 있다. Alpamayo-R1은 이를 개선한 플로우 매칭 기법을 도입하여, 추론 결과를 조건(Conditioning)으로 받아 빠르고 정확하게 연속적인 궤적을 생성한다.8
추론-행동 정렬(Reasoning-Action Alignment): 디코더는 단순히 독립적으로 작동하는 것이 아니라, 백본이 생성한 추론 텍스트의 의미적 맥락(Semantic Context)에 강력하게 구속된다. 즉, 백본이 “정지“를 추론했다면, 디코더는 물리적으로 감속하여 정지하는 궤적만을 생성하도록 설계되었다. 이는 언어 모델의 환각으로 인해 말과 행동이 따로 노는 현상을 방지하는 핵심 메커니즘이다.8
동적 타당성 보장: 생성된 궤적은 차량의 운동학적 제약(Kinematic Constraints)을 준수하여, 실제 차량이 물리적으로 수행 가능한 부드러운 곡선 형태를 띤다.

sequenceDiagram
    participant LLM as "LLM (Reasoning)"
    participant Context as "의미적 맥락 (Semantic Context)"
    participant Decoder as "확산 디코더 (Diffusion)"
    participant Physics as "운동학적 제약 (Kinematics)"

    Note over LLM, Physics: 환각(Hallucination) 방지 프로세스

    LLM->>LLM: "추론: '전방 정체로 정지해야 함'"
    LLM->>Context: 텍스트 의미 추출 ("Stop")
    
    Context->>Decoder: 강력한 조건(Conditioning) 전달
    Note right of Context: 언어적 의도가 물리적 행동을 구속함
    
    Decoder->>Decoder: 궤적 생성 (Flow Matching)
    
    Decoder->>Physics: 생성된 궤적 전달
    Physics->>Physics: 차량 물리 한계 검증 (속도/곡률)
    
    alt 물리적으로 불가능하거나 위험함
        Physics-->>Decoder: 기각 및 재생성 요청
    else 안전함
        Physics->>Physics: 최종 제어 명령 출력
    end

3.4 하드웨어 요구사항 및 추론 성능

Alpamayo-R1은 10B 규모의 거대 모델임에도 불구하고 자율주행의 실시간성 요구를 충족시킨다.

지연 시간(Latency): NVIDIA RTX 6000 Ada (Blackwell 아키텍처) 환경에서 엔드투엔드 추론 지연 시간은 99ms로 측정되었다.12 이는 10Hz(초당 10회)의 제어 주기를 만족시키는 수치로, 실시간 자율주행이 가능함을 입증한다.
최소 사양: 연구 및 비상업적 용도로 모델을 구동하기 위해서는 최소 24GB VRAM을 갖춘 GPU(RTX 3090, 4090 등)가 필요하며, 원활한 훈련 및 대규모 추론을 위해서는 H100과 같은 데이터센터급 GPU가 권장된다.7

gantt
    title Alpamayo-R1 추론 주기 (Target: < 100ms / 10Hz)
    dateFormat S
    axisFormat %S
    
    section Pipeline
    이미지 토큰화 (Vision Encoder) :a1, 0, 15s
    LLM 추론 (Cosmos-Reason)      :a2, after a1, 50s
    궤적 생성 (Action Decoder)     :a3, after a2, 34s
    
    section Deadline
    제어 주기 한계 (100ms)        :crit, 0, 100s

4. 데이터셋 구축 및 훈련 방법론

엔비디아는 Alpamayo-R1의 성능 확보를 위해 1,727시간 분량의 독자적인 데이터셋을 구축하고, 3단계의 정교한 훈련 파이프라인을 적용했다.14

graph TD
    subgraph "Stage 1: 행동 양상 주입 (Action Modality Injection)"
        S1_Input[("대규모 비전-행동 데이터")] --> S1_Proc["사전 학습된 Cosmos-Reason 백본"]
        S1_Proc --> S1_Task["액션 토큰(Action Token) 이해 및 생성 학습"]
        S1_Task --> S1_Out["기초적인 물리적 움직임 가능 모델"]
    end

    subgraph "Stage 2: 추론 능력 도출 (SFT)"
        S2_Input[("Chain of Causation 데이터셋\n(1,727시간, 텍스트-궤적 쌍)")] --> S2_Proc["지도 미세 조정 (Supervised Fine-Tuning)"]
        S1_Out --> S2_Proc
        S2_Proc --> S2_Task["시각 정보와 'Why' 설명 연결"]
        S2_Task --> S2_Out["상황 설명이 가능한 VLA 모델"]
    end

    subgraph "Stage 3: 강화학습 기반 사후 훈련 (RL Post-Training)"
        S3_Input["검증 가능한 보상 함수 (Verifiable Rewards)"] --> S3_Proc["RL 최적화 (PPO 등)"]
        S3_Critic["대규모 추론 모델 크리틱 (Teacher Model)"] -.-> S3_Proc
        S2_Out --> S3_Proc
        S3_Proc --> S3_Task["안전성, 법규 준수, 설명-행동 일관성 강화"]
        S3_Task --> Final["최종 Alpamayo-R1 모델"]
    end

    style S1_Proc fill:#f9f,stroke:#333
    style S2_Proc fill:#f9f,stroke:#333
    style S3_Proc fill:#f9f,stroke:#333
    style Final fill:#ff9,stroke:#f00,stroke-width:4px

4.1 ‘Chain of Causation’ 데이터셋 구축

기존의 자율주행 데이터셋(nuScenes, Waymo Open Dataset 등)은 주로 센서 데이터와 객체 바운딩 박스(Bounding Box), 그리고 차량의 궤적 정보만을 포함하고 있다. “왜 그 궤적을 선택했는지“에 대한 설명 데이터는 전무했다.

자동 라벨링과 인간 검수: 엔비디아는 대규모 주행 영상에 대해 1차적으로 AI가 상황 설명을 생성(Auto-labeling)하고, 이를 인간 전문가가 검수(Human-in-the-Loop)하는 하이브리드 파이프라인을 구축했다. 이를 통해 단순한 상황 묘사가 아닌, 운전자의 의도와 인과 관계가 포함된 고품질의 텍스트-궤적 쌍(Pair) 데이터를 확보했다.13
데이터의 다양성: 이 데이터셋은 일반적인 주행 상황뿐만 아니라, 사고 직전 상황, 악천후, 복잡한 공사 구간 등 희귀한 롱테일 시나리오를 다수 포함하여 모델의 대응 능력을 높였다.

flowchart TD
    raw[("원시 주행 영상<br>(Raw Video)")] --> AI_Labeling
    
    subgraph "AI 자동화 단계"
        AI_Labeling["AI 오토 라벨링 (Auto-labeling)"]
        AI_Labeling --> Gen_Text["상황 설명 생성"]
        AI_Labeling --> Gen_Traj["궤적 정보 추출"]
    end

    subgraph "인간 개입 단계 (Human-in-the-Loop)"
        Gen_Text & Gen_Traj --> Human_Check{"인간 전문가 검수"}
        Human_Check --"오류 수정"--> Correction["라벨 수정"]
        Human_Check --"통과"--> Validated
        Correction --> Validated["검증된 데이터"]
    end

    Validated --> Final_DB[("Chain of Causation<br>데이터셋 (1,727시간)")]
    
    style Human_Check fill:#ffcc00,stroke:#333
    style Final_DB fill:#99ccff,stroke:#333

4.2 3단계 훈련 파이프라인 (Three-Stage Training Pipeline)

Alpamayo-R1의 학습 과정은 다음과 같이 진행된다.8

행동 양상 주입 (Action Modality Injection): 사전 학습된 Cosmos-Reason 백본에 궤적 예측을 위한 액션 토큰(Action Token)을 이해하고 생성할 수 있는 능력을 주입한다. 이 단계에서는 대규모의 비전-행동 데이터가 사용된다.
추론 능력 도출 (Eliciting Reasoning via SFT): ‘Chain of Causation’ 데이터셋을 사용하여 지도 미세 조정(Supervised Fine-Tuning, SFT)을 수행한다. 모델은 이 단계에서 시각적 입력을 보고 “왜” 행동해야 하는지를 설명하는 법을 배운다.
강화학습 기반 사후 훈련 (RL-Based Post-Training): 가장 중요한 단계로, 모델이 생성한 추론과 행동의 품질을 강화학습(RL)을 통해 최적화한다.

검증 가능한 보상(Verifiable Rewards): 모델의 출력이 안전한지, 교통 법규를 준수하는지, 그리고 설명과 행동이 일치하는지를 평가하여 보상을 제공한다.
대규모 추론 모델 크리틱(Large Reasoning Model Critic): 더 큰 규모의 교사 모델(Teacher Model)이 학생 모델인 Alpamayo-R1의 추론 과정을 평가하고 피드백을 주는 방식을 사용하여 추론의 논리적 완결성을 높였다.13

5. 성능 평가 및 비교 분석

graph LR
    subgraph "NVIDIA Autonomous Strategy"
        Center(("NVIDIA AI Ecosystem"))
        
        subgraph "Research & Open Source (The Bait)"
            R1["Alpamayo-R1 (모델 공개)"]
            R2["Cosmos Cookbook (도구 공개)"]
            R3["AlpaSim (시뮬레이터)"]
            R4["타겟: 연구소, 스타트업, 후발 OEM"]
            
            R1 & R2 & R3 --> R5["데이터 독점 타파 및 연구 민주화"]
        end

        subgraph "Commercial Product (The Revenue)"
            P1["Alpamayo L3 Solution"]
            P2["DRIVE Thor (칩셋)"]
            P3["Blackwell GPU (서버)"]
            P4["타겟: 2027년 양산 완성차 업체"]
        end

        subgraph "Virtuous Cycle (Razor & Blade)"
            C1["R1 모델 사용 증가"] --> C2["고성능 연산 수요 폭증"]
            C2 --> C3["H100/Thor 하드웨어 판매 증가"]
            C3 --> C4["엔비디아 플랫폼 락인 (Lock-in)"]
            R5 --> C1
        end
    end

    R5 -.->|"기술 전이 (Tech Transfer)"| P1
    C4 --> Center
    style Center fill:#76b900,stroke:#333,color:#fff

5.1 정량적 성능 지표 (Quantitative Evaluation)

Alpamayo-R1은 폐쇄 루프 시뮬레이션(Closed-loop Simulation)인 AlpaSim과 실제 도로 테스트에서 기존 모델 대비 압도적인 성능 향상을 기록했다. 특히 단순한 주행 궤적 예측 모델(Trajectory-only baseline)과의 비교에서 추론 기능의 유용성이 입증되었다.

평가 지표	개선율 / 수치	비고
계획 정확도 (Planning Accuracy)	12% 향상	도전적인 시나리오 기준 (Trajectory-only 대비) 13
오프로드 비율 (Off-road Rate)	35% 감소	17% → 11% (경로 이탈 빈도 감소) 11
근접 사고 비율 (Close Encounter Rate)	25% 감소	4% → 3% (충돌 위험 상황 감소) 11
추론 품질 (Reasoning Quality)	45% 향상	RL 사후 훈련 적용 후 (LLM Critic 평가 기준) 15
추론-행동 일관성 (Consistency)	37% 향상	설명과 실제 행동의 일치도 증가 15
LingoQA 벤치마크	66.2% 정확도	GPT-4V(59.6%), Qwen2-VL(52.6%) 상회 13

표 2. Alpamayo-R1 주요 성능 지표 요약

5.2 경쟁 기술 비교: Alpamayo-R1 vs. UniAD & VAD

UniAD와 VAD는 엔드투엔드 자율주행의 선구적인 모델들이지만, Alpamayo-R1과는 접근 방식에서 근본적인 차이가 있다.

구조적 차이: UniAD와 VAD는 주로 BEV 특징 맵을 공유하는 멀티태스크 학습 구조를 가지며, 언어적 추론 능력은 내장되어 있지 않다. 반면, Alpamayo-R1은 언어를 ’사고의 도구’로 사용하여 물리적 세계를 해석한다.1
롱테일 대응력: UniAD는 학습된 데이터 분포 내에서는 우수한 성능을 보이지만, 처음 보는 상황에서는 일반화에 어려움을 겪을 수 있다. Alpamayo-R1은 물리적 상식을 가진 LLM을 통해 낯선 상황에서도 “이것은 위험해 보이니 피해야 한다“는 식의 일반적인 추론이 가능하다.
LingoQA 결과의 의미: Alpamayo-R1이 LingoQA 벤치마크에서 GPT-4V를 능가했다는 사실은 매우 중요하다. 이는 범용 LLM보다 자율주행 도메인에 특화된(Domain-specific) VLA 모델이 도로 상황을 훨씬 더 정확하게 이해하고 있음을 시사한다.13

graph LR
    subgraph "UniAD / VAD (The Previous SOTA)"
        U_In["센서 데이터"] --> U_Core["BEV Former (특징 공유)"]
        
        subgraph "Task Heads (독립적이지만 연결됨)"
            H1["Track"] 
            H2["Map"]
            H3["Motion"]
            H4["Occ"]
        end
        
        U_Core --> H1 & H2 & H3 & H4
        H1 & H2 & H3 & H4 --> U_Plan["Planner (최적화)"]
        U_Plan --> U_Out["제어 신호"]
        style U_Core fill:#ddd,stroke:#333
    end

    subgraph "Alpamayo-R1 (The New Paradigm)"
        A_In["센서 데이터"] --> A_Core["VLA Model (LLM Backbone)"]
        
        subgraph "Chain of Causation (통합 사고)"
            L1["Reasoning (언어적 추론)"]
            L2["World Knowledge (물리 상식)"]
        end
        
        A_Core --> L1
        L1 --> L2
        L2 --> A_Gen["Generative Decoder"]
        A_Gen --> A_Out["제어 신호 + 설명(Explainability)"]
        style A_Core fill:#9f9,stroke:#333
    end

5.3 실제 주행 시나리오 사례 (Qualitative Cases)

Alpamayo-R1의 진가는 복잡한 예외 상황에서 드러난다.

자전거 도로의 불법 주차: 자전거 전용 도로에 차량이 주차되어 있어 자전거가 차도로 우회해야 하는 상황에서, Alpamayo-R1은 “자전거 도로가 막혀 있어 자전거가 내 차선으로 들어올 것이다. 미리 감속하고 공간을 내어주자“라고 추론하며 방어 운전을 수행한다.3
비보호 좌회전 및 공사 구간: 반대편에서 오는 차량의 속도와 거리를 계산하고, 공사 중인 차선의 복잡한 콘(Cone) 배치를 인식하여 “안전 마진이 충분하지 않으니 대기한다“거나 “유도선을 따라 서행한다“는 판단을 내린다.17

6. 엔비디아의 생태계 전략과 산업적 함의

block-beta
    columns 3
    block:group1:3
        %% 제목 영역
        title["Alpamayo-R1 주요 성능 개선율 (vs Trajectory-only Baseline)"]
    end

    block:metric1
        M1["계획 정확도"]
        space
        V1["▲ 12% 향상"]
        style V1 fill:#9f9
    end

    block:metric2
        M2["오프로드 비율"]
        space
        V2["▼ 35% 감소"]
        style V2 fill:#9f9
    end

    block:metric3
        M3["근접 사고 비율"]
        space
        V3["▼ 25% 감소"]
        style V3 fill:#9f9
    end

    block:metric4
        M4["추론 품질 (RL후)"]
        space
        V4["▲ 45% 향상"]
        style V4 fill:#99f
    end

    block:metric5
        M5["LingoQA (vs GPT-4V)"]
        space
        V5["66.2% vs 59.6%"]
        style V5 fill:#f99
    end
    
     block:metric6
        M6["추론-행동 일관성"]
        space
        V6["▲ 37% 향상"]
        style V6 fill:#99f
    end

6.1 ‘Alpamayo’ 명칭의 이중성과 전략적 포지셔닝

엔비디아는 ’Alpamayo’라는 브랜드를 두 가지 상이한 전략적 목적을 위해 사용하고 있다. 이를 혼동하지 않는 것이 중요하다.

NVIDIA DRIVE AV Solution (Alpamayo L3): 이는 GTC 2025 등에서 소개된 상용 제품군이다. 완성차 업체(OEM)들이 2027년경 양산차에 탑재할 수 있는 완전한 L3 자율주행 소프트웨어 스택으로, DRIVE Thor 칩셋에 최적화되어 있다. 이는 엔비디아의 직접적인 매출원(Revenue Stream)이다.18
Alpamayo-R1 (Research Model): 본 보고서의 주제인 R1은 오픈소스로 공개된 연구용 모델이다. 이는 현재의 기술적 한계를 돌파하기 위한 미래 기술(Next-gen)이며, 자율주행 개발 생태계를 엔비디아 중심으로 결집시키는 도구로 활용된다.3

이 두 가지 트랙은 상호 보완적이다. R1을 통해 확보된 혁신적인 추론 기술은 향후 상용 L3 솔루션인 Alpamayo 제품군에 통합되어 제품 경쟁력을 강화할 것이다.

mindmap
  root(("Project Alpamayo"))
    ("상용 솔루션 (Commercial)")
      ("명칭: Alpamayo L3 Solution")
      ("목표: 매출 창출 (Revenue)")
      ("타겟: 2027년 양산차 (OEM)")
      ("하드웨어: DRIVE Thor 최적화")
      ("특징: 검증된 안전 스택")
    ("연구 모델 (Research)")
      ("명칭: Alpamayo-R1")
      ("목표: 기술 혁신 & 생태계 장악")
      ("타겟: 연구소, 오픈소스 커뮤니티")
      ("하드웨어: H100 (훈련), RTX 4090 (추론)")
      ("특징: VLA, 설명 가능성(XAI)")

6.2 오픈소스 전략: 연구의 민주화와 플랫폼 락인(Lock-in)

엔비디아가 Alpamayo-R1과 Cosmos Cookbook, AlpaSim을 공개한 것은 테슬라나 웨이모와 같은 ‘폐쇄형(Walled Garden)’ 생태계에 대항하기 위한 전략이다.21

데이터 독점 타파: 수백만 마일의 데이터를 가진 선두 기업들의 진입 장벽을 낮추기 위해 고품질의 데이터셋과 훈련 도구를 제공함으로써, 대학 연구소, 스타트업, 후발 OEM들이 자율주행 연구에 참여할 수 있도록 유도한다.
하드웨어 수요 견인: VLA 모델은 기존 모델보다 훨씬 더 강력한 연산 능력을 요구한다. 연구자들이 Alpamayo-R1을 사용하면 할수록, 이를 훈련하고 구동하기 위한 엔비디아의 GPU(H100)와 차량용 칩(Thor)에 대한 의존도는 심화된다. 이는 소프트웨어를 무료로 풀고 하드웨어에서 수익을 창출하는 엔비디아의 전형적인 ‘레이저 앤 블레이드(Razor and Blade)’ 전략의 확장판이다.22

graph LR
    subgraph "The 'Razor' (Bait)"
        S1["Alpamayo-R1 오픈소스 공개"]
        S2["Cosmos Cookbook 제공"]
        S3["무료 연구 생태계 조성"]
    end

    subgraph "The 'Blade' (Profit)"
        H1["H100/H200 GPU (모델 훈련용)"]
        H2["DRIVE Thor (차량 탑재용)"]
        H3["OVX Server (시뮬레이션용)"]
    end

    S1 --"요구 사양: 고성능 연산"--> H1
    S3 --"표준화 (Standardization)"--> H2
    S2 --"데이터 처리 수요"--> H3
    
    H1 & H2 & H3 --"매출 증대 ($$$)"--> NVIDIA[("NVIDIA Financials")]
    
    style S1 fill:#eee,stroke:#333
    style H1 fill:#76b900,stroke:#333,color:#fff

6.3 ‘물리적 AI’ 시대로의 도약

엔비디아 CEO 젠슨 황은 “디지털 AI(ChatGPT 등) 다음은 물리적 AI“라고 강조해왔다. Alpamayo-R1은 이 물리적 AI 비전의 핵심 실체이다. 로봇(자동차)이 현실 세계를 이해하고 상호작용하는 능력을 갖추게 됨으로써, 자율주행뿐만 아니라 휴머노이드 로봇, 스마트 팩토리 등 다양한 로보틱스 분야로 기술이 전이(Transfer)될 수 있는 가능성을 열었다.4

graph TB
    subgraph "Core Technology"
        R1["Alpamayo-R1 (VLA Model)"]
        Cosmos["Cosmos-Reason (World Model)"]
    end

    subgraph "Application Domains"
        Auto["자율주행 (Autonomous Driving)"]
        Robot["휴머노이드 로봇 (Humanoids)"]
        Factory["스마트 팩토리 (Industrial Arms)"]
        Drone["자율 비행 드론 (Drones)"]
    end

    R1 -->|"인과적 추론 능력 전이"| Auto
    Cosmos -->|"물리 법칙 이해 전이"| Robot
    Cosmos --> Factory
    R1 --> Drone

    style Auto fill:#bbf,stroke:#333
    style Robot fill:#bbf,stroke:#333
    style Factory fill:#bbf,stroke:#333
    style Drone fill:#bbf,stroke:#333

7. 한계점 및 향후 과제

graph TD
    Top["모델 성능 & 추론 능력<br>(Reasoning Capability)"]
    Left["실시간성 & 지연 시간<br>(Low Latency)"]
    Right["전력 효율 & 비용<br>(Power/Cost Efficiency)"]

    Top <-->|"Trade-off: 모델이 크면 느려짐"| Left
    Left <-->|"Trade-off: 빠르면 정확도 저하 가능"| Right
    Right <-->|"Trade-off: 고성능은 전력을 많이 소모"| Top

    Center(("Alpamayo-R1의<br>현재 위치"))
    
    Top --- Center
    Left --- Center
    
    style Top fill:#f9f
    style Left fill:#f9f
    style Right fill:#ccc,stroke-dasharray: 5 5
    
    note["현재 Alpamayo-R1은<br>성능과 실시간성은 잡았으나,<br>전력/비용 효율성(Right)은<br>해결 과제로 남아있음"]

7.1 계산 비용과 전력 효율성

Alpamayo-R1은 강력하지만 무겁다. 10B 파라미터 모델을 차량 내에서 지속적으로 구동하기 위해서는 막대한 전력이 소모되며, 이는 전기차의 주행 거리에 악영향을 미칠 수 있다. 향후 모델 경량화(Distillation) 및 전용 NPU 가속을 통한 전력 효율성 확보가 필수적이다.

7.2 안전성 검증 및 환각 문제

언어 모델 기반 시스템의 고질적인 문제인 ’환각(Hallucination)’은 자율주행에서 용납될 수 없는 리스크다. Alpamayo-R1이 추론-행동 정렬을 통해 이를 완화했다고는 하나, 100% 안전을 보장할 수는 없다. 안전 필수(Safety-critical) 시스템으로서 ISO 26262와 같은 기능 안전 표준을 충족하기 위해서는 결정론적(Deterministic) 안전 레이어(Safety Layer)와의 결합이 반드시 필요하다.23

7.3 법적 책임과 설명 가능성

Alpamayo-R1이 제공하는 설명 능력은 양날의 검이 될 수 있다. 사고 발생 시 시스템이 “나는 A라고 판단해서 사고를 냈다“고 자백하는 셈이 될 수 있기 때문이다. 이는 제조사의 법적 책임(Liability) 문제를 더욱 복잡하게 만들 수 있으며, 이에 대한 사회적, 법적 합의가 기술 발전 속도를 따라가야 한다.

8. 결론

엔비디아의 Alpamayo-R1은 자율주행 기술사(史)에 있어 ’패턴 인식’에서 ’인과적 추론’으로 넘어가는 중대한 변곡점이다. 1,727시간의 인과적 데이터셋과 강화학습을 통해 훈련된 이 모델은 복잡하고 예측 불가능한 도로 환경에서 인간 수준의 유연한 대처 능력을 보여주었다. 비록 높은 연산 비용과 검증의 어려움이라는 과제가 남아있지만, Alpamayo-R1이 제시한 ‘설명 가능한 VLA’ 아키텍처는 레벨 4 이상의 완전 자율주행을 실현하기 위한 가장 유력한 기술적 대안으로 평가된다.

엔비디아는 이 기술을 오픈소스로 공개함으로써 자율주행 개발의 표준을 장악하고, 자사의 하드웨어 생태계를 ‘물리적 AI’ 영역으로까지 확장하려는 야심 찬 전략을 실행에 옮기고 있다. 향후 자동차 산업은 단순히 하드웨어를 만드는 것이 아니라, 이러한 고도화된 지능형 소프트웨어를 얼마나 효율적으로 통합하고 운영할 수 있느냐에 따라 승패가 갈릴 것이다. Alpamayo-R1은 그 경쟁의 룰을 바꾸는 게임 체인저(Game Changer)로서, 자율주행 2.0 시대의 서막을 알리고 있다.

참고 자료

RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2512.01993v1
CorrectAD: Automated Self-Correction for E2E Planning - Emergent Mind, 12월 6, 2025에 액세스, https://www.emergentmind.com/topics/correctad
Nvidia debuts Alpamayo-R1 to improve reasoning in autonomous vehicles, 12월 6, 2025에 액세스, https://www.cbtnews.com/nvidia-debuts-alpamayo-r1-to-improve-reasoning-in-autonomous-vehicles/
New Nvidia AI model brings reasoning to self-driving tech, 12월 6, 2025에 액세스, https://www.contentgrip.com/nvidia-alpamayo-r1-ai/
NVIDIA Alpamayo-R1 (AR1) model: AI That Thinks Before It Drives - YouTube, 12월 6, 2025에 액세스, https://www.youtube.com/watch?v=MQuJEqko1E4
NVIDIA Unveils an Open and Transparent Autonomous Driving Model - Techtime News, 12월 6, 2025에 액세스, https://techtime.news/2025/12/02/nvidia-10/
nvidia/Alpamayo-R1-10B - Hugging Face, 12월 6, 2025에 액세스, https://huggingface.co/nvidia/Alpamayo-R1-10B
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - Research at NVIDIA, 12월 6, 2025에 액세스, https://research.nvidia.com/publication/2025-10_alpamayo-r1
NVIDIA Cosmos - Physical AI with World Foundation Models, 12월 6, 2025에 액세스, https://www.nvidia.com/en-us/ai/cosmos/
Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes. - GitHub, 12월 6, 2025에 액세스, https://github.com/nvidia-cosmos/cosmos-reason1
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - Cloudfront.net, 12월 6, 2025에 액세스, https://d1qx31qr3h6wln.cloudfront.net/publications/Alpamayo-R1_1.pdf
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail | alphaXiv, 12월 6, 2025에 액세스, https://www.alphaxiv.org/overview/2511.00088v1
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2511.00088v1
Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset for Autonomous Driving, 12월 6, 2025에 액세스, https://winbuzzer.com/2025/12/02/alpamayo-r1-nvidia-releases-vision-reasoning-model-and-massive-1727-hour-dataset-for-autonomous-driving-xcxwbn/
[2511.00088] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/abs/2511.00088
Nvidia rolls out new open models to boost physical and digital AI, 12월 6, 2025에 액세스, https://cryptorank.io/news/feed/48bd0-nvidia-advances-physical-and-digital-ai
NVIDIA Open-Sources Alpamayo-R1: Empowering Vehicles to Truly “Understand” Driving, 12월 6, 2025에 액세스, https://eu.36kr.com/en/p/3579287127473027
Global and China Autonomous Driving SoC Research Report 2025 - GlobeNewswire, 12월 6, 2025에 액세스, https://www.globenewswire.com/news-release/2025/09/09/3146662/28124/en/Global-and-China-Autonomous-Driving-SoC-Research-Report-2025-High-level-intelligent-driving-penetration-continues-to-increase-with-large-scale-upgrading-of-intelligent-driving-SoC.html
Global and China Autonomous Driving SoC Research Report 2025 Featuring Self-research Strategy of 21 OEMs, 7 Foreign Intelligent Driving SoC Players and 1 Chinese Intelligent Driving SoC Players - ResearchAndMarkets.com - Business Wire, 12월 6, 2025에 액세스, https://www.businesswire.com/news/home/20250911741155/en/Global-and-China-Autonomous-Driving-SoC-Research-Report-2025-Featuring-Self-research-Strategy-of-21-OEMs-7-Foreign-Intelligent-Driving-SoC-Players-and-1-Chinese-Intelligent-Driving-SoC-Players—ResearchAndMarkets.com
Nvidia Drops Alpamayo R1 As Open Source Leap Toward Level 4 Autonomy, 12월 6, 2025에 액세스, https://www.opensourceforu.com/2025/12/nvidia-drops-alpamayo-r1-as-open-source-leap-toward-level-4-autonomy/
Nvidia Introduces Alpamayo-R1, Its First Vision-Language Model for AVs - TechGig, 12월 6, 2025에 액세스, https://content.techgig.com/technology/nvidia-alpamayo-r1-reasoning-ai-model-autonomous-driving/articleshow/125711529.cms
Nvidia Drops First Open AI Model for Self-Driving Cars | The Tech Buzz, 12월 6, 2025에 액세스, https://www.techbuzz.ai/articles/nvidia-drops-first-open-ai-model-for-self-driving-cars
Nvidia launches Alpamayo, a full-stack L3 autonomous driving system - EEWorld, 12월 6, 2025에 액세스, https://en.eeworld.com.cn/news/qcdz/eic694227.html
Autonomous Vehicles (AVs) - Self-Driving Cars - NVIDIA, 12월 6, 2025에 액세스, https://www.nvidia.com/en-us/glossary/autonomous-vehicles/