CoT4AD 자율주행 CoT VLA 모델 (2025-11-27)

2025-12-10, G30DR

1. 서론 (Introduction)

timeline
    title "자율주행 아키텍처의 진화 (Evolution of AD Architecture)"
    section "초기 (Modular)"
        "모듈형 파이프라인" : "독립된 서브 시스템" : "오류 전파 문제 (Error Propagation)" : "최적화 한계"
    section "과도기 (E2E)"
        "종단간 자율주행 (E2E-AD)" : "UniAD, VAD" : "정보 손실 최소화" : "블랙박스 문제 (해석 불가)"
    section "최근 (VLA)"
        "VLA 모델 등장" : "LLM/VLM 융합" : "일반화된 추론 능력" : "수치적 정밀도 부족"
    section "현재 (CoT4AD)"
        "CoT4AD" : "명시적 생각의 사슬 (Explicit CoT)" : "해석 가능성 + 정밀 제어" : "암시적 추론 가속"

1.1 자율주행 패러다임의 전환과 한계

현대 인공지능(AI)과 로보틱스 분야에서 자율주행(Autonomous Driving)은 교통 안전, 도시 이동성, 그리고 지능형 교통 시스템(ITS)의 혁신을 이끌 핵심 기술로 간주된다.1 초기의 자율주행 시스템은 인지(Perception), 예측(Prediction), 계획(Planning), 제어(Control)가 각각 독립된 모듈로 작동하는 모듈형 파이프라인(Modular Pipeline) 아키텍처를 채택하였다. 이러한 접근 방식은 각 모듈을 개별적으로 개발하고 디버깅하기 용이하다는 공학적 장점이 있었으나, 모듈 간 정보 전달 과정에서 정보의 손실이 발생하고, 앞 단계의 작은 오류가 뒤 단계로 갈수록 증폭되는 ‘오류 전파(Error Accumulation)’ 문제에서 자유롭지 못했다. 또한, 각 모듈의 최적화가 전체 시스템의 최적화(Global Optimization)를 보장하지 못한다는 구조적 한계가 존재했다.2

이러한 문제를 해결하기 위해 센서 입력부터 제어 출력까지를 하나의 거대 신경망으로 연결하여 학습하는 종단간 자율주행(End-to-End Autonomous Driving, E2E-AD) 패러다임이 부상하였다. UniAD2, VAD3와 같은 선구적인 모델들은 다중 작업을 단일 네트워크 내에서 통합하고 쿼리 기반의 상호작용을 통해 정보 손실을 최소화함으로써 주행 성능을 비약적으로 향상시켰다. 그러나 이러한 데이터 기반 E2E 모델들은 입력과 출력 사이의 복잡한 매핑을 학습할 뿐, 인간 운전자가 수행하는 것과 같은 고차원적인 상황 판단이나 논리적 추론 과정을 명시적으로 수행하지 않는다. 이는 낯선 환경이나 엣지 케이스(Edge Case)에 직면했을 때 시스템의 견고성(Robustness)을 떨어뜨리고, 사고 발생 시 원인을 규명하기 어려운 ‘블랙박스(Black-box)’ 문제를 야기한다.2

1.2 비전-언어-행동(VLA) 모델의 등장과 도전 과제

최근 거대 언어 모델(Large Language Model, LLM)과 비전-언어 모델(Vision-Language Model, VLM)의 급격한 발전은 자율주행 시스템에 새로운 가능성을 제시하였다. VLM은 방대한 텍스트 및 이미지 데이터를 통해 학습된 ’세계 지식(World Knowledge)’과 일반화된 추론 능력을 보유하고 있어, 기존의 닫힌 데이터셋(Closed-set) 기반 모델들이 해결하기 어려웠던 의미론적 이해와 상식 기반의 판단을 가능하게 한다. 이를 바탕으로 시각 정보와 언어 명령을 통합하여 로봇의 행동을 생성하는 비전-언어-행동(Vision-Language-Action, VLA) 모델들이 연구되기 시작했다.1

그러나 현재의 자율주행 VLA 모델들은 여전히 심각한 한계에 직면해 있다.

첫째, **수치적 추론 능력의 부족(Limited Numerical Reasoning Ability)**이다. 언어 모델은 텍스트 생성에는 탁월하지만, 자율주행에 필수적인 정밀한 좌표 예측, 속도 제어, 궤적 생성과 같은 연속적인 수치 연산에서는 취약점을 드러낸다. 기존 VLA들은 복잡한 주행 시나리오에서 요구되는 정밀한 공간적 제어를 달성하는 데 어려움을 겪고 있다.5

둘째, **인과적 추론의 결여(Lack of Causal Reasoning)**이다. 복잡한 도심 환경에서는 “앞차가 비상등을 켰으므로, 잠시 정차하거나 차선을 변경해야 한다“와 같은 단계적이고 인과적인 사고 과정이 필수적이다. 그러나 기존 모델들은 입출력 간의 단순화된 매핑에 의존하여, 중간 단계의 논리적 연결 고리 없이 결과를 예측하려다 보니 ’인과 혼동(Causal Confusion)’에 빠지기 쉽다.4

셋째, **계산 효율성과 추론 깊이의 상충(Trade-off)**이다. 논리적인 사고 과정을 명시적으로 생성하는 것은 시스템의 투명성을 높이지만, 실시간성이 생명인 자율주행에서 과도한 계산 비용과 지연(Latency)을 유발할 수 있다.8

mindmap
  root(("CoT4AD 프레임워크"))
    ("기존 VLA의 한계 (Challenges)")
      ("수치적 추론 부족")
        ("정밀 좌표/속도 제어 취약")
      ("인과적 추론 결여")
        ("인과 혼동 (Causal Confusion)")
      ("효율성 vs 깊이 상충")
        ("실시간성 저하")
    ("CoT4AD 해결 솔루션 (Solutions)")
      ("명시적 CoT 학습")
        ("인지-질문-예측-행동의 논리적 구조화")
      ("단계 무관 토큰 (V_s)")
        ("시각적 정보 손실 방지")
        ("메모리 앵커 역할")
      ("확산 모델 (Diffusion)")
        ("멀티모달 궤적 분포 생성")
        ("고해상도 미래 시각화")
      ("암시적 추론 (Implicit Inference)")
        ("단일 순전파 (Single Forward Pass)")
        ("실시간성 확보")

1.3 CoT4AD의 제안

본 보고서에서 심층 분석할 **CoT4AD (Chain-of-Thought for Autonomous Driving)**는 베이징 대학교 연구진에 의해 제안된 혁신적인 VLA 프레임워크로, 위에서 언급한 한계들을 극복하기 위해 설계되었다. CoT4AD는 자율주행 시스템에 ‘생각의 사슬(Chain-of-Thought, CoT)’ 메커니즘을 명시적으로 도입하여, 인지부터 행동 결정에 이르는 과정을 논리적으로 구조화한다.1

CoT4AD의 핵심 차별점은 다음과 같다.

명시적 CoT 모델링: 훈련 단계에서 ’지각-질문-예측-행동’으로 이어지는 다단계 추론 과정을 명시적으로 학습시켜, 모델이 논리적 인과관계를 내재화하도록 유도한다.
VLM 조건부 잠재 확산(Latent Diffusion): 언어적 추론을 시각적 미래 예측으로 연결하기 위해 확산 모델을 도입, 고해상도의 미래 프레임을 생성하고 이를 계획의 근거로 활용한다.
암시적 추론 가속(Implicit Inference): 실제 주행 시에는 중간 단계의 명시적 생성 과정을 생략하고, 내재화된 사고 과정을 단일 순전파(Single Forward Pass)로 압축하여 실시간성을 확보한다.2

본 보고서는 CoT4AD의 아키텍처, 학습 방법론, 실험 결과, 그리고 자율주행 기술 발전에 미치는 영향을 상세하게 분석한다.

2. 관련 연구 및 이론적 배경 (Related Work)

2.1 자율주행 아키텍처의 진화: 모듈형에서 종단간 학습으로

전통적인 자율주행 시스템은 문제를 하위 문제로 분할하여 정복하는 모듈형 접근 방식을 취했다. 그러나 이는 복잡한 도심 환경에서의 상호작용이나 예측 불가능한 상황에 유연하게 대처하기 어렵다는 단점이 있었다. 이에 반해 E2E-AD는 데이터 중심의 접근 방식을 통해 센서 데이터와 제어 신호 간의 관계를 직접 학습한다.

UniAD (Unified Autonomous Driving): CVPR 2023에서 발표된 이 모델은 트랜스포머 기반의 쿼리 설계를 통해 인지, 예측, 계획 모듈을 통합하였다. UniAD는 각 작업 간의 상호 의존성을 효과적으로 모델링하여 SOTA 성능을 달성했으나, 텍스트와 같은 고수준의 의미론적 정보를 처리하는 데는 한계가 있다.2
VAD (Vectorized Autonomous Driving): 입력 데이터를 벡터 형태로 변환하여 처리 속도와 효율성을 높인 모델이다. 기하학적 정보를 명시적으로 다루지만, 여전히 언어적 추론 능력은 부재하다.3
TransFuser++: 카메라와 라이다 데이터를 융합하는 트랜스포머 기반 모델로, Bench2Drive와 같은 폐루프 벤치마크에서 강력한 베이스라인으로 활용된다. 그러나 시간적 정보를 처리하는 메커니즘이 부족하여 동적인 상황 변화에 대한 대응력이 떨어질 수 있다.9

2.2 LLM과 자율주행의 융합

LLM의 추론 능력을 자율주행에 적용하려는 시도는 ‘DriveGPT’, ‘LMDrive’ 등으로 구체화되었다. 이들은 주행 로그를 텍스트로 변환하거나, 자연어 명령을 주행 행동으로 매핑하는 방식을 사용한다.

한계점: 언어 모델은 이산적인 토큰(Discrete Token)을 생성하는 데 최적화되어 있어, 조향각이나 가속도와 같은 연속적인(Continuous) 수치 값을 정밀하게 예측하는 데 근본적인 어려움이 있다. 이를 ’모달리티 간극(Modality Gap)’이라 하며, 기존 연구들은 이를 해결하기 위해 별도의 어댑터를 사용하거나 출력을 단순화하는 방식을 택했으나 성능 저하를 피할 수 없었다.5

2.3 생각의 사슬(CoT) 추론의 도입

CoT는 LLM이 복잡한 문제를 해결할 때 중간 단계의 추론 과정을 생성하도록 유도하는 기법이다. 자율주행에서 CoT는 “빨간불이 켜졌다 -> 멈춰야 한다 -> 브레이크를 밟는다“와 같은 사고 과정을 모델링하는 것을 의미한다.

기존의 CoT 연구들은 주로 텍스트 기반의 설명 생성에 집중했으나, CoT4AD는 이를 **시각적 생성(Visual Generation)**과 **궤적 계획(Trajectory Planning)**으로 확장하여 멀티모달 CoT를 구현했다는 점에서 기술적 진보를 이루었다.2

2.4 확산 모델(Diffusion Model)을 이용한 궤적 계획

최근 생성형 AI 분야에서 주목받는 확산 모델은 데이터의 분포를 학습하여 고품질의 샘플을 생성하는 능력이 탁월하다. 자율주행에서 확산 모델은 미래의 불확실성을 고려하여 다양한 가능성을 가진 궤적 분포를 모델링하는 데 사용된다. CoT4AD는 단순한 회귀(Regression) 모델 대신 확산 모델을 계획 모듈(Planning Module)에 적용하여, 멀티모달(Multi-modal) 분포를 가진 안전하고 자연스러운 주행 궤적을 생성한다.1

3. CoT4AD 방법론 상세 분석 (Methodology)

CoT4AD는 인간 운전자의 인지 메커니즘을 모방하여 설계된 통합 프레임워크이다. 이 모델은 시각적 관찰과 언어 명령을 입력으로 받아, 의미론적 추론과 장면 이해를 거쳐 최종적인 궤적을 계획한다. 전체 아키텍처는 크게 네 가지 핵심 단계로 구성되며, 각 단계는 명시적인 CoT 흐름을 따른다.2

3.1 모델 아키텍처 개요

구성 요소	설명	역할
Visual Encoder	다중 시점 카메라 이미지 처리	시각적 특징 추출 및 BEV 변환
LLM Backbone	대형 언어 모델 기반	의미론적 추론, 맥락 이해, 질문 생성
Stage-Irrelevant Tokens ( $V_s$ )	학습 가능한 이산 토큰	단계 간 시각적 정보 손실 방지 및 전달
Visual Diffusion Transformer	VLM 조건부 잠재 확산 모델	미래 프레임(Visual Goal) 예측 및 생성
Planning Diffusion Transformer	궤적 생성 확산 모델	최종 주행 궤적(Waypoints) 및 제어 신호 생성

3.2 핵심 메커니즘: 단계 무관 토큰 (Stage-Irrelevant Tokens, $V_s$ )

기존 VLA 모델의 가장 큰 약점은 단계가 진행될수록 초기의 풍부한 시각 정보가 언어적 요약 과정에서 손실된다는 점이었다. CoT4AD는 이를 해결하기 위해 소프트 프롬프트 튜닝(Soft Prompt Tuning)에서 영감을 받은 **‘단계 무관 토큰(Stage-Irrelevant Tokens, $V_s$ )’**을 도입하였다.8

정의: $V_s$ 는 학습 가능한 파라미터로 구성된 이산적인 토큰 벡터들의 집합이다.
기능: 이 토큰들은 특정 추론 단계에 종속되지 않고, 전체 CoT 파이프라인의 모든 단계(인지, 질문, 예측, 계획)에 입력으로 주입된다.
기술적 의의: 언어로 표현하기 힘든 미세한 도로의 기하학적 구조, 텍스처, 조명 상태 등의 ’암묵적 시각 정보’를 인코딩하여 보존한다. 이는 VLM이 언어적 추론을 수행하는 동안에도 원본 시각 데이터의 세부 사항을 잃어버리지 않도록 돕는 ‘메모리 앵커(Memory Anchor)’ 역할을 수행한다. 실험 결과, $V_s$ 의 도입은 복잡한 주행 시나리오에서의 성능을 유의미하게 향상시켰다.2

journey
    title "3.2 단계 무관 토큰(V_s)의 생존 여정 (Life of V_s Tokens)"
    section "1. 초기 입력 (Input)"
        "카메라 이미지 수신": 5: "Visual Encoder"
        "V_s 토큰 생성 (추출)": 5: "Visual Encoder"
    section "2. 언어적 처리 (LLM)"
        "일반 토큰: 텍스트로 압축됨": 2: "LLM Backbone"
        "일반 토큰: 시각 정보 손실 발생": 1: "LLM Backbone"
        "V_s: 압축 없이 우회 (Bypass)": 5: "Memory Anchor"
    section "3. 미래 예측 (Prediction)"
        "V_s: 확산 모델 조건으로 입력": 5: "Diffusion Transformer"
        "미래 프레임 생성 지원": 4: "Diffusion Transformer"
    section "4. 최종 계획 (Planning)"
        "V_s: 도로 텍스처/곡률 정보 제공": 5: "Planning Head"
        "정밀 궤적 생성 완료": 5: "Final Output"

3.3 명시적 CoT 학습 파이프라인 (Explicit CoT Training)

CoT4AD의 학습 과정은 인과성을 보장하기 위해 다음 4단계를 순차적으로, 그리고 명시적으로 수행하도록 설계되었다.

sequenceDiagram
    autonumber
    participant Env as "환경<br>(Environment)"
    participant VisEnc as "Visual<br>Encoder<br>(+ V_s)"
    participant VQA as "LLM<br>Backbone<br>(VQA)"
    participant DiffPred as "Visual<br>Diffusion<br>(Prediction)"
    participant DiffPlan as "Planning<br>Diffusion<br>(Action)"

    Note over VisEnc, DiffPlan: "명시적 CoT 학습 단계<br>(Explicit CoT Training)"

    Env->>VisEnc: "다중 카메라 이미지 입력"
    VisEnc->>VQA: "BEV 특징 +<br>단계 무관 토큰(V_s) 전달"
    
    rect rgb(230, 240, 255)
        Note right of VisEnc: "1단계:<br>3D 인지<br>(Perception)"
        VisEnc->>VisEnc: "객체 탐지 및<br>맵 분할<br>(Grounding)"
    end

    rect rgb(255, 250, 230)
        Note right of VQA: "2단계:<br>시각적 질의응답<br>(VQA)"
        VQA->>VQA: "상황 이해<br>질문 생성 및<br>답변"
        Note right of VQA: "예:<br>'앞차가 멈췄는가?' -><br>'Yes'"
        VQA->>DiffPred: "맥락 정보(Context) 전달"
    end

    rect rgb(230, 255, 230)
        Note right of DiffPred: "3단계:<br>미래 예측<br>(Prediction)"
        DiffPred->>DiffPred: "미래 시각적 목표<br>(Visual Goal)<br>생성"
        DiffPred->>DiffPlan: "미래 프레임<br>잠재 표현 전달"
    end

    rect rgb(255, 230, 230)
        Note right of DiffPlan: "4단계:<br>궤적 계획<br>(Planning)"
        DiffPlan->>DiffPlan: "확산 모델 기반<br>노이즈 제거"
        DiffPlan-->>Env: "최적<br>궤적(Waypoints)<br>출력"
    end

3.3.1 1단계: 3D 인지 (Perception)

첫 번째 단계는 주변 환경을 정확하게 3차원으로 인식하는 것이다. 다중 카메라 이미지를 입력받아 BEV 특징을 추출하고, 이를 바탕으로 객체 탐지(Detection) 및 맵 분할(Segmentation)을 수행한다.

이 단계의 출력은 단순한 검출 결과가 아니라, 다음 단계의 추론을 위한 기초 사실(Grounding Facts)이 된다.
학습 시에는 3D 박스 레이블과 맵 레이블을 사용하여 인지 모듈이 물리적 세계를 정확히 반영하도록 지도 학습(Supervised Learning)을 수행한다.2

3.3.2 2단계: 시각적 질의응답 (Visual Question Answering, VQA)

단순한 인지를 넘어 상황을 ’이해’하기 위해, 모델은 스스로 질문을 생성하고 답을 내린다.

프로세스: 인지된 정보를 바탕으로 “전방 차량의 상태는 어떠한가?”, “현재 신호에서 좌회전이 가능한가?“와 같은 질문-답변 쌍을 생성한다.
역할: 이 과정은 VLM의 강력한 의미론적 추론 능력을 활용하여 주행 상황의 맥락(Context)과 인과관계를 파악하는 단계이다. VQA 데이터셋을 활용한 파인튜닝을 통해 모델은 주행 관련 상식과 법규를 학습하게 된다.12

3.3.3 3단계: VLM 조건부 미래 예측 (VLM-Conditioned Future Prediction)

CoT4AD의 독창성은 텍스트로 미래를 서술하는 것에 그치지 않고, 실제 미래의 시각적 장면을 생성한다는 점이다.

VLM-Conditioned Latent Diffusion: 현재 프레임의 잠재 표현(Latent Representation)과 VLM의 임베딩(문맥 정보)을 조건으로 하여, 미래 시점의 잠재 표현을 생성하는 확산 모델(DiT)을 사용한다.1
Visual Goal: 생성된 미래 프레임은 계획 모듈에게 ’도달해야 할 시각적 목표’를 제시한다. 이는 추상적인 언어 명령보다 훨씬 구체적이고 풍부한 공간적 정보를 제공하여 궤적 생성의 정확도를 높인다.

3.3.4 4단계: 궤적 계획 (Trajectory Planning)

마지막 단계에서는 앞선 모든 정보(현재 인지, 상황 이해, 미래 예측)를 종합하여 자차의 구체적인 움직임을 결정한다.

Planning Diffusion Transformer: 궤적 생성을 위해 별도의 확산 트랜스포머를 사용한다. 이 모델은 초기 노이즈(Noise)로부터 시작하여, 조건부 입력( $c_a$ )에 따라 점진적으로 노이즈를 제거하며 최적의 궤적 웨이포인트(Waypoints)를 생성한다.2
입력: 환경 토큰( $V_{env}$ ), 미래 예측 토큰( $V_{fut}$ ), 단계 무관 토큰( $V_s$ ), 자차 상태( $V_{ego}$ ).
출력: 시간 $T$ 까지의 궤적 좌표 $w_1, w_2,..., w_T$ .

sequenceDiagram
    title "3.3.4 확산 모델 기반 궤적 계획 프로세스 (Planning Diffusion)"
    autonumber
    participant Noise as "가우시안 노이즈<br>(Random Noise)"
    participant Cond as "조건부 입력<br>(Context: V_s, V_env)"
    participant DIT as "Planning<br>Diffusion<br>Transformer"
    participant Traj as "최종 궤적<br>(Trajectory)"

    Note over Noise, Traj: "역확산 과정<br>(Reverse Diffusion Process)"
    
    Noise->>DIT: "초기 랜덤 궤적 (T=K)"
    Cond->>DIT: "주행 상황 및<br>미래 예측 조건 주입"
    
    loop "노이즈 제거<br>(Denoising Steps)"
        DIT->>DIT: "조건에 맞지 않는<br>불확실성 제거"
        DIT->>DIT: "물리적 제약 조건<br>(도로 경계 등) 반영"
        DIT->>DIT: "궤적 구체화<br>(Refinement)"
    end
    
    DIT->>Traj: "최적화된<br>웨이포인트<br>(Waypoints)<br>출력"

3.4 암시적 CoT 추론 및 가속 (Implicit CoT Inference)

자율주행에서 실시간성은 타협할 수 없는 요소이다. 매 프레임마다 위의 4단계를 명시적으로 모두 생성(텍스트 디코딩, 이미지 픽셀 생성)하는 것은 현재 하드웨어에서 과도한 지연(Latency)을 발생시킨다.

CoT4AD는 이를 해결하기 위해 추론 시에는 **암시적 모드(Implicit Mode)**로 작동한다.

메커니즘: 추론 단계에서는 중간 단계의 텍스트나 이미지를 명시적으로 복원하지 않는다. 대신, 각 모듈의 내부 잠재 상태(Hidden States)와 임베딩만을 다음 단계로 전달한다.2
단일 패스(Single Pass): 입력이 주어지면 네트워크를 한 번 통과하는 것만으로 최종 궤적이 생성된다. 학습 과정에서 명시적 CoT를 통해 구축된 신경망의 경로가 논리적 사고 과정을 이미 ’내재화(Internalize)’했기 때문에 가능한 방식이다.
효과: 이를 통해 계산 효율성을 극대화하면서도, 명시적 CoT 학습이 주는 추론 능력의 이점을 유지한다. 실험 결과, 암시적 모드는 명시적 모드와 거의 대등한 성능을 보이면서 훨씬 빠른 속도를 자랑했다.1

gitGraph
    commit id: "입력 데이터 (Input)"
    branch "Explicit-Mode (Training)"
    checkout "Explicit-Mode (Training)"
    commit id: "1. 텍스트 질문/답변 생성"
    commit id: "2. 미래 이미지 픽셀 생성"
    commit id: "3. 느린 처리/해석 가능성 확보"
    branch "Implicit-Mode (Inference)"
    checkout "Implicit-Mode (Inference)"
    commit id: "1. 텍스트 생성 생략 (Skip)"
    commit id: "2. 이미지 생성 생략 (Skip)"
    commit id: "3. 잠재 임베딩(Hidden State)만 전달"
    merge "Explicit-Mode (Training)" id: "학습된 가중치 공유 (Internalize)"
    checkout "Implicit-Mode (Inference)"
    commit id: "단일 순전파 (Single Pass)"
    commit id: "실시간 궤적 출력 (Fast Output)"

4. 실험 환경 및 평가 지표 (Experimental Setup)

연구진은 CoT4AD의 성능을 검증하기 위해 업계 표준인 실제 주행 데이터셋과 최신 폐루프 시뮬레이션 벤치마크를 모두 활용하였다.

4.1 데이터셋

nuScenes (Open-loop Evaluation):

보스턴과 싱가포르의 복잡한 도심 환경에서 수집된 대규모 데이터셋.
1,000개의 주행 장면(Scene)으로 구성되며, 다양한 날씨와 조명 조건을 포함한다.
주로 모델의 인지 정확도와 미래 궤적 예측 오차를 측정하는 개방형 루프 평가에 사용된다.2

Bench2Drive (Closed-loop Evaluation):

CARLA 시뮬레이터 기반의 최신 벤치마크(NeurIPS 2024).
규모: 200만 프레임 이상의 학습 데이터, 44가지의 다양한 상호작용 시나리오(끼어들기, 추월, 비보호 좌회전 등), 12개 도시, 23가지 날씨.
특징: 모델의 출력이 시뮬레이션 환경에 반영되고, 그 결과가 다시 입력으로 들어오는 폐루프 환경이다. 단순한 예측을 넘어 실제 주행 능력과 대처 능력을 평가하는 데 최적화되어 있다.13

mindmap
  root(("실험 데이터셋 및 환경"))
    ("nuScenes (Open-loop)")
      ("목적: 인지/예측 정확도 평가")
      ("규모")
        ("1,000개 장면 (Scenes)")
        ("보스턴/싱가포르 도심")
      ("특징")
        ("다양한 날씨/조명")
        ("개방형 루프 (상호작용 X)")
    ("Bench2Drive (Closed-loop)")
      ("목적: 실제 주행/대처 능력 평가")
      ("기반: CARLA 시뮬레이터")
      ("규모")
        ("200만+ 프레임")
        ("12개 도시, 23개 날씨")
      ("시나리오 (44종)")
        ("끼어들기 (Cut-in)")
        ("비보호 좌회전")
        ("추월 (Overtaking)")

4.2 베이스라인 모델 (Baselines)

비교 대상으로는 현재 학계와 산업계에서 가장 주목받는 최첨단 모델들이 선정되었다.

UniAD, VAD: 트랜스포머 기반 E2E 모델의 대표주자.
TransFuser++: 센서 퓨전 기반의 강력한 베이스라인으로, 시간적 정보 처리에 약점이 있으나 여전히 높은 성능을 보여주는 모델.9
DriveTransformer, ORION: CoT4AD와 유사하게 LLM/VLM을 활용하거나 생성형 접근 방식을 취하는 최신 경쟁 모델들.2

4.3 평가 지표 (Metrics)

L2 Error (m): 예측된 궤적과 실제 궤적(Ground Truth) 사이의 유클리드 거리 오차. 낮을수록 좋다.
Collision Rate (%): 주행 중 충돌 발생 비율. 안전성의 핵심 지표.
Driving Score (DS): 주행 완료율, 충돌 여부, 교통 법규 준수 등을 종합한 점수. (Bench2Drive)
Success Rate (SR): 주어진 미션을 성공적으로 완수한 비율.

5. 실험 결과 및 성능 분석 (Results and Analysis)

quadrantChart
    title "자율주행 모델 성능 포지셔닝 (Model Positioning)"
    x-axis "낮은 정밀도 (High L2 Error)" --> "높은 정밀도 (Low L2 Error)"
    y-axis "블랙박스 (Black-box)" --> "해석 가능 (Interpretable)"
    quadrant-1 "이상적 영역 (Target)"
    quadrant-2 "언어적 추론 강점 / 제어 약점"
    quadrant-3 "초기 모델 / 구조적 한계"
    quadrant-4 "데이터 기반 / 설명 불가"
    
    "Modular Pipeline": [0.25, 0.6]
    "Pure LLM-AD": [0.35, 0.85]
    "UniAD / VAD": [0.80, 0.25]
    "CoT4AD": [0.92, 0.90]

5.1 nuScenes (Open-loop) 정량적 평가

nuScenes 데이터셋에서의 평가는 CoT4AD의 기본적인 궤적 예측 능력이 기존 모델들을 크게 상회함을 보여준다.

모델 (Model)	1초 후 L2 (m)	2초 후 L2 (m)	3초 후 L2 (m)	평균 L2 (m)	충돌률 (%)
UniAD-Base	0.48	0.96	1.65	1.03	0.31
VAD	0.41	0.82	1.45	0.89	0.25
DriveTransformer	-	-	-	-	0.21
CoT4AD	0.12	0.24	0.53	0.29	0.10

출처: 2 (데이터 재구성)

분석:

정밀도: CoT4AD의 평균 L2 오차는 0.29m로, 기존 SOTA인 VAD(0.89m) 대비 약 67% 감소하였다. 특히 3초 후의 장기 예측에서도 0.53m라는 놀라운 정확도를 보여주는데, 이는 명시적 CoT와 확산 모델 기반 계획기가 미래의 불확실성을 효과적으로 제어하고 있음을 시사한다.
안전성: 충돌률 0.10%는 비교 모델 중 가장 낮은 수치이다. 이는 CoT4AD가 장애물과의 상호작용을 깊이 있게 이해하고 있으며, 잠재적인 위험을 사전에 회피하는 능력이 뛰어남을 방증한다.

xychart-beta
    title "주요 벤치마크 성능 비교 (Performance Comparison)"
    x-axis ["UniAD (Base)", "VAD (SOTA)", "CoT4AD (Ours)"]
    y-axis "점수 (Score) / 충돌률 (%)" 0 --> 100
    bar "Bench2Drive 점수 (높을수록 좋음)" [45.8, 42.3, 80.2]
    line "nuScenes 충돌률 (낮을수록 좋음)" [0.31, 0.25, 0.10]

5.2 Bench2Drive (Closed-loop) 정량적 평가

폐루프 평가는 모델이 실제 주행 환경의 역동성에 얼마나 잘 적응하는지를 보여주는 결정적인 지표이다.

모델 (Model)	Driving Score (DS)	Success Rate (SR)
UniAD-Base	45.81	16.36
VAD	42.35	15.00
GenAD	44.81	15.90
DriveTransformer-Large	63.46	35.01
ORION	77.74	54.62
CoT4AD (Implicit)	80.24	55.22
CoT4AD-CoT (Explicit)	81.22	55.78

출처: 2

상세 분석:

VLM 기반 모델의 압승: 표에서 명확히 드러나듯, UniAD나 VAD와 같은 비전 중심 모델들은 복잡한 시나리오에서 DS가 40점대에 머무르며 고전하였다. 반면, 언어적 추론을 도입한 ORION과 CoT4AD는 70~80점대의 높은 점수를 기록하였다. 이는 복잡한 교통 규칙과 사회적 상호작용을 해결하는 데 있어 ’언어적 지식’이 필수불가결함을 강력하게 시사한다.
CoT4AD vs ORION: 강력한 경쟁자인 ORION과 비교했을 때, CoT4AD는 DS 기준 약 2.5~3.5점 더 높은 성능을 보였다. ORION 역시 LLM을 사용하지만, CoT4AD의 명시적 사고 과정 모델링과 시각적 미래 예측 결합이 더욱 정교한 제어를 가능하게 한 것으로 분석된다.
명시적 vs 암시적 모드: 명시적 모드(CoT4AD-CoT)가 암시적 모드보다 소폭 높은 성능을 보였다(DS +0.98). 이는 극한의 상황에서는 단계별로 차근차근 추론하는 것이 유리함을 보여준다. 그러나 암시적 모드 역시 SOTA를 상회하는 성능을 보여주어, 실시간 적용 시에도 충분한 경쟁력을 가짐을 입증하였다.14

5.3 절제 연구 (Ablation Studies)

연구진은 모델의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 절제 연구를 수행하였다.2

VQA 모듈의 영향: VQA 모듈을 제거하고 직접 인지->계획으로 연결했을 때, DS와 SR이 모두 유의미하게 하락했다. 이는 주행 상황에 대한 질의응답 과정이 단순한 특징 추출 이상의 문맥적 정보를 제공함을 의미한다.
$V_s$ 토큰의 필수성: 단계 무관 토큰을 제거했을 때 성능 저하가 발생했다. 특히 인지된 텍스트 정보만으로는 시각적 디테일(도로의 곡률, 장애물의 정확한 형상 등)을 완벽히 전달하지 못하여 계획 단계에서 오차가 커짐이 확인되었다. 이는 $V_s$ 가 멀티모달 정보 융합의 핵심 키(Key)임을 증명한다.

xychart-beta
    title "5.3 절제 연구: 모듈 제거에 따른 성능 하락 (Impact on Driving Score)"
    x-axis ["CoT4AD (Full)", "w/o V_s 토큰", "w/o VQA 모듈", "w/o 미래 예측"]
    y-axis "Driving Score (DS)" 0 --> 90
    bar "성능 점수" [80.24, 72.5, 68.0, 65.4]
    line "성능 추세선" [80.24, 72.5, 68.0, 65.4]

6. 정성적 평가 및 사례 연구 (Qualitative Analysis)

CoT4AD의 진가는 수치뿐만 아니라 실제 주행 시나리오에서의 행동 분석을 통해 더욱 명확해진다. 보고서는 다양한 시나리오에서의 비교 분석을 제시한다.2

sequenceDiagram
    title "시나리오 비교: 장애물 회피 (Obstacle Avoidance)"
    actor User as "주행 시나리오"
    participant Legacy as "기존 E2E (UniAD/VAD)"
    participant CoT as "CoT4AD"

    User->>Legacy: "전방 공사 구조물 등장"
    User->>CoT: "전방 공사 구조물 등장"

    par 기존 모델의 반응
        Legacy->>Legacy: "단순 입출력 매핑 수행"
        Legacy->>Legacy: "뒤늦은 인지"
        Legacy-->>User: "급격한 핸들 조작 (Unsafe)"
        Note right of Legacy: "낮은 승차감, 충돌 위험"
    and CoT4AD의 반응
        CoT->>CoT: "VQA: '전방 장애물 식별, 차선 변경 필요'"
        CoT->>CoT: "미래 예측: 회피 경로 시각적 생성"
        CoT->>CoT: "계획: 여유 있는 궤적 생성"
        CoT-->>User: "부드러운 사전 회피 (Safe)"
        Note right of CoT: "높은 승차감, 인과적 행동"
    end

6.1 시나리오 1: 장애물 회피 (Obstacle Avoidance)

상황: 전방 도로에 공사 구조물이 부분적으로 차선을 막고 있는 상황.
UniAD: 장애물에 상당히 근접해서야 회피 기동을 시작하여 급격한 핸들 조작이 발생하거나, 안전 마진을 충분히 확보하지 못하는 모습이 관찰되었다.
CoT4AD: 원거리에서 장애물을 인지하고, VQA 단계를 통해 “전방에 장애물이 있어 차선 변경이 필요함“을 추론한다. 이후 미래 예측 모듈이 회피 경로를 시각적으로 생성하고, 계획 모듈이 이를 따라 부드럽고 여유 있는 회피 궤적을 생성한다. 결과적으로 승차감(Comfortness)과 안전성 모두에서 우위를 보였다.

6.2 시나리오 2: 추월 (Overtaking)

상황: 앞차가 저속 주행 중이며, 반대 차선에서 차량이 오고 있는지 확인해야 하는 상황.
기존 모델: 반대 차선의 상황을 고려하지 않고 무리하게 추월을 시도하거나, 반대로 지나치게 소극적으로 주행하여 교통 흐름을 방해하는 경우가 많았다.
CoT4AD: 반대 차선의 차량 유무를 확인하는 명시적 질문(VQA)을 통해 상황을 판단한다. 반대 차선이 비어있음을 확인한 후, 가속하여 신속하게 추월하고 다시 차선으로 복귀하는 인간 수준의 판단력을 보여주었다.

6.3 해석 가능성 (Interpretability)

CoT4AD-CoT 모드에서는 모델이 생성한 중간 산출물을 실시간으로 확인할 수 있다.

텍스트: “보행자가 횡단보도 진입 의사를 보임 -> 감속 필요.”
이미지: 2초 후 보행자가 횡단보도 중앙에 위치한 예측 이미지.

이러한 정보는 자율주행 차가 사고를 냈을 때, “왜 멈추지 않았는가?“에 대한 답을 제공할 수 있어 법적, 윤리적 책임 소재를 가리는 데 중요한 역할을 할 수 있다. 이는 기존 블랙박스 E2E 모델들이 제공하지 못하는 결정적인 장점이다.2

7. 논의 및 시사점 (Discussion)

7.1 ‘그레이박스(Grey-box)’ AI로의 진화

CoT4AD는 완전한 블랙박스(E2E)와 화이트박스(Rule-based)의 장점을 결합한 ‘그레이박스’ 접근법을 제시한다. 데이터 기반의 강력한 성능을 유지하면서도, 명시적 CoT를 통해 내부 작동 원리의 일부를 인간이 이해할 수 있는 형태로 노출시킨다. 이는 자율주행 기술의 신뢰성(Trustworthiness) 확보를 위한 중요한 전환점이 될 것이다.

7.2 실시간성과 추론 깊이의 조화

암시적 추론 모드의 성공은 매우 고무적이다. 그러나 미래에는 ‘적응형 추론(Adaptive Inference)’ 시스템이 필요할 것으로 보인다. 평상시 고속도로 주행 등 단순한 상황에서는 빠른 암시적 모드를 사용하고, 복잡한 교차로 진입이나 비정형 상황(사고 현장 등)에서는 계산 비용이 들더라도 명시적 모드로 전환하여 신중하게 판단하는 하이브리드 전략이 연구되어야 한다.8

7.3 데이터의 한계와 극복

CoT4AD는 학습을 위해 고품질의 VQA 데이터와 주행 데이터 쌍을 필요로 한다. 이러한 데이터를 대규모로 구축하는 것은 비용이 많이 든다. 향후 연구는 시뮬레이션을 이용한 데이터 증강이나, 인터넷상의 방대한 비디오 데이터로부터 비지도 학습(Unsupervised Learning)을 통해 주행 상식을 습득하는 방향으로 나아가야 할 것이다.

8. 결론 (Conclusion)

본 보고서에서 분석한 CoT4AD는 자율주행을 위한 비전-언어-행동(VLA) 모델의 새로운 지평을 열었다. 기존 모델들이 겪었던 수치적 부정확성과 인과적 추론의 부재라는 고질적인 문제를 명시적 생각의 사슬(CoT) 학습과 확산 모델 기반의 계획을 통해 효과적으로 해결하였다.

CoT4AD의 핵심 성과는 다음과 같이 요약된다.

압도적인 성능: nuScenes와 Bench2Drive 벤치마크에서 기존 SOTA 모델들을 큰 격차로 따돌리며 최고의 성능을 입증하였다.
구조적 혁신: 단계 무관 토큰( $V_s$ )과 VLM 조건부 확산 모델을 통해 멀티모달 정보의 손실 없는 융합과 정밀한 제어를 실현하였다.
실용성과 해석 가능성: 암시적 추론을 통한 실시간성 확보와 명시적 학습을 통한 해석 가능성 제공이라는 두 마리 토끼를 잡았다.

결론적으로, CoT4AD는 자율주행 AI가 단순히 데이터를 패턴 매칭하는 수준을 넘어, 인간처럼 상황을 이해하고 논리적으로 사고하는 단계로 진입했음을 알리는 신호탄이다. 이 연구는 향후 완전 자율주행(Level 5)을 향한 여정에서 인지 및 판단 시스템의 핵심적인 참조 모델(Reference Model)이 될 것으로 전망된다.

9. 참고 자료

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving - ChatPaper, https://chatpaper.com/paper/214202
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving - arXiv, https://arxiv.org/html/2511.22532v1
VAD: Vectorized Scene Representation for Efficient Autonomous Driving - ResearchGate, https://www.researchgate.net/publication/377424577_VAD_Vectorized_Scene_Representation_for_Efficient_Autonomous_Driving
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2025/papers/Zhao_CoT-VLA_Visual_Chain-of-Thought_Reasoning_for_Vision-Language-Action_Models_CVPR_2025_paper.pdf
[2511.22532] CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving - arXiv, https://www.arxiv.org/abs/2511.22532
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving - ChatPaper, https://chatpaper.com/zh-CN/chatpaper/paper/214202
Causal Confusion. The current action of a car is strongly correlated… - ResearchGate, https://www.researchgate.net/figure/Causal-Confusion-The-current-action-of-a-car-is-strongly-correlated-with-low-dimensional_fig3_382693174
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving - arXiv, https://www.arxiv.org/pdf/2511.22532
TransFuser: Imitation With Transformer-Based Sensor Fusion for Autonomous Driving | Request PDF - ResearchGate, https://www.researchgate.net/publication/362808814_TransFuser_Imitation_with_Transformer-Based_Sensor_Fusion_for_Autonomous_Driving
Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects - arXiv, https://arxiv.org/pdf/2505.20223
Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects - arXiv, https://arxiv.org/html/2505.20223v1
Ablation on the number of predicted future scenes Effectiveness of CoT… - ResearchGate, https://www.researchgate.net/figure/Ablation-on-the-number-of-predicted-future-scenes-Effectiveness-of-CoT-Designs-Table-4_fig1_398135409
[2406.03877] Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving - arXiv, https://arxiv.org/abs/2406.03877
Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving | Request PDF - ResearchGate, https://www.researchgate.net/publication/397200093_Bench2Drive_Towards_Multi-Ability_Benchmarking_of_Closed-Loop_End-To-End_Autonomous_Driving
Explaining Autonomous Driving Actions with Visual Question Answering - ResearchGate, https://www.researchgate.net/publication/378199991_Explaining_Autonomous_Driving_Actions_with_Visual_Question_Answering