비전 언어 모델(Vision Language Model, VLM)은 컴퓨터 비전(Computer Vision, CV)과 자연어 처리(Natural Language Processing, NLP)의 역량을 결합하여 시각 데이터와 텍스트 데이터 간의 복잡한 관계를 학습하는 멀티모달(multimodal) 인공지능 시스템이다.1 이는 기계가 인간처럼 시각적 정보를 단순히 ‘인식’하는 것을 넘어, 그 안에 담긴 의미와 맥락을 언어로 ‘이해하고 표현’하도록 하는 기술적 도약을 의미한다.2 VLM은 이미지나 비디오를 텍스트와 함께 입력받아, 시각적 내용에 대한 질의응답(Visual Question Answering, VQA), 이미지 캡셔닝, 비디오 요약 등 고차원적인 작업을 수행할 수 있다.5
VLM의 등장은 인공지능 분야의 근본적인 패러다임 전환을 시사한다. 과거의 컴퓨터 비전 모델은 이미지 분류, 객체 탐지 등 특정 목적을 위해 설계된 개별적인 도구에 가까웠다.5 이러한 모델들은 사전 정의된 고정된 클래스나 작업 범위 내에서 높은 성능을 보였지만, 새로운 유형의 질문이나 작업에 대해서는 유연하게 대처하기 어려웠다. 마찬가지로, 대규모 언어 모델(Large Language Model, LLM)은 텍스트 데이터에 대한 깊은 이해를 바탕으로 놀라운 언어 생성 및 추론 능력을 보여주었으나, 그들의 ‘지식’은 시각적 현실 세계와는 단절된 추상적인 기호의 영역에 머물러 있었다.2
VLM은 이 두 세계를 통합함으로써 기존 모델들의 한계를 극복한다. VLM은 방대한 양의 이미지-텍스트 쌍 데이터를 학습하여, LLM에게 ‘보는 능력’을 부여한다.5 그 결과, VLM은 고정된 작업 분류에 얽매이지 않고, 자연어 지시(instruction)를 통해 거의 모든 시각 관련 작업을 제로샷(zero-shot) 또는 퓨샷(few-shot) 방식으로 수행할 수 있는 범용적 시각 추론기(general visual reasoner)로 기능하게 된다.5 즉, ‘이미지 캡셔닝 모델’을 만드는 것이 아니라, ‘이미지 캡셔닝을 수행할 수 있는 범용 모델’을 만드는 것으로 문제의 정의가 바뀐 것이다. 이러한 전환은 강력한 사전 학습 LLM의 내재적 능력, 즉 제로샷 일반화와 명령어 추종 능력이 시각 도메인으로 성공적으로 전이된 결과라 할 수 있다.
이러한 VLM의 핵심 아키텍처는 일반적으로 ‘Vision Encoder - Projector - LLM’의 3단계 구조로 설명할 수 있다.5
장면 캡셔닝(Scene Captioning)은 주어진 이미지나 비디오에 포함된 핵심적인 내용, 즉 객체, 그들의 속성, 행동, 그리고 상호 관계를 종합적으로 이해하여 이를 문법적으로 올바르고 의미론적으로 정확한 자연어 문장으로 자동 생성하는 과제이다.10 이는 단순히 이미지 안에 ‘무엇이 있는지’를 나열하는 객체 탐지를 넘어, ‘무슨 일이 일어나고 있는지’를 서술하는 고차원적인 ‘장면 이해(Scene Understanding)’ 기술의 정수라 할 수 있다.4 이 기술은 시각 장애인을 위한 접근성 향상, 이미지 및 비디오 검색 시스템의 효율화, 자율 주행 시스템의 환경 인식 능력 강화 등 광범위한 응용 분야에서 핵심적인 역할을 한다.10
장면 캡셔닝 기술은 인코더-디코더(Encoder-Decoder) 프레임워크를 중심으로 점진적으로 발전해왔다.
특히 비디오 캡셔닝은 정지 이미지 캡셔닝에 비해 한층 더 높은 복잡성을 가진다. 비디오는 시간 축을 따라 변화하는 동적인 정보를 포함하므로, 모델은 공간적 특징뿐만 아니라 시간적 동적 관계(temporal dynamics)를 이해하고 모델링해야 한다.18 초기 비디오 캡셔닝 연구는 비디오를 여러 프레임으로 나누고 각 프레임에 이미지 캡셔닝 모델을 적용한 후 결과를 종합하는 방식을 사용했으나 13, 이는 시간적 연속성과 인과관계를 포착하는 데 한계가 있었다. 최근 연구들은 3D CNN이나 트랜스포머 기반의 시공간 어텐션을 활용하여 비디오 전체의 동적인 문맥을 직접 모델링하는 방향으로 발전하고 있다. 더 나아가, 비디오 전체를 한 문장으로 요약하는 것을 넘어, 영상 내에서 발생하는 모든 개별 이벤트의 시작과 끝 시간대를 탐지하고 각각에 대한 캡션을 생성하는 ‘밀집 비디오 캡셔닝(Dense Video Captioning)’이라는 더 세분화되고 도전적인 과제로 확장되고 있다.21
장면 캡셔닝 모델의 성능을 정량적으로 평가하기 위해, 생성된 캡션(candidate)과 사람이 직접 작성한 여러 개의 정답 캡션(references)을 비교하는 다양한 자동 평가 지표가 사용된다.13 이 지표들은 0과 1 사이의 점수로 표현되며, 1에 가까울수록 우수한 성능을 의미한다.13
이러한 자동 평가 지표들은 모델 개발 과정에서 빠르고 일관된 평가를 가능하게 하지만, 근본적인 한계 또한 명확하다. VLM 기술이 발전함에 따라, 모델이 생성하는 캡션이 사람이 작성한 정답 캡션보다 더 상세하거나, 다른 관점에서 더 창의적인 설명을 제공하는 경우가 빈번해지고 있다.23 그러나 n-gram 일치도에 기반한 전통적인 지표들은 이러한 ‘정답보다 좋은’ 캡션을 낮은 점수로 평가할 수 있다. 즉, 평가 지표가 모델의 발전을 따라가지 못하는 현상이 발생하는 것이다. 이러한 문제를 해결하기 위해, 최근에는 VisCE²와 같이 평가 과정에서 이미지의 시각적 문맥(객체, 속성, 관계 정보)을 명시적으로 LLM에 제공하여, 생성된 캡션이 이미지의 내용을 얼마나 충실하게 반영하는지를 직접 평가하려는 새로운 연구들이 시도되고 있다.23 이는 단순한 문자열 비교를 넘어, 내용의 충실도(faithfulness)와 정확성(accuracy)을 중심으로 평가 패러다임을 전환하려는 노력의 일환이다.
NVIDIA의 멀티모달 AI 전략은 단순히 성능이 뛰어난 개별 모델을 개발하는 수준을 넘어선다. 이들의 핵심 경쟁력은 고성능 GPU 하드웨어, 최적화된 소프트웨어 스택, 그리고 파운데이션 모델을 유기적으로 결합한 수직적 통합 생태계를 구축하는 데 있다.24 이 생태계는 AI 모델 개발의 전 과정을 가속화하고, 연구 단계의 혁신을 실제 산업 현장에 신속하게 배포할 수 있도록 지원한다.
NVIDIA는 AI Playground와 같은 플랫폼을 통해 이러한 통합 생태계에 대한 접근성을 높인다.24 개발자들은 별도의 복잡한 설정 없이 브라우저에서 직접 최신 VLM을 테스트하고 그 성능을 체험할 수 있으며, 이는 기술의 빠른 전파와 채택을 유도하는 중요한 전략이다. 이처럼 NVIDIA는 데이터 생성, 모델 학습, 최적화, 배포에 이르는 AI 개발의 전체 파이프라인을 아우르는 포괄적인 솔루션을 제공함으로써 강력한 기술적 해자(moat)를 구축하고 있다.
NVIDIA는 단일 모델이 아닌, 다양한 용도와 성능 요구사항에 대응할 수 있는 다각화된 VLM 포트폴리오를 보유하고 있다. 각 모델은 고유한 특징과 강점을 가지며, 이는 NVIDIA가 멀티모달 AI 시장의 다양한 니즈를 공략하고 있음을 보여준다.
| 모델명 (Model) | 기반 LLM (Base LLM) | 주요 특징 (Key Features) | 최적 적용 분야 (Optimal Use Case) | 공개 여부 (Availability) |
|---|---|---|---|---|
| VILA | Llama, Yi 등 | 효율적 사전학습, 다중 이미지 추론, 문맥 내 학습(ICL), 엣지 배포 최적화 (4-bit AWQ) | 범용 이미지/비디오 분석, 엣지 AI 애플리케이션, 로보틱스, 자율주행 | 오픈소스 8 |
| Cosmos Nemotron | 비공개 (VILA 기반) | VILA 혁신 통합, 시공간 추론, 물리적/가상 세계 쿼리 및 요약, 다중 이미지 분석 | 디지털 트윈, 스마트 시티, 자율 시스템의 상황 인식, 산업 자동화 | 상용 (NVIDIA AI Enterprise) 26 |
| NeVA | 비공개 | 멀티모달 대화형 AI 비서, 텍스트/이미지 기반 정보 제공 및 질의응답 | 대화형 AI 챗봇, 교육용 보조 도구, 콘텐츠 생성 및 검색 | AI Playground 통해 체험 가능 24 |
| Eagle 2.5 | 비공개 | 장편 비디오(Long Video) 이해 특화, 긴 영상의 서사 구조 및 핵심 정보 파악 | 미디어 콘텐츠 분석, 영상 요약, 보안 및 감시 영상 분석 | 연구 발표 32 |
VILA(Visual Language model)는 NVIDIA의 VLM 연구를 대표하는 모델로, 효율적인 학습 방법론과 뛰어난 성능으로 주목받았다.8 특히 다중 이미지를 동시에 이해하고 추론하는 능력과, 몇 가지 예시만으로 새로운 작업을 학습하는 문맥 내 학습(In-context Learning) 능력이 뛰어나다.27 또한, 경량화 및 양자화 기술을 통해 엣지 디바이스에도 배포가 가능하다는 점에서 실용성이 높다. 2025년 1월부로 VILA의 핵심 기술은 상용 모델군인 Cosmos Nemotron에 통합되었다.8 Cosmos Nemotron은 VILA의 혁신을 계승하여 시공간 추론과 같은 더욱 진보된 기능을 제공하며, 물리적 또는 가상 환경(디지털 트윈)의 상태를 이해하고 요약하는 데 특화되어 있다.26
NeVA(NVIDIA NeMo Vision and Language Assistant)는 대화형 AI 비서의 형태로 제공되는 VLM으로, 사용자가 텍스트와 이미지를 활용해 자연스럽게 질문하고 정보를 얻을 수 있도록 설계되었다.24
Eagle 2.5는 수십 분 길이의 긴 비디오를 이해하는 데 특화된 모델로, 영상 전체의 서사적 흐름이나 중요한 사건을 파악하는 데 강점을 보여 미디어 분석이나 감시 분야에서 활용 가능성이 높다.32 이처럼 NVIDIA는 범용 모델부터 특정 도메인에 특화된 모델까지 다양한 라인업을 구축하여 멀티모달 AI 기술의 적용 범위를 넓혀가고 있다.
VLM을 포함한 모든 딥러닝 모델의 성능은 학습 데이터의 양과 질에 크게 좌우된다. 그러나 현실 세계에서 대규모의 고품질 이미지-캡션 쌍 데이터를 수집하고 레이블링하는 작업은 막대한 비용과 시간이 소요된다. NVIDIA는 이러한 데이터 병목 현상을 해결하기 위해 물리적으로 정확한 3D 시뮬레이션 환경인 NVIDIA Omniverse 플랫폼 내의 합성 데이터 생성 프레임워크, Isaac Sim Replicator를 적극적으로 활용한다.25
Replicator는 현실과 유사한 가상 환경에서 다양한 객체, 조명, 카메라 각도 등을 프로그래밍 방식으로 제어하여 무한에 가까운 양의 학습 데이터를 생성할 수 있다. 특히, 합성 데이터는 완벽하고 일관된 레이블을 자동으로 생성할 수 있다는 결정적인 장점을 가진다. 장면 캡셔닝을 위한 VLM 학습 데이터 생성과 관련하여, Replicator는 다음과 같은 정교한 설정 매개변수를 제공하여 데이터의 품질과 특성을 세밀하게 제어한다.28
save_full_scene_graph: 씬에 존재하는 모든 객체와 그들 간의 모든 공간적 관계(예: ‘의자’ 위에 ‘컵’이 있고, ‘테이블’ 옆에 ‘의자’가 있음)를 포함하는 완전한 그래프를 생성한다. 이는 매우 상세한 캡션을 생성하는 데 필요한 풍부한 정보를 제공한다.save_pruned_scene_graph 및 pruning_ratio: 전체 씬 그래프는 정보가 너무 많아 오히려 학습에 방해가 될 수 있다. 이 옵션은 그래프를 최소 신장 트리(Minimum Spanning Tree, MST)로 단순화한 후, pruning_ratio에 지정된 비율만큼의 엣지만 남겨 정보의 양을 조절한다. 예를 들어, pruning_ratio를 0.5로 설정하면 가장 핵심적인 관계 50%만 캡션 생성에 사용되어 더 간결하고 핵심적인 설명이 가능하다.attach_label_to_usd: 씬 내의 3D 객체(USD prim)에 의미론적 레이블이 없는 경우, 파일 경로 이름을 기반으로 자동으로 레이블을 부착한다 (예: /World/Objects/Chair → Chair). 이 레이블은 캡셔닝 시스템이 객체를 인식하는 기본 단위가 되므로 매우 중요하다.use_ai_label: 사전에 데이터베이스에 저장된, AI가 생성한 더 정교한 레이블을 활용하여 캡션의 의미적 풍부함을 더한다.max_object_capacity: 복잡한 씬에서 너무 많은 객체가 캡션에 포함되는 것을 방지하기 위해, 카메라 뷰에서 차지하는 면적(2D 바운딩 박스 크기)을 기준으로 상위 N개의 객체만 캡셔닝 대상으로 선택한다.global_caption: 개별 객체와 그 관계를 나열하는 것을 넘어, “거실에는 소파와 테이블, 그리고 TV가 있다”와 같이 장면 전체를 요약하는 포괄적인 캡션을 생성하도록 지시한다.이러한 기능들을 통해 개발자는 특정 목적에 맞는 맞춤형 캡셔닝 데이터셋을 대규모로 생성할 수 있으며, 이는 VLM이 다양한 상황과 객체에 대해 강건한 이해 능력을 갖추도록 하는 데 결정적인 역할을 한다.
아무리 뛰어난 단일 VLM이라도 모든 종류의 시각적 데이터와 태스크에서 최상의 성능을 발휘하기는 어렵다. 특히, 이미지와 비디오는 근본적으로 다른 특성을 가지며, 각 모달리티에 특화된 모델들은 서로 다른 강점을 가진다. 이러한 한계를 극복하고 캡셔닝의 정확도를 극대화하기 위해 NVIDIA 연구진은 Wolf(WOrLd summarization Framework)라는 새로운 프레임워크를 제안했다.18
Wolf의 핵심 철학은 단일 모델에 의존하는 대신, 여러 VLM을 ‘전문가 집단’으로 간주하고 그들의 강점을 상호 보완적으로 활용하는 전문가 혼합(Mixture-of-Experts, MoE) 접근법을 채택하는 것이다.18 이는 각기 다른 전문성을 가진 전문가들이 협력하여 더 나은 결론을 도출하는 인간 사회의 문제 해결 방식과 유사하다.
Wolf 프레임워크는 다음과 같은 다단계 요약 프로세스로 작동한다 18:
실제로 자율주행 데이터셋인 Nuscenes와 로보틱스 데이터셋을 대상으로 한 실험에서, Wolf 프레임워크는 GPT-4V, Gemini-Pro-1.5와 같은 최신 단일 모델들보다 캡션 유사도와 품질(환각 감소) 측면에서 월등히 높은 성능을 기록했다.18 이는 복잡하고 중요한 태스크일수록, 여러 모델의 집단 지성을 활용하는 MoE 방식이 더 신뢰성 높은 결과를 제공할 수 있음을 시사한다.
VILA(Visual Language model)는 NVIDIA의 VLM 연구 역량이 집약된 모델로, 특히 유연성과 확장성 측면에서 뛰어난 자동 회귀(Auto-regressive) 아키텍처를 기반으로 한다.8 이 구조는 LLM이 텍스트를 생성하는 방식과 동일하게, 이전 토큰들을 기반으로 다음 토큰을 순차적으로 예측하는 원리를 시각 정보 처리에도 적용한다. VILA는 이미지를 일종의 ‘외국어’로 간주하여, 시각적 정보를 텍스트 토큰과 동일한 임베딩 공간으로 변환한 뒤 이를 LLM의 입력 시퀀스에 자연스럽게 통합한다.26 이러한 접근 방식은 <텍스트1><이미지1><텍스트2><이미지2>...와 같이 텍스트와 이미지가 임의의 순서로 혼합된(interleaved) 입력을 처리할 수 있게 하여, 다중 이미지 추론이나 대화형 시각 질의응답과 같은 복잡한 작업을 수행하는 데 결정적인 유연성을 제공한다.8
VILA의 아키텍처는 앞서 설명한 VLM의 표준적인 3단계 구조를 따른다.
이처럼 VILA는 검증된 오픈소스 구성 요소들을 효과적으로 조합하고, 이들 간의 상호작용을 최적화하는 데 집중함으로써 강력하고 효율적인 VLM 아키텍처를 구현했다.
VILA가 기존의 SOTA(State-of-the-Art) 모델들을 능가하는 성능을 달성할 수 있었던 비결은 단순히 새로운 아키텍처를 설계했기 때문이 아니라, 모델을 ‘어떻게 학습시킬 것인가’에 대한 깊이 있는 탐구를 통해 정립한 독창적인 ‘학습 레시피(training recipe)’에 있다.9 이 레시피는 데이터의 종류와 조합, 그리고 학습 단계별 파라미터 업데이트 전략을 정교하게 설계하여 VLM의 잠재력을 최대한 끌어내는 것을 목표로 한다. VILA의 학습 과정은 크게 세 단계로 구성된다.
| 학습 단계 (Training Stage) | 주요 목표 (Objective) | 핵심 전략 (Key Strategy) | 기대 효과 (Expected Outcome) |
|---|---|---|---|
| Projector Initialization | 시각-언어 임베딩 공간 초기 정렬 | Vision Encoder와 LLM 동결, Projector만 학습 | 두 모달리티 간의 기본적인 매핑 학습, 안정적인 사전학습의 기반 마련 9 |
| Vision-Language Pre-training | 깊은 모달리티 정렬 및 핵심 능력 확보 | 인터리브(Interleaved) 데이터 사용 및 LLM 동결 해제(Unfreezing) | LLM의 언어 능력 저하 방지, 다중 이미지 추론 및 문맥 내 학습(ICL) 능력 확보 8 |
| Supervised Fine-tuning (SFT) | 명령어 추종 능력 강화 및 성능 최적화 | 시각-언어 명령어 데이터와 텍스트 전용 명령어 데이터 재혼합(Re-blending) | VLM 및 텍스트 전용 작업 성능 동시 향상, 전반적인 명령어 이해 및 수행 능력 극대화 8 |
Stage 1: 인터리브(Interleaved) 데이터 사전 학습의 중요성
VILA 연구의 가장 중요한 발견 중 하나는 사전 학습 데이터의 형식이 모델의 핵심 능력에 미치는 지대한 영향을 규명한 것이다. 기존 VLM들은 주로 <이미지, 캡션> 형태의 이미지-텍스트 쌍 데이터(예: COYO 데이터셋)를 사용해왔다.8 그러나 VILA 연구진은 이러한 방식이 LLM의 텍스트 전용 작업 성능을 심각하게 저하시키는 “치명적 망각(catastrophic forgetting)” 현상을 유발함을 발견했다. MMLU 벤치마크에서 17.2%에 달하는 정확도 하락이 관찰되었는데, 이는 이미지 캡션의 텍스트가 일반적으로 짧고 단순하여 LLM이 기존에 학습했던 복잡한 언어 구조를 잊어버리기 때문이다.8
이에 대한 해결책으로 VILA는 문서나 웹페이지처럼 텍스트와 이미지가 자연스럽게 섞여 있는 인터리브(interleaved) 데이터(예: MMC4 데이터셋)를 사전 학습에 적극적으로 활용했다.8
<텍스트1><이미지1><텍스트2>...와 같은 형식의 데이터는 순수 텍스트 말뭉치와 통계적 분포가 유사하여, LLM이 자신의 언어 능력을 거의 그대로 보존(MMLU 성능 저하 약 5%)하면서 시각 정보를 학습할 수 있게 한다.8 더 중요한 것은, 이 데이터 형식이 모델에게 여러 이미지와 텍스트를 아우르는 넓은 문맥을 제공함으로써, 자연스럽게 다중 이미지 문맥 내 학습(In-context Learning, ICL) 능력을 부여한다는 점이다.8
Stage 2: LLM 동결 해제(Unfreezing)의 효과
사전 학습 과정에서 LLM의 파라미터를 고정(freeze)하고 프로젝터만 학습시키는 ‘프롬프트 튜닝’ 방식은 계산적으로 효율적이며 LLM의 원래 성능을 보존하는 데 유리해 보였다.9 VILA의 실험 결과, 이 방식은 제로샷(zero-shot) 성능에서는 준수한 결과를 보였지만, ICL 성능에서는 심각한 한계를 드러냈다.9 즉, 모델이 새로운 예시를 보고 배우는 능력을 제대로 발휘하지 못했다.
반면, 사전 학습 단계에서 LLM의 파라미터를 함께 업데이트(unfreezing)하는 것은 시각 임베딩과 언어 임베딩 간의 더 깊고 본질적인 정렬(deep embedding alignment)을 촉진했다.8 이는 LLM 자체가 시각적 개념을 내재화하도록 유도하며, 결과적으로 VLM이 몇 가지 예시만으로도 새로운 시각적 작업을 능숙하게 수행하는 ICL 능력을 갖추는 데 결정적인 역할을 한다는 것이 VILA 연구의 핵심적인 발견이다.35
Stage 3: 지도 미세 조정(SFT)과 텍스트 데이터 재혼합
사전 학습을 통해 기본적인 시각-언어 정렬을 마친 모델은, 사용자의 다양한 지시를 정확하게 이해하고 수행하는 능력을 강화하기 위해 지도 미세 조정(Supervised Fine-tuning, SFT) 단계를 거친다.26 이 단계에서는 “이 이미지에 대해 설명해줘”, “이미지 속 남자는 무엇을 하고 있니?”와 같은 <명령어, 정답> 쌍으로 구성된 데이터를 사용하여 모델을 학습시킨다.
VILA는 여기서 한 걸음 더 나아가, SFT 데이터에 소량의 ‘텍스트 전용’ 명령어 데이터를 다시 혼합(re-blending)하는 전략을 사용했다.8 이 간단해 보이는 기법은 두 가지 중요한 효과를 가져왔다. 첫째, 사전 학습 과정에서 발생했던 미미한 수준의 텍스트 성능 저하(약 5%)를 완벽하게 회복시켰다. 둘째, 놀랍게도 텍스트 명령어 추종 능력이 향상되자, 이것이 모델의 전반적인 추론 능력 강화로 이어져 시각 언어 작업의 성능까지 동반 상승시키는 결과를 낳았다.8 이는 모달리티에 상관없이 ‘명령어를 잘 이해하는 능력’ 자체가 모델의 핵심 역량임을 시사한다.
마지막으로 VILA의 학습 레시피는 ‘데이터의 양보다 질’이라는 원칙을 강조한다.8 연구진은 COYO-700M 데이터셋 전체를 사용하는 대신, 이미지와 텍스트 간의 관련성을 나타내는 CLIP 점수를 기준으로 상위 5%의 고품질 데이터만 선별하여 사용했다. 실험 결과, 무작정 데이터 양을 두 배로 늘리는 것보다, 소량이라도 고품질 데이터를 추가하는 것이 벤치마크 성능 향상에 훨씬 더 효과적임이 입증되었다.8
VILA의 우수성은 다양한 표준 벤치마크에서 기존 SOTA 모델들과의 직접적인 성능 비교를 통해 정량적으로 입증되었다. 특히, 동시대의 대표적인 오픈소스 VLM인 LLaVA-1.5와의 비교에서 VILA는 일관되게 더 높은 성능을 기록하며 그 학습 방법론의 효과를 증명했다.9
| 모델 (Model) | MME (↑) | TextVQA (↑) | OKVQA (↑) | MMMU (val, ↑) | VisWiz (↑) | MMBench-CN (↑) |
|---|---|---|---|---|---|---|
| LLaVA-1.5 (Vicuna-1.5-13B) | 1531.3 | 61.3 | 80.0 | - | 47.9 | 63.8 |
| VILA (7B) | 1533.0 | 64.4 | 79.9 | 36.3 | 51.8 | 65.5 |
| VILA (13B) | 1570.1 | 66.6 | 80.8 | 37.9 | 50.8 | 68.2 |
주: 위 표의 수치는 VILA 연구 논문 9의 Table 5에서 발췌하여 재구성한 것이다. MME는 멀티모달 이해 능력, TextVQA는 이미지 속 텍스트 인식 및 추론, OKVQA는 외부 지식 기반 VQA, MMMU는 전문가 수준의 다분야 멀티모달 이해, VisWiz는 시각 장애인을 위한 VQA, MMBench-CN은 중국어 멀티모달 벤치마크를 평가한다. 화살표(↑)는 높을수록 좋은 성능을 의미한다.
위 표에서 나타나듯, VILA는 대부분의 벤치마크에서 LLaVA-1.5를 능가하는 성능을 보인다. 특히 주목할 점은 7B 파라미터 크기의 VILA 모델이 13B 크기의 LLaVA-1.5 모델과 대등하거나 일부 벤치마크(TextVQA, VisWiz)에서는 오히려 더 높은 점수를 기록했다는 사실이다.9 이는 VILA의 향상된 사전 학습 레시피가 모델의 파라미터 효율성을 크게 높였음을 시사하는 강력한 증거이다. 13B 모델 간의 비교에서는 그 격차가 더욱 벌어져, VILA가 멀티모달 이해, 텍스트 인식, 외부 지식 활용 등 전반적인 능력에서 우위를 점하고 있음을 명확히 보여준다.
성능에 영향을 미치는 다른 주요 요인에 대한 분석 또한 VILA 연구의 중요한 부분이다.
아무리 뛰어난 성능의 모델이라도 실제 서비스 환경, 특히 자원 제약이 심한 엣지 디바이스에서 효율적으로 동작하지 못한다면 그 가치는 제한적이다. NVIDIA는 VILA를 개발 초기부터 실제 배포 환경을 고려하여 설계했으며, 이를 위해 강력한 최적화 기술들을 적용했다.
이러한 최적화 기술들의 조합을 통해 VILA는 놀라운 추론 효율성을 달성했다. 예를 들어, 140억 파라미터의 VILA-14B 모델이 단일 NVIDIA RTX 4090 GPU에서 토큰당 10ms의 속도로 실행될 수 있었다.8 이는 데이터센터급의 강력한 인프라뿐만 아니라,
NVIDIA Jetson Orin과 같은 저전력, 소형 폼팩터의 엣지 AI 플랫폼에서도 VLM을 실시간에 가깝게 구동할 수 있음을 의미한다.26 이로써 VILA는 자율주행 자동차의 실시간 상황 인식, 공장 자동화 로봇의 비전 기반 작업 수행, 스마트 카메라의 동적 이벤트 감지 등 지연 시간에 민감한 실제 산업 현장에서의 적용 가능성을 활짝 열었다.27
VILA의 성공적인 연구 결과를 바탕으로, NVIDIA는 VLM이 직면한 핵심적인 난제인 ‘효율성’과 ‘신뢰성’을 해결하기 위한 후속 연구를 지속했다. 그 결과물인 NVILA와 VILA2는 각각 독창적인 접근법을 통해 VLM의 성능과 실용성을 한 단계 더 높은 수준으로 끌어올렸다.
VILA가 고해상도 이미지를 처리할 때 더 높은 정확도를 보인다는 사실은, 모델이 더 많은 시각적 정보를 입력받을수록 성능이 향상됨을 시사했다.9 그러나 고해상도 이미지나 장편 비디오는 LLM에 입력되는 시각 토큰의 수를 기하급수적으로 증가시켜, 트랜스포머의 어텐션 메커니즘에서 발생하는 이차적인 계산 복잡도($O(n^2)$)로 인해 훈련 및 추론 비용이 감당할 수 없는 수준으로 치솟는 문제를 야기했다. NVILA는 이러한 딜레마를 해결하기 위해 ‘Scale-then-Compress(확장 후 압축)’라는 직관적이면서도 효과적인 전략을 제시했다.38
‘Scale-then-Compress’ 전략은 두 단계로 구성된다.
이 전략을 통해 NVILA는 VILA 대비 훈련 속도를 4.5배, 추론 시 첫 토큰 생성 시간(Time to First Token)을 1.8배, 전체 처리량을 1.2배 향상시키는 등 압도적인 효율성 증대를 달성했다.38 동시에, 장편 비디오 캡셔닝 평가 점수는 2.00에서 3.26으로 1.6배 향상되었고, 1400개 프레임(약 27만 토큰 길이)의 비디오에서 ‘건초더미 속 바늘 찾기’ 테스트를 99.5%의 정확도로 통과하는 등 정확도와 장기 문맥 이해 능력까지 크게 개선되었다.40 이는 효율성과 정확성이라는 두 마리 토끼를 동시에 잡은 성공적인 엔지니어링 접근법이라 평가할 수 있다.
VLM의 또 다른 근본적인 난제는 학습 데이터의 품질에 대한 의존성과 그로 인해 발생하는 환각(Hallucination) 현상이다. 데이터의 작은 오류나 편향이 모델의 신뢰성을 크게 저해할 수 있다. VILA2는 “VLM이 스스로의 훈련 데이터를 개선하고 성능을 향상시킬 수 있는가?”라는 질문에서 출발하여, VLM-Augmented-VLM(VLM에 의해 증강된 VLM)이라는 혁신적인 패러다임을 제시했다.36
VILA2의 핵심 아이디어는 모델을 학습 데이터의 수동적인 소비자가 아닌, 데이터 품질 개선 과정에 능동적으로 참여하는 주체로 만드는 ‘자기 증강(Self-augmentation)’ 루프를 구축하는 것이다.36
이 루프는 다음과 같이 작동한다.
이러한 포화 현상을 극복하고 모델의 성능을 지속적으로 향상시키기 위해, VILA2는 ‘전문가 증강(Specialist-augmentation)’ 단계를 도입했다.41 자기 증강을 통해 일반적인 능력이 향상된 VILA 모델을 기반으로, 공간 관계 추론, 텍스트 인식(OCR), 객체 위치 특정(grounding) 등 특정 도메인에 대한 소량의 추가 데이터로 미세 조정한 ‘전문가 VLM’들을 만든다. 이 전문가 모델들이 생성한 특정 지식이 담긴 데이터를 다시 일반 모델(generalist VLM)의 학습에 활용함으로써, 일반 모델은 자신이 부족했던 전문 분야의 지식을 효과적으로 주입받게 된다.36
VILA2는 이러한 자기 증강 및 전문가 증강 접근법을 통해, 인간이 직접 레이블링하는 비용의 1/300 수준으로 데이터 품질을 획기적으로 개선했으며, 이를 통해 MMMU와 같은 고난도 벤치마크에서 새로운 SOTA 성능을 달성했다.42 이는 AI 모델 개발이 정적인 학습 데이터에 의존하는 단방향 프로세스에서, 모델이 스스로의 발전에 기여하는 순환적이고 동적인 피드백 루프로 진화할 수 있는 가능성을 보여준 중요한 연구이다.
VLM 기술은 눈부신 발전을 이루었지만, 실용적인 적용을 가로막는 근본적인 한계와 도전 과제들을 여전히 안고 있다. 그 중 가장 심각한 문제는 모델이 생성하는 정보의 신뢰성과 관련된 환각(Hallucination) 현상과 학습 데이터로부터 비롯되는 편향(Bias)이다. NVIDIA는 이러한 문제들을 해결하기 위해 모델 내부의 성능을 개선하는 동시에, 모델 외부에서 안전장치를 마련하는 이중적인 접근 전략을 취하고 있다.
환각은 AI 모델이 학습 데이터에 근거하지 않거나 명백한 사실과 다른 내용을 마치 사실인 것처럼 자신감 있게 생성하는 현상을 의미한다.7 이는 사용자의 오해를 유발하고 잘못된 결정을 내리게 할 수 있어, VLM을 금융, 의료, 자율주행과 같은 고신뢰성이 요구되는 분야에 적용하는 데 가장 큰 걸림돌로 작용한다.2
환각의 원인:
NVIDIA의 대응 전략:
NVIDIA는 환각 문제에 대해 모델의 내재적 능력을 향상시키는 접근과 외부에서 통제하는 접근을 병행한다.
이러한 이중적 접근은 AI의 신뢰성 확보가 단일 기술이 아닌, 정교한 시스템 엔지니어링의 문제임을 보여준다. 점차 개선되는 생성 모델의 핵심 능력과, 이를 감싸는 결정론적이고 프로그래밍 가능한 안전 계층의 결합이 실용적인 AI 시스템의 표준이 될 가능성이 높다.
VLM은 학습 데이터의 거울과 같아서, 데이터에 존재하는 사회적, 통계적 편향을 그대로 학습하고 때로는 증폭시키는 경향이 있다. 이는 모델의 공정성과 일반화 성능을 저해하는 심각한 문제이다.
데이터 의존성과 편향: VLM 학습에 사용되는 대규모 데이터셋은 인터넷에서 수집되는 경우가 많아, 현실 세계에 존재하는 성별, 인종, 연령 등에 대한 고정관념과 편견을 포함할 수 있다.1 연구에 따르면, VLM은 특정 성별이나 인종의 이미지에 대해 부정적인 단어를 연관 짓는 경향을 보이며, 이러한 편향은 VQA와 같은 다운스트림 태스크에서도 지속적으로 나타난다.48 또한, 의료 영상이나 제조 공정 이미지와 같이 고도로 전문화된 도메인에 대한 학습 데이터가 부족할 경우, 일반적인 데이터로 학습된 VLM은 해당 분야에서 정확한 분석과 설명을 생성하는 데 어려움을 겪는
도메인 편향 문제를 보인다.7
위치 편향 (Position Bias): LLM에서 처음 발견된 “lost in the middle” 현상은 여러 개의 문서를 동시에 처리할 때, 입력 시퀀스의 처음과 끝에 있는 정보는 잘 기억하지만 중간에 있는 정보는 놓치는 경향을 말한다.50 최근 연구에 따르면 이러한
위치 편향은 VLM이 여러 이미지를 동시에 처리할 때도 동일하게 나타난다.51 오픈소스 VLM들은 주로 시퀀스의 끝에 위치한 이미지에 대한 추론을 잘 수행하는 ‘최신성 편향(recency bias)’을 보이는 반면, GPT-4o와 같은 상용 모델들은 처음과 끝은 잘 처리하지만 중간 위치의 이미지에 취약한 U자형 성능 곡선을 보인다. 입력 이미지의 수가 늘어날수록 이러한 편향은 더욱 심해져, 모델의 강건성과 신뢰성을 심각하게 저해하는 요인이 된다.51
VILA2의 잠재적 위험: VILA2의 자기 증강 루프는 데이터 품질을 개선하는 강력한 메커니즘이지만, 동시에 위험성을 내포하고 있다. 만약 초기 모델(VILA₀)이 특정 편향이나 체계적인 오류를 가지고 있다면, 자기 증강 과정은 이 편향과 오류를 담은 데이터를 대량으로 생산하고, 다음 세대 모델(VILA₁)은 이 오염된 데이터를 학습하여 편향을 더욱 강화하고 고착화시킬 수 있다.42 이는 마치 ‘메아리 방(echo chamber)’처럼 모델이 자신의 오류를 반복적으로 학습하며 증폭시키는 결과를 낳을 수 있다. 또한, 모델이 생성하는 캡션의 스타일이 점차 획일화되어 데이터의 다양성이 감소할 위험도 존재한다. 따라서 “어떻게 자기 증강 과정에서 발생하는 오류의 누적과 편향의 증폭을 완화할 것인가”는 VILA2와 같은 접근법이 해결해야 할 핵심적인 연구 과제로 남아있다.42
NVIDIA는 장면 캡셔닝을 포함한 비전 언어 모델 분야에서 단순한 모델 개발사를 넘어, 포괄적인 생태계를 구축한 기술 리더로서의 입지를 공고히 했다. 이들의 전략은 Isaac Sim Replicator를 통한 고품질 합성 데이터 생성에서부터, VILA의 혁신적인 학습 방법론을 통한 고성능 모델 개발, 그리고 AWQ 양자화와 TensorRT-LLM을 통한 하드웨어 최적화 및 실제 엣지 디바이스 배포에 이르기까지, AI 개발의 전 주기를 아우르는 수직적 통합을 통해 강력한 시너지를 창출하고 있다.
VILA의 가장 핵심적인 기여는 VLM의 성능을 결정하는 것이 단순히 아키텍처의 문제가 아니라 ‘어떻게 사전 학습할 것인가’라는 방법론의 문제임을 깊이 있게 탐구하고 구체적인 해법을 제시한 데 있다. 인터리브 데이터의 적극적인 활용과 사전 학습 중 LLM 파라미터를 동결하지 않는 전략은, 기존 VLM들이 겪던 ‘치명적 망각’ 문제를 해결하고 멀티모달 문맥 내 학습(ICL)이라는 새로운 가능성을 활짝 열었다. 이는 VLM 연구 커뮤니티에 중요한 청사진을 제공했다.
더 나아가, NVILA와 VILA2를 통해 VLM이 직면한 가장 큰 난제인 ‘효율성’과 ‘신뢰성’ 문제를 정면으로 돌파하려는 노력을 보여주었다. NVILA의 ‘Scale-then-Compress’ 전략은 고해상도 시각 정보를 처리하는 데 있어 정확성과 계산 비용 사이의 균형을 맞추는 실용적인 해법을 제시했으며, VILA2의 ‘Self-augmentation’ 패러다임은 모델이 스스로의 발전에 기여하는 AI 개발의 새로운 가능성을 열었다. 이러한 지속적인 혁신은 NVIDIA가 VLM 기술의 최전선에서 연구 개발을 주도하고 있음을 명확히 보여준다.
NVIDIA의 VLM 기술은 현재의 성과에 머무르지 않고, 더욱 복잡하고 고차원적인 인지 능력을 향해 나아갈 것으로 전망된다. 향후 연구 및 발전 방향은 다음과 같이 예측할 수 있다.
결론적으로, NVIDIA는 하드웨어, 소프트웨어, 데이터, 모델을 아우르는 강력한 생태계를 기반으로 VLM 기술의 한계를 지속적으로 확장하고 있다. 앞으로 VLM은 단순한 장면 캡셔닝 도구를 넘어, 현실 세계와 가상 세계를 더 깊이 이해하고 상호작용하는 범용 인공지능의 핵심 구성 요소로 자리매김할 것이다.
| What are Vision-Language Models? | NVIDIA Glossary, 8월 21, 2025에 액세스, https://www.nvidia.com/en-us/glossary/vision-language-models/ |
| Visual Language Models on NVIDIA Hardware with VILA | NVIDIA …, 8월 21, 2025에 액세스, https://developer.nvidia.com/blog/visual-language-models-on-nvidia-hardware-with-vila/ |
| Image Captioning | ArcGIS API for Python - Esri Developer, 8월 21, 2025에 액세스, https://developers.arcgis.com/python/latest/guide/how-image-captioning-works/ |
| The AI Playground | NVIDIA Research, 8월 21, 2025에 액세스, https://www.nvidia.com/en-us/research/ai-playground/ |
| Explore Vision Models | Try NVIDIA NIM APIs, 8월 21, 2025에 액세스, https://build.nvidia.com/explore/vision |
| Eagle 2.5: 장편 동영상 이해에 혁신 가져온 엔비디아 모델 [AI 모두레터] | 블로그, 8월 21, 2025에 액세스, https://modulabs.co.kr/blog/eagle-nvidia-moduletter |
| VILA^2: VLM Augmented VLM with Self-Improvement | OpenReview, 8월 21, 2025에 액세스, https://openreview.net/forum?id=M2YCdfxNVx |
| Unpacking the bias of large language models | MIT News, 8월 21, 2025에 액세스, https://news.mit.edu/2025/unpacking-large-language-model-bias-0617 |