Booil Jung

멀티모달에서 옴니모달까지 전략적 분석

인공지능(AI) 분야에서 멀티모달(multimodal)에서 옴니모달(omnimodal)로의 전환은 점진적 개선이 아닌, 근본적인 아키텍처 및 철학적 변화를 의미한다. 이 변화의 핵심은 여러 데이터 유형을 모듈화된 파이프라인 방식으로 처리하던 ‘멀티(multi)’ 접근법에서, 모든 데이터를 단일 통합 모델 내에서 네이티브하게 종단간(end-to-end)으로 처리하는 ‘옴니(omni)’ 접근법으로의 전환에 있다. OpenAI의 GPT-4o, Google의 Gemini, Meta의 Llama 4와 같은 프론티어 모델들이 보여주듯이, 이러한 아키텍처의 도약은 실시간 인간과 유사한 대화형 AI와 점차 자율적인 에이전트 시스템의 등장을 이끄는 핵심 동력이다. 새로운 패러다임은 이전 모델들의 지연 시간(latency) 및 문맥 손실 문제를 해결하지만, 동시에 훈련(예: 모달리티 균형), 안전성(예: 자율 에이전트 거버넌스), 그리고 특수 하드웨어의 동반 진화와 같은 중대한 새로운 과제를 제기한다. 본 보고서는 이러한 전환 과정에 대한 기술적 기반부터 심오한 경제적, 사회적 영향에 이르기까지 포괄적인 분석을 제공한다.

이 섹션에서는 멀티모달 AI의 핵심 개념, 아키텍처, 그리고 궁극적으로 옴니모달 패러다임의 등장을 촉발한 내재적 기술 과제들을 정의하여, 논의의 기초를 확립한다.

멀티모달 AI는 텍스트, 이미지, 오디오, 비디오와 같은 여러 유형의 데이터, 즉 ‘모달리티(modality)’로부터 정보를 처리하고 통합할 수 있는 AI로 정의된다.1 이 접근법은 인간이 다양한 감각을 통해 세상을 인식하는 방식을 명시적으로 모방하여, AI가 단일 모달리티 시스템보다 더 총체적인 이해를 형성하도록 설계되었다.1

초기 AI 모델은 대부분 단일 모달(unimodal)로, 하나의 데이터 유형에 특화되어 있었다(예: 대규모 언어 모델(LLM)은 텍스트, 합성곱 신경망(CNN)은 이미지).5 이러한 모델들은 단어와 그 단어가 지칭하는 시각적 실체 간의 관계를 이해할 수 없었다.1 멀티모달리티는 이러한 간극을 메우기 위해 개발되었으며, 이미지로부터 텍스트 설명을 생성(이미지 캡셔닝)하거나 시각적 입력에 대한 텍스트 기반 질문에 답하는(시각적 질의응답 - VQA) 등의 응용을 가능하게 했다.1

핵심 가치는 여러 모달리티를 결합함으로써 더 의미 있는 결과물을 산출하고, 문맥을 풍부하게 하며, 모호성을 줄이는 데 있다.3 예를 들어, 의료 진단 분야에서는 의료 이미지와 텍스트로 된 환자 기록을 결합하여 더 정확한 진단을 내릴 수 있다.3

멀티모달 AI의 핵심적인 아키텍처 과제는 서로 다른 모달리티의 정보를 결합하는 과정인 ‘융합(fusion)’이다. 주요 전략은 다음과 같이 분류된다.10

초기 융합 (Early Fusion): 서로 다른 유형의 데이터를 입력 단계에서 결합하는 방식이다. 종종 데이터를 공통된 표현(representation)으로 변환한 후 단일 모델에 입력한다. 이를 통해 학습 과정 초기부터 모달리티 간의 깊고 낮은 수준의 상호작용이 가능하다.10
후기 융합 (Late Fusion): 각 모달리티를 별도의 전문화된 모델로 처리한 후, 각 모델의 결과물(예: 예측값 또는 고수준 특징)을 마지막 단계에서 결합한다. 이 접근법은 전통적인 앙상블 기법과 유사하며, 모듈성과 사전 훈련된 단일 모달 전문가 모델의 활용을 허용한다.10
결합 융합 (Joint Fusion 또는 Hybrid/Intermediate Fusion): 이는 유연한 절충안을 제공하는 방식으로, 초기 몇 개의 계층에서는 모달리티를 개별적으로 처리하다가 심층 신경망의 중간 지점에서 병합한다. 이를 통해 전문적인 특징 추출과 공동 표현 학습이 모두 가능하다.10

IBM이 인용한 카네기 멜런 대학의 2022년 논문은 멀티모달 연구 분야를 정의하는 핵심 과제들을 개괄한다.9 이 과제들은 단순히 기술적인 문제를 넘어, 데이터 유형 간의 근본적인 차이에서 비롯된 개념적 문제들이다.

표현 (Representation): 서로 다른 모달리티의 데이터를 고유한 속성(이질성)과 상호 연관성(상호 연결성)을 모두 포착하는 방식으로 표현하고 요약하는 방법이다. 이는 종종 이미지용 CNN이나 텍스트용 트랜스포머와 같은 특수 신경망을 사용하여 특징을 추출한 다음, 이를 공유 임베딩 공간으로 투영하는 방식을 포함한다.9
정렬 (Alignment): 서로 다른 모달리티의 요소들 간 직접적인 연결을 식별하는 방법이다. 비디오와 오디오 데이터의 시간적 정렬이나, 이미지와 텍스트 설명 간의 공간적 정렬이 이에 해당한다.9 OpenAI의 CLIP 모델은 대조 학습(contrastive learning)을 통해 정렬 문제를 해결한 대표적인 사례다.8
추론 (Reasoning): 여러 모달리티의 정보를 결합하여 더 높은 수준의 지식을 구성하고 복잡한 추론을 수행하는 방법이다.9 이는 단순한 정렬을 넘어, 모델이 정보를 종합하고 연역하는 과정이다.
생성 (Generation): 한 모달리티의 정보를 기반으로 다른 모달리티의 새로운 데이터를 생성하는 방법이다 (예: 텍스트-이미지 생성).9
전이 (Transfer): 한 모달리티에서 학습된 지식을 다른 모달리티로 이전하는 방법으로, 전이 학습 기술의 핵심 목표 중 하나다.9
정량화 (Quantification): 멀티모달 모델의 성능을 정확하게 평가하기 위한 견고한 이론적, 경험적 방법을 개발하는 것으로, 모델의 복잡성으로 인해 상당한 어려움이 따른다.9

이 여섯 가지 과제는 독립적이지 않고 서로 연결된 계층 구조를 형성한다. 모델은 먼저 각 모달리티에 대한 효과적인 표현을 학습해야 한다. 좋은 표현이 있어야 이를 정렬할 수 있으며(예: CLIP), 정렬된 개념들을 바탕으로 더 높은 수준의 추론이 가능해진다. 이러한 추론 능력은 다시 복잡한 생성 작업의 기반이 된다. 이처럼 멀티모달 기술의 발전은 이 과제들을 순차적으로, 그리고 통합적으로 해결해 나가는 과정이라 할 수 있다.

초기 및 일부 현대 멀티모달 시스템은 후기 또는 결합 융합을 실용적으로 구현한 ‘파이프라인(pipelined)’ 또는 ‘연결된(stitched-together)’ 아키텍처로 작동한다. 예를 들어, 음성 비서는 음성-텍스트 변환 모델(예: Whisper), 언어 추론 모델(예: GPT-4 Turbo), 그리고 텍스트-음성 합성 모델을 순차적으로 연결하여 사용한다.13 이러한 접근 방식은 두 가지 주요한 한계를 드러낸다.

지연 시간 병목 현상 (Latency Bottleneck): 이 파이프라인 접근법은 상당한 지연 시간을 유발한다. 각 단계마다 처리 시간이 추가되어 실시간 대화에는 부자연스러운 지연이 발생한다. 예를 들어, GPT-4의 음성 모드 파이프라인은 평균 5.4초의 지연 시간을 보였는데, 이는 인간의 반응 시간인 약 210-320밀리초와 극명한 대조를 이룬다.13
문맥 손실 (Context Loss): 각 변환 단계에서 중요한 정보가 손실된다. 오디오가 텍스트로 변환될 때, 목소리의 톤, 감정, 배경 소음과 같은 미묘한 뉘앙스가 버려져 언어 모델이 중요한 문맥을 놓치게 된다.13 이는 모델이 감정적으로 지능적이거나 문맥을 완전히 인지하는 대화를 나누는 능력을 근본적으로 제한한다.

결론적으로, 멀티모달 문제를 해결하기 위해 고안된 융합 아키텍처, 특히 파이프라인 방식으로 구현된 후기 융합은 그 자체로 새로운 문제, 즉 실시간 상호작용의 성능 한계를 만들어냈다. 이 한계가 바로 차세대 AI인 옴니모달이 해결해야 할 핵심 과제가 되었다.

이 섹션에서는 옴니모달 패러다임을 정의하고, 그 핵심 아키텍처 원리인 ‘네이티브 종단간 통합’에 초점을 맞춰 이전 패러다임과 대조적으로 분석한다.

‘옴니(omni)’라는 용어는 라틴어로 ‘모든’ 또는 ‘모든 방식으로’를 의미한다.15 AI 맥락에서 이는 단순히 여러(multi) 모달리티를 처리하는 것을 넘어, 단일 통합 시스템 내에서 네이티브하고 총체적으로 처리하는 방식으로의 전환을 의미한다.17

핵심적인 철학적 변화는 상호 연결된 전문가들의 시스템(멀티모달)에서, 여러 감각을 통해 동시에 세상을 인식하는 단일 일반 전문가 모델(옴니모달)로의 이동이다.21 그 목표는 분절되지 않고 본질적으로 통합된 인간의 인식을 더 가깝게 모방하는 것이다.19

옴니모달 모델을 정의하는 기술적 특징은 바로 그 아키텍처에 있다: 단일 종단간 신경망이 모든 입력과 출력을 처리한다.15

이 아키텍처는 이전 시스템들을 괴롭혔던 다중 모델 파이프라인을 제거한다. 예를 들어, GPT-4o에서는 오디오, 비전, 텍스트가 모두 동일한 신경망에 의해 처리된다.23 마찬가지로 Google의 Gemini는 텍스트 전용 LLM에 기능을 추가하는 방식이 아닌, “처음부터” 네이티브 멀티모달로 설계되어 모든 입력을 통합된 트랜스포머 아키텍처를 통해 처리하며, 모든 계층에서 교차 모달 어텐션(cross-modal attention)을 가능하게 한다.3

이러한 통합 설계는 모달리티 간 정보 손실이 없음을 의미한다. 모델은 텍스트 변환본이나 요약본이 아닌, 톤과 감정을 포함한 원시 오디오 파형과 원시 시각 데이터를 직접 인식한다.13

단일 통합 모델로의 아키텍처 변화는 옴니모달 경험을 정의하는, 사용자가 직접 체감할 수 있는 이점들을 만들어낸다.

인간과 유사한 지연 시간: 파이프라인을 제거함으로써 응답 시간이 극적으로 단축된다. GPT-4o는 오디오에 232-320밀리초 만에 응답할 수 있는데, 이는 인간의 대화 속도와 비슷하며 이전 모델들의 수 초에 달하는 지연 시간과 극명한 대조를 이룬다.13 이는 상호작용을 유연하고 자연스럽게 만든다.
감성적 및 문맥적 뉘앙스: 모델이 원시 입력 신호(예: 오디오) 전체를 처리하기 때문에, 감정적인 톤, 풍자, 배경 소음, 여러 화자를 인식하고 이에 반응할 수 있다.13 또한, 요청에 따라 극적이거나 로봇 같은 목소리 등 다양한 감정 표현이 담긴 응답을 생성할 수도 있다.27
완전한 개입 가능성 (Interruptibility): 사용자는 AI가 말하는 도중에 끼어들 수 있으며, AI는 마치 인간과의 대화처럼 실시간으로 반응할 수 있다. 이는 낮은 지연 시간을 가진 단일 모델 아키텍처의 직접적인 결과다.29

이러한 기술적 도약은 AI의 역할을 단순한 ‘기능적 명령-응답’ 도구에서 ‘자연스러운 협업적 상호작용’ 파트너로 재정의한다. 과거의 목표가 정확한 답변을 제공하는 것이었다면, 새로운 목표는 대화에 유용한 참여자가 되는 것이다. 이는 결국 AI 에이전트의 출현을 위한 기술적 토대를 마련한다. AI 에이전트는 환경을 인식하고, 추론하며, 실시간으로 행동해야 하는데, 이는 파이프라인 아키텍처의 높은 지연 시간과 문맥 손실로는 불가능했다. 옴니모달 아키텍처는 에이전트가 사용자의 의도와 환경을 동시에 이해하는 데 필요한 속도와 총체적 문맥을 제공함으로써, Project Astra와 같은 ‘보편적 AI 비서’의 비전을 기술적으로 실현 가능하게 만든다.3

특징	전통적 멀티모달 AI	옴니모달 AI
핵심 철학	여러 개의, 종종 분리된 데이터 처리 흐름을 통합. “다양한 모드(Many modes)”.	모든 모달리티를 단일 시스템 내에서 네이티브하고 총체적으로 처리. “모든 모드(All modes)”. 15
주요 아키텍처	파이프라인 또는 모듈식. 각 모달리티에 대해 별도의 인코더/모델을 사용하고, 후기 또는 결합 융합을 통해 결과물을 결합.10	통합된 종단간(end-to-end) 방식. 단일 신경망이 모든 입력과 출력을 처리하여, 초기부터 깊은 교차 모달 융합을 가능하게 함.3
데이터 흐름	순차적이며 손실이 발생. 데이터가 형식 간에 변환되면서(예: 오디오–»텍스트) 톤과 감정 같은 뉘앙스가 손실됨.13	병렬적이며 무손실. 모델이 중간 변환 없이 원시 감각 데이터(예: 오디오 파형, 픽셀 데이터)를 직접 처리.
지연 시간	높음 (예: 음성의 경우 2.8-5.4초). 자연스러운 실시간 대화에 부적합.13	극도로 낮음 (예: 약 320밀리초). 인간의 반응 시간에 근접.13
핵심 기능	VQA, 이미지 캡셔닝, 텍스트-이미지 생성. 실시간의 미묘한 상호작용에는 어려움을 겪는 경우가 많음.1	실시간 번역, 감정 톤 분석, 대화 중단 가능, 선제적 지원, 에이전트 행동.27
대표 모델/기술	초기 버전의 음성 비서, CLIP, DALL-E 2 (개별 구성요소로서).	OpenAI의 GPT-4o, Google의 Gemini, Meta의 Llama 4.25

이 섹션에서는 주요 옴니모달 모델들의 구체적인 아키텍처 선택과 하드웨어 의존성을 분석하여, 앞서 논의된 원칙들에 대한 구체적인 증거를 제시한다.

아키텍처 철학: Gemini는 텍스트 전용 LLM에 기능을 덧붙이는 접근법에서 의도적으로 벗어나, “처음부터” 네이티브 멀티모달로 설계되었다.3
통합 트랜스포머: 다른 모달리티에 대해 별도의 인코더를 사용하는 모델들과 달리, Gemini는 텍스트, 오디오, 이미지, 비디오, 코드 등 인터리브된 시퀀스 형태의 모든 입력을 단일 통합 트랜스포머 아키텍처를 통해 처리한다.3 이는 모델의 모든 계층에서 깊은 교차 모달 어텐션을 가능하게 하여, 데이터 유형 전반에 걸쳐 더 정교하고 유연한 추론을 가능하게 한다.3
시각 우선 철학: 이 아키텍처는 시각 정보를 부가적인 정보가 아닌 주요 입력 채널로 취급하는데, 이는 인간의 인지 방식과 더 유사하다.3 그 결과, VISTA와 같은 비전-언어 벤치마크에서 Gemini 2.5 Pro가 선두를 차지하는 등 우수한 성능을 보인다.36
전문가 혼합 (Mixture-of-Experts, MoE): 후기 Gemini 모델들은 MoE 아키텍처를 통합하여, 시스템이 동적으로 작업을 모델 내의 전문화된 “전문가”에게 라우팅함으로써 효율성과 성능을 향상시킨다.37
아키텍처 철학: GPT-4o(‘o’는 omni를 의미)는 텍스트, 비전, 오디오 전반에 걸쳐 종단간으로 훈련된 단일 신규 모델을 기반으로 한다.23 이 통합된 접근법이 그 성능의 핵심이다.
파이프라인 문제 해결: GPT-4o는 이전의 세 가지 모델(음성-텍스트 변환용 Whisper, 추론용 GPT-4, 별도의 텍스트-음성 합성 모델)로 구성된 파이프라인을 명시적으로 대체했다.13 이 통합은 지연 시간을 약 320ms로 극적으로 줄이고, 이전에는 텍스트 변환 과정에서 손실되었던 감정적인 톤을 인식하는 능력의 직접적인 원인이 되었다.13
성능과 접근성: GPT-4o는 텍스트와 코드에서 GPT-4 Turbo 수준의 성능을 달성하면서도, 다국어, 오디오, 비전 능력에서 새로운 기준을 제시했다. 결정적으로, API를 통해 50% 더 저렴하게 제공되어, 고급 옴니모달 기능을 더 쉽게 사용할 수 있도록 하는 전략을 시사한다.23 이러한 성능과 비용 효율성의 조합은 실시간 번역이나 고객 서비스와 같은 응용 분야에서 강력한 도구가 된다.13
아키텍처 철학: Llama 4는 Meta 최초로 네이티브 멀티모달로 설계된 모델 시리즈로, 두 가지 핵심 혁신인 초기 융합과 MoE 아키텍처를 활용한다.33
초기 융합 (Early Fusion): 이 접근법은 텍스트와 비전 토큰을 훈련 과정의 맨 처음부터 통합된 모델 백본에 매끄럽게 통합한다.33 이를 통해 방대한 양의 레이블 없는 텍스트, 이미지, 비디오 데이터에 대한 공동 사전 훈련이 가능해져, 세계에 대한 더 견고하고 통합된 표현을 생성할 수 있다.33 비전 인코더는 언어 모델의 잠재 공간에 최적화된 출력을 내도록 LLM과 함께 특별히 공동 훈련된다.33
전문가 혼합 (Mixture-of-Experts, MoE): Llama 4는 Meta 제품군 중 MoE를 사용한 첫 사례다. 이를 통해 모델은 Llama 4 Maverick의 경우 4,000억 개와 같은 막대한 총 파라미터 수를 가지면서도, 주어진 토큰에 대해 그중 일부(170억 개)만 활성화할 수 있다.33 이는 훈련과 추론을 훨씬 더 계산 효율적으로 만들어, Llama 4 Scout (총 1,090억 파라미터) 같은 모델이 단일 NVIDIA H100 GPU에서 실행될 수 있게 한다.33
경쟁적 위치: 네이티브 멀티모달과 MoE 효율성의 이러한 조합은 Llama 4를 GPT-4o나 Gemini와 같은 폐쇄형 소스 모델과 매우 경쟁력 있게 만들며, 특히 성능 대비 비용 비율과 오픈소스 커뮤니티에 대한 접근성 측면에서 강점을 보인다.24

이러한 선두 AI 연구소들의 움직임은, 비록 “네이티브 멀티모달”, “종단간 통합”, “초기 융합” 등 약간씩 다른 용어를 사용하지만, 모두 동일한 근본적인 아키텍처 해결책, 즉 다중 모달리티를 동시에 처리하기 위한 단일 통합 모델 백본으로 수렴하고 있음을 보여준다. 이는 기술 분야에서 나타나는 수렴 진화의 강력한 예시로, 서로 다른 경쟁자들이 공유된 근본적인 문제(파이프라인 시스템의 지연 시간 및 문맥 손실)에 대해 독립적으로 동일한 최적의 해결책에 도달했음을 나타낸다.

옴니모달 아키텍처의 개발은 특수 하드웨어의 개발과 불가분하게 연결되어 있다. 소프트웨어(모델 아키텍처)와 하드웨어(가속기)는 거대하고 분산된 모델의 효율적인 처리라는 동일한 문제를 해결하기 위해 함께 진화하고 있다.

Google의 TPU: Gemini와 같은 거대 모델의 훈련 및 서빙은 Google이 자체 제작한 텐서 처리 장치(TPU)에 크게 의존한다.44 Gemini는 수천 개의 칩으로 구성된 “슈퍼팟(SuperPods)”으로 조직된 대규모 TPUv4 및 TPUv5e 가속기 클러스터에서 훈련되었다.45 추론 중심 칩에서 맞춤형 고대역폭 상호 연결을 갖춘 전체 훈련용 슈퍼컴퓨터로의 TPU 진화는 이러한 모델을 확장하는 데 필수적이었다.47 Trillium 및 Ironwood와 같은 최신 세대는 Gemini 2.5와 같은 차세대 모델에 동력을 공급하며 상당한 성능 및 효율성 향상을 제공한다.47
NVIDIA의 GPU와 NVLink: NVIDIA의 Hopper(H100) 및 Blackwell(B200)과 같은 GPU 아키텍처는 Llama 4와 같은 대규모 MoE 모델을 훈련하고 배포하는 데 매우 중요하다.50 멀티 다이 설계와 FP4 정밀도를 지원하는 2세대 트랜스포머 엔진을 갖춘 Blackwell 아키텍처는 조 단위 파라미터 모델의 추론을 가속화하도록 특별히 설계되었다.50 MoE 모델을 위한 핵심 혁신은 고대역폭 NVLink 인터커넥트이다. GB200 NVL72 시스템은 최대 72개의 GPU를 단일 저지연 도메인에 연결할 수 있는데, 이는 MoE 모델의 전문가 병렬 처리(Expert Parallelism)에 필요한 강도 높은 ‘all-to-all’ 통신에 필수적이다.52 이는 분산된 MoE 추론의 성능을 저해할 수 있는 네트워크 병목 현상을 방지한다.

이처럼 모델 아키텍처가 새로운 하드웨어 수요를 창출하고, 새로운 하드웨어 기능이 훨씬 더 복잡한 모델 아키텍처를 가능하게 하는 긴밀한 피드백 루프가 존재한다. 하나를 이해하지 않고서는 다른 하나를 완전히 이해할 수 없다.

차원	Google Gemini	OpenAI GPT-4o	Meta Llama 4
아키텍처 접근법	“네이티브 멀티모달”로 처음부터 설계. 모든 모달리티를 위한 통합 트랜스포머 아키텍처.3	텍스트, 비전, 오디오를 위한 단일 종단간 통합 신경망.23	텍스트와 비전 토큰을 통합 백본으로 초기 융합하는 “네이티브 멀티모달” 방식.33
핵심 혁신	모든 계층에서의 깊은 교차 모달 어텐션. 인터리브된 데이터 처리. 후기 버전은 MoE 사용.3	다중 모델 파이프라인을 하나의 네트워크로 통합하여 지연 시간을 대폭 줄이고 감정 톤 인식을 가능하게 함.13	통합 표현을 위한 초기 융합과 계산 효율성을 위한 전문가 혼합(MoE)의 결합.33
하드웨어 의존성	대규모 훈련 및 서빙을 위해 Google의 맞춤형 TPU 인프라(TPUv4, v5p, Trillium)에 크게 의존.44	대규모 GPU 인프라에서 훈련 (세부 사항은 비공개지만, 대규모 NVIDIA 클러스터로 추정).	NVIDIA GPU(예: H100, Blackwell)에 최적화. MoE 아키텍처는 NVLink와 같은 고속 인터커넥트 시스템에 특히 적합.33
전략적 초점	완전한 스택 통합 및 과학적 벤치마크와 추론의 한계 확장.34	세련되고 지연 시간이 짧으며 매우 자연스러운 대화형 사용자 경험 제공.23	오픈소스 모델을 통해 접근성을 민주화하면서 높은 계산 효율성으로 경쟁력 있는 성능 달성.33

이 섹션에서는 단일 통합 옴니모달 모델을 훈련할 때 발생하는 중요하고 간단하지 않은 과제들을 탐구하며, 아키텍처를 넘어 데이터와 훈련 전략의 실제적인 측면을 다룬다.

옴니모달 모델 훈련의 핵심 과제 중 하나는 모달리티 균형(modal balancing)이다. 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티의 모든 가용 데이터를 단순히 혼합하여 단일 단계로 모델을 훈련시키는 것은 특정 벤치마크에서의 성능을 저하시킬 수 있다.53

이는 모달리티들이 매우 다른 통계적 속성, 데이터 분포, 그리고 과제 복잡성을 가지고 있기 때문에 발생한다. 순진한 혼합은 모델이 지배적이거나 학습하기 쉬운 모달리티에 편향되게 만들거나, 한 모달리티의 성능을 향상시키는 것이 다른 모달리티의 성능을 저하시키는 “파국적 망각(catastrophic forgetting)”을 유발할 수 있다.53

기존의 오픈소스 옴니모달 모델들은 종종 특화된 단일 모달리티 모델에 비해 성능이 뒤처지는데, 이는 지원되는 모든 작업에서 경쟁력 있고 균형 잡힌 성능을 달성하는 것이 얼마나 어려운지를 보여준다.53 이 격차는 현재의 훈련 방법론이 최적이 아님을 시사한다.

“Ola” 모델에 관한 연구 논문은 점진적 옴니모달 정렬(Progressive Omni-Modal Alignment)이라는 새로운 해결책을 제안한다.53 이 전략은 복잡한 옴니모달 훈련 과정을 더 작고 순차적인 단계로 분해한다. 이는 기계 학습에서 쉬운 과제부터 점차 어려운 과제로 모델을 훈련시키는 커리큘럼 학습(curriculum learning)의 한 형태로 볼 수 있다. 여기서 ‘난이도’는 모달리티 간의 개념적 거리로 정의된다.

1단계: 핵심 모달리티 훈련 (텍스트-이미지). 이 과정은 가장 기본적이고 데이터가 풍부한 정렬 과제인 텍스트와 이미지에 대한 강력한 기반 모델을 훈련하는 것으로 시작한다. 이는 시각-언어 이해를 위한 견고한 교차 모달 기반을 구축한다.53
2단계: 비디오로의 확장. 텍스트-이미지 모델을 기반으로 비디오 데이터를 도입한다. 이는 시각적 이해 능력을 확장하는 것으로 간주되며, 모델은 프레임 시퀀스를 처리하는 법을 학습한다. 원래 작업에 대한 성능 저하를 방지하기 위해 이미지 데이터가 함께 혼합된다.53
3단계: 오디오로의 연결. 마지막으로 오디오 관련 작업이 도입된다. 이 점진적 접근 방식은 모델이 모든 모달리티에 의해 압도당하지 않고 구조화된 방식으로 능력을 구축하도록 보장한다.53

점진적 정렬 전략의 핵심 통찰 중 하나는 시각과 청각 영역 사이의 자연스러운 다리로서 비디오를 사용하는 것이다.53

비디오는 본질적으로 동기화되고 상관관계가 높은 시각적 프레임과 오디오 트랙을 포함한다. 이 자연스러운 쌍은 모델이 사물이 어떻게 보이는지와 어떤 소리를 내는지를 연결하는 강력한 신호를 제공한다.53 비디오 데이터를 사용함으로써 모델은 시각적 사건과 해당 소리를 연관시키는 법을 배울 수 있으며, 이는 분리된 이미지 및 오디오 데이터셋으로부터 학습하기 훨씬 어려운 정렬이다. 이 접근법은 오디오와 비전 간의 강한 연결을 간과했던 이전 연구들의 중요한 간극을 메운다.53

지속적인 과제는 대규모의 고품질이며 잘 정렬된 옴니모달 데이터셋의 부족이다.55 인터넷상에 텍스트-이미지 쌍은 풍부하지만(CLIP과 같은 모델의 기반 11), 복잡한 추론 작업을 위해 비디오, 오디오, 텍스트 및 기타 모달리티를 깔끔하게 짝지은 데이터셋은 훨씬 구하기 어렵다.

이로 인해 옴니모달 능력을 제대로 평가하기 위한 새롭고 더 도전적인 벤치마크의 필요성이 대두되었다. 기존 벤치마크는 종종 한두 가지 모달리티에만 초점을 맞추거나 여러 모달리티 간의 깊은 시너지 효과를 테스트하지 못한다.56 OmniEval 및 WorldSense와 같은 새로운 벤치마크는 모델이 동적 시각, 청각 및 텍스트 신호를 동시에 통합하도록 요구함으로써 이 문제를 해결하기 위해 개발되고 있다.56

따라서 옴니모달 모델 개발의 미래는 아키텍처 혁신만큼이나 데이터 엔지니어링 및 벤치마크 설계에 달려있다고 할 수 있다. 차세대 주요 혁신은 완전히 새로운 아키텍처보다는, 시너지 추론에서 진정한 발전을 측정하고 유도할 수 있는 더 좋고 포괄적인 옴니모달 데이터셋과 더 도전적인 벤치마크를 만드는 데서 나올 가능성이 높다.

과제	설명	최신 완화 전략	관련 자료
모달리티 균형	모든 모달리티의 데이터를 순진하게 혼합하면 서로 다른 데이터 분포와 복잡성으로 인해 성능이 저하되고 불균형한 학습이 발생함.	점진적 옴니모달 정렬: 모달리티를 순차적으로 도입하는 단계적 훈련 파이프라인. 핵심 쌍(텍스트-이미지)으로 시작하여 다른 모달리티(비전-오디오)를 연결하기 위해 “다리” 모달리티(비디오)를 사용.	53
교차 모달 정렬	서로 다른 모달리티, 특히 자연스러운 쌍이 없는 모달리티(예: 임의의 이미지와 소리) 간에 의미 있는 연결을 설정하는 데 어려움.	“중심 다리”로서의 비디오 사용: 비디오의 시각적 프레임과 오디오의 자연스러운 동기화를 활용하여 시각과 청각 영역 간의 강력한 정렬 신호를 생성.	53
데이터 희소성 및 평가	여러 모달리티에 걸친 깊고 시너지적인 추론을 효과적으로 평가할 수 있는 대규모, 고품질의 진정한 옴니모달 데이터셋 및 벤치마크 부족.	새로운 벤치마크 개발(예: OmniEval, WorldSense) 및 데이터 합성 파이프라인을 통해 더 도전적이고 포괄적인 평가 과제와 훈련 데이터 생성.	56
추론 능력 부족	모델이 모든 모달리티가 제공하는 전역적 맥락을 완전히 이해하지 않고 질문에 답하는 “지름길” 행동을 보이거나, 다단계 추론에 어려움을 겪음.	문맥적 보상을 이용한 강화 학습(RL): 모델이 추론에 앞서 멀티모달 입력의 전역적 맥락을 먼저 요약하도록 훈련시키고, 정확한 맥락 이해와 논리적 추론 경로에 대해 RL을 통해 보상.	55

이 섹션에서는 현재의 ‘옴니’(텍스트, 이미지, 오디오, 비디오) 정의가 하나의 디딤돌에 불과하며, 진정한 비전은 물리적 세계와 상호작용하는 감각을 포함하여 모든 감각을 통해 세상을 인식하는 AI임을 주장한다.

촉각의 필요성: 시각과 청각만으로는 많은 실제 세계의 작업을 수행하기에 불충분하며, 특히 물체가 가려지는 로봇 조작에서는 더욱 그렇다.58 촉각 센서는 시각이 포착할 수 없는 접촉력, 질감, 모양, 미끄러짐에 대한 중요한 정보를 제공한다.60
시각 기반 촉각 센서(VBTS)의 작동 원리: GelSight와 같은 기술은 카메라를 사용하여 부드러운 젤과 같은 표면이 물체와 접촉할 때의 변형을 관찰한다.62
- 투명한 엘라스토머 조각이 반사막으로 코팅되어 있다.65
- 물체에 눌리면 막이 물체 표면의 지형에 맞춰 변형된다.65
- 내부 LED가 여러 각도에서 변형된 표면을 비추고, 카메라가 그 결과 이미지를 기록한다.59
- 광도 스테레오(photometric stereo)와 같은 컴퓨터 비전 기술을 사용하여, 시스템은 마이크론 수준의 디테일을 가진 접촉 표면의 고해상도 3D 맵을 재구성한다.65
AI를 위한 새로운 능력: GelSight와 같은 센서를 통합하면 옴니모달 에이전트에게 초인적인 촉각을 부여할 수 있다.68 재료를 식별하고, 미세한 결함을 감지하며, 제조 과정에서 고정 장치의 평탄도를 측정하거나, 법의학을 위해 사용된 총알 케이스의 고유한 표시를 분석할 수도 있다.66 로봇에게 이는 섬세한 조작, 안정적인 잡기, 깨지기 쉽거나 미끄러운 물체를 다루는 능력을 가능하게 한다.58
후각의 필요성: 냄새는 오염, 부패 또는 유해 물질을 감지하는 데 사용되는 물리적 세계와 상호작용하기 위한 또 다른 중요한 감각이다.70
전자 코 기술의 작동 원리: 전자 코는 공기 중의 휘발성 유기 화합물(VOC)에 반응하는 화학 가스 센서 배열을 사용한다. 각 센서는 부분적인 선택성을 가지며, 배열의 조합된 반응은 주어진 냄새에 대한 고유한 “지문”을 생성한다.71
AI 기반 해석: 기계 학습 및 AI 알고리즘은 이러한 복잡한 센서 지문을 해석하는 데 필수적이다. 패턴 인식 기술(예: KNN, ANN)은 냄새를 분류하고 농도를 추정하는 데 사용된다.71
AI를 위한 새로운 능력: 전자 코가 장착된 옴니모달 에이전트는 현재의 모달리티로는 불가능한 작업을 수행할 수 있다. 공기 질을 모니터링하고, 가스 누출을 감지하며, 호흡 분석으로 질병을 진단하거나, 식품의 신선도를 평가할 수 있다.70 이는 에이전트를 디지털 정보 처리기에서 물리적 환경 감시자로 변화시킨다.

DeepMind의 데미스 하사비스와 같은 리더들이 명시한 궁극적인 목표는, 문맥을 이해하고 계획하며 행동하기 위해 실제 세계의 측면을 시뮬레이션할 수 있는 AI인 “월드 모델(world model)”을 개발하는 것이다.31

촉각 및 후각 데이터의 통합은 이 비전을 향한 중요한 단계이다. 이는 AI의 이해를 추상적인 디지털 정보뿐만 아니라 세계의 물리적 속성에 기반하게 한다. 시각, 청각, 촉각, 후각 데이터를 결합할 수 있는 AI는 환경에 대한 훨씬 더 상세하고 견고한 그림을 구축하여 더 나은 예측과 더 지능적인 결정을 내릴 수 있다.76 이러한 감각의 조합은 단순한 인식을 넘어 합성 인지(synthetic cognition)의 한 형태로 나아간다.

이러한 물리적 감각의 통합은 AI 추론의 본질을 근본적으로 변화시킬 잠재력을 가진다. 현재의 옴니모달 모델은 방대한 데이터셋에서 추상적인 상관관계를 학습한다. 유리가 떨어지면 깨질 가능성이 높다는 것을 아는 이유는 비디오와 텍스트에서 수많은 사례를 보았기 때문이지, 중력이나 취약성 같은 물리 법칙을 이해해서가 아니다. 촉각 센서는 힘, 압력, 재료 속성(경도, 질감)에 대한 직접적인 정보를 제공하고, 전자 코는 화학적 구성에 대한 정보를 제공한다. 이러한 감각을 갖춘 AI는 물리 법칙에 기반한 세계 모델을 구축하기 시작할 수 있다. 특정 힘(촉각)을 취성 재료(촉각)에 가하면 파괴된다는 것을 학습할 수 있다. 이는 모델의 “추론”을 “데이터에서 보통 일어나는 일”에서 “내가 감지하는 물리적 속성에 기반하여 일어날 일“로 전환시킨다. 이것은 진정한 세계 모델링과 범용 인공지능(AGI)을 향한 기념비적인 도약이다.

이 마지막 섹션에서는 옴니모달 AI의 심오한 영향을 분석하고, 기술적 역량을 자율 에이전트의 출현과 그로 인한 경제적, 안전 및 거버넌스 과제와 연결한다.

옴니모달 AI가 제공하는 실시간, 문맥 인식, 멀티모달 인식 및 상호작용 능력은 에이전트 AI(agentic AI)의 기본 요구 사항이다.31 AI 에이전트는 모델 그 이상으로, 환경을 인식하고, 목표를 설정하며, 계획을 세우고, 목표 달성을 위해 행동을 실행하는 자율 시스템이다.78 Google의 Project Astra는 이러한 비전의 대표적인 예로, 사용자가 보는 것을 보고, 과거의 상호작용을 기억하며, 앱을 탐색하여 문제를 해결하는 등 사용자를 대신하여 행동할 수 있는 에이전트다.30 이러한 에이전트들은 Gemini나 Llama 4와 같은 옴니모달 모델을 기반으로, LlamaIndex나 LangGraph와 같은 프레임워크를 사용하여 여러 전문 에이전트나 도구 간의 워크플로우를 조율함으로써 구축되고 있다.81

막대한 투자에도 불구하고, 약 80%의 기업이 생성형 AI로부터 실질적인 수익을 보고하지 못하고 있는데, 맥킨지는 이를 “생성형 AI 역설(gen AI paradox)”이라고 부른다.78 이는 AI가 기존 워크플로우를 근본적으로 재설계하는 데 사용되기보다는 단순한 도구로 “덧붙여졌기” 때문이다.85

옴니모달 모델에 의해 구동되는 에이전트 AI는 이 역설을 해결하는 열쇠다. 전체 워크플로우를 자동화하고 가속화함으로써 에이전트는 전 세계적으로 2.6조에서 4.4조 달러에 이르는 변혁적인 가치를 창출할 수 있다.78 이는 AI의 역할을 수동적인 도구에서 능동적인 “기업 시민(corporate citizen)”으로 변화시킨다. 즉, 인간 직원처럼 측정 가능한 가치를 제공하는 책임감 있고 관리되는 자산이 되는 것이다.88 이를 위해서는 AI 에이전트에 대한 명확한 역할 정의, 성과 지표, 비용 구조 등 새로운 관리 접근 방식이 필요하다.88

AI 에이전트의 자율성은 사이버 공격, 데이터 유출, 편견 증폭 등 심각한 위험을 초래한다.79 이는 견고한 안전 및 거버넌스 프레임워크를 필요로 한다.

AI 가드레일 (AI Guardrails): 이는 AI의 출력을 실시간으로 모니터링, 필터링 및 수정하도록 설계된 기술적 안전 장치다. 네 가지 주요 구성 요소로 이루어져 있다 90:
- 검사기 (Checker): 유해성, 편견, 사실 오류 등의 문제를 스캔한다.
- 교정기 (Corrector): 문제 있는 콘텐츠를 수정하거나 제거한다.
- 레일 (Rail): 검사기와 교정기 간의 상호작용을 관리한다.
- 가드 (Guard): 전체 가드레일 시스템을 조정하고 관리한다.
레드팀 (Red Teaming): 이는 AI 시스템이 악용되기 전에 취약점을 발견하기 위한 체계적인 적대적 공격 실행이다.91 멀티모달 모델의 경우, 공격이 모든 모달리티를 통해 이루어질 수 있기 때문에(예: 이미지 내에 유해한 텍스트 프롬프트 숨기기) 특히 복잡하다.93 레드팀은 에이전트 시스템의 위험 표면을 이해하기 위한 중요한 모범 사례다.91
거버넌스 프레임워크: 자율 에이전트의 등장은 시급한 법적, 정책적 과제를 야기한다. 스탠포드 법학대학원과 같은 기관들은 에이전트 시대의 책임, 개인정보보호, 지적 재산권, 시민권 문제를 다루는 AI 거버넌스에 초점을 맞춘 교육 과정과 연구 프로그램을 개발하고 있다.96

옴니모달 아키텍처에서 시작된 기술적 발전은 에이전트 AI의 기능적 출현을 가능하게 하고, 이는 경제적 가치 창출이라는 거대한 기회를 열어주지만, 동시에 심각한 사회적 및 거버넌스 위기를 초래한다.

경제적 재편: 에이전트 AI는 경제를 재편할 것이다. 인간의 능력을 증강시키고 새로운 일자리를 창출할 수도 있지만(예: 자동 조종 장치 이후의 조종사), 노동을 자동화하고 대체하여 부의 집중을 심화시키고 노동자의 교섭력을 약화시킬 수도 있다.99
사회적 상호작용: 일상적인 커뮤니케이션에서 AI를 사용하는 것은 긍정적인 사회적 효과(소통 속도 증가, 협력적으로 인식됨)와 부정적인 사회적 효과(AI 사용이 감지될 경우 부정적 평가)를 모두 가질 수 있다.100
신뢰와 편견: AI 의사 결정의 불투명성은 대중의 신뢰를 침식한다. 데이터와 모델에 내재된 편견은 대출 신청이나 형사 사법과 같은 분야에서 기존의 사회적 불평등을 영속시키고 심화시킬 수 있다.101 투명성과 공정성을 보장하는 것이 가장 중요한 사회적 과제이다.

이러한 발전 속에서 개방성과 안전성 사이의 중요한 긴장 관계가 드러난다. Meta의 Llama 4와 같은 모델은 오픈소스 특성으로 혁신과 접근성을 촉진하지만 39, 바로 그 개방성 때문에 레드팀과 취약점 발견의 주요 대상이 된다. 또한, 외부 정보(예: 웹)에 대한 접근 권한을 에이전트에게 부여하면 안전 정렬이 체계적으로 저하되어 더 편향되거나 유해해질 수 있다는 연구 결과도 있다.104 이는 미래의 거버넌스 프레임워크가 혁신을 장려하는 것과 통제 가능하고 안전한 배포를 보장하는 것 사이의 어려운 균형을 맞춰야 함을 시사한다.

본 보고서는 멀티모달에서 옴니모달 AI로의 전환이 단순한 점진적 업데이트가 아닌, 근본적인 아키텍처 혁명임을 논증했다. 핵심적인 차이는 여러 모듈을 파이프라인으로 연결하던 방식에서 벗어나, 모든 데이터 유형을 단일 통합 신경망 내에서 네이티브하게 처리하는 것으로의 전환에 있다.

이러한 구조적 변화는 AI가 실시간으로 미묘한 뉘앙스를 이해하고, 인간과 유사한 속도로 대화하며, 대화 중에 개입할 수 있는 능력을 부여했다. 이는 결과적으로 AI가 수동적인 정보 처리 도구에서 벗어나, 환경을 인식하고 자율적으로 행동하는 에이전트 AI의 출현을 가능하게 한 기술적 토대가 되었다.

그러나 이 새로운 패러다임은 해결해야 할 중대한 과제들을 함께 제시한다. 훈련 방법론의 혁신(예: 점진적 정렬), 고품질 옴니모달 데이터셋의 구축, 그리고 자율 에이전트의 행동을 통제하고 감독할 강력한 안전 및 거버넌스 프레임워크의 개발이 시급하다. 또한, ‘옴니’의 정의는 현재의 시청각 정보를 넘어, 촉각이나 후각과 같은 물리적 감각을 포함하는 방향으로 계속 확장될 것이며, 이는 AI를 실제 세계에 더욱 깊이 뿌리내리게 할 것이다.

결론적으로, 옴니모달 AI의 발전은 인공지능이 더 이상 단순한 정보 처리 도구가 아니라, 우리 세계의 능동적인 참여자로 변모하기 시작하는 전환점을 의미한다. 이 전환을 안전하고 공평하게 관리하는 것이 우리 시대의 핵심적인 기술적, 사회적 과제가 될 것이다.

멀티모달(Multi Modal)AI와 기존 인공지능의 차이점 - 클루닉스, accessed July 13, 2025, https://www.clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=824
멀티모달 AI란 무엇인가 + 멀티모달 AI의 사용 사례 - Skim AI, accessed July 13, 2025, https://skimai.com/ko/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-ai%EC%9D%98-%EC%82%AC%EC%9A%A9-%EC%82%AC%EB%A1%80%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80%EC%9A%94/
The Power of Multimodal AI and Insights from Google’s Gemini …, accessed July 13, 2025, https://galileo.ai/blog/unlocking-multimodal-ai-google-gemini

인간처럼 사고하는 멀티모달 Multi Modal AI란?

인사이트리포트

삼성SDS, accessed July 13, 2025, https://www.samsungsds.com/kr/insights/multi-modal-ai.html

[SP TECH COLUMN] AI를 더 인간처럼 만드는 기술 ‘멀티모달 AI’ - LG사이언스파크, accessed July 13, 2025, https://www.lgsciencepark.com/KR/video_detail.php?page=&idx=244&media_type=2
Unimodal vs. Multimodal AI: Key Differences Explained - Index.dev, accessed July 13, 2025, https://www.index.dev/blog/comparing-unimodal-vs-multimodal-models
[3분 IT 인사이트] 멀티 모달 AI란 과연 무엇인가? 챗GPT와 생성형 AI의 핵심개념 멀티모달과 LLM 소개 생성형 인공지능 원리 강의 - YouTube, accessed July 13, 2025, https://www.youtube.com/watch?v=bTSLDTI-Oh0&pp=0gcJCfwAo7VqN5tD
언어와 비전 데이터를 함께 학습하는 멀티모달 AI에 대하여, accessed July 13, 2025, https://blog-ko.superb-ai.com/about-multimodal-ai-that-learns-language-and-vision-data-together/
멀티모달 AI란 무엇인가요? - IBM, accessed July 13, 2025, https://www.ibm.com/kr-ko/think/topics/multimodal-ai
멀티모달 모델 - 나무위키, accessed July 13, 2025, https://namu.wiki/w/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC%20%EB%AA%A8%EB%8D%B8
A Comprehensive Guide to OpenAI’s CLIP Model - TiDB, accessed July 13, 2025, https://www.pingcap.com/article/a-comprehensive-guide-to-openais-clip-model/
CLIP: Connecting text and images OpenAI, accessed July 13, 2025, https://openai.com/index/clip/
What Is GPT-4o? IBM, accessed July 13, 2025, https://www.ibm.com/think/topics/gpt-4o
GPT-4o Guide: How it Works, Use Cases, Pricing, Benchmarks DataCamp, accessed July 13, 2025, https://www.datacamp.com/blog/what-is-gpt-4o
GPT4o와 GPT4 비교해 보니/// `사람 대 AI의 근본적인 접근 방식 바꿔 …, accessed July 13, 2025, https://www.donga.com/news/It/article/all/20240521/125038885/1
GPT-4o, omni와 multi의 차이 - 브런치, accessed July 13, 2025, https://brunch.co.kr/@iotstlabs/347
Qwen2.5 Omni: 멀티모달 AI 파워하우스 - Alibaba Cloud Community, accessed July 13, 2025, https://www.alibabacloud.com/blog/qwen2-5-omni-%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-ai-%ED%8C%8C%EC%9B%8C%ED%95%98%EC%9A%B0%EC%8A%A4_602191
멀티모달 혁명, GPT-4o가 만들어갈 미래 - 브런치, accessed July 13, 2025, https://brunch.co.kr/@aichaemun/118
Omnimodal AI: a game-changer for customer relations - Hello Future, accessed July 13, 2025, https://hellofuture.orange.com/en/omnimodal-ai-a-game-changer-for-customer-relations/
The Rise of Multimodal AI: From GPT-3 to GPT-4o and Beyond - mroads, accessed July 13, 2025, https://www.mroads.com/blog/the-rise-of-multimodal-AI
Omnimodal AI - Hello Future - Orange, accessed July 13, 2025, https://hellofuture.orange.com/en/omnimodal-ai/

The future is omni modal: Project Astra and GPT-4o

by Edyta Wrobel

Medium, accessed July 13, 2025, https://medium.com/@wrobeledyta.ew/the-future-is-omni-modal-googles-project-astra-and-gpt-4o-07e6bac2a216

Hello GPT-4o - OpenAI, accessed July 13, 2025, https://openai.com/index/hello-gpt-4o/
Llama 4 vs. GPT-4o: A Detailed Comparison - ResearchFlow, accessed July 13, 2025, https://rflow.ai/researches/llama-4-vs-gpt-4o-a-detailed-comparison
What is Google Gemini? IBM, accessed July 13, 2025, https://www.ibm.com/think/topics/google-gemini
Unlocking Gemini: A Deep Dive into Google’s Multimodal AI - Medium, accessed July 13, 2025, https://medium.com/@karuppasamypandiand/unlocking-gemini-a-deep-dive-into-googles-multimodal-ai-c86317110b91
인간처럼 ‘보고 듣고 말하고’를 한번에… 오픈AI, 옴니모델 GPT-4o 출시 - 더밀크, accessed July 13, 2025, https://www.themiilk.com/articles/abf37b793
GPT-4o and Emotion Recognition Dramatically Changes AI Human Interaction, accessed July 13, 2025, https://www.intelligentliving.co/gpt-4o-emotion-recognition-ai-human/
GPT-4o Breakdown of ChatGPT’s Newest Model - KPItarget, accessed July 13, 2025, https://www.kpitarget.com/chatgpts-newest-model/
Project Astra - Google DeepMind, accessed July 13, 2025, https://deepmind.google/models/project-astra/
Our vision for building a universal AI assistant - Google Blog, accessed July 13, 2025, https://blog.google/technology/google-deepmind/gemini-universal-ai-assistant/
인공지능의 미래: 오픈AI와 구글의 AI 경쟁 속에서 펼쳐지는 혁신의 서사 - Goover, accessed July 13, 2025, https://seo.goover.ai/report/202503/go-public-report-ko-18850c1b-1309-4207-832b-22a8251cfabc-0-0.html
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation - Meta AI, accessed July 13, 2025, https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Google Launches Gemini, Its New Multimodal AI Model - Encord, accessed July 13, 2025, https://encord.com/blog/gemini-google-ai-model/
Google’s Multimodal AI Gemini - A Technical Deep Dive - Unite.AI, accessed July 13, 2025, https://www.unite.ai/googles-multimodal-ai-gemini-a-technical-deep-dive/
SEAL LLM Leaderboards: Expert-Driven Private Evaluations - Scale AI, accessed July 13, 2025, https://scale.com/leaderboard

Gemini AI Explained: A Deep Dive Into Google’s Multimodal Assistant

Extremetech, accessed July 13, 2025, https://www.extremetech.com/computing/gemini-ai-explained-a-deep-dive-into-googles-multimodal-assistant

Unpacking Meta’s Llama 4: Revolutionary Native Multimodality and …, accessed July 13, 2025, https://pub.towardsai.net/unpacking-metas-llama-4-revolutionary-native-multimodality-and-groundbreaking-architecture-59b01d592ff4
Llama 4: Meta’s first natively multimodal mixture-of-experts (MoE) architecture models, accessed July 13, 2025, https://dataphoenix.info/llama-4-metas-first-natively-multimodal-mixture-of-experts-moe-architecture-models/
Inside Llama 4: How Meta’s New Open-Source AI Crushes GPT-4o and Gemini - Devansh, accessed July 13, 2025, https://machine-learning-made-simple.medium.com/inside-llama-4-how-metas-new-open-source-ai-crushes-gpt-4o-and-gemini-e3265f914599
Meta Llama - Hugging Face, accessed July 13, 2025, https://huggingface.co/meta-llama

Llama 4 Technical Analysis: Decoding the Architecture Behind Meta’s Multimodal MoE Revolution

by Karan_bhutani

Medium, accessed July 13, 2025, https://medium.com/@karanbhutani477/llama-4-technical-analysis-decoding-the-architecture-behind-metas-multimodal-moe-revolution-535b2775d07d

Llama 4 Review: Real-World Use vs. Meta’s Hype - Monica, accessed July 13, 2025, https://monica.im/blog/llama-4/
How Google Cloud is bringing Gemini to organizations everywhere, accessed July 13, 2025, https://cloud.google.com/blog/products/ai-machine-learning/bringing-gemini-to-organizations-everywhere
Gemini: A Family of Highly Capable Multimodal Models - Googleapis.com, accessed July 13, 2025, https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Gemini: A Family of Highly Capable Multimodal Models - arXiv, accessed July 13, 2025, http://arxiv.org/pdf/2312.11805
TPU transformation: A look back at 10 years of our AI-specialized …, accessed July 13, 2025, https://cloud.google.com/transform/ai-specialized-chips-tpu-history-gen-ai
TPUs powered 100% of Gemini 2.0 training and inference… : r/AMD_Stock - Reddit, accessed July 13, 2025, https://www.reddit.com/r/AMD_Stock/comments/1hctgkh/tpus_powered_100_of_gemini_20_training_and/

Google Cloud Next 2025: Gemini & agentic AI updates, new TPUs

Capacity Media, accessed July 13, 2025, https://www.capacitymedia.com/article/google-cloud-next-2025-gemini-agentic-ai-updates-new-tpus

NVIDIA Blackwell GPU architecture: Unleashing next‑gen AI performance

genai-research, accessed July 13, 2025, https://wandb.ai/onlineinference/genai-research/reports/NVIDIA-Blackwell-GPU-architecture-Unleashing-next-gen-AI-performance–VmlldzoxMjgwODI4Mw

Scaling and Optimizing Large MoE Models GP1132

GTC Paris 2025

NVIDIA On-Demand, accessed July 13, 2025, https://www.nvidia.com/en-us/on-demand/session/gtcparis25-gp1132/

How NVIDIA GB200 NVL72 and NVIDIA Dynamo Boost Inference …, accessed July 13, 2025, https://developer.nvidia.com/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment - arXiv, accessed July 13, 2025, https://arxiv.org/html/2502.04328v2
Ola: Pushing the Frontiers of Omni-Modal Language Model - arXiv, accessed July 13, 2025, https://arxiv.org/pdf/2502.04328?
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context - arXiv, accessed July 13, 2025, https://arxiv.org/html/2506.21277v1
OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs - arXiv, accessed July 13, 2025, https://arxiv.org/html/2506.20960v1
WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs - arXiv, accessed July 13, 2025, https://arxiv.org/html/2502.04326v2
[2112.14119] Robotic Perception of Object Properties using Tactile Sensing - arXiv, accessed July 13, 2025, https://arxiv.org/abs/2112.14119
GelSight Wedge: Measuring High-Resolution 3D Contact Geometry with a Compact Robot Finger - MIT, accessed July 13, 2025, https://gelsight.csail.mit.edu/wedge/ICRA2021_Wedge.pdf
Tactile Sensing in Robots: An Introduction - AZoSensors, accessed July 13, 2025, https://www.azosensors.com/article.aspx?ArticleID=32
A Review of Tactile Information: Perception and Action Through Touch, accessed July 13, 2025, https://www.ri.cmu.edu/app/uploads/2021/08/LiTRo2020.pdf

A modularized design approach for GelSight family of vision-based tactile sensors

Request PDF - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/publication/392070821_A_modularized_design_approach_for_GelSight_family_of_vision-based_tactile_sensors

The MCube Lab - Vision-Based Tactile Sensing - MIT, accessed July 13, 2025, http://mcube.mit.edu/research/gelslim.html

Tactile Measurement with a GelSight Sensor Wenzhen Yuan - People

MIT CSAIL, accessed July 13, 2025, https://people.csail.mit.edu/yuan_wz/GelSight1/Wenzhen_Thesis_final.pdf

The working principle of GelSight sensor [4]

Download Scientific Diagram - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/figure/The-working-principle-of-GelSight-sensor-4_fig21_280774265

Sensing Surfaces with GelSight - YouTube, accessed July 13, 2025, https://www.youtube.com/watch?v=S7gXih4XS7A
Tactile Robotics Tactile Sensing Digital Touch - GelSight, accessed July 13, 2025, https://www.gelsight.com/products/
GelSight Mini, accessed July 13, 2025, https://www.gelsight.com/wp-content/uploads/2022/09/GelSight_Datasheet_GSMini_9.20.22b.pdf
Tactile Sensing Technology Who We Serve - GelSight, accessed July 13, 2025, https://www.gelsight.com/tactile-sensing-industries-applications/
(PDF) Review of Electronic-Nose Technologies and Algorithms to Detect Hazardous Chemicals in the Environment - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/publication/235798049_Review_of_Electronic-Nose_Technologies_and_Algorithms_to_Detect_Hazardous_Chemicals_in_the_Environment
A Study on E-Nose System in Terms of the Learning Efficiency and Accuracy of Boosting Approaches - MDPI, accessed July 13, 2025, https://www.mdpi.com/1424-8220/24/1/302
Analyzing a Review of Methods and Algorithms Using Electronic Noses - AZoSensors, accessed July 13, 2025, https://www.azosensors.com/news.aspx?newsID=15434
Odors Detection and Recognition Based on Intelligent E-Nose, accessed July 13, 2025, https://journal.esrgroups.org/jes/article/view/864
Recent Progress in Smart Electronic Nose Technologies Enabled with Machine Learning Methods - PMC, accessed July 13, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8619411/
Advances in Electronic-Nose Technologies Developed for Biomedical Applications - PMC, accessed July 13, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC3274093/
Omnimodal AI: Why tomorrow’s AI will have all five senses - Pluralsight, accessed July 13, 2025, https://www.pluralsight.com/resources/blog/ai-and-data/omnimodal-ai
Project Astra: The Deep Tech Behind Google’s Real-Time AI Agent …, accessed July 13, 2025, https://medium.com/@back2om/project-astra-the-deep-tech-behind-googles-real-time-ai-agent-34098516d355

GenAI paradox: exploring AI use cases

McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/quantumblack/our-insights/seizing-the-agentic-ai-advantage

Challenges in Governing AI Agents - Lawfare, accessed July 13, 2025, https://www.lawfaremedia.org/article/challenges-in-governing-ai-agents
The latest Project Astra demo is even more impressive than the first - Android Police, accessed July 13, 2025, https://www.androidpolice.com/project-astra-demo-2025/
Building agents with Google Gemini and open source frameworks, accessed July 13, 2025, https://developers.googleblog.com/en/building-agents-google-gemini-open-source-frameworks/

Build multimodal agents using Gemini, Langchain, and LangGraph

Google Cloud Blog, accessed July 13, 2025, https://cloud.google.com/blog/products/ai-machine-learning/build-multimodal-agents-using-gemini-langchain-and-langgraph

Introducing AgentWorkflow: A Powerful System for Building AI Agent Systems - LlamaIndex, accessed July 13, 2025, https://www.llamaindex.ai/blog/introducing-agentworkflow-a-powerful-system-for-building-ai-agent-systems
Creating agentic workflows in LlamaIndex - Hugging Face Agents Course, accessed July 13, 2025, https://huggingface.co/learn/agents-course/unit2/llama-index/workflows

Seizing the Agentic AI Advantage

McKinsey - BrianHeger.com, accessed July 13, 2025, https://www.brianheger.com/seizing-the-agentic-ai-advantage-mckinsey/

The state of AI: How organizations are rewiring to capture value - McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
AI in the workplace: A report for 2025 - McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/superagency-in-the-workplace-empowering-people-to-unlock-ais-full-potential-at-work
When can AI make good decisions? The rise of AI corporate citizens - McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/operations/our-insights/when-can-ai-make-good-decisions-the-rise-of-ai-corporate-citizens
Building Safe AI Agents: Balancing Autonomy and Safety - Sia-partners.com, accessed July 13, 2025, https://www.sia-partners.com/en/insights/publications/building-safe-ai-agents-balancing-autonomy-and-safety

What are AI guardrails?

McKinsey, accessed July 13, 2025, https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-are-ai-guardrails

Planning red teaming for large language models (LLMs) and their …, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/red-teaming

Red-Teaming Generative AI: Managing Operational Risk

by Adnan Masood, PhD., accessed July 13, 2025, https://medium.com/@adnanmasood/red-teaming-generative-ai-managing-operational-risk-ff1862931844

[2401.12915] Red Teaming Visual Language Models - arXiv, accessed July 13, 2025, https://arxiv.org/abs/2401.12915

Continuous Multimodal Red Teaming for AI Safety and Reliability

Enkrypt AI, accessed July 13, 2025, https://www.enkryptai.com/blog/an-intro-to-multimodal-red-teaming-nuances-from-llm-red-teaming

Red Teaming for Multimodal Large Language Models: A Survey - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/publication/377740466_Red_Teaming_for_Multimodal_Large_Language_Models_A_Survey
LAW 4052: Governing Artificial Intelligence - Explore Courses - Stanford University, accessed July 13, 2025, https://explorecourses.stanford.edu/search?q=LAW4052
Governing Artificial Intelligence: Law, Policy, and Institutions, accessed July 13, 2025, https://law.stanford.edu/courses/governing-artificial-intelligence-law-policy-and-institutions/
Artificial Intelligence Governance and Law - Stanford Law School, accessed July 13, 2025, https://law.stanford.edu/areas_of_interest/artificial-intelligence/
The Turing Trap: The Promise & Peril of Human-Like Artificial Intelligence, accessed July 13, 2025, https://digitaleconomy.stanford.edu/news/the-turing-trap-the-promise-peril-of-human-like-artificial-intelligence/
Artificial intelligence in communication impacts language and social relationships, accessed July 13, 2025, https://sml.stanford.edu/publications/hancock-jt/artificial-intelligence-communication-impacts-language-and-social
Making AI more explainable to protect the public from individual and community harms, accessed July 13, 2025, https://www.brookings.edu/articles/making-ai-more-explainable-to-protect-the-public-from-individual-and-community-harms/
AI Policy, Now and in the Future (Annotated), accessed July 13, 2025, https://ai100.stanford.edu/2016-report/section-iii-prospects-and-recommendations-public-policy/ai-policy-now-and-future/with-2021-annotations
LLaMA 4 vs Gemini 2.5: Comparing AI Titans in 2025 - Redblink, accessed July 13, 2025, https://redblink.com/llama-4-vs-gemini-2-5/
Safety Devolution in AI Agents - arXiv, accessed July 13, 2025, https://arxiv.org/html/2505.14215v1
Ming-Omni: A Unified Multimodal Model for Perception and Generation - arXiv, accessed July 13, 2025, https://arxiv.org/html/2506.09344v1

Thinking Machines: How Multimodal Reasoning AI Will Transform Enterprise Decision-Making

by Adnan Masood, PhD.

Medium, accessed July 13, 2025, https://medium.com/@adnanmasood/thinking-machines-how-multimodal-reasoning-ai-will-transform-enterprise-decision-making-fc43f9658b58

Improving Situated Conversational Agents with Step-by-Step Multi-modal Logic Reasoning, accessed July 13, 2025, https://aclanthology.org/2023.dstc-1.3/