Booil Jung

멀티모달에서 옴니모달까지 전략적 분석

인공지능(AI) 분야에서 멀티모달(multimodal)에서 옴니모달(omnimodal)로의 전환은 점진적 개선이 아닌, 근본적인 아키텍처 및 철학적 변화를 의미한다. 이 변화의 핵심은 여러 데이터 유형을 모듈화된 파이프라인 방식으로 처리하던 ‘멀티(multi)’ 접근법에서, 모든 데이터를 단일 통합 모델 내에서 네이티브하게 종단간(end-to-end)으로 처리하는 ‘옴니(omni)’ 접근법으로의 전환에 있다. OpenAI의 GPT-4o, Google의 Gemini, Meta의 Llama 4와 같은 프론티어 모델들이 보여주듯이, 이러한 아키텍처의 도약은 실시간 인간과 유사한 대화형 AI와 점차 자율적인 에이전트 시스템의 등장을 이끄는 핵심 동력이다. 새로운 패러다임은 이전 모델들의 지연 시간(latency) 및 문맥 손실 문제를 해결하지만, 동시에 훈련(예: 모달리티 균형), 안전성(예: 자율 에이전트 거버넌스), 그리고 특수 하드웨어의 동반 진화와 같은 중대한 새로운 과제를 제기한다. 본 보고서는 이러한 전환 과정에 대한 기술적 기반부터 심오한 경제적, 사회적 영향에 이르기까지 포괄적인 분석을 제공한다.

이 섹션에서는 멀티모달 AI의 핵심 개념, 아키텍처, 그리고 궁극적으로 옴니모달 패러다임의 등장을 촉발한 내재적 기술 과제들을 정의하여, 논의의 기초를 확립한다.

멀티모달 AI는 텍스트, 이미지, 오디오, 비디오와 같은 여러 유형의 데이터, 즉 ‘모달리티(modality)’로부터 정보를 처리하고 통합할 수 있는 AI로 정의된다.1 이 접근법은 인간이 다양한 감각을 통해 세상을 인식하는 방식을 명시적으로 모방하여, AI가 단일 모달리티 시스템보다 더 총체적인 이해를 형성하도록 설계되었다.1

초기 AI 모델은 대부분 단일 모달(unimodal)로, 하나의 데이터 유형에 특화되어 있었다(예: 대규모 언어 모델(LLM)은 텍스트, 합성곱 신경망(CNN)은 이미지).5 이러한 모델들은 단어와 그 단어가 지칭하는 시각적 실체 간의 관계를 이해할 수 없었다.1 멀티모달리티는 이러한 간극을 메우기 위해 개발되었으며, 이미지로부터 텍스트 설명을 생성(이미지 캡셔닝)하거나 시각적 입력에 대한 텍스트 기반 질문에 답하는(시각적 질의응답 - VQA) 등의 응용을 가능하게 했다.1

핵심 가치는 여러 모달리티를 결합함으로써 더 의미 있는 결과물을 산출하고, 문맥을 풍부하게 하며, 모호성을 줄이는 데 있다.3 예를 들어, 의료 진단 분야에서는 의료 이미지와 텍스트로 된 환자 기록을 결합하여 더 정확한 진단을 내릴 수 있다.3

멀티모달 AI의 핵심적인 아키텍처 과제는 서로 다른 모달리티의 정보를 결합하는 과정인 ‘융합(fusion)’이다. 주요 전략은 다음과 같이 분류된다.10

IBM이 인용한 카네기 멜런 대학의 2022년 논문은 멀티모달 연구 분야를 정의하는 핵심 과제들을 개괄한다.9 이 과제들은 단순히 기술적인 문제를 넘어, 데이터 유형 간의 근본적인 차이에서 비롯된 개념적 문제들이다.

  1. 표현 (Representation): 서로 다른 모달리티의 데이터를 고유한 속성(이질성)과 상호 연관성(상호 연결성)을 모두 포착하는 방식으로 표현하고 요약하는 방법이다. 이는 종종 이미지용 CNN이나 텍스트용 트랜스포머와 같은 특수 신경망을 사용하여 특징을 추출한 다음, 이를 공유 임베딩 공간으로 투영하는 방식을 포함한다.9
  2. 정렬 (Alignment): 서로 다른 모달리티의 요소들 간 직접적인 연결을 식별하는 방법이다. 비디오와 오디오 데이터의 시간적 정렬이나, 이미지와 텍스트 설명 간의 공간적 정렬이 이에 해당한다.9 OpenAI의 CLIP 모델은 대조 학습(contrastive learning)을 통해 정렬 문제를 해결한 대표적인 사례다.8
  3. 추론 (Reasoning): 여러 모달리티의 정보를 결합하여 더 높은 수준의 지식을 구성하고 복잡한 추론을 수행하는 방법이다.9 이는 단순한 정렬을 넘어, 모델이 정보를 종합하고 연역하는 과정이다.
  4. 생성 (Generation): 한 모달리티의 정보를 기반으로 다른 모달리티의 새로운 데이터를 생성하는 방법이다 (예: 텍스트-이미지 생성).9
  5. 전이 (Transfer): 한 모달리티에서 학습된 지식을 다른 모달리티로 이전하는 방법으로, 전이 학습 기술의 핵심 목표 중 하나다.9
  6. 정량화 (Quantification): 멀티모달 모델의 성능을 정확하게 평가하기 위한 견고한 이론적, 경험적 방법을 개발하는 것으로, 모델의 복잡성으로 인해 상당한 어려움이 따른다.9

이 여섯 가지 과제는 독립적이지 않고 서로 연결된 계층 구조를 형성한다. 모델은 먼저 각 모달리티에 대한 효과적인 표현을 학습해야 한다. 좋은 표현이 있어야 이를 정렬할 수 있으며(예: CLIP), 정렬된 개념들을 바탕으로 더 높은 수준의 추론이 가능해진다. 이러한 추론 능력은 다시 복잡한 생성 작업의 기반이 된다. 이처럼 멀티모달 기술의 발전은 이 과제들을 순차적으로, 그리고 통합적으로 해결해 나가는 과정이라 할 수 있다.

초기 및 일부 현대 멀티모달 시스템은 후기 또는 결합 융합을 실용적으로 구현한 ‘파이프라인(pipelined)’ 또는 ‘연결된(stitched-together)’ 아키텍처로 작동한다. 예를 들어, 음성 비서는 음성-텍스트 변환 모델(예: Whisper), 언어 추론 모델(예: GPT-4 Turbo), 그리고 텍스트-음성 합성 모델을 순차적으로 연결하여 사용한다.13 이러한 접근 방식은 두 가지 주요한 한계를 드러낸다.

결론적으로, 멀티모달 문제를 해결하기 위해 고안된 융합 아키텍처, 특히 파이프라인 방식으로 구현된 후기 융합은 그 자체로 새로운 문제, 즉 실시간 상호작용의 성능 한계를 만들어냈다. 이 한계가 바로 차세대 AI인 옴니모달이 해결해야 할 핵심 과제가 되었다.

이 섹션에서는 옴니모달 패러다임을 정의하고, 그 핵심 아키텍처 원리인 ‘네이티브 종단간 통합’에 초점을 맞춰 이전 패러다임과 대조적으로 분석한다.

‘옴니(omni)’라는 용어는 라틴어로 ‘모든’ 또는 ‘모든 방식으로’를 의미한다.15 AI 맥락에서 이는 단순히 여러(multi) 모달리티를 처리하는 것을 넘어, 단일 통합 시스템 내에서 네이티브하고 총체적으로 처리하는 방식으로의 전환을 의미한다.17

핵심적인 철학적 변화는 상호 연결된 전문가들의 시스템(멀티모달)에서, 여러 감각을 통해 동시에 세상을 인식하는 단일 일반 전문가 모델(옴니모달)로의 이동이다.21 그 목표는 분절되지 않고 본질적으로 통합된 인간의 인식을 더 가깝게 모방하는 것이다.19

옴니모달 모델을 정의하는 기술적 특징은 바로 그 아키텍처에 있다: 단일 종단간 신경망이 모든 입력과 출력을 처리한다.15

이 아키텍처는 이전 시스템들을 괴롭혔던 다중 모델 파이프라인을 제거한다. 예를 들어, GPT-4o에서는 오디오, 비전, 텍스트가 모두 동일한 신경망에 의해 처리된다.23 마찬가지로 Google의 Gemini는 텍스트 전용 LLM에 기능을 추가하는 방식이 아닌, “처음부터” 네이티브 멀티모달로 설계되어 모든 입력을 통합된 트랜스포머 아키텍처를 통해 처리하며, 모든 계층에서 교차 모달 어텐션(cross-modal attention)을 가능하게 한다.3

이러한 통합 설계는 모달리티 간 정보 손실이 없음을 의미한다. 모델은 텍스트 변환본이나 요약본이 아닌, 톤과 감정을 포함한 원시 오디오 파형과 원시 시각 데이터를 직접 인식한다.13

단일 통합 모델로의 아키텍처 변화는 옴니모달 경험을 정의하는, 사용자가 직접 체감할 수 있는 이점들을 만들어낸다.

이러한 기술적 도약은 AI의 역할을 단순한 ‘기능적 명령-응답’ 도구에서 ‘자연스러운 협업적 상호작용’ 파트너로 재정의한다. 과거의 목표가 정확한 답변을 제공하는 것이었다면, 새로운 목표는 대화에 유용한 참여자가 되는 것이다. 이는 결국 AI 에이전트의 출현을 위한 기술적 토대를 마련한다. AI 에이전트는 환경을 인식하고, 추론하며, 실시간으로 행동해야 하는데, 이는 파이프라인 아키텍처의 높은 지연 시간과 문맥 손실로는 불가능했다. 옴니모달 아키텍처는 에이전트가 사용자의 의도와 환경을 동시에 이해하는 데 필요한 속도와 총체적 문맥을 제공함으로써, Project Astra와 같은 ‘보편적 AI 비서’의 비전을 기술적으로 실현 가능하게 만든다.3

특징 전통적 멀티모달 AI 옴니모달 AI
핵심 철학 여러 개의, 종종 분리된 데이터 처리 흐름을 통합. “다양한 모드(Many modes)”. 모든 모달리티를 단일 시스템 내에서 네이티브하고 총체적으로 처리. “모든 모드(All modes)”. 15
주요 아키텍처 파이프라인 또는 모듈식. 각 모달리티에 대해 별도의 인코더/모델을 사용하고, 후기 또는 결합 융합을 통해 결과물을 결합.10 통합된 종단간(end-to-end) 방식. 단일 신경망이 모든 입력과 출력을 처리하여, 초기부터 깊은 교차 모달 융합을 가능하게 함.3
데이터 흐름 순차적이며 손실이 발생. 데이터가 형식 간에 변환되면서(예: 오디오–»텍스트) 톤과 감정 같은 뉘앙스가 손실됨.13 병렬적이며 무손실. 모델이 중간 변환 없이 원시 감각 데이터(예: 오디오 파형, 픽셀 데이터)를 직접 처리.
지연 시간 높음 (예: 음성의 경우 2.8-5.4초). 자연스러운 실시간 대화에 부적합.13 극도로 낮음 (예: 약 320밀리초). 인간의 반응 시간에 근접.13
핵심 기능 VQA, 이미지 캡셔닝, 텍스트-이미지 생성. 실시간의 미묘한 상호작용에는 어려움을 겪는 경우가 많음.1 실시간 번역, 감정 톤 분석, 대화 중단 가능, 선제적 지원, 에이전트 행동.27
대표 모델/기술 초기 버전의 음성 비서, CLIP, DALL-E 2 (개별 구성요소로서). OpenAI의 GPT-4o, Google의 Gemini, Meta의 Llama 4.25

이 섹션에서는 주요 옴니모달 모델들의 구체적인 아키텍처 선택과 하드웨어 의존성을 분석하여, 앞서 논의된 원칙들에 대한 구체적인 증거를 제시한다.

이러한 선두 AI 연구소들의 움직임은, 비록 “네이티브 멀티모달”, “종단간 통합”, “초기 융합” 등 약간씩 다른 용어를 사용하지만, 모두 동일한 근본적인 아키텍처 해결책, 즉 다중 모달리티를 동시에 처리하기 위한 단일 통합 모델 백본으로 수렴하고 있음을 보여준다. 이는 기술 분야에서 나타나는 수렴 진화의 강력한 예시로, 서로 다른 경쟁자들이 공유된 근본적인 문제(파이프라인 시스템의 지연 시간 및 문맥 손실)에 대해 독립적으로 동일한 최적의 해결책에 도달했음을 나타낸다.

옴니모달 아키텍처의 개발은 특수 하드웨어의 개발과 불가분하게 연결되어 있다. 소프트웨어(모델 아키텍처)와 하드웨어(가속기)는 거대하고 분산된 모델의 효율적인 처리라는 동일한 문제를 해결하기 위해 함께 진화하고 있다.

이처럼 모델 아키텍처가 새로운 하드웨어 수요를 창출하고, 새로운 하드웨어 기능이 훨씬 더 복잡한 모델 아키텍처를 가능하게 하는 긴밀한 피드백 루프가 존재한다. 하나를 이해하지 않고서는 다른 하나를 완전히 이해할 수 없다.

차원 Google Gemini OpenAI GPT-4o Meta Llama 4
아키텍처 접근법 “네이티브 멀티모달”로 처음부터 설계. 모든 모달리티를 위한 통합 트랜스포머 아키텍처.3 텍스트, 비전, 오디오를 위한 단일 종단간 통합 신경망.23 텍스트와 비전 토큰을 통합 백본으로 초기 융합하는 “네이티브 멀티모달” 방식.33
핵심 혁신 모든 계층에서의 깊은 교차 모달 어텐션. 인터리브된 데이터 처리. 후기 버전은 MoE 사용.3 다중 모델 파이프라인을 하나의 네트워크로 통합하여 지연 시간을 대폭 줄이고 감정 톤 인식을 가능하게 함.13 통합 표현을 위한 초기 융합과 계산 효율성을 위한 전문가 혼합(MoE)의 결합.33
하드웨어 의존성 대규모 훈련 및 서빙을 위해 Google의 맞춤형 TPU 인프라(TPUv4, v5p, Trillium)에 크게 의존.44 대규모 GPU 인프라에서 훈련 (세부 사항은 비공개지만, 대규모 NVIDIA 클러스터로 추정). NVIDIA GPU(예: H100, Blackwell)에 최적화. MoE 아키텍처는 NVLink와 같은 고속 인터커넥트 시스템에 특히 적합.33
전략적 초점 완전한 스택 통합 및 과학적 벤치마크와 추론의 한계 확장.34 세련되고 지연 시간이 짧으며 매우 자연스러운 대화형 사용자 경험 제공.23 오픈소스 모델을 통해 접근성을 민주화하면서 높은 계산 효율성으로 경쟁력 있는 성능 달성.33

이 섹션에서는 단일 통합 옴니모달 모델을 훈련할 때 발생하는 중요하고 간단하지 않은 과제들을 탐구하며, 아키텍처를 넘어 데이터와 훈련 전략의 실제적인 측면을 다룬다.

옴니모달 모델 훈련의 핵심 과제 중 하나는 모달리티 균형(modal balancing)이다. 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티의 모든 가용 데이터를 단순히 혼합하여 단일 단계로 모델을 훈련시키는 것은 특정 벤치마크에서의 성능을 저하시킬 수 있다.53

이는 모달리티들이 매우 다른 통계적 속성, 데이터 분포, 그리고 과제 복잡성을 가지고 있기 때문에 발생한다. 순진한 혼합은 모델이 지배적이거나 학습하기 쉬운 모달리티에 편향되게 만들거나, 한 모달리티의 성능을 향상시키는 것이 다른 모달리티의 성능을 저하시키는 “파국적 망각(catastrophic forgetting)”을 유발할 수 있다.53

기존의 오픈소스 옴니모달 모델들은 종종 특화된 단일 모달리티 모델에 비해 성능이 뒤처지는데, 이는 지원되는 모든 작업에서 경쟁력 있고 균형 잡힌 성능을 달성하는 것이 얼마나 어려운지를 보여준다.53 이 격차는 현재의 훈련 방법론이 최적이 아님을 시사한다.

“Ola” 모델에 관한 연구 논문은 점진적 옴니모달 정렬(Progressive Omni-Modal Alignment)이라는 새로운 해결책을 제안한다.53 이 전략은 복잡한 옴니모달 훈련 과정을 더 작고 순차적인 단계로 분해한다. 이는 기계 학습에서 쉬운 과제부터 점차 어려운 과제로 모델을 훈련시키는 커리큘럼 학습(curriculum learning)의 한 형태로 볼 수 있다. 여기서 ‘난이도’는 모달리티 간의 개념적 거리로 정의된다.

점진적 정렬 전략의 핵심 통찰 중 하나는 시각과 청각 영역 사이의 자연스러운 다리로서 비디오를 사용하는 것이다.53

비디오는 본질적으로 동기화되고 상관관계가 높은 시각적 프레임과 오디오 트랙을 포함한다. 이 자연스러운 쌍은 모델이 사물이 어떻게 보이는지와 어떤 소리를 내는지를 연결하는 강력한 신호를 제공한다.53 비디오 데이터를 사용함으로써 모델은 시각적 사건과 해당 소리를 연관시키는 법을 배울 수 있으며, 이는 분리된 이미지 및 오디오 데이터셋으로부터 학습하기 훨씬 어려운 정렬이다. 이 접근법은 오디오와 비전 간의 강한 연결을 간과했던 이전 연구들의 중요한 간극을 메운다.53

지속적인 과제는 대규모의 고품질이며 잘 정렬된 옴니모달 데이터셋의 부족이다.55 인터넷상에 텍스트-이미지 쌍은 풍부하지만(CLIP과 같은 모델의 기반 11), 복잡한 추론 작업을 위해 비디오, 오디오, 텍스트 및 기타 모달리티를 깔끔하게 짝지은 데이터셋은 훨씬 구하기 어렵다.

이로 인해 옴니모달 능력을 제대로 평가하기 위한 새롭고 더 도전적인 벤치마크의 필요성이 대두되었다. 기존 벤치마크는 종종 한두 가지 모달리티에만 초점을 맞추거나 여러 모달리티 간의 깊은 시너지 효과를 테스트하지 못한다.56 OmniEval 및 WorldSense와 같은 새로운 벤치마크는 모델이 동적 시각, 청각 및 텍스트 신호를 동시에 통합하도록 요구함으로써 이 문제를 해결하기 위해 개발되고 있다.56

따라서 옴니모달 모델 개발의 미래는 아키텍처 혁신만큼이나 데이터 엔지니어링 및 벤치마크 설계에 달려있다고 할 수 있다. 차세대 주요 혁신은 완전히 새로운 아키텍처보다는, 시너지 추론에서 진정한 발전을 측정하고 유도할 수 있는 더 좋고 포괄적인 옴니모달 데이터셋과 더 도전적인 벤치마크를 만드는 데서 나올 가능성이 높다.

과제 설명 최신 완화 전략 관련 자료
모달리티 균형 모든 모달리티의 데이터를 순진하게 혼합하면 서로 다른 데이터 분포와 복잡성으로 인해 성능이 저하되고 불균형한 학습이 발생함. 점진적 옴니모달 정렬: 모달리티를 순차적으로 도입하는 단계적 훈련 파이프라인. 핵심 쌍(텍스트-이미지)으로 시작하여 다른 모달리티(비전-오디오)를 연결하기 위해 “다리” 모달리티(비디오)를 사용. 53
교차 모달 정렬 서로 다른 모달리티, 특히 자연스러운 쌍이 없는 모달리티(예: 임의의 이미지와 소리) 간에 의미 있는 연결을 설정하는 데 어려움. “중심 다리”로서의 비디오 사용: 비디오의 시각적 프레임과 오디오의 자연스러운 동기화를 활용하여 시각과 청각 영역 간의 강력한 정렬 신호를 생성. 53
데이터 희소성 및 평가 여러 모달리티에 걸친 깊고 시너지적인 추론을 효과적으로 평가할 수 있는 대규모, 고품질의 진정한 옴니모달 데이터셋 및 벤치마크 부족. 새로운 벤치마크 개발(예: OmniEval, WorldSense) 및 데이터 합성 파이프라인을 통해 더 도전적이고 포괄적인 평가 과제와 훈련 데이터 생성. 56
추론 능력 부족 모델이 모든 모달리티가 제공하는 전역적 맥락을 완전히 이해하지 않고 질문에 답하는 “지름길” 행동을 보이거나, 다단계 추론에 어려움을 겪음. 문맥적 보상을 이용한 강화 학습(RL): 모델이 추론에 앞서 멀티모달 입력의 전역적 맥락을 먼저 요약하도록 훈련시키고, 정확한 맥락 이해와 논리적 추론 경로에 대해 RL을 통해 보상. 55

이 섹션에서는 현재의 ‘옴니’(텍스트, 이미지, 오디오, 비디오) 정의가 하나의 디딤돌에 불과하며, 진정한 비전은 물리적 세계와 상호작용하는 감각을 포함하여 모든 감각을 통해 세상을 인식하는 AI임을 주장한다.

DeepMind의 데미스 하사비스와 같은 리더들이 명시한 궁극적인 목표는, 문맥을 이해하고 계획하며 행동하기 위해 실제 세계의 측면을 시뮬레이션할 수 있는 AI인 “월드 모델(world model)”을 개발하는 것이다.31

촉각 및 후각 데이터의 통합은 이 비전을 향한 중요한 단계이다. 이는 AI의 이해를 추상적인 디지털 정보뿐만 아니라 세계의 물리적 속성에 기반하게 한다. 시각, 청각, 촉각, 후각 데이터를 결합할 수 있는 AI는 환경에 대한 훨씬 더 상세하고 견고한 그림을 구축하여 더 나은 예측과 더 지능적인 결정을 내릴 수 있다.76 이러한 감각의 조합은 단순한 인식을 넘어 합성 인지(synthetic cognition)의 한 형태로 나아간다.

이러한 물리적 감각의 통합은 AI 추론의 본질을 근본적으로 변화시킬 잠재력을 가진다. 현재의 옴니모달 모델은 방대한 데이터셋에서 추상적인 상관관계를 학습한다. 유리가 떨어지면 깨질 가능성이 높다는 것을 아는 이유는 비디오와 텍스트에서 수많은 사례를 보았기 때문이지, 중력이나 취약성 같은 물리 법칙을 이해해서가 아니다. 촉각 센서는 힘, 압력, 재료 속성(경도, 질감)에 대한 직접적인 정보를 제공하고, 전자 코는 화학적 구성에 대한 정보를 제공한다. 이러한 감각을 갖춘 AI는 물리 법칙에 기반한 세계 모델을 구축하기 시작할 수 있다. 특정 (촉각)을 취성 재료(촉각)에 가하면 파괴된다는 것을 학습할 수 있다. 이는 모델의 “추론”을 “데이터에서 보통 일어나는 일”에서 “내가 감지하는 물리적 속성에 기반하여 일어날 일“로 전환시킨다. 이것은 진정한 세계 모델링과 범용 인공지능(AGI)을 향한 기념비적인 도약이다.

이 마지막 섹션에서는 옴니모달 AI의 심오한 영향을 분석하고, 기술적 역량을 자율 에이전트의 출현과 그로 인한 경제적, 안전 및 거버넌스 과제와 연결한다.

옴니모달 AI가 제공하는 실시간, 문맥 인식, 멀티모달 인식 및 상호작용 능력은 에이전트 AI(agentic AI)의 기본 요구 사항이다.31 AI 에이전트는 모델 그 이상으로, 환경을 인식하고, 목표를 설정하며, 계획을 세우고, 목표 달성을 위해 행동을 실행하는 자율 시스템이다.78 Google의 Project Astra는 이러한 비전의 대표적인 예로, 사용자가 보는 것을 보고, 과거의 상호작용을 기억하며, 앱을 탐색하여 문제를 해결하는 등 사용자를 대신하여 행동할 수 있는 에이전트다.30 이러한 에이전트들은 Gemini나 Llama 4와 같은 옴니모달 모델을 기반으로, LlamaIndex나 LangGraph와 같은 프레임워크를 사용하여 여러 전문 에이전트나 도구 간의 워크플로우를 조율함으로써 구축되고 있다.81

막대한 투자에도 불구하고, 약 80%의 기업이 생성형 AI로부터 실질적인 수익을 보고하지 못하고 있는데, 맥킨지는 이를 “생성형 AI 역설(gen AI paradox)”이라고 부른다.78 이는 AI가 기존 워크플로우를 근본적으로 재설계하는 데 사용되기보다는 단순한 도구로 “덧붙여졌기” 때문이다.85

옴니모달 모델에 의해 구동되는 에이전트 AI는 이 역설을 해결하는 열쇠다. 전체 워크플로우를 자동화하고 가속화함으로써 에이전트는 전 세계적으로 2.6조에서 4.4조 달러에 이르는 변혁적인 가치를 창출할 수 있다.78 이는 AI의 역할을 수동적인 도구에서 능동적인 “기업 시민(corporate citizen)”으로 변화시킨다. 즉, 인간 직원처럼 측정 가능한 가치를 제공하는 책임감 있고 관리되는 자산이 되는 것이다.88 이를 위해서는 AI 에이전트에 대한 명확한 역할 정의, 성과 지표, 비용 구조 등 새로운 관리 접근 방식이 필요하다.88

AI 에이전트의 자율성은 사이버 공격, 데이터 유출, 편견 증폭 등 심각한 위험을 초래한다.79 이는 견고한 안전 및 거버넌스 프레임워크를 필요로 한다.

옴니모달 아키텍처에서 시작된 기술적 발전은 에이전트 AI의 기능적 출현을 가능하게 하고, 이는 경제적 가치 창출이라는 거대한 기회를 열어주지만, 동시에 심각한 사회적 및 거버넌스 위기를 초래한다.

이러한 발전 속에서 개방성과 안전성 사이의 중요한 긴장 관계가 드러난다. Meta의 Llama 4와 같은 모델은 오픈소스 특성으로 혁신과 접근성을 촉진하지만 39, 바로 그 개방성 때문에 레드팀과 취약점 발견의 주요 대상이 된다. 또한, 외부 정보(예: 웹)에 대한 접근 권한을 에이전트에게 부여하면 안전 정렬이 체계적으로 저하되어 더 편향되거나 유해해질 수 있다는 연구 결과도 있다.104 이는 미래의 거버넌스 프레임워크가 혁신을 장려하는 것과 통제 가능하고 안전한 배포를 보장하는 것 사이의 어려운 균형을 맞춰야 함을 시사한다.

본 보고서는 멀티모달에서 옴니모달 AI로의 전환이 단순한 점진적 업데이트가 아닌, 근본적인 아키텍처 혁명임을 논증했다. 핵심적인 차이는 여러 모듈을 파이프라인으로 연결하던 방식에서 벗어나, 모든 데이터 유형을 단일 통합 신경망 내에서 네이티브하게 처리하는 것으로의 전환에 있다.

이러한 구조적 변화는 AI가 실시간으로 미묘한 뉘앙스를 이해하고, 인간과 유사한 속도로 대화하며, 대화 중에 개입할 수 있는 능력을 부여했다. 이는 결과적으로 AI가 수동적인 정보 처리 도구에서 벗어나, 환경을 인식하고 자율적으로 행동하는 에이전트 AI의 출현을 가능하게 한 기술적 토대가 되었다.

그러나 이 새로운 패러다임은 해결해야 할 중대한 과제들을 함께 제시한다. 훈련 방법론의 혁신(예: 점진적 정렬), 고품질 옴니모달 데이터셋의 구축, 그리고 자율 에이전트의 행동을 통제하고 감독할 강력한 안전 및 거버넌스 프레임워크의 개발이 시급하다. 또한, ‘옴니’의 정의는 현재의 시청각 정보를 넘어, 촉각이나 후각과 같은 물리적 감각을 포함하는 방향으로 계속 확장될 것이며, 이는 AI를 실제 세계에 더욱 깊이 뿌리내리게 할 것이다.

결론적으로, 옴니모달 AI의 발전은 인공지능이 더 이상 단순한 정보 처리 도구가 아니라, 우리 세계의 능동적인 참여자로 변모하기 시작하는 전환점을 의미한다. 이 전환을 안전하고 공평하게 관리하는 것이 우리 시대의 핵심적인 기술적, 사회적 과제가 될 것이다.

  1. 멀티모달(Multi Modal)AI와 기존 인공지능의 차이점 - 클루닉스, accessed July 13, 2025, https://www.clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=824
  2. 멀티모달 AI란 무엇인가 + 멀티모달 AI의 사용 사례 - Skim AI, accessed July 13, 2025, https://skimai.com/ko/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-ai%EC%9D%98-%EC%82%AC%EC%9A%A9-%EC%82%AC%EB%A1%80%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80%EC%9A%94/
  3. The Power of Multimodal AI and Insights from Google’s Gemini …, accessed July 13, 2025, https://galileo.ai/blog/unlocking-multimodal-ai-google-gemini
  4. 인간처럼 사고하는 멀티모달 Multi Modal AI란? 인사이트리포트 삼성SDS, accessed July 13, 2025, https://www.samsungsds.com/kr/insights/multi-modal-ai.html
  5. [SP TECH COLUMN] AI를 더 인간처럼 만드는 기술 ‘멀티모달 AI’ - LG사이언스파크, accessed July 13, 2025, https://www.lgsciencepark.com/KR/video_detail.php?page=&idx=244&media_type=2
  6. Unimodal vs. Multimodal AI: Key Differences Explained - Index.dev, accessed July 13, 2025, https://www.index.dev/blog/comparing-unimodal-vs-multimodal-models
  7. [3분 IT 인사이트] 멀티 모달 AI란 과연 무엇인가? 챗GPT와 생성형 AI의 핵심개념 멀티모달과 LLM 소개 생성형 인공지능 원리 강의 - YouTube, accessed July 13, 2025, https://www.youtube.com/watch?v=bTSLDTI-Oh0&pp=0gcJCfwAo7VqN5tD
  8. 언어와 비전 데이터를 함께 학습하는 멀티모달 AI에 대하여, accessed July 13, 2025, https://blog-ko.superb-ai.com/about-multimodal-ai-that-learns-language-and-vision-data-together/
  9. 멀티모달 AI란 무엇인가요? - IBM, accessed July 13, 2025, https://www.ibm.com/kr-ko/think/topics/multimodal-ai
  10. 멀티모달 모델 - 나무위키, accessed July 13, 2025, https://namu.wiki/w/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC%20%EB%AA%A8%EB%8D%B8
  11. A Comprehensive Guide to OpenAI’s CLIP Model - TiDB, accessed July 13, 2025, https://www.pingcap.com/article/a-comprehensive-guide-to-openais-clip-model/
  12. CLIP: Connecting text and images OpenAI, accessed July 13, 2025, https://openai.com/index/clip/
  13. What Is GPT-4o? IBM, accessed July 13, 2025, https://www.ibm.com/think/topics/gpt-4o
  14. GPT-4o Guide: How it Works, Use Cases, Pricing, Benchmarks DataCamp, accessed July 13, 2025, https://www.datacamp.com/blog/what-is-gpt-4o
  15. GPT4o와 GPT4 비교해 보니/// `사람 대 AI의 근본적인 접근 방식 바꿔 …, accessed July 13, 2025, https://www.donga.com/news/It/article/all/20240521/125038885/1
  16. GPT-4o, omni와 multi의 차이 - 브런치, accessed July 13, 2025, https://brunch.co.kr/@iotstlabs/347
  17. Qwen2.5 Omni: 멀티모달 AI 파워하우스 - Alibaba Cloud Community, accessed July 13, 2025, https://www.alibabacloud.com/blog/qwen2-5-omni-%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-ai-%ED%8C%8C%EC%9B%8C%ED%95%98%EC%9A%B0%EC%8A%A4_602191
  18. 멀티모달 혁명, GPT-4o가 만들어갈 미래 - 브런치, accessed July 13, 2025, https://brunch.co.kr/@aichaemun/118
  19. Omnimodal AI: a game-changer for customer relations - Hello Future, accessed July 13, 2025, https://hellofuture.orange.com/en/omnimodal-ai-a-game-changer-for-customer-relations/
  20. The Rise of Multimodal AI: From GPT-3 to GPT-4o and Beyond - mroads, accessed July 13, 2025, https://www.mroads.com/blog/the-rise-of-multimodal-AI
  21. Omnimodal AI - Hello Future - Orange, accessed July 13, 2025, https://hellofuture.orange.com/en/omnimodal-ai/
  22. The future is omni modal: Project Astra and GPT-4o by Edyta Wrobel Medium, accessed July 13, 2025, https://medium.com/@wrobeledyta.ew/the-future-is-omni-modal-googles-project-astra-and-gpt-4o-07e6bac2a216
  23. Hello GPT-4o - OpenAI, accessed July 13, 2025, https://openai.com/index/hello-gpt-4o/
  24. Llama 4 vs. GPT-4o: A Detailed Comparison - ResearchFlow, accessed July 13, 2025, https://rflow.ai/researches/llama-4-vs-gpt-4o-a-detailed-comparison
  25. What is Google Gemini? IBM, accessed July 13, 2025, https://www.ibm.com/think/topics/google-gemini
  26. Unlocking Gemini: A Deep Dive into Google’s Multimodal AI - Medium, accessed July 13, 2025, https://medium.com/@karuppasamypandiand/unlocking-gemini-a-deep-dive-into-googles-multimodal-ai-c86317110b91
  27. 인간처럼 ‘보고 듣고 말하고’를 한번에… 오픈AI, 옴니모델 GPT-4o 출시 - 더밀크, accessed July 13, 2025, https://www.themiilk.com/articles/abf37b793
  28. GPT-4o and Emotion Recognition Dramatically Changes AI Human Interaction, accessed July 13, 2025, https://www.intelligentliving.co/gpt-4o-emotion-recognition-ai-human/
  29. GPT-4o Breakdown of ChatGPT’s Newest Model - KPItarget, accessed July 13, 2025, https://www.kpitarget.com/chatgpts-newest-model/
  30. Project Astra - Google DeepMind, accessed July 13, 2025, https://deepmind.google/models/project-astra/
  31. Our vision for building a universal AI assistant - Google Blog, accessed July 13, 2025, https://blog.google/technology/google-deepmind/gemini-universal-ai-assistant/
  32. 인공지능의 미래: 오픈AI와 구글의 AI 경쟁 속에서 펼쳐지는 혁신의 서사 - Goover, accessed July 13, 2025, https://seo.goover.ai/report/202503/go-public-report-ko-18850c1b-1309-4207-832b-22a8251cfabc-0-0.html
  33. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation - Meta AI, accessed July 13, 2025, https://ai.meta.com/blog/llama-4-multimodal-intelligence/
  34. Google Launches Gemini, Its New Multimodal AI Model - Encord, accessed July 13, 2025, https://encord.com/blog/gemini-google-ai-model/
  35. Google’s Multimodal AI Gemini - A Technical Deep Dive - Unite.AI, accessed July 13, 2025, https://www.unite.ai/googles-multimodal-ai-gemini-a-technical-deep-dive/
  36. SEAL LLM Leaderboards: Expert-Driven Private Evaluations - Scale AI, accessed July 13, 2025, https://scale.com/leaderboard
  37. Gemini AI Explained: A Deep Dive Into Google’s Multimodal Assistant Extremetech, accessed July 13, 2025, https://www.extremetech.com/computing/gemini-ai-explained-a-deep-dive-into-googles-multimodal-assistant
  38. Unpacking Meta’s Llama 4: Revolutionary Native Multimodality and …, accessed July 13, 2025, https://pub.towardsai.net/unpacking-metas-llama-4-revolutionary-native-multimodality-and-groundbreaking-architecture-59b01d592ff4
  39. Llama 4: Meta’s first natively multimodal mixture-of-experts (MoE) architecture models, accessed July 13, 2025, https://dataphoenix.info/llama-4-metas-first-natively-multimodal-mixture-of-experts-moe-architecture-models/
  40. Inside Llama 4: How Meta’s New Open-Source AI Crushes GPT-4o and Gemini - Devansh, accessed July 13, 2025, https://machine-learning-made-simple.medium.com/inside-llama-4-how-metas-new-open-source-ai-crushes-gpt-4o-and-gemini-e3265f914599
  41. Meta Llama - Hugging Face, accessed July 13, 2025, https://huggingface.co/meta-llama
  42. Llama 4 Technical Analysis: Decoding the Architecture Behind Meta’s Multimodal MoE Revolution by Karan_bhutani Medium, accessed July 13, 2025, https://medium.com/@karanbhutani477/llama-4-technical-analysis-decoding-the-architecture-behind-metas-multimodal-moe-revolution-535b2775d07d
  43. Llama 4 Review: Real-World Use vs. Meta’s Hype - Monica, accessed July 13, 2025, https://monica.im/blog/llama-4/
  44. How Google Cloud is bringing Gemini to organizations everywhere, accessed July 13, 2025, https://cloud.google.com/blog/products/ai-machine-learning/bringing-gemini-to-organizations-everywhere
  45. Gemini: A Family of Highly Capable Multimodal Models - Googleapis.com, accessed July 13, 2025, https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
  46. Gemini: A Family of Highly Capable Multimodal Models - arXiv, accessed July 13, 2025, http://arxiv.org/pdf/2312.11805
  47. TPU transformation: A look back at 10 years of our AI-specialized …, accessed July 13, 2025, https://cloud.google.com/transform/ai-specialized-chips-tpu-history-gen-ai
  48. TPUs powered 100% of Gemini 2.0 training and inference… : r/AMD_Stock - Reddit, accessed July 13, 2025, https://www.reddit.com/r/AMD_Stock/comments/1hctgkh/tpus_powered_100_of_gemini_20_training_and/
  49. Google Cloud Next 2025: Gemini & agentic AI updates, new TPUs Capacity Media, accessed July 13, 2025, https://www.capacitymedia.com/article/google-cloud-next-2025-gemini-agentic-ai-updates-new-tpus
  50. NVIDIA Blackwell GPU architecture: Unleashing next‑gen AI performance genai-research, accessed July 13, 2025, https://wandb.ai/onlineinference/genai-research/reports/NVIDIA-Blackwell-GPU-architecture-Unleashing-next-gen-AI-performance–VmlldzoxMjgwODI4Mw
  51. Scaling and Optimizing Large MoE Models GP1132 GTC Paris 2025 NVIDIA On-Demand, accessed July 13, 2025, https://www.nvidia.com/en-us/on-demand/session/gtcparis25-gp1132/
  52. How NVIDIA GB200 NVL72 and NVIDIA Dynamo Boost Inference …, accessed July 13, 2025, https://developer.nvidia.com/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/
  53. Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment - arXiv, accessed July 13, 2025, https://arxiv.org/html/2502.04328v2
  54. Ola: Pushing the Frontiers of Omni-Modal Language Model - arXiv, accessed July 13, 2025, https://arxiv.org/pdf/2502.04328?
  55. HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context - arXiv, accessed July 13, 2025, https://arxiv.org/html/2506.21277v1
  56. OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs - arXiv, accessed July 13, 2025, https://arxiv.org/html/2506.20960v1
  57. WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs - arXiv, accessed July 13, 2025, https://arxiv.org/html/2502.04326v2
  58. [2112.14119] Robotic Perception of Object Properties using Tactile Sensing - arXiv, accessed July 13, 2025, https://arxiv.org/abs/2112.14119
  59. GelSight Wedge: Measuring High-Resolution 3D Contact Geometry with a Compact Robot Finger - MIT, accessed July 13, 2025, https://gelsight.csail.mit.edu/wedge/ICRA2021_Wedge.pdf
  60. Tactile Sensing in Robots: An Introduction - AZoSensors, accessed July 13, 2025, https://www.azosensors.com/article.aspx?ArticleID=32
  61. A Review of Tactile Information: Perception and Action Through Touch, accessed July 13, 2025, https://www.ri.cmu.edu/app/uploads/2021/08/LiTRo2020.pdf
  62. A modularized design approach for GelSight family of vision-based tactile sensors Request PDF - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/publication/392070821_A_modularized_design_approach_for_GelSight_family_of_vision-based_tactile_sensors
  63. The MCube Lab - Vision-Based Tactile Sensing - MIT, accessed July 13, 2025, http://mcube.mit.edu/research/gelslim.html
  64. Tactile Measurement with a GelSight Sensor Wenzhen Yuan - People MIT CSAIL, accessed July 13, 2025, https://people.csail.mit.edu/yuan_wz/GelSight1/Wenzhen_Thesis_final.pdf
  65. The working principle of GelSight sensor [4] Download Scientific Diagram - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/figure/The-working-principle-of-GelSight-sensor-4_fig21_280774265
  66. Sensing Surfaces with GelSight - YouTube, accessed July 13, 2025, https://www.youtube.com/watch?v=S7gXih4XS7A
  67. Tactile Robotics Tactile Sensing Digital Touch - GelSight, accessed July 13, 2025, https://www.gelsight.com/products/
  68. GelSight Mini, accessed July 13, 2025, https://www.gelsight.com/wp-content/uploads/2022/09/GelSight_Datasheet_GSMini_9.20.22b.pdf
  69. Tactile Sensing Technology Who We Serve - GelSight, accessed July 13, 2025, https://www.gelsight.com/tactile-sensing-industries-applications/
  70. (PDF) Review of Electronic-Nose Technologies and Algorithms to Detect Hazardous Chemicals in the Environment - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/publication/235798049_Review_of_Electronic-Nose_Technologies_and_Algorithms_to_Detect_Hazardous_Chemicals_in_the_Environment
  71. A Study on E-Nose System in Terms of the Learning Efficiency and Accuracy of Boosting Approaches - MDPI, accessed July 13, 2025, https://www.mdpi.com/1424-8220/24/1/302
  72. Analyzing a Review of Methods and Algorithms Using Electronic Noses - AZoSensors, accessed July 13, 2025, https://www.azosensors.com/news.aspx?newsID=15434
  73. Odors Detection and Recognition Based on Intelligent E-Nose, accessed July 13, 2025, https://journal.esrgroups.org/jes/article/view/864
  74. Recent Progress in Smart Electronic Nose Technologies Enabled with Machine Learning Methods - PMC, accessed July 13, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8619411/
  75. Advances in Electronic-Nose Technologies Developed for Biomedical Applications - PMC, accessed July 13, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC3274093/
  76. Omnimodal AI: Why tomorrow’s AI will have all five senses - Pluralsight, accessed July 13, 2025, https://www.pluralsight.com/resources/blog/ai-and-data/omnimodal-ai
  77. Project Astra: The Deep Tech Behind Google’s Real-Time AI Agent …, accessed July 13, 2025, https://medium.com/@back2om/project-astra-the-deep-tech-behind-googles-real-time-ai-agent-34098516d355
  78. GenAI paradox: exploring AI use cases McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/quantumblack/our-insights/seizing-the-agentic-ai-advantage
  79. Challenges in Governing AI Agents - Lawfare, accessed July 13, 2025, https://www.lawfaremedia.org/article/challenges-in-governing-ai-agents
  80. The latest Project Astra demo is even more impressive than the first - Android Police, accessed July 13, 2025, https://www.androidpolice.com/project-astra-demo-2025/
  81. Building agents with Google Gemini and open source frameworks, accessed July 13, 2025, https://developers.googleblog.com/en/building-agents-google-gemini-open-source-frameworks/
  82. Build multimodal agents using Gemini, Langchain, and LangGraph Google Cloud Blog, accessed July 13, 2025, https://cloud.google.com/blog/products/ai-machine-learning/build-multimodal-agents-using-gemini-langchain-and-langgraph
  83. Introducing AgentWorkflow: A Powerful System for Building AI Agent Systems - LlamaIndex, accessed July 13, 2025, https://www.llamaindex.ai/blog/introducing-agentworkflow-a-powerful-system-for-building-ai-agent-systems
  84. Creating agentic workflows in LlamaIndex - Hugging Face Agents Course, accessed July 13, 2025, https://huggingface.co/learn/agents-course/unit2/llama-index/workflows
  85. Seizing the Agentic AI Advantage McKinsey - BrianHeger.com, accessed July 13, 2025, https://www.brianheger.com/seizing-the-agentic-ai-advantage-mckinsey/
  86. The state of AI: How organizations are rewiring to capture value - McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
  87. AI in the workplace: A report for 2025 - McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/superagency-in-the-workplace-empowering-people-to-unlock-ais-full-potential-at-work
  88. When can AI make good decisions? The rise of AI corporate citizens - McKinsey, accessed July 13, 2025, https://www.mckinsey.com/capabilities/operations/our-insights/when-can-ai-make-good-decisions-the-rise-of-ai-corporate-citizens
  89. Building Safe AI Agents: Balancing Autonomy and Safety - Sia-partners.com, accessed July 13, 2025, https://www.sia-partners.com/en/insights/publications/building-safe-ai-agents-balancing-autonomy-and-safety
  90. What are AI guardrails? McKinsey, accessed July 13, 2025, https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-are-ai-guardrails
  91. Planning red teaming for large language models (LLMs) and their …, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/red-teaming
  92. Red-Teaming Generative AI: Managing Operational Risk by Adnan Masood, PhD., accessed July 13, 2025, https://medium.com/@adnanmasood/red-teaming-generative-ai-managing-operational-risk-ff1862931844
  93. [2401.12915] Red Teaming Visual Language Models - arXiv, accessed July 13, 2025, https://arxiv.org/abs/2401.12915
  94. Continuous Multimodal Red Teaming for AI Safety and Reliability Enkrypt AI, accessed July 13, 2025, https://www.enkryptai.com/blog/an-intro-to-multimodal-red-teaming-nuances-from-llm-red-teaming
  95. Red Teaming for Multimodal Large Language Models: A Survey - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/publication/377740466_Red_Teaming_for_Multimodal_Large_Language_Models_A_Survey
  96. LAW 4052: Governing Artificial Intelligence - Explore Courses - Stanford University, accessed July 13, 2025, https://explorecourses.stanford.edu/search?q=LAW4052
  97. Governing Artificial Intelligence: Law, Policy, and Institutions, accessed July 13, 2025, https://law.stanford.edu/courses/governing-artificial-intelligence-law-policy-and-institutions/
  98. Artificial Intelligence Governance and Law - Stanford Law School, accessed July 13, 2025, https://law.stanford.edu/areas_of_interest/artificial-intelligence/
  99. The Turing Trap: The Promise & Peril of Human-Like Artificial Intelligence, accessed July 13, 2025, https://digitaleconomy.stanford.edu/news/the-turing-trap-the-promise-peril-of-human-like-artificial-intelligence/
  100. Artificial intelligence in communication impacts language and social relationships, accessed July 13, 2025, https://sml.stanford.edu/publications/hancock-jt/artificial-intelligence-communication-impacts-language-and-social
  101. Making AI more explainable to protect the public from individual and community harms, accessed July 13, 2025, https://www.brookings.edu/articles/making-ai-more-explainable-to-protect-the-public-from-individual-and-community-harms/
  102. AI Policy, Now and in the Future (Annotated), accessed July 13, 2025, https://ai100.stanford.edu/2016-report/section-iii-prospects-and-recommendations-public-policy/ai-policy-now-and-future/with-2021-annotations
  103. LLaMA 4 vs Gemini 2.5: Comparing AI Titans in 2025 - Redblink, accessed July 13, 2025, https://redblink.com/llama-4-vs-gemini-2-5/
  104. Safety Devolution in AI Agents - arXiv, accessed July 13, 2025, https://arxiv.org/html/2505.14215v1
  105. Ming-Omni: A Unified Multimodal Model for Perception and Generation - arXiv, accessed July 13, 2025, https://arxiv.org/html/2506.09344v1
  106. Thinking Machines: How Multimodal Reasoning AI Will Transform Enterprise Decision-Making by Adnan Masood, PhD. Medium, accessed July 13, 2025, https://medium.com/@adnanmasood/thinking-machines-how-multimodal-reasoning-ai-will-transform-enterprise-decision-making-fc43f9658b58
  107. Improving Situated Conversational Agents with Step-by-Step Multi-modal Logic Reasoning, accessed July 13, 2025, https://aclanthology.org/2023.dstc-1.3/