Booil Jung

멀티모달 확산 트랜스포머(MMDiT) 아키텍처 및 생태계

생성 모델의 발전사는 특정 영역에 최적화된 아키텍처와 범용적 확장성을 지닌 아키텍처 간의 철학적 긴장을 반영해왔다. 확산 모델(Diffusion Model)의 초기 성공은 U-Net이라는 강력한 합성곱 신경망(Convolutional Neural Network, CNN) 기반의 백본에 의해 주도되었다. 그러나 머신러닝 분야 전반에 걸쳐 트랜스포머(Transformer) 아키텍처가 패러다임을 재정의하면서, 생성 모델 분야에서도 근본적인 변화가 시작되었다. 확산 트랜스포머(Diffusion Transformer, DiT)의 등장은 이러한 변화의 정점을 상징하며, 이는 단순히 새로운 구성 요소를 도입한 것을 넘어, 모델 설계의 기본 원칙을 도메인 특화적인 귀납적 편향(Inductive Bias)에서 범용 아키텍처의 계산적 확장성(Scalability)으로 전환하는 중대한 철학적 이동을 의미한다. 본 장에서는 U-Net의 시대와 그 기반이 된 귀납적 편향을 고찰하고, 트랜스포머가 비전 분야에서 어떻게 부상했는지 분석하며, DiT가 왜 기존의 성공 공식을 대체하는 패러다임 전환을 이끌었는지 심층적으로 탐구한다.

초기 고성능 확산 모델의 성공은 U-Net 아키텍처 없이는 논하기 어렵다. PixelCNN++와 같은 선행 모델로부터 계승된 U-Net은 확산 모델의 표준 백본으로 빠르게 자리 잡았다.1 U-Net의 효과는 본질적으로 CNN이 가진 강력한 귀납적 편향에 기인한다. 귀납적 편향이란 머신러닝 알고리즘이 한정된 데이터로부터 보지 못한 데이터에 대해 일반화하기 위해 사용하는 일련의 가정, 제약, 또는 사전 지식을 의미한다.2 CNN 기반의 U-Net은 이미지 데이터의 본질적인 특성을 반영하는 몇 가지 핵심적인 귀납적 편향을 내재하고 있다.

첫째, 지역성(Locality)이다. 이는 이미지에서 서로 인접한 픽셀들이 강한 상관관계를 가진다는 가정이다.5 CNN의 합성곱 필터는 이미지의 작은 국소 영역에 적용되어 이 지역성을 효과적으로 활용하며, 이를 통해 엣지, 질감, 모서리와 같은 저수준 특징을 효율적으로 학습한다.

둘째, 병진 등변성(Translation Equivariance)이다. 이는 이미지 내에서 객체의 위치가 변하더라도 동일한 특징을 인식할 수 있는 능력이다.5 합성곱 연산은 필터를 이미지 전체에 걸쳐 슬라이딩하며 적용되므로, 이 특성이 자연스럽게 구현된다.

셋째, 계층적 처리(Hierarchical Processing)이다. CNN은 연속적인 레이어를 통해 저수준의 단순한 특징(선, 모서리 등)을 조합하여 점차 고수준의 복잡한 특징(객체의 일부, 전체 객체 등)을 구축한다.5 U-Net의 인코더-디코더 구조와 스킵 연결(skip connection)은 이러한 계층적 특징 학습을 극대화하여 다양한 스케일의 정보를 효과적으로 통합한다.

이러한 귀납적 편향들은 CNN과 U-Net을 이미지 관련 과제에 본질적으로 매우 적합하게 만들었다. 그러나 이 강력한 가정들은 동시에 한계로 작용할 수도 있다. U-Net은 이미지 내에서 멀리 떨어진 픽셀들 간의 장거리 의존성(long-range dependency)이나 전역적인 맥락을 모델링하는 데 있어서는 다른 아키텍처만큼 효과적이지 않을 수 있다. 이 지점에서 트랜스포머의 가능성이 대두되었다.

트랜스포머는 본래 자연어 처리(Natural Language Processing, NLP) 분야에서 순차 데이터 내의 장거리 의존성을 모델링하는 데 탁월한 성능을 보이며 성공을 거두었다.5 비전 트랜스포머(Vision Transformer, ViT)는 이러한 트랜스포머 아키텍처를 컴퓨터 비전 분야에 성공적으로 적용한 중추적인 모델이다.5 ViT의 핵심 아이디어는 이미지를 일련의 패치(patch) 시퀀스로 취급하고, 이를 셀프 어텐션(self-attention) 메커니즘으로 처리하는 것이다. 이는 시각적 문제를 본질적으로 시퀀스 모델링 문제로 재정의한 것이다.10

이 접근 방식은 중요한 장단점을 수반한다. ViT는 CNN이 가진 이미지 특화적인 강력한 귀납적 편향(지역성, 병진 등변성 등)이 부족하다. 이로 인해 상대적으로 적은 양의 데이터로 학습할 경우 CNN보다 일반화 성능이 떨어지는 경향이 있으며, 효과적인 학습을 위해 방대한 양의 데이터가 필요하다.5 하지만 ViT는 이러한 단점을 이미지 전체에 걸쳐 전역적인 관계를 포착하는 뛰어난 능력으로 보완한다.11 셀프 어텐션 메커니즘은 모든 패치 쌍 간의 상호작용을 계산함으로써, 이미지의 한쪽 끝에 있는 픽셀이 다른 쪽 끝에 있는 픽셀에 미치는 영향을 직접적으로 모델링할 수 있다.

이러한 배경 속에서, 확산 트랜스포머(DiT)를 제안한 연구는 생성 모델 분야에 근본적인 질문을 던졌다. 그들의 핵심 주장은 “U-Net의 귀납적 편향이 확산 모델의 성능에 결정적이지 않다”는 것이었다.9 이는 당시 지배적이었던 통념에 대한 정면 도전이었다. 이 연구는 DiT를 다양한 영역에서 특화된 모델들을 트랜스포머가 대체하고 있는 ‘아키텍처 통합(architecture unification)’이라는 거대한 흐름의 일부로 위치시켰다.1

DiT의 등장은 단순한 아키텍처의 ‘업그레이드’가 아니라, 전략적인 트레이드오프의 결과로 해석될 수 있다. 이는 CNN에 내재된 이미지 구조에 대한 가정, 즉 ‘지식 기반 귀납적 편향(knowledge-based inductive bias)’을 포기하는 대신, 트랜스포머가 계산 자원(compute) 증가에 따라 성능이 예측 가능하게 향상되는 ‘계산 기반 귀납적 편향(compute-based inductive bias)’을 채택한 것이다. CNN/U-Net은 내장된 가정 덕분에 특히 소규모 데이터셋에서 유리한 출발을 할 수 있다.5 이는 일종의 ‘인코딩된 지식’이다. 반면, 트랜스포머 기반의 DiT는 이러한 특정 지식을 버리고 이미지를 일반적인 패치 시퀀스로 취급한다.9 하지만 DiT 연구자들은 트랜스포머가 U-Net보다 계산량(Gflops) 증가에 따라 훨씬 더 예측 가능하게 성능이 확장된다는 점을 명확히 입증했다.9

결론적으로, DiT가 건넨 근본적인 베팅은 거대한 스케일에서는 범용 아키텍처(트랜스포머)의 원초적인 확장성이 특화된 아키텍처(U-Net)의 초기 이점을 능가할 것이라는 점이다. 모델과 데이터셋이 충분히 크다면, 모델은 데이터로부터 지역적 관계를 스스로 학습할 수 있으며, 나아가 전역적 관계를 더 효과적으로 모델링함으로써 U-Net의 성능을 뛰어넘을 수 있다. 이러한 철학은 구조화된 NLP 모델을 압도한 대규모 언어 모델(LLM)의 성공 경로와 정확히 일치하며, 생성 모델 분야가 새로운 시대로 진입했음을 알리는 신호탄이었다.

확산 트랜스포머(DiT)는 생성 모델 아키텍처의 혁신을 대표하며, 그 설계 원칙과 실험적 검증은 후속 연구의 기틀을 마련했다. DiT의 핵심은 U-Net의 복잡한 합성곱 구조를 버리고, 트랜스포머의 순수하고 확장 가능한 아키텍처를 채택한 데 있다. 본 장에서는 DiT의 핵심 아키텍처, 조건부 정보를 주입하는 정교한 메커니즘, 그리고 이 모델의 혁명적인 확장 법칙(Scaling Law)을 확립한 경험적 증거들을 심층적으로 분석한다.

DiT는 픽셀 공간(pixel space)에서 직접 작동하는 대신, 잠재 확산 모델(Latent Diffusion Model, LDM) 프레임워크 내에서 운영된다.1 이는 DiT가 원본 이미지를 직접 처리하는 것이 아니라, VAE(Variational Autoencoder)를 통해 압축된 저차원 잠재 표현(latent representation)을 다룬다는 것을 의미한다. 이 접근 방식은 계산량을 크게 줄여 대규모 모델의 학습을 현실적으로 만든다.

DiT의 첫 번째 단계는 패치화(patchify) 레이어다.14 이 레이어는 입력으로 받은 잠재 공간 텐서를 겹치지 않는 일련의 작은 패치(토큰)로 분할한다. 예를 들어, $H×W×C$ 크기의 잠재 텐서는 $N$개의 패치 시퀀스로 변환되며, 각 패치의 크기는 $P×P$이다. 여기서 $N=HW/P^2$가 된다. 이 과정은 2차원 공간적 문제를 트랜스포머가 처리하기에 적합한 1차원 시퀀스 문제로 변환하는 결정적인 단계이다.

이렇게 생성된 패치 토큰 시퀀스는 DiT의 본체를 구성하는 일련의 표준 트랜스포머 블록에 의해 처리된다.9 각 트랜스포머 블록은 멀티헤드 셀프 어텐션(Multi-Head Self-Attention) 메커니즘과 MLP(Multi-Layer Perceptron) 블록으로 구성된다. 이는 U-Net의 복잡하고 계층적인 합성곱 구조와는 극명한 대조를 이룬다. DiT는 U-Net의 다운샘플링, 업샘플링, 스킵 연결과 같은 복잡한 구조 없이, 모든 토큰이 모든 다른 토큰과 상호작용할 수 있는 동질적인(isotropic) 아키텍처를 채택하여 전역적 맥락을 효과적으로 포착한다.

확산 모델은 노이즈 제거 과정을 안내하기 위해 조건부 정보가 필요하다. DiT에서는 주로 노이즈 타임스텝 t와 클래스 레이블 c와 같은 조건이 사용된다. DiT 연구에서는 이러한 조건부 정보를 트랜스포머 아키텍처에 효과적으로 주입하기 위한 세 가지 메커니즘을 탐구하고 비교했다.13

  1. 인컨텍스트 조건화(In-context conditioning): 타임스텝 t와 클래스 레이블 c의 벡터 임베딩을 입력 패치 시퀀스에 추가적인 토큰으로 단순히 덧붙이는 방식이다. 이 방법은 구조가 간단하고 계산량(Gflops) 증가가 거의 없다는 장점이 있지만, 실험 결과 다른 방법에 비해 성능이 떨어지는 것으로 나타났다.
  2. 크로스 어텐션 블록(Cross-attention block): 각 트랜스포머 블록 내에 별도의 크로스 어텐션 레이어를 추가하여 조건부 벡터를 주입하는 방식이다. 이는 원래 트랜스포머 아키텍처의 디코더에서 사용된 방식과 유사하며, 이미지 토큰 시퀀스와 조건부 벡터 시퀀스 간의 상호작용을 모델링한다. 이 방식은 효과적이지만, 상당한 계산 오버헤드(약 15%의 Gflops 증가)를 유발한다.
  3. 적응형 레이어 정규화(Adaptive Layer Norm, adaLN): 최종적으로 가장 효과적인 것으로 입증된 전략이다. 이 방식은 트랜스포머 블록 내의 레이어 정규화(Layer Normalization)의 스케일($γ$) 및 시프트($β$) 파라미터를 직접 학습하는 대신, 타임스텝 t와 클래스 레이블 $c$의 임베딩 벡터 합으로부터 이 파라미터들을 회귀(regress)한다. 이 메커니즘은 계산적으로 매우 효율적이면서도 가장 뛰어난 성능을 보였다.

특히, 연구에서는 adaLN-Zero라는 중요한 구현 세부 사항을 도입했다.14 이 방법은 각 DiT 블록을 초기에는 항등 함수(identity function)처럼 작동하도록 초기화한다. 구체적으로, adaLN 레이어에서 회귀된 스케일 및 시프트 파라미터를 적용한 후, 추가적인 스케일 파라미터를 통해 블록의 출력이 입력과 동일하게 되도록 만든다. 이 작은 조정은 학습 초기의 불안정성을 해소하고 모델의 최종 성능(FID)을 크게 향상시키는 “엄청난 차이(huge difference)”를 만들었다고 보고되었다.14

DiT 연구의 가장 핵심적인 경험적 발견은 모델의 성능, 즉 생성된 이미지의 품질을 나타내는 FID(Fréchet Inception Distance) 점수가 모델의 순방향 패스 복잡도, 즉 Gflops(초당 기가 부동소수점 연산)와 예측 가능한 관계를 가진다는 것이다.9 이는 단순히 모델의 파라미터 수를 늘리는 것보다, 실제 수행되는 계산량이 성능의 더 중요한 척도임을 시사한다.

연구에서는 Gflops를 증가시키는 두 가지 주요 방법을 탐구했다.

  1. 모델 크기 확장: 트랜스포머의 깊이(레이어 수)와 너비(은닉 차원 크기)를 증가시키는 것이다. 이는 파라미터 수를 직접적으로 증가시킨다. 연구에서는 ViT의 설정을 따라 Small(S), Base(B), Large(L) 모델을 정의하고, 가장 큰 모델로 XLarge(XL)를 추가로 제안했다.1
  2. 토큰 수 확장: 패치 크기(p)를 줄이는 것이다. 예를 들어, 패치 크기를 8에서 2로 줄이면 트랜스포머가 처리해야 할 입력 토큰의 수는 16배로 증가한다. 셀프 어텐션의 계산 복잡도는 시퀀스 길이에 대해 제곱($O(N^2$))이므로, 이는 Gflops를 폭발적으로 증가시킨다. 중요한 점은 이 방식이 모델의 총 파라미터 수에는 거의 영향을 미치지 않는다는 것이다.14

이러한 확장 법칙을 검증한 핵심 실험 결과는 다음과 같다.

이러한 발견을 구체적으로 보여주기 위해, 아래 표 1은 DiT 모델의 다양한 구성에 따른 파라미터 수, Gflops, 그리고 최종 FID 점수 간의 관계를 요약한다.

표 1: DiT 확장 법칙 - ImageNet 256x256에서의 Gflops 대 FID

모델 구성 파라미터 (백만) 패치 크기 입력 토큰 수 Gflops FID-50K (가이던스 없음)
DiT-S/8 33 8 1024 1.0 93.60
DiT-S/4 33 4 4096 3.2 77.26
DiT-S/2 33 2 16384 11.2 68.40
DiT-B/8 130 8 1024 3.5 77.34
DiT-B/4 130 4 4096 12.8 68.38
DiT-B/2 130 2 16384 49.9 49.33
DiT-L/8 458 8 1024 12.3 46.10
DiT-L/4 458 4 4096 47.7 35.88
DiT-L/2 458 2 16384 189.5 9.53
DiT-XL/8 675 8 1024 18.2 37.08
DiT-XL/4 675 4 4096 71.2 22.88
DiT-XL/2 675 2 16384 283.4 3.55

참고: Gflops 및 FID 값은 논문 9의 데이터와 그림을 기반으로 재구성되었으며, 특정 실험 설정에 따라 약간의 차이가 있을 수 있다. FID 값은 분류기 없는 가이던스(classifier-free guidance)를 적용하지 않은 수치다.

이 표는 DiT 연구의 핵심 주장을 명확하게 뒷받침한다. 특히, 파라미터 수와 실제 계산량의 개념을 근본적으로 분리하는 중요한 함의를 담고 있다. 전통적으로 ‘더 큰’ 모델은 더 많은 파라미터를 의미했다. 그러나 DiT의 패치 크기 실험은 이러한 통념을 깼다. 예를 들어, 표에서 DiT-B/4(130M 파라미터, 12.8 Gflops)와 DiT-L/8(458M 파라미터, 12.3 Gflops)을 비교해 보자. DiT-L/8은 파라미터 수가 3.5배 이상 많지만, Gflops는 DiT-B/4와 비슷하며 FID 성능 또한 크게 우월하지 않다. 반면, 동일한 DiT-B 모델에서 패치 크기를 4에서 2로 줄이면(DiT-B/2) 파라미터 수는 그대로지만 Gflops는 거의 4배로 증가하고, FID는 68.38에서 49.33으로 극적으로 향상된다.

이는 모델이 가진 파라미터의 보다 그 파라미터를 얼마나 집중적으로 사용하는지(즉, 계산량)가 성능에 더 결정적인 영향을 미칠 수 있음을 보여준다. 이 발견은 생성 트랜스포머의 성능 확장을 이해하는 데 있어 새로운 차원을 열었으며, 하드웨어 설계와 모델 최적화에 있어 메모리 용량(파라미터 저장)과 처리 능력(Gflops 수행)이 별개의 확장 축임을 시사한다. 이 원칙은 이후 Sora와 같은 대규모 모델의 개발 철학에 직접적인 영향을 미쳤다.

단일 모달리티(unimodal)에서 성공을 거둔 확산 트랜스포머(DiT)의 원칙은 자연스럽게 여러 이종(heterogeneous) 데이터 스트림을 동시에 처리해야 하는 멀티모달(multi-modal) 영역으로 확장되었다. 멀티모달 확산 트랜스포머(Multi-Modal Diffusion Transformer, MMDiT)는 DiT 아키텍처를 일반화하여, 텍스트, 오디오, 이미지, 깊이 맵, 생체 신호 등 다양한 형태의 데이터를 단일 통합 생성 프레임워크 내에서 융합하고 생성하는 강력한 모델로 진화했다. 본 장에서는 MMDiT의 개념을 정의하고, 정교한 MMDiT 구현 사례인 MoDA 프레임워크를 심층 분석하며, 다양한 도메인에서 MMDiT가 어떻게 활용되고 있는지 살펴봄으로써 그 구조적 유연성과 잠재력을 탐구한다.

MMDiT는 DiT의 진화된 형태로, 여러 데이터 모달리티 간의 복잡한 상호작용을 모델링하도록 설계되었다.16 핵심적인 아키텍처 원리는 DiT와 동일하게 토큰 시퀀스를 처리하는 트랜스포머 백본을 사용한다. 그러나 MMDiT의 핵심 혁신은 각기 다른 모달리티를 어떻게 토큰화하고, 이들 간의 상호작용을 트랜스포머 블록 내에서 어떻게 효과적으로 관리하는지에 있다. 즉, MMDiT는 단순히 여러 입력을 받는 DiT가 아니라, 각 모달리티의 고유한 특성을 보존하면서도 이들 간의 의미론적 관계를 깊이 있게 학습하여 시너지를 창출하는 것을 목표로 한다.

정교한 MMDiT 구현의 대표적인 사례는 말하는 아바타(talking head) 비디오를 생성하는 MoDA(Multi-modal Diffusion framework for Audio-driven talking head generation) 프레임워크이다.16 MoDA의 목표는 단일 인물 이미지와 오디오 입력을 기반으로, 감정과 정체성을 유지하면서 자연스러운 입 모양과 머리 움직임을 가진 비디오를 생성하는 것이다. 이를 위해 MoDA는 복잡한 멀티모달 정보를 효과적으로 융합하는 독창적인 MMDiT 아키텍처를 제안한다.

MoDA의 MMDiT 아키텍처는 여러 핵심 구성 요소로 이루어져 있다.19

이러한 점진적 융합 전략은 MMDiT가 단순한 ‘토큰의 집합’을 처리하는 모델이 아님을 보여준다. 이는 멀티모달 데이터의 복잡한 의미론적 계층과 중복성을 다루기 위해 명시적으로 설계된 구조적 편향(architectural bias)이다. 모델에게 “각 모달리티의 고유성을 먼저 배우고(4-스트림), 그 다음 관련 개념들을 묶어서 배우고(2-스트림), 마지막으로 모든 것을 통합하라(단일 스트림)”는 일종의 학습 커리큘럼을 제공하는 것이다. 이 구조화된 정보 융합 방식은 MoDA의 성공에 핵심적인 역할을 하며, 향후 복잡한 멀티모달 생성 과제를 위한 중요한 설계 패턴을 제시한다.

MMDiT의 구조적 유연성은 말하는 아바타 생성을 넘어 다양한 분야로 빠르게 확장되고 있다. 이는 MMDiT가 특정 응용 프로그램에 국한되지 않는 범용적인 멀티모달 생성 엔진으로서의 잠재력을 가지고 있음을 증명한다.

이처럼 MMDiT는 다양한 데이터 유형과 과제에 맞춰 유연하게 변형될 수 있는 강력한 아키텍처임이 입증되고 있다. 이는 DiT의 확장성 원칙이 멀티모달 영역에서도 성공적으로 적용될 수 있음을 보여주며, 향후 더욱 복잡하고 통합적인 AI 시스템 개발의 핵심 구성 요소가 될 것임을 예고한다.

OpenAI의 Sora는 현재까지 공개된 가장 강력하고 주목받는 DiT 원리의 응용 사례이다. Sora는 DiT 아키텍처를 비디오 영역으로 확장하고, 이를 방대한 데이터 및 정교한 주석 전략과 결합함으로써 단순한 비디오 생성을 넘어 ‘세계 시뮬레이터(world simulator)’로서의 새로운 가능성을 제시했다. 본 장에서는 DiT가 비디오 생성을 위해 어떻게 변형되었는지, 그리고 대규모 데이터와 ‘재주석(recaptioning)’ 기법이 어떻게 결합하여 전례 없는 성능과 창발적(emergent) 능력을 이끌어냈는지 심층적으로 분석한다.

Sora는 그 핵심에 확산 트랜스포머 아키텍처를 두고 있으며, DiT의 기본 원리를 직접적으로 계승하고 확장한다.22 Sora는 DiT를 시간 차원으로 확장하기 위해 몇 가지 핵심적인 아키텍처 구성 요소를 도입했다.25

  1. 비디오 압축 네트워크(Video Compression Network): 이는 LDM/DiT의 VAE와 유사한 역할을 한다. 원본 비디오를 입력으로 받아 공간적(spatially) 및 시간적(temporally)으로 압축된 저차원 잠재 공간 표현으로 변환한다. Sora는 이 압축된 잠재 공간 내에서 모든 생성 과정을 수행함으로써 계산 효율성을 극대화한다.
  2. 시공간 잠재 패치(Spacetime Latent Patches): 이것이 Sora의 가장 중요한 혁신이다. 압축된 잠재 비디오 표현은 ‘시공간 패치’라는 단위의 시퀀스로 분해된다.25 이는 DiT의 2차원 공간 패치를 시간 차원까지 포함하도록 확장한 개념이다. 예를 들어, 각 패치는 공간적 위치뿐만 아니라 시간적 위치 정보도 함께 가지게 된다. 이로써 트랜스포머는 비디오 전체를 하나의 통일된 시퀀스로 처리할 수 있게 되며, 프레임 내의 공간적 관계와 프레임 간의 시간적 관계를 동일한 셀프 어텐션 메커니즘으로 동시에 학습할 수 있다.

이러한 패치 기반 표현 방식은 NaViT와 같은 모델에서 영감을 받은 아키텍처 수정과 결합하여, Sora가 비디오를 자르거나 크기를 조정할 필요 없이 다양한 해상도, 길이, 화면 비율을 직접 처리할 수 있게 만든다.25 이는 생성 모델 학습의 일반적인 관행을 깨고, 원본 데이터의 고유한 특성을 그대로 학습할 수 있게 하여 생성 결과물의 구도와 프레이밍을 향상시키는 데 기여했다.

Sora의 경이로운 성능은 단지 아키텍처의 우수성만으로는 설명될 수 없으며, 데이터 전략이 결정적인 역할을 했다.22 특히 DALL-E 3에서 계승된

재주석(recaptioning) 기법은 Sora의 성공에 핵심적인 요소이다.24 인터넷에서 수집된 일반적인 비디오 캡션은 짧거나, 부정확하거나, 비디오의 중요한 시각적 세부 사항을 누락하는 경우가 많다. 재주석은 이러한 ‘노이즈가 많은’ 레이블 문제를 해결하기 위한 전략이다.

DALL-E 3 논문에서 상세히 설명된 이 과정은 다음과 같다.30

재주석 기법의 효과는 정량적으로 입증되었다. 아래 표 2는 DALL-E 3 연구에서 캡션 유형에 따라 텍스트-이미지 모델의 성능이 어떻게 변하는지를 보여준다.

표 2: 재주석 기법이 생성 모델에 미치는 정량적 영향

캡션 유형 합성 캡션 비율 CLIP 점수 (ViT-B/32)
원본 캡션 (Ground Truth) 0% 27.2
짧은 합성 캡션 (Short Synthetic) 95% 32.0
상세 합성 캡션 (Descriptive Synthetic) 95% 33.5

참고: CLIP 점수는 텍스트와 이미지 간의 의미론적 유사성을 측정하는 지표로, 높을수록 좋습니다. 데이터는 DALL-E 3 논문 30의 그림 4를 기반으로 합니다.

표 2는 재주석의 극적인 효과를 명확히 보여준다. 단순히 원본 캡션을 사용하는 것에 비해, 상세한 합성 캡션을 사용했을 때 CLIP 점수가 27.2에서 33.5로 약 23% 향상되었다. 이는 모델이 사용자의 지시를 훨씬 더 충실하게 따를 수 있게 되었음을 의미한다. 이 데이터는 Sora의 성공이 단지 아키텍처나 데이터의 양에만 있는 것이 아니라, 데이터의 ‘질’, 즉 주석의 품질을 체계적으로 향상시키는 전략에 크게 의존하고 있음을 강력하게 뒷받침한다.

DiT 아키텍처를 대규모 비디오 데이터와 고품질 캡션으로 훈련시켰을 때, Sora는 흥미로운 창발적 능력들을 보여주었다. OpenAI는 이를 바탕으로 Sora를 단순한 비디오 생성기를 넘어 물리적 세계의 일부 측면을 시뮬레이션할 수 있는 “세계 시뮬레이터”로 규정했다.22 관찰된 주요 창발적 능력은 다음과 같다.23

물론 이러한 능력에는 명백한 한계가 존재한다. Sora는 유리가 깨지는 것과 같은 복잡한 물리 현상을 정확하게 모델링하지 못하며, 매우 긴 비디오에서는 일관성이 깨지거나 객체가 비논리적으로 나타나는 현상이 발생한다.25 그럼에도 불구하고, 이러한 창발적 능력은 대규모 생성 모델이 명시적인 3D나 물리 엔진 없이도 데이터만으로 세계의 작동 방식에 대한 암묵적인 모델을 학습할 수 있는 가능성을 보여준다.

Sora와 같이 강력한 모델은 오용될 경우 심각한 사회적 위험을 초래할 수 있다. 이에 OpenAI는 Sora 시스템 카드(System Card)를 통해 다층적인 안전 장치와 레드팀(Red Team) 활동 결과를 공개했다.24

Sora의 성공은 단일 기술의 돌파구가 아니라, 세 가지 핵심 요소의 시너지적 확장 결과로 이해해야 한다. 첫째, 계산량에 따라 성능이 향상되는 확장 가능한 아키텍처(DiT)가 엔진 역할을 했다. 둘째, 인터넷 스케일의 방대한 비디오 데이터, 즉 확장 가능한 데이터가 연료를 제공했다. 셋째, DALL-E 3의 재주석 기법과 같은 확장 가능한 주석 전략이 이 연료의 품질을 높여 엔진이 훨씬 더 효율적으로 작동하도록 만들었다. 이 ‘생성 AI 삼위일체(Generative AI Triad)’는 Sora가 이전 모델들을 뛰어넘는 질적 도약을 이룬 근본적인 이유이며, 창발적 세계 시뮬레이션 능력은 이 전체 시스템이 전례 없는 규모로 작동할 때 나타나는 결과물이다.

DiT/MMDiT 패러다임의 성공은 단일 모델의 등장을 넘어, 관련 연구의 폭발적인 성장을 촉발하는 촉매제가 되었다. 이 아키텍처의 강점(확장성)은 새로운 응용 분야를 개척하는 기회를 제공했고, 약점(계산 비용)은 해결해야 할 새로운 연구 과제를 제시했다. 그 결과, DiT를 중심으로 효율성 향상, 새로운 도메인으로의 확장, 핵심 기능의 정교화라는 세 가지 주요 축을 중심으로 방대한 연구 생태계가 형성되고 있다. 본 장에서는 이 역동적인 생태계를 조망하며, DiT 패러다임의 한계를 극복하고 그 가능성을 확장하기 위한 최신 연구 동향을 체계적으로 분석한다.

DiT의 뛰어난 확장성은 막대한 계산 비용을 대가로 한다. 이는 특히 추론(inference) 과정에서 많은 시간을 소요하게 만들어 실시간 응용이나 자원이 제한된 환경에서의 배포를 어렵게 한다.34 이러한 병목 현상을 해결하기 위해 다양한 효율화 기법들이 활발히 연구되고 있다.

DiT/MMDiT 아키텍처의 유연성과 확장성은 2D 이미지 및 비디오 생성을 넘어, 더 복잡하고 새로운 데이터 도메인으로 그 영역을 넓히고 있다.

DiT 기반 모델의 생성 품질이 높아짐에 따라, 연구의 초점은 단순히 ‘보기 좋은’ 결과물을 만드는 것을 넘어, 사용자가 원하는 대로 정밀하게 제어하고, 물리적으로 타당한 결과물을 생성하는 방향으로 이동하고 있다.

DiT 아키텍처의 등장은 단순히 새로운 모델 클래스를 탄생시킨 것에 그치지 않았다. 이는 AI 연구 커뮤니티 전반에 걸쳐 다방면의 연구 의제를 촉발하는 강력한 플랫폼 역할을 하고 있다. DiT의 근본적인 강점인 확장성은 3D, 범용 비전 모델 등 새로운 기회를 창출했으며, 동시에 근본적인 약점인 계산 비용은 효율화라는 거대한 연구 분야를 낳았다. 또한, Sora와 같은 모델이 보여준 인상적인 능력은 그 한계(물리 법칙의 부재, 제어의 어려움)를 명확히 드러냈고, 이는 다시 시간적 일관성, 제어 가능성, 물리 기반 생성이라는 새로운 연구의 물결을 일으켰다. 이처럼 DiT 패러다임은 정적인 연구 대상을 넘어, 그 자체의 강점과 약점을 통해 AI 커뮤니티의 연구 방향을 역동적으로 이끌어가는 엔진으로 기능하고 있다.

본 보고서는 멀티모달 확산 트랜스포머(MMDiT) 모델에 대한 심층적 고찰을 통해, 이 아키텍처가 생성 AI 분야에서 차지하는 중추적인 위치와 그 발전 경로를 추적했다. U-Net의 귀납적 편향에서 트랜스포머의 계산적 확장성으로의 패러다임 전환에서 시작하여, DiT의 기본 원리, MMDiT로의 진화, Sora를 통한 잠재력의 폭발, 그리고 이를 중심으로 형성된 광범위한 연구 생태계에 이르기까지, DiT 패러다임의 모든 측면을 분석했다. 본 장에서는 이러한 분석을 종합하여 DiT의 발전 궤적을 요약하고, 그 성공의 핵심 원리를 규명하며, 앞으로 해결해야 할 중대한 과제와 미래 전망을 제시하고자 한다.

확산 트랜스포머의 서사는 명확한 발전 단계를 거쳐왔다.

  1. 패러다임의 전환: 첫 단계는 이미지 데이터에 대한 ‘지식’을 내재한 특화된 아키텍처인 U-Net에서, 범용적이지만 계산량에 따라 성능이 예측 가능하게 향상되는 ‘계산 기반’ 아키텍처인 트랜스포머로의 전환이었다. 이는 생성 모델 설계 철학의 근본적인 변화를 의미했다.
  2. 확장 법칙의 확립: DiT는 Gflops라는 계산 복잡도 지표가 파라미터 수보다 모델 성능을 더 잘 예측한다는 ‘확장 법칙’을 경험적으로 증명했다. 이는 생성 모델의 성능 향상을 위한 명확한 경로, 즉 계산량의 증대를 제시했다.
  3. 멀티모달로의 진화: MMDiT는 DiT의 유연성을 활용하여 텍스트, 오디오, 이미지 등 이종의 데이터를 단일 프레임워크 내에서 융합하는 능력으로 발전했다. MoDA의 ‘점진적 융합 전략’과 같은 정교한 아키텍처는 복잡한 멀티모달 정보 처리의 새로운 가능성을 열었다.
  4. 잠재력의 실현: OpenAI의 Sora는 이 패러다임의 정점을 보여주었다. ‘생성 AI 삼위일체’-확장 가능한 아키텍처(DiT), 확장 가능한 데이터(인터넷 스케일 비디오), 확장 가능한 주석(재주석 기법)-의 결합은 단순한 비디오 생성을 넘어, 물리적 세계의 일부를 시뮬레이션하는 듯한 창발적 능력을 이끌어냈다.

이러한 궤적은 DiT 패러다임이 단일 모델을 넘어, 생성 AI의 발전을 이끄는 강력하고 일반적인 원리임을 증명한다.

DiT, MMDiT, Sora의 성공을 관통하는 통일된 원리는 바로 ‘확장성(Scalability)’의 끊임없는 추구와 활용이다. 트랜스포머 아키텍처가 채택된 이유는 그것이 본질적으로 이미지 처리에 더 뛰어나서가 아니라, 계산 자원 투입에 따라 성능이 더 예측 가능하고 효과적으로 확장되기 때문이었다.9

이는 AI 분야의 더 넓은 추세와 맥을 같이 한다. 언어 모델 분야에서 GPT와 같은 모델들은 규모(계산량, 데이터, 파라미터)의 양적 증가가 능력의 질적 도약으로 이어진다는 소위 ‘쓰라린 교훈(The Bitter Lesson)’을 증명했다.74 DiT와 그 후속 모델들은 이 교훈이 시각 데이터 영역에도 강력하게 적용됨을 보여주었다. 즉, 정교한 사전 지식이나 특화된 아키텍처를 설계하는 것보다, 단순하고 확장 가능한 아키텍처를 엄청난 규모의 데이터와 계산으로 훈련시키는 것이 결국 더 우수한 성능을 낳는다는 원칙이 생성 모델 분야에서도 핵심 원리로 자리 잡게 된 것이다.

현재의 연구 생태계 분석을 바탕으로, 차세대 MMDiT 연구를 정의할 주요 도전 과제와 미래 방향을 다음과 같이 전망할 수 있다.

결론적으로, MMDiT는 생성 AI의 종착점이 아니라, 새로운 시대를 여는 강력하고 기초적인 베이스라인으로 자리매김했다. 이 패러다임은 시각 생성 분야의 아키텍처적 접근법을 AI의 다른 분야와 통일시켰으며, ‘규모’라는 원칙에 기반한 명확하지만 도전적인 미래 경로를 제시했다. 다음 시대의 연구는 이 강력한 힘을 더 효율적이고, 제어 가능하며, 이해할 수 있고, 안전하게 만드는 노력에 의해 정의될 것이다. MMDiT가 제시한 청사진 위에서, 인공지능은 현실을 모방하는 것을 넘어, 현실을 이해하고 창조적으로 상호작용하는 단계로 나아갈 것이다.

  1. Scalable Diffusion Models With Transformers PDF Learning Cognitive Science - Scribd, accessed July 19, 2025, https://www.scribd.com/document/682018575/Scalable-Diffusion-Models-with-Transformers
  2. Inductive Bias in Machine Learning - Universität Tübingen, accessed July 19, 2025, https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/135988/thesis.pdf?sequence=1&isAllowed=y
  3. Inductive Bias In Machine Learning by Sanjithkumar - Medium, accessed July 19, 2025, https://medium.com/@sanjithkumar986/inductive-bias-in-machine-learning-f360ea678a15
  4. Incorporating Inductive Bias into Deep Learning: A Perspective from Automated Visual Inspection in Aircraft Maintenance - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/328334741_Incorporating_Inductive_Bias_into_Deep_Learning_A_Perspective_from_Automated_Visual_Inspection_in_Aircraft_Maintenance
  5. Vision Transformer (ViT) Decoded: A New Era in Computer Vision by Sayantan Ghosh, accessed July 19, 2025, https://medium.com/@gsayantan1999/vision-transformer-vit-decoded-a-new-era-in-computer-vision-8d3df7434821
  6. Leveraging Inductive Bias in ViT for Medical Image Diagnosis - BMVA Archive, accessed July 19, 2025, https://bmva-archive.org.uk/bmvc/2024/papers/Paper_670/paper.pdf
  7. Vision Transformer (ViT) Explained - Ultralytics, accessed July 19, 2025, https://www.ultralytics.com/glossary/vision-transformer-vit
  8. Inductive Bias In Deep Learning - 1 by Sanjithkumar - Medium, accessed July 19, 2025, https://medium.com/@sanjithkumar986/inductive-bias-in-deep-learning-1-17a7c3f35381
  9. Scalable Diffusion Models with Transformers - CVF Open Access, accessed July 19, 2025, https://openaccess.thecvf.com/content/ICCV2023/papers/Peebles_Scalable_Diffusion_Models_with_Transformers_ICCV_2023_paper.pdf
  10. Introduction to Vision Transformers (ViT) - Encord, accessed July 19, 2025, https://encord.com/blog/vision-transformers/
  11. An Explanation of the Vision Transformer (ViT) Paper by Zaynab Awofeso - Medium, accessed July 19, 2025, https://medium.com/codex/an-explanation-of-the-vision-transformer-vit-paper-8cdd399741aa
  12. Vision Transformers (ViT) in Image Recognition: Full Guide - viso.ai, accessed July 19, 2025, https://viso.ai/deep-learning/vision-transformer-vit/
  13. [2212.09748] Scalable Diffusion Models with Transformers, accessed July 19, 2025, https://ar5iv.labs.arxiv.org/html/2212.09748
  14. Scalable Diffusion Models with Transformers - William Peebles, accessed July 19, 2025, https://www.wpeebles.com/DiT.html
  15. (PDF) Scalable Diffusion Models with Transformers - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/366423225_Scalable_Diffusion_Models_with_Transformers
  16. MoDA: Multi-modal Diffusion Architecture for Talking Head Generation - arXiv, accessed July 19, 2025, https://arxiv.org/html/2507.03256v1
  17. [2502.07685] Matrix3D: Large Photogrammetry Model All-in-One - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2502.07685
  18. Versatile Cardiovascular Signal Generation with a Unified Diffusion Transformer - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2505.22306
  19. MoDA: Multi-modal Diffusion Architecture for Talking Head … - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/2507.03256
  20. [2410.15959] Diffusion Transformer Policy - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2410.15959
  21. ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features - arXiv, accessed July 19, 2025, https://arxiv.org/html/2502.04320v1
  22. Under The Hood: How OpenAI’s Sora Model Works - Factorial Funds, accessed July 19, 2025, https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works
  23. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models - arXiv, accessed July 19, 2025, https://arxiv.org/html/2402.17177v3
  24. Sora System Card - OpenAI, accessed July 19, 2025, https://openai.com/index/sora-system-card/
  25. Video generation models as world simulators OpenAI, accessed July 19, 2025, https://openai.com/index/video-generation-models-as-world-simulators/
  26. Unveiling Sora: A Revolutionary Video Generation Model by Vishal Tiwari Medium, accessed July 19, 2025, https://medium.com/@vishaltiwari/unveiling-sora-a-revolutionary-video-generation-model-for-business-analytics-01c3d002141e
  27. OpenAI Sora’s Technical Review - Jianing Qi, accessed July 19, 2025, https://j-qi.medium.com/openai-soras-technical-review-a8f85b44cb7f
  28. [D] The Tech Behind The Magic : How OpenAI SORA Works : r/MachineLearning - Reddit, accessed July 19, 2025, https://www.reddit.com/r/MachineLearning/comments/1bqmn86/d_the_tech_behind_the_magic_how_openai_sora_works/
  29. Detailed Guide On OpenAI’s SORA - Medium, accessed July 19, 2025, https://medium.com/ikarusxr/what-is-openais-sora-44f7080107fc
  30. Improving Image Generation with Better Captions - OpenAI, accessed July 19, 2025, https://cdn.openai.com/papers/dall-e-3.pdf
  31. Paper Summary #12 - Image Recaptioning in DALL-E 3 Shreyansh Singh, accessed July 19, 2025, https://shreyansh26.github.io/post/2024-02-18_dalle3_image_recaptioner/
  32. Sora is here - OpenAI, accessed July 19, 2025, https://openai.com/index/sora-is-here/
  33. Sora: Creating video from text - OpenAI, accessed July 19, 2025, https://openai.com/index/sora/
  34. arXiv:2412.12444v3 [cs.LG] 21 Mar 2025, accessed July 19, 2025, https://arxiv.org/pdf/2412.12444?
  35. (PDF) Training-Free Efficient Video Generation via Dynamic Token Carving - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/391991604_Training-Free_Efficient_Video_Generation_via_Dynamic_Token_Carving
  36. QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation - arXiv, accessed July 19, 2025, https://arxiv.org/html/2503.06545v1
  37. FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation - arXiv, accessed July 19, 2025, https://arxiv.org/html/2505.20353v1
  38. Block-wise Adaptive Caching for Accelerating Diffusion Policy - arXiv, accessed July 19, 2025, https://arxiv.org/html/2506.13456v1
  39. Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/381703958_Q-DiT_Accurate_Post-Training_Quantization_for_Diffusion_Transformers
  40. ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation - arXiv, accessed July 19, 2025, https://arxiv.org/html/2406.02540v1
  41. Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers - arXiv, accessed July 19, 2025, https://arxiv.org/html/2505.22167v1
  42. Daily Papers - Hugging Face, accessed July 19, 2025, https://huggingface.co/papers?q=Diffusion%20Transformers%20(DiTs)
  43. Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers - arXiv, accessed July 19, 2025, https://arxiv.org/html/2506.05096v2
  44. Region-Adaptive Sampling Accelerates Diffusion Transformers - AIverse, accessed July 19, 2025, https://www.getaiverse.com/post/region-adaptives-sampling-beschleunigung-von-diffusion-transformers
  45. NeurIPS Poster Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer, accessed July 19, 2025, https://neurips.cc/virtual/2024/poster/93214
  46. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer OpenReview, accessed July 19, 2025, https://openreview.net/forum?id=vCOgjBIZuL¬eId=j1NdkCt7JB
  47. Direct3D: Scalable Image-to-3D Generation via 3D Latent … - NIPS, accessed July 19, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/dc970c91c0a82c6e4cb3c4af7bff5388-Paper-Conference.pdf
  48. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer Request PDF - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/380847723_Direct3D_Scalable_Image-to-3D_Generation_via_3D_Latent_Diffusion_Transformer
  49. [Literature Review] Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer - Moonlight, accessed July 19, 2025, https://www.themoonlight.io/en/review/direct3d-scalable-image-to-3d-generation-via-3d-latent-diffusion-transformer
  50. LaVin-DiT: Large Vision Diffusion Transformer - arXiv, accessed July 19, 2025, https://arxiv.org/html/2411.11505v4
  51. [2411.11505] LaVin-DiT: Large Vision Diffusion Transformer - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2411.11505
  52. LaVin-DiT - Zhaoqing Wang, accessed July 19, 2025, https://derrickwang005.github.io/LaVin-DiT/
  53. LaVin-DiT: Large Vision Diffusion Transformer Supplementary Material, accessed July 19, 2025, https://openaccess.thecvf.com/content/CVPR2025/supplemental/Wang_LaVin-DiT_Large_Vision_CVPR_2025_supplemental.pdf
  54. Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation, accessed July 19, 2025, https://arxiv.org/html/2409.14411v1
  55. Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution - arXiv, accessed July 19, 2025, https://arxiv.org/html/2502.07381v2
  56. Enhance-A-Video: Better Generated Video for Free - arXiv, accessed July 19, 2025, https://arxiv.org/html/2502.07508v3
  57. Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting OpenReview, accessed July 19, 2025, https://openreview.net/forum?id=s1zfBJysbI
  58. VersVideo: Leveraging Enhanced Temporal Diffusion Models for Versatile Video Generation OpenReview, accessed July 19, 2025, https://openreview.net/forum?id=K9sVJ17zvB
  59. A Survey of Multimodal Controllable Diffusion Models - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/382475500_A_Survey_of_Multimodal_Controllable_Diffusion_Models
  60. A Survey of Multimodal Controllable Diffusion Models - SciOpen, accessed July 19, 2025, https://www.sciopen.com/article/10.1007/s11390-024-3814-0
  61. PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models - GitHub, accessed July 19, 2025, https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
  62. [2506.05934] FADE: Frequency-Aware Diffusion Model Factorization for Video Editing - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2506.05934
  63. EffiVED:Efficient Video Editing via Text-instruction Diffusion Models - arXiv, accessed July 19, 2025, https://arxiv.org/html/2403.11568v1
  64. VideoDirector: Precise Video Editing via Text-to-Video Models - CVF Open Access, accessed July 19, 2025, https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_VideoDirector_Precise_Video_Editing_via_Text-to-Video_Models_CVPR_2025_paper.pdf
  65. Motion Guidance: Diffusion-Based Image Editing with Differentiable Motion Estimators, accessed July 19, 2025, https://dangeng.github.io/motion_guidance/
  66. Unsupervised Learning of Disentangled Representations from Video - NIPS, accessed July 19, 2025, http://papers.neurips.cc/paper/7028-unsupervised-learning-of-disentangled-representations-from-video.pdf
  67. Daily Papers - Hugging Face, accessed July 19, 2025, https://huggingface.co/papers?q=part-disentangled%20motion%20injection
  68. DEEP PROBABILISTIC VIDEO COMPRESSION - OpenReview, accessed July 19, 2025, https://openreview.net/pdf?id=r1l-e3Cqtm
  69. [2503.23368] VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2503.23368
  70. Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation - arXiv, accessed July 19, 2025, https://arxiv.org/html/2505.21653v1
  71. [2403.14404] Physics-Informed Diffusion Models - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2403.14404
  72. A Physics-informed Diffusion Model for High-fidelity Flow Field Reconstruction - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/2211.14680
  73. Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning - arXiv, accessed July 19, 2025, https://arxiv.org/html/2504.15932v1
  74. AI and compute OpenAI, accessed July 19, 2025, https://openai.com/index/ai-and-compute/
  75. Towards Physically Plausible Video Generation via VLM Planning - arXiv, accessed July 19, 2025, https://arxiv.org/html/2503.23368v1