생성 모델(Generative Model) 분야는 지난 십수 년간 괄목할 만한 발전을 거듭하며 인공지능 연구의 최전선을 이끌어왔다. 생성적 적대 신경망(Generative Adversarial Networks, GANs), 변분 오토인코더(Variational Autoencoders, VAEs), 그리고 자기회귀 모델(Autoregressive Models)과 같은 초기 패러다임들은 각기 다른 접근법을 통해 데이터의 잠재적 분포를 학습하고 새로운 샘플을 생성하는 능력을 선보였다.1 이들은 이미지, 텍스트, 음성 등 다양한 도메인에서 인상적인 결과를 만들어냈으나, 학습 과정의 불안정성, 생성된 샘플의 다양성 부족, 또는 낮은 품질 등의 한계를 종종 드러내었다. 이러한 상황 속에서, 비평형 통계물리학에서 영감을 받은 확산 모델(Diffusion Models)이 새로운 대안으로 부상하며 생성 모델링의 패러다임을 근본적으로 바꾸어 놓았다.2
확산 모델은 데이터를 점진적으로 노이즈로 변환하는 순방향 과정(forward process)과, 그 과정을 역으로 거슬러 올라가 노이즈로부터 데이터를 복원하는 역방향 과정(reverse process)을 학습하는 독특한 구조를 가진다.5 이 접근법은 특히 이미지 생성 분야에서 전례 없는 수준의 품질과 사실성을 달성하며 학계와 산업계의 폭발적인 주목을 받았다. CIFAR-10, ImageNet과 같은 표준 벤치마크에서 기존 모델들을 압도하는 FID(Fréchet Inception Distance) 및 Inception 점수를 기록하며, 확산 모델은 고품질 생성의 새로운 표준으로 자리매김했다.5 예를 들어, 초기 연구에서부터 CIFAR-10 데이터셋에 대해 2.20의 FID 점수를 달성하는 등 기록적인 성능을 보였다.5
그러나 이러한 뛰어난 성능의 이면에는 치명적인 단점이 존재했다. 바로 생성 속도의 문제였다. 초기 확산 모델들은 고품질의 샘플 하나를 생성하기 위해 수백에서 수천 번에 이르는 반복적인 신경망 평가를 요구했다.2 이로 인해 실시간 응용이나 대규모 생성 작업에는 부적합하다는 평가를 받았으며, 이는 확산 모델의 대중화를 가로막는 가장 큰 기술적 장벽으로 작용했다.11 이 문제를 해결하기 위한 노력은 이후 확산 모델 연구의 핵심적인 동력이 되었으며, 이는 본 보고서의 주요 논의 주제 중 하나이다.
본 보고서는 확산 모델의 이론적 근간부터 최신 기술 동향, 그리고 미래 전망에 이르기까지 포괄적이고 심층적인 고찰을 제공하는 것을 목표로 한다. 이를 위해 보고서는 다음과 같은 논리적 흐름에 따라 전개된다. 제1장에서는 확산 모델의 수학적 기초가 되는 확률적 미분 방정식(SDE) 프레임워크를 탐구하고, 이것이 어떻게 기존 모델들을 통합하며 새로운 연구의 지평을 열었는지 분석한다. 제2장에서는 확산 모델의 가장 큰 약점이었던 샘플링 속도를 개선하기 위한 핵심 기술들, 즉 점진적 증류와 컨시스턴시 모델의 원리와 발전을 상세히 다룬다. 제3장에서는 아키텍처의 진화를 조명하며, Sora와 Lumiere로 대표되는 비디오 생성 모델들이 어떻게 시공간 데이터를 처리하는지에 대한 상이한 철학을 비교 분석한다. 제4장에서는 확산 모델이 과학적 발견(3D 분자 구조 생성)과 예술적 창작(텍스트-음악 생성) 등 다양한 전문 분야로 확장되면서 마주하는 도메인 특화 과제들을 살펴본다. 마지막으로 제5장에서는 지금까지의 논의를 종합하고, 현재 패러다임의 근본적인 한계에 대한 비판적 고찰을 통해 차세대 생성 모델, 즉 ‘월드 모델’을 향한 미래 전망을 제시하며 보고서를 마무리한다.
확산 모델의 현대적 이해는 확률적 미분 방정식(Stochastic Differential Equation, SDE)이라는 강력한 수학적 도구를 통해 완성되었다. SDE 프레임워크는 기존의 이산적인 시간 단계에 기반한 접근법들을 연속 시간의 관점에서 통합하고 일반화함으로써, 모델 설계의 유연성을 극대화하고 새로운 이론적 발전을 위한 토대를 마련했다. 이 장에서는 데이터가 노이즈로 변환되는 순방향 과정과 노이즈로부터 데이터가 생성되는 역방향 과정이 어떻게 SDE로 공식화되는지, 그리고 이 프레임워크가 어떻게 확산 모델 연구의 패러다임을 바꾸었는지 심도 있게 탐구한다.
확산 모델의 근본적인 아이디어는 복잡하고 구조화된 데이터 분포 $p_0(\mathbf{x})$를 점진적으로 파괴하여, 다루기 쉬운 단순한 사전 분포(prior distribution) $p_T(\mathbf{x})$(예: 표준 정규분포)로 변환하는 것이다.5 이 과정을 무한히 작은 시간 단계의 연속으로 간주할 때, 데이터 포인트 $\mathbf{x}(t)$의 시간적 변화는 다음과 같은 일반적인 형태의 Itô SDE로 모델링될 수 있다.13 \(d\mathbf{x} = \mathbf{f}(\mathbf{x}, t)dt + g(t)d\mathbf{w}\) 여기서 $t$는 $0$부터 $T$까지 흐르는 연속적인 시간 변수이며, $\mathbf{x}(0)$은 원본 데이터 분포 $p_0$에서 샘플링된 데이터 포인트를 의미한다. $\mathbf{w}$는 표준 위너 과정(Wiener process) 또는 브라운 운동(Brownian motion)으로, 시간에 따른 무작위적인 변동을 나타낸다.2
$\mathbf{f}(\mathbf{x}, t)$는 드리프트 계수(drift coefficient)로서 시간에 따른 $\mathbf{x}$의 결정론적 변화 경향을 제어하고, $g(t)$는 확산 계수(diffusion coefficient)로서 주입되는 노이즈의 강도를 조절한다.13 이 순방향 SDE의 중요한 특징은 데이터 분포 자체에 의존하지 않으며, 학습 가능한 파라미터 없이 사전에 정의된다는 점이다.13 즉, 데이터가 노이즈로 변환되는 ‘경로’는 미리 정해져 있다.
생성 모델링의 목표는 순방향 과정의 역, 즉 사전 분포 $p_T$에서 샘플링한 노이즈 $\mathbf{x}(T)$로부터 원본 데이터 $\mathbf{x}(0)$를 생성하는 것이다. Anderson (1982)의 선구적인 연구에 따르면, 특정 조건 하에서 모든 확산 과정 SDE는 시간의 흐름을 거꾸로 뒤집은 역방향 SDE(reverse-time SDE)를 갖는다.5 이 역방향 SDE는 다음과 같이 표현된다.6 \(d\mathbf{x} = [\mathbf{f}(\mathbf{x}, t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})]dt + g(t)d\bar{\mathbf{w}}\) 여기서 $d\bar{\mathbf{w}}$는 시간이 역으로 흐를 때의 위너 과정이며, $dt$는 음의 무한소 시간 변화량을 의미한다. 이 방정식의 가장 중요하고 핵심적인 부분은 역방향 과정이 오직 스코어 함수(score function), 즉 각 시간 $t$에서의 주변 데이터 분포 $p_t(\mathbf{x})$의 로그 확률 밀도에 대한 그래디언트인 $\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$에만 의존한다는 사실이다.5 스코어 함수는 데이터 밀도가 높은 방향을 가리키는 벡터 필드로 해석될 수 있으며, 생성 과정에서 노이즈 샘플이 데이터 매니폴드(data manifold)를 향해 이동하도록 안내하는 역할을 한다.
문제는 $p_t(\mathbf{x})$를 직접 계산하는 것이 불가능하므로 스코어 함수 역시 알 수 없다는 점이다. 확산 모델은 이 미지의 스코어 함수를 파라미터 $\theta$를 갖는 신경망, 즉 스코어 모델 $\mathbf{s}\theta(\mathbf{x}, t)$로 근사한다.5 이 스코어 모델은 스코어 매칭(score matching)이라는 목적 함수를 최소화하도록 학습된다.14 학습이 완료되면, 근사된 스코어 모델 $\mathbf{s}\theta(\mathbf{x}, t)$를 역방향 SDE에 대입하고 수치적 SDE 솔버(numerical SDE solver)를 사용하여 노이즈로부터 고품질의 데이터 샘플을 생성할 수 있다.8
SDE 프레임워크의 진정한 가치는 그것이 기존의 대표적인 확산 모델 계열들을 하나의 통일된 관점에서 설명하고 일반화한다는 데 있다.5 이전까지 서로 다른 접근법으로 여겨졌던 Denoising Diffusion Probabilistic Models (DDPM) 6와 Score Matching with Langevin Dynamics (SMLD) 13는 사실상 SDE 프레임워크의 특정 이산화(discretization)에 해당한다.5
이러한 통합은 단순히 두 모델을 수학적으로 연결하는 것을 넘어, 확산 모델 연구를 위한 근본적인 추상화 계층을 제공했다. 연구자들은 더 이상 특정 이산적 노이즈 스케줄이나 구현 방식에 얽매일 필요가 없어졌다. 대신, 드리프트 함수 $\mathbf{f}$와 확산 함수 $g$라는 두 가지 핵심 요소를 설계함으로써, 데이터와 노이즈 사이를 잇는 무한한 종류의 ‘경로’ 자체를 탐색할 수 있는 디자인 공간을 확보하게 된 것이다.
이러한 개념적 전환의 가장 중요한 산물 중 하나는 확률 흐름 상미분 방정식(Probability Flow ODE)의 발견이다.5 역방향 SDE에서 확률적 항($g(t)d\bar{\mathbf{w}}$)을 제거하면 다음과 같은 결정론적(deterministic) 상미분 방정식(ODE)을 얻을 수 있다. \(\frac{d\mathbf{x}}{dt} = \mathbf{f}(\mathbf{x}, t) - \frac{1}{2} g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})\) 이 PF-ODE의 해(solution)는 놀랍게도 원래의 SDE와 동일한 주변 분포 $p_t(\mathbf{x})$의 궤적을 따른다.14 즉, 확률적인 변동 없이도 노이즈에서 데이터로의 변환이 가능하다. 이 결정론적 경로는 샘플링 과정에서 발생하는 오차를 줄여 더 빠른 샘플링을 가능하게 하고, 가역성(reversibility)을 보장하여 정확한 로그 확률 계산의 길을 열었다.5 더 나아가, “하나의 고유한 경로가 존재한다”는 이 아이디어는 이후 등장할 컨시스턴시 모델의 이론적 초석이 되었다. PF-ODE가 제시한 ‘결정론적 궤적’이라는 개념이 없었다면, “궤적 위의 모든 점은 동일한 시작점으로 돌아가야 한다”는 자기 일관성(self-consistency) 원리, 즉 컨시스턴시 모델의 핵심 아이디어는 개념적으로 정립되기 어려웠을 것이다.2 이처럼 SDE 프레임워크, 특히 PF-ODE의 발견은 확산 모델을 단순한 생성 알고리즘에서 풍부한 수학적 구조를 지닌 대상으로 격상시켰으며, 이후의 혁신적인 발전을 위한 이론적 발판을 마련한 결정적인 전환점이었다.
확산 모델이 제시한 압도적인 생성 품질에도 불구하고, 초기 모델들은 수백에서 수천 번의 반복적인 함수 평가를 요구하는 느린 샘플링 속도라는 치명적인 약점을 안고 있었다.2 이는 모델의 실용성을 크게 저해하는 요소였으며, 이 문제를 해결하기 위한 연구는 확산 모델 발전의 가장 중요한 축을 형성했다. 이 장에서는 샘플링 가속화를 위한 두 가지 핵심적인 접근법, 즉 ‘점진적 증류’와 ‘컨시스턴시 모델’을 중심으로 그 원리와 발전을 상세히 분석하고, 이들이 어떻게 실시간 생성의 가능성을 열었는지 탐구한다.
샘플링 속도 문제를 해결하기 위한 초기 접근법 중 가장 성공적인 사례는 Salimans와 Ho가 제안한 ‘점진적 증류(Progressive Distillation)’ 기법이다.12 이 방법은 이미 학습된 고품질의 느린 ‘교사(teacher)’ 모델의 지식을, 더 적은 샘플링 스텝으로 유사한 결과를 내는 ‘학생(student)’ 모델에게 전달하는 증류(distillation) 과정을 기반으로 한다.10
점진적 증류의 핵심 아이디어는 교사 모델이 수행하는 두 번의 샘플링 스텝을 학생 모델이 단 한 번의 스텝으로 모방하도록 학습시키는 것이다.10 구체적인 과정은 다음과 같다. 먼저, 수천 스텝(예: $N$ 스텝)을 사용하는 결정론적 DDIM 샘플러 기반의 교사 모델이 있다.12 학생 모델은 교사 모델의 파라미터로 초기화된다. 학습 과정에서, 특정 시점 $t$의 노이즈 데이터 $\mathbf{x}t$가 주어지면, 교사 모델은 두 번의 DDIM 스텝을 수행하여 $\mathbf{x}{t-2}$를 계산한다 ($\mathbf{x}t \to \mathbf{x}{t-1} \to \mathbf{x}{t-2}$). 학생 모델의 목표는 $\mathbf{x}_t$에서 단 한 번의 스텝으로 이 $\mathbf{x}{t-2}$와 동일한 결과를 예측하도록 학습하는 것이다. 이를 위해, 한 스텝으로 $\mathbf{x}t$에서 $\mathbf{x}{t-2}$로 이동시키는 데 필요한 이상적인 예측값 $\tilde{\mathbf{x}}$를 계산하고, 학생 모델의 출력이 이 $\tilde{\mathbf{x}}$에 가까워지도록 손실 함수를 구성하여 학습한다.12
이 증류 과정을 한 번 마치면, 학생 모델은 교사 모델의 절반인 $N/2$ 스텝만으로 유사한 품질의 샘플을 생성할 수 있게 된다. ‘점진적’이라는 이름이 붙은 이유는 이 과정을 반복적으로 적용하기 때문이다. 첫 번째 증류를 마친 학생 모델이 새로운 교사 모델이 되어, 다시 그 절반인 $N/4$ 스텝을 사용하는 새로운 학생 모델을 학습시킨다. 이 과정을 계속 반복하면($N \to N/2 \to N/4 \dots$), 샘플링 스텝 수를 기하급수적으로 줄일 수 있다.10 연구 결과에 따르면, 이 기법을 통해 초기 1024 또는 8192 스텝을 사용하던 모델을 단 4~8 스텝만으로도 높은 지각적 품질을 유지하는 모델로 증류할 수 있었으며, CIFAR-10 데이터셋에서 4스텝만으로 3.0의 FID 점수를 달성하는 등 인상적인 성과를 보였다.10 점진적 증류는 기존 확산 모델의 프레임워크를 크게 벗어나지 않으면서도 샘플링 속도를 획기적으로 개선한 실용적이고 강력한 공학적 해결책이었다.
점진적 증류가 기존의 샘플링 경로를 ‘압축’하는 공학적 최적화에 가까웠다면, Song 등이 제안한 ‘컨시스턴시 모델(Consistency Models)’은 샘플링 문제에 대한 근본적인 패러다임 전환을 제시했다.2 이 모델의 목표는 제1장에서 소개된 PF-ODE의 결정론적 궤적 위 어떤 지점($\mathbf{x}_t$)에서든, 그 궤적의 시작점인 원본 데이터($\mathbf{x}_0$)로 직접 매핑하는 함수 $f(\mathbf{x}_t, t) = \mathbf{x}_0$를 학습하는 것이다.2
이러한 직접 매핑을 가능하게 하는 핵심 원리는 자기 일관성(self-consistency)이다.2 이는 “하나의 동일한 PF-ODE 궤적에 속하는 모든 점들($\mathbf{x}{t_1}, \mathbf{x}{t_2}, \dots$)은 반드시 동일한 시작점 $\mathbf{x}0$에 매핑되어야 한다”는 제약 조건이다. 즉, $f(\mathbf{x}{t_i}, t_i) = f(\mathbf{x}_{t_j}, t_j)$ for all $i, j$가 성립해야 한다. 이 자기 일관성 속성을 모델에 강제함으로써, 모델은 어떤 시점의 노이즈가 주어지더라도 단 한 번의 함수 평가만으로 최종 이미지를 생성할 수 있게 된다. 이는 반복적인 샘플링 과정 자체를 생략하는 혁신적인 접근법이다.7
컨시스턴시 모델의 학습 방법은 크게 두 가지로 나뉜다 7:
증류 기반 학습 (Consistency Distillation): 이 방법은 사전 학습된 확산 모델(스코어 모델)을 활용한다.2 먼저, 스코어 모델과 ODE 솔버를 사용하여 PF-ODE 궤적 상의 인접한 두 점,
$\mathbf{x}{t{n+1}}$과 $\mathbf{x}{t_n}$을 생성한다. 그 후, 컨시스턴시 모델 $f\theta$의 출력이 이 두 점에 대해 일관성을 갖도록, 즉 두 출력값 사이의 거리(예: LPIPS)가 최소화되도록 학습한다. 이 과정은 교사 모델(스코어 모델)의 지식을 학생 모델(컨시스턴시 모델)에게 증류하는 것과 유사하다. 이 방법은 CIFAR-10에서 단일 스텝 생성으로 3.55의 FID를, ImageNet 64x64에서 6.20의 FID를 달성하며 기존 증류 기법들을 능가하는 성능을 보였다.7
독립 학습 (Consistency Training): 이 방법은 사전 학습된 모델 없이 데이터로부터 직접 컨시스턴시 모델을 학습한다.7 스코어 함수를 알 수 없기 때문에, ODE 솔버의 단일 스텝 근사를 사용하여 인접한 점을 추정하고, 이 추정된 점들에 대해 자기 일관성 손실을 적용한다.24 이 접근법은 사전 학습 모델의 성능에 제약받지 않는다는 장점이 있다. 초기에는 증류 기반 모델보다 성능이 낮았으나, 이후 연구에서 EMA(Exponential Moving Average)를 제거하고 Pseudo-Huber와 같은 더 견고한 손실 함수를 도입하는 등 학습 기법을 개선함으로써 증류 모델의 성능을 뛰어넘는 결과를 달성했다.25 개선된 독립 학습 기법은 CIFAR-10에서 2.51, ImageNet 64x64에서 3.25의 FID를 단일 스텝으로 달성하며 그 잠재력을 입증했다.25
컨시스턴시 모델은 단일 스텝 생성뿐만 아니라, 몇 번의 추가적인 정제 스텝을 통해 샘플 품질을 더욱 향상시킬 수 있는 유연성도 제공한다.2 또한, 명시적인 학습 없이도 이미지 인페인팅, 색상화, 초해상도와 같은 제로샷(zero-shot) 데이터 편집 작업을 수행할 수 있는 능력까지 갖추고 있어 2, 단순한 가속화 기술을 넘어 새로운 생성 모델 패러다임으로서의 가능성을 보여주었다.
단일 스텝 생성이 가능한 컨시스턴시 모델은 속도 면에서 혁신적이었지만, 여전히 수십~수백 스텝을 사용하는 전통적인 확산 모델에 비해 샘플 품질이 다소 떨어지는 한계가 있었다. 반면, 확산 모델은 품질은 높지만 매우 느렸다. 이 두 극단 사이의 실용적인 절충안을 제시한 것이 바로 ‘다중 스텝 컨시스턴시 모델(Multistep Consistency Models)’이다.26
이 모델은 컨시스턴시 모델(1-step)과 확산 모델($\infty$-step) 사이를 매끄럽게 보간(interpolate)하는 통합 프레임워크를 제안한다. 사용자는 샘플링 시 사용할 스텝의 수(예: 2, 4, 8 스텝)를 자유롭게 선택할 수 있으며, 이를 통해 계산량(속도)과 샘플 품질 간의 트레이드오프를 직접 제어할 수 있다.26 예를 들어, 8스텝 샘플링을 사용하면 단일 스텝 컨시스턴시 모델보다 훨씬 높은 품질의 이미지를 생성하면서도, 수백 스텝을 요구하는 확산 모델보다는 훨씬 빠른 속도를 유지할 수 있다. 이 접근법은 ImageNet 64x64 데이터셋에서 8스텝만으로 1.4 FID라는 매우 높은 성능을 달성하며, 속도와 품질이라는 두 마리 토끼를 모두 잡는 실용적인 해결책임을 입증했다.26
이러한 발전의 궤적은 샘플링 속도 문제에 대한 접근 방식이 어떻게 진화했는지를 명확히 보여준다. 점진적 증류는 기존 프레임워크 내에서 “어떻게 하면 기존의 여러 스텝을 더 적은 스텝으로 압축할 수 있을까?”라는 공학적 질문에 대한 답이었다. 이는 기존 경로를 인정하고 이를 효율화하려는 시도였다. 반면, 컨시스턴시 모델은 “왜 굳이 경로를 따라가야 하는가? 경로 위의 어떤 지점에서든 목적지로 바로 점프할 수는 없는가?”라는 더 근본적인 질문을 던졌다. 이는 PF-ODE라는 이론적 토대 위에서 생성 방식 자체를 재정의하려는 이론적 도약이었다. 그리고 다중 스텝 컨시스턴시 모델의 등장은, 이 두 접근법의 장점을 결합하려는 변증법적 종합의 결과로 볼 수 있다. 즉, 컨시스턴시 모델의 ‘단일 스텝’이라는 이론적 이상과, 확산 모델의 ‘다중 스텝’이 주는 품질 안정성이라는 공학적 현실 사이에서 최적의 균형점을 찾으려는 시도인 것이다. 이는 기술 발전이 단순히 선형적으로 이루어지는 것이 아니라, 때로는 이전 패러다임의 장점을 다시 통합하며 더 성숙한 형태로 나아감을 보여주는 대표적인 사례이다.
아래 표는 본 장에서 논의된 주요 샘플링 가속화 기법들의 핵심적인 특징을 비교하여 요약한 것이다.
| 특성 (Feature) | SDE/ODE 샘플러 (SDE/ODE Sampler) | 점진적 증류 (Progressive Distillation) | 컨시스턴시 모델 (Consistency Models) |
|---|---|---|---|
| 핵심 아이디어 | 역방향 SDE/ODE를 수치적으로 풀어 노이즈를 데이터로 변환 | 교사 모델의 2스텝을 학생 모델의 1스텝으로 압축하는 과정 반복 | PF-ODE 궤적 상의 모든 점을 시작점으로 직접 매핑 (자기 일관성) |
| 샘플링 방식 | 반복적, 순차적 (Iterative, Sequential) | 반복적, 순차적 (단, 스텝 수 감소) | 단일 스텝 (One-Step) 또는 소수 스텝 |
| 일반적 스텝 수 | 100 ~ 8000+ | 4 ~ 64 | 1 ~ 8 |
| 사전 학습 모델 | 필요 없음 (자체 학습) | 필수 (증류할 교사 모델) | 선택적 (증류 기반 또는 독립 학습) |
| 품질 대 속도 | 최고 품질, 가장 느림 | 스텝 수에 따라 품질과 속도 조절 | 최고 속도, 스텝 수 증가 시 품질 향상 |
| 주요 논문 | Song et al., 2021 5 | Salimans & Ho, 2022 12 | Song et al., 2023 7 |
확산 모델이 이미지 생성에서 거둔 성공은 자연스럽게 더 복잡하고 고차원적인 데이터, 특히 비디오와 같은 시공간 데이터로의 확장에 대한 기대로 이어졌다. 비디오 생성은 단순히 고품질의 프레임을 나열하는 것을 넘어, 시간의 흐름에 따른 객체의 움직임, 상호작용, 그리고 장면의 변화를 일관성 있게 모델링해야 하는 근본적인 도전을 안고 있다. 이 장에서는 비디오 생성을 위해 제안된 두 가지 대표적인 아키텍처, 즉 OpenAI의 Sora가 채택한 ‘확산 트랜스포머’와 Google의 Lumiere가 제시한 ‘시공간 U-Net’을 중심으로, 이들이 시공간 데이터를 모델링하는 상이한 철학과 접근법을 심층적으로 비교 분석한다.
전통적인 확산 모델은 주로 U-Net 아키텍처를 노이즈 제거 네트워크의 백본으로 사용해왔다. 그러나 Peebles와 Xie는 ‘확산 트랜스포머(Diffusion Transformer, DiT)’라는 연구를 통해 트랜스포머가 확산 모델의 백본으로서 뛰어난 성능과 확장성(scalability)을 가질 수 있음을 입증했다.27 DiT는 모델의 파라미터 수나 계산량(Gflops)을 늘릴수록 FID 점수가 예측 가능하게 향상되는 강력한 확장성을 보여주었으며, 이는 더 큰 모델과 데이터셋을 통해 성능을 지속적으로 개선할 수 있음을 시사했다.27
OpenAI의 텍스트-비디오 모델인 Sora는 바로 이 DiT 아키텍처의 잠재력을 비디오 생성에 극대화한 대표적인 사례이다.28 Sora는 비디오 데이터를 처리하기 위해 다음과 같은 혁신적인 구성 요소들을 도입했다 29:
Sora의 접근법은 본질적으로 비디오를 ‘시각적 단어들의 시퀀스’로 간주하고, 트랜스포머를 이용해 이 단어들 간의 복잡한 문법(시공간적 관계)을 학습하는 언어 모델적 패러다임을 시각 데이터에 적용한 것이다.
반면, Google Research에서 개발한 Lumiere는 비디오의 시간적 일관성(temporal consistency)이라는 문제를 해결하기 위해 근본적으로 다른 아키텍처 철학을 제시한다.30 기존 비디오 생성 모델들이 주로 키프레임을 먼저 생성하고 그 사이를 보간(temporal super-resolution)하는 계단식(cascaded) 접근법을 사용했던 것과 달리, Lumiere는 비디오의 전체 시간 길이(entire temporal duration)를 단일 패스(single pass)로 직접 생성하는 것을 목표로 한다.30
이러한 전체론적(holistic) 생성을 가능하게 하는 핵심 기술이 바로 ‘시공간 U-Net(Space-Time U-Net, STUNet)’ 아키텍처이다.30 STUNet은 기존의 2D U-Net을 시공간 차원으로 확장한 구조로, 다음과 같은 특징을 가진다:
Lumiere의 접근법은 비디오를 개별 프레임이나 패치의 집합이 아닌, 하나의 온전한 ‘시공간 신호(spatiotemporal signal)’로 간주한다. 이러한 관점은 전통적인 신호 처리 및 컴퓨터 비전 연구의 철학과 맥을 같이하며, 구조적으로 부드럽고 일관된 움직임을 생성하는 데 강점을 가진다.
Sora와 Lumiere가 제시하는 두 아키텍처는 단순한 기술적 차이를 넘어, 복잡한 시공간 데이터를 모델링하는 방법에 대한 근본적인 철학적 분기를 드러낸다. 이는 ‘세상을 이산적인 구성 요소의 조합으로 볼 것인가, 아니면 연속적인 신호의 전체로 볼 것인가’라는 오랜 질문과 맞닿아 있다.
이 두 철학적 대립은 생성 모델의 미래에 중요한 함의를 가진다. 만약 Sora와 같은 토큰 기반 접근법이 궁극적으로 더 우월하고 확장 가능한 것으로 판명된다면, 미래의 AI는 모든 종류의 데이터(이미지, 비디오, 음성, 3D 모델 등)를 결국 ‘토큰화’하여 단일한 거대 트랜스포머 아키텍처로 처리하는 방향으로 수렴할 것이다. Open-Sora와 같은 오픈소스 프로젝트의 등장은 이러한 모듈식 접근법이 커뮤니티에서 더 빠르고 광범위하게 채택될 수 있음을 시사하며, 이는 기술적 우월성과는 별개로 생태계의 승자를 결정하는 중요한 변수가 될 수 있다.27 반면, Lumiere의 전체론적 접근법이 더 효과적이라면, 각 데이터 모달리티가 가진 고유한 구조(예: 시공간 연속성, 기하학적 대칭성)를 존중하는 특화된 아키텍처의 중요성은 계속해서 유지될 것이다. 결국 이 경쟁의 결과는 미래 AI가 세상을 어떻게 인식하고, 이해하며, 생성하는지에 대한 근본적인 방향을 결정하게 될 것이다.
확산 모델의 강력한 생성 능력은 이미지와 비디오를 넘어, 고도의 전문 지식과 물리적 제약이 요구되는 다양한 도메인으로 빠르게 확장되고 있다. 이 장에서는 확산 모델이 과학적 발견과 예술적 창작이라는 두 가지 대표적인 응용 분야에서 어떻게 활용되고 있으며, 각 도메인의 고유한 특성으로 인해 발생하는 특화된 과제들은 무엇인지 탐구한다. 특히, 성공적인 도메인 적응을 위해서는 알고리즘 자체의 개선만큼이나 해당 분야의 본질을 담아내는 ‘표현(representation)’ 방식의 혁신이 얼마나 중요한지를 중점적으로 논의한다.
확산 모델의 가장 유망한 응용 분야 중 하나는 신약 개발(de novo drug design) 및 단백질 공학(protein engineering)이다.3 이 분야의 목표는 단순히 시각적으로 그럴듯한 결과물을 만드는 것을 넘어, 특정 생물학적 기능을 수행하거나 원하는 화학적 특성을 갖는, 물리적으로 타당한 3D 분자 구조를 생성하는 것이다.3
이러한 과학적 생성 과제에서 확산 모델이 직면하는 가장 핵심적인 도전은 $E(3)$ 등변성(E(3) Equivariance)이다.4 3차원 분자의 물리적, 화학적 속성은 3차원 유클리드 공간(Euclidean space)에서의 회전(rotation), 반사(reflection), 병진(translation) 변환에 대해 변하지 않아야 한다. 예를 들어, 분자를 공간상에서 회전시킨다고 해서 그 분자의 약효나 안정성이 변해서는 안 된다. 따라서 생성 모델은 이러한 기하학적 변환에 대해 일관된 출력을 내놓아야 하는데, 이를
$E(3)$ 등변성이라 한다. 이 제약은 선택이 아닌 필수이며, 이를 만족시키기 위해서는 모델 아키텍처 자체에 기하학적 대칭성을 내장해야 한다. 많은 연구들이 기하학적 그래프 신경망(Geometric GNNs) 등을 활용하여 이 등변성 속성을 모델에 부여하고 있다.4
또 다른 중요한 혁신은 데이터 표현 방식에서 일어나고 있다. 전통적인 단백질 설계는 20종류의 표준 아미노산 서열을 기반으로 이루어졌다. 그러나 실제 생체 내에서는 비표준 아미노산(non-canonical amino acids)이나 번역 후 변형(Post-Translational Modifications, PTMs)이 단백질의 기능 다양성에 결정적인 역할을 한다.38 최근 연구들은 이러한 한계를 극복하기 위해 SELFIES(Self-Referencing Embedded Strings)와 같은 ‘모든 원자(all-atom)’ 표현법을 도입하고 있다.38 SELFIES는 각 아미노산의 원자 구성을 직접 문자열로 표현함으로써, 표준 아미노산의 경계를 넘어 설계 가능한 분자의 공간을 획기적으로 확장한다. 이처럼 모든 원자 수준에서 분자를 표현하고 이산 확산 모델(discrete diffusion models)을 적용하는 접근법은, 기존에 불가능했던 새로운 기능성 단백질이나 약물 후보 물질을 설계할 수 있는 새로운 가능성을 열고 있다.38
확산 모델은 과학뿐만 아니라 예술 창작 분야에서도 새로운 도구로 각광받고 있다. 특히 텍스트 설명으로부터 고품질의 음악 오디오를 생성하는 ‘텍스트-음악(Text-to-Music)’ 생성은 활발히 연구되는 분야 중 하나다.1 이 분야는 이미지 생성과는 다른 독특한 과제들을 안고 있다.
Meta의 MusicGen과 같은 모델들은 이러한 문제에 대응하기 위해 EnCodec과 같은 효율적인 오디오 압축기와 트랜스포머 아키텍처를 결합하는 접근법을 사용한다.39 EnCodec으로 음악을 이산적인 토큰 시퀀스로 변환한 뒤, 트랜스포머가 텍스트 조건에 따라 이 토큰 시퀀스를 생성하도록 학습하는 방식이다.
이 두 응용 분야의 사례는 확산 모델을 새로운 도메인에 성공적으로 적용하는 데 있어 핵심적인 통찰을 제공한다. 그것은 바로 알고리즘 자체의 정교함만큼이나, 혹은 그 이상으로 해당 도메인의 내재적 구조와 제약을 포착하는 데이터 표현 방식의 중요성이다. 3D 분자 생성에서 $E(3)$ 등변성이라는 ‘딱딱한(hard)’ 물리적 제약은 모델의 생존을 결정하는 필수 조건이다. 이를 만족시키지 못하는 모델은 과학적으로 무의미한 결과를 내놓을 뿐이다. 음악 생성에서의 제어 가능성은 물리 법칙처럼 절대적인 제약은 아니지만, 창작 도구로서의 유용성을 결정하는 핵심적인 ‘부드러운(soft)’ 제약이다. 두 경우 모두, 문제 해결의 실마리는 표현 방식의 혁신에서 나왔다. 단백질 설계에서 SELFIES 표현을 사용하자 비표준 아미노산이라는 새로운 창작의 세계가 열렸듯이, 음악에서 스템(stem)별로 분리된 표현이나 계층적 표현을 사용하면 사용자의 제어 가능성이 극대화될 수 있다. 이는 생성 모델의 미래가 단순히 더 크고 강력한 단일 모델을 만드는 데만 있는 것이 아니라, 각 도메인의 고유한 ‘언어’를 학습하고 그 ‘문법’(제약 조건)을 존중하는 정교한 표현 체계를 개발하는 데 있음을 강력하게 시사한다. 결국, 어떤 표현을 선택하느냐가 모델이 세상을 인식하고 상호작용하는 방식을 결정하는 것이다.
지금까지 본 보고서는 확산 모델의 수학적 기초에서부터 샘플링 가속화, 아키텍처 확장, 그리고 다양한 응용 분야에 이르기까지 그 발전 과정을 다각도로 조명했다. 이 마지막 장에서는 이러한 논의들을 종합하여 확산 모델의 진화 동력을 재정리하고, 현재 패러다임이 가진 근본적인 한계에 대한 비판적 고찰을 통해 차세대 생성 모델이 나아가야 할 방향을 전망하고자 한다.
확산 모델의 발전사는 세 가지 핵심적인 축-①생성 속도(Speed), (2)제어 가능성(Controllability), (3)확장성(Scalability)-을 중심으로 이해할 수 있다. 이 세 가지 요소는 서로 맞물리며 기술의 진화를 이끌어왔다.
결론적으로, SDE 이론이 단단한 기초를 놓고, 컨시스턴시 모델이 속도의 날개를 달았으며, 다양한 조건부 생성 및 편집 기술이 제어의 키를 쥐어주었고, 혁신적인 아키텍처들이 더 넓은 세계로 나아갈 수 있는 발판을 마련했다. 이 모든 발전이 유기적으로 결합하여 오늘날 우리가 목도하는 강력한 확산 모델 생태계를 구축한 것이다.
이처럼 눈부신 성공에도 불구하고, 현 세대 생성 모델은 근본적인 한계를 안고 있다는 비판에 직면해 있다. Meta의 수석 AI 과학자이자 AI 분야의 거두인 Yann LeCun은 이러한 비판의 중심에 서 있다.42 그의 주장에 따르면, 현재의 생성 모델, 특히 LLM을 포함한 자기회귀적 모델들은 몇 년 안에 구식이 될 것이며, 이는 그들이 가진 본질적인 한계 때문이다.42
LeCun이 지적하는 핵심적인 비판점들은 다음과 같다:
이러한 비판은 현재 생성 모델의 성공을 폄하하려는 것이 아니라, 연구의 최종 목표를 ‘더 그럴듯한 생성’에서 ‘더 깊은 세계 이해’로 재설정해야 한다는 근본적인 문제 제기이다.
LeCun과 같은 비판가들이 제시하는 미래 AI의 비전은 바로 ‘월드 모델(World Models)’이다.42 월드 모델은 단순히 관찰된 데이터를 모방하여 생성하는 것을 넘어, 관찰과 상호작용을 통해 세상이 어떻게 작동하는지에 대한 내재적인 모델(internal model)을 스스로 구축하는 시스템을 의미한다. 이러한 내재적 모델을 갖춘 AI는 다음과 같은 능력을 가질 수 있다.
이러한 월드 모델의 관점에서 보면, 본 보고서에서 논의된 확산 모델의 모든 발전은 그 자체로 최종 목표가 아니라, 진정한 월드 모델을 구축하기 위한 필수적인 부품(component)들을 개발하는 과정으로 재해석될 수 있다.
이러한 재해석은 신약 개발, 비디오 생성, 샘플링 가속화 등 개별적으로 보이던 연구 분야들을 ‘지능의 본질에 다가간다’는 하나의 거대한 청사진 아래 통합한다. 이들은 더 이상 별개의 문제가 아니라, 세상을 이해하고 예측하며 행동하는 지능적인 에이전트를 구축하기 위한 상호 연결된 퍼즐 조각이 된다.
따라서 확산 모델의 미래는 단순히 더 사실적인 이미지나 더 긴 비디오를 생성하는 것을 넘어, 지금까지 개발된 강력한 생성 능력과 속도, 확장성, 그리고 제어 가능성을 어떻게 유기적으로 통합하여, 세상을 내재적으로 이해하고 상호작용할 수 있는 차세대 AI, 즉 월드 모델을 구축할 것인가라는 더 원대한 질문으로 귀결될 것이다. 현재의 확산 모델은 그 위대한 여정의 중요한 첫걸음이자, 앞으로 만들어질 지능의 핵심 구성 요소로 자리매김할 것이다.
| How AI Text-to-Music is Rewiring the Industry’s Creative DNA | by Myk Eff - Medium, 8월 9, 2025에 액세스, https://medium.com/ai-music/how-ai-text-to-music-is-rewiring-the-industrys-creative-dna-3c43b9dc1f86 |
| publications | Yang Song, 8월 9, 2025에 액세스, https://yang-song.net/publications/ |
| Video generation models as world simulators | OpenAI, 8월 9, 2025에 액세스, https://openai.com/index/video-generation-models-as-world-simulators/ |
| Text-to-Music Generation | Papers With Code, 8월 9, 2025에 액세스, https://paperswithcode.com/task/text-to-music-generation?page=3&q= |