최근 인공지능 분야에서 텍스트-조건부 확산 모델(Text-Conditional Diffusion Models)은 시각적 콘텐츠 생성의 패러다임을 재정의하며 핵심 기술로 자리매김했다. Stable Diffusion, PixArt-Alpha와 같은 모델들은 복잡한 텍스트 프롬프트를 기반으로 놀랍도록 사실적이고 창의적인 이미지를 생성해내는 능력을 보여주었다.1 이러한 모델의 성공은 예술, 디자인, 엔터테인먼트 등 다양한 산업에 걸쳐 막대한 파급 효과를 낳고 있다.
그러나 이 혁신적인 기술의 이면에는 근본적인 한계가 존재한다. 확산 모델은 잠재 공간(latent space)의 순수한 노이즈로부터 시작하여, 수십에서 수백 번에 이르는 반복적인 디노이징(denoising) 과정을 통해 점진적으로 이미지를 복원한다. 이 반복적인 추론(inference) 과정은 막대한 양의 연산을 요구하며, 이는 상당한 추론 지연 시간(latency)과 높은 컴퓨팅 자원 소모로 이어진다.2 특히, 고해상도 이미지를 생성하거나 비디오와 같은 연속적인 데이터를 처리할 때 연산 비용은 기하급수적으로 증가하여, 실시간 상호작용이 요구되는 응용 프로그램이나 대규모 상용 서비스 배포에 있어 심각한 장벽으로 작용한다.4
텍스트-조건부 확산 모델의 뛰어난 성능은 주로 U-Net 또는 Transformer 아키텍처 내에 통합된 어텐션(attention) 모듈에 기인한다.3 어텐션 모듈은 크게 두 가지, 즉 셀프-어텐션(Self-Attention)과 크로스-어텐션(Cross-Attention)으로 구성된다. 셀프-어텐션은 이미지 내부의 픽셀 또는 특징 벡터 간의 상호 관계를 학습하여 생성되는 이미지의 공간적 일관성과 구조적 무결성을 보장하는 역할을 한다. 반면, 크로스-어텐션은 텍스트 프롬프트로부터 추출된 의미론적 정보(semantic information)를 이미지의 시각적 특징과 정렬(align)시키는, 조건부 생성의 가장 핵심적인 메커니즘이다.3
이처럼 어텐션 메커니즘은 모델 성능의 핵심 요소이지만, 동시에 가장 큰 연산 병목(computational bottleneck)의 원인이기도 하다. 어텐션 연산은 입력 시퀀스의 길이에 대해 이차적인 계산 복잡도(quadratic computational complexity, $O(n^2))를 갖기 때문이다.4 고해상도 이미지의 특징 맵은 매우 긴 시퀀스로 표현되므로, 어텐션 연산에 소요되는 비용은 전체 추론 시간에서 지배적인 비중을 차지하게 된다.3 표준적인 확산 모델의 추론 파이프라인은 모든 디노이징 스텝에서 이러한 고비용의 어텐션 연산을 예외 없이 동일하게 수행하도록 설계되어 있다. 이는 각 스텝에서 모든 모델 구성 요소의 역할이 균일하고 동등하게 중요하다는 암묵적인 가정을 전제한다. 그러나 이러한 가정은 추론 과정의 동적인 특성을 간과한 것으로, 결과적으로 막대한 연산 자원의 비효율적인 낭비를 초래한다.
확산 모델의 추론 속도를 개선하기 위한 연구는 활발히 진행되어 왔다. 기존의 접근법들은 주로 지식 증류(knowledge distillation)를 통해 모델의 크기를 줄이거나, 양자화(quantization) 및 프루닝(pruning)으로 연산의 정밀도나 가중치의 수를 감소시키는 방식에 초점을 맞추었다. 또한, DDIM이나 LCM과 같은 고속 샘플러(fast sampler)들은 디노이징 스텝의 총 수를 줄여 가속을 달성한다.
이러한 기법들이 상당한 성과를 거두었음에도 불구하고, 대부분 모델의 정적인(static) 속성을 변경하거나 샘플링 궤적을 수정하는 데 집중한다. 이와 대조적으로 Tgate (Temporally Gating the Attention)는 추론 과정의 시간적 동특성(temporal dynamics) 자체에 주목하여, 연산의 근본적인 중복성(redundancy)을 제거하는 새로운 패러다임을 제시한다.1 Tgate는 어텐션 모듈의 역할이 추론 과정의 특정 시점에 따라 극적으로 변화한다는 경험적 관찰에 기반하여, 불필요한 연산을 선택적으로 ‘게이팅(gating)’하는 방식을 취한다. 이는 모델의 가중치를 전혀 변경하지 않는 무학습(training-free) 방식이며, 기존의 가속화 기법들과 상호 보완적으로 적용될 수 있는 직교적(orthogonal) 접근법이라는 점에서 중요한 의의를 갖는다.3
Tgate 방법론의 근간을 이루는 것은 확산 모델의 추론 과정에서 어텐션 모듈의 역할이 고정되어 있지 않고, 시간의 흐름에 따라 뚜렷하게 분화된다는 심층적인 경험적 발견이다. 연구진은 전체 디노이징 과정이 기능적으로 두 개의 명확한 단계로 구분될 수 있음을 규명했다.1
확산 모델의 이미지 생성 과정은 마치 인간 예술가가 그림을 그리는 방식과 유사한, 계층적이고 단계적인 특성을 보인다. 처음에는 전체적인 구도와 형태를 잡는 스케치 작업을 하고, 이후 세부적인 묘사와 채색을 통해 완성도를 높여간다. Tgate 연구는 이러한 과정이 모델 내부에서도 자연스럽게 발현됨을 포착했다.
이러한 2단계 분할은 모델이 복잡한 생성 과업을 효율적으로 해결하기 위해 스스로 학습한 일종의 ‘전략’으로 해석될 수 있다. 전체적인 구조를 먼저 확정한 뒤 세부 사항을 다듬는 방식은 계산적으로 효율적이며, Tgate는 바로 이 모델의 내재적 작동 원리에 최적화된 연산 스케줄링을 제안하는 것이다.
크로스-어텐션은 텍스트 임베딩을 시각적 특징에 주입하는 통로로서, 의미론 계획 단계에서 절대적인 역할을 수행한다. 이 단계에서 수행되는 크로스-어텐션 연산은 생성될 이미지의 내용과 구조를 결정하는 데 직접적인 영향을 미친다.1 즉, 모델은 크로스-어텐션을 통해 텍스트의 지시 사항을 시각적 형태로 변환하는 작업을 수행한다.
그러나 놀랍게도, 특정 추론 스텝(이를 ‘게이트 스텝’이라 칭함)을 지나면 크로스-어텐션의 출력값은 더 이상 의미 있는 변화를 보이지 않고 거의 고정된 값으로 수렴(converge to a fixed point)하는 현상이 관찰된다.1 이는 이미지의 핵심적인 의미 구조가 이미 확립되었으며, 더 이상의 텍스트 가이던스가 불필요해졌음을 시사한다. 따라서, 충실도 개선 단계에서 계속해서 고비용의 크로스-어텐션을 계산하는 것은 사실상 동일한 정보를 반복적으로 주입하는 중복적인(redundant) 행위이며, 심각한 연산 낭비를 초래한다. 심지어 일부 실험에서는 이 단계에서 크로스-어텐션을 완전히 비활성화하고 조건이 없는(unconditional) 예측만을 사용했을 때 이미지 품질 지표인 FID 점수가 미세하게 향상되는 결과가 나타나기도 했다.1 이는 후반부의 과도한 텍스트 조건 주입이 오히려 이미지의 자연스러움을 해칠 수 있음을 암시한다.
크로스-어텐션과는 정반대로, 셀프-어텐션의 중요성은 추론 과정의 후반부로 갈수록 급격히 증가한다.1 의미론 계획 단계에서는 잠재 벡터가 대부분 노이즈로 채워져 있어 이미지의 구체적인 형태가 드러나지 않는다. 이러한 상태에서는 픽셀 간의 장거리 의존성을 파악하는 셀프-어텐션이 유의미한 역할을 수행하기 어렵다.3
하지만 충실도 개선 단계에 접어들어 이미지의 윤곽과 객체들이 구체화되기 시작하면, 셀프-어텐션은 이미지 내부의 조화와 일관성을 유지하는 데 핵심적인 역할을 맡게 된다. 예를 들어, 객체의 경계를 명확하게 다듬고, 피부나 천과 같은 복잡한 질감을 사실적으로 표현하며, 이미지 전체의 색감과 조명을 일관되게 유지하는 등의 정교한 작업을 수행한다.1 이처럼 셀프-어텐션은 이미 형성된 의미론적 구조 위에서 시각적 완성도를 극대화하는 역할을 하므로, 추론 후반부에서 그 중요성이 부각된다.
앞서 관찰된 어텐션 메커니즘의 시간적 역할 분화 현상은 추론 과정에서 상당한 연산이 불필요하게 수행되고 있음을 명확히 보여준다. Tgate는 이러한 통찰에 기반하여, 특정 추론 단계에서 불필요해진 어텐션 연산을 선택적으로 생략(skip)하고 이전에 계산된 결과를 재사용하는 지능적인 전략을 제안한다.1 이 방법론의 가장 큰 특징은 어떠한 재학습이나 미세조정(fine-tuning)도 필요 없는 완전한 무학습(training-free) 방식이라는 점이다.3
Tgate의 핵심 작동 원리는 ‘게이트 스텝(gate step)’ `$m$을 기준으로 추론 과정을 두 단계로 나누고, 각 단계에서 역할이 미미해지는 어텐션 모듈의 출력을 캐싱(caching)하여 이후의 스텝에서 재사용(reusing)하는 것이다.2 이를 통해 고비용의 어텐션 연산을 건너뛰면서도 생성 품질의 저하를 최소화할 수 있다.
크로스-어텐션은 의미론 계획 단계 이후 그 역할이 급격히 감소하므로, Tgate는 이 구간의 연산을 생략하는 데 초점을 맞춘다.
단계 1: 어텐션 맵 캐싱 (Caching Attention Maps)
사용자가 사전에 정의한 게이트 스텝 $m$에서, 모델의 $i$번째 크로스-어텐션 모듈은 정상적으로 연산을 수행한다. 대부분의 최신 확산 모델이 사용하는 분류자-자유 안내(Classifier-Free Guidance, CFG) 기법을 고려하여, Tgate는 텍스트 조건이 주어진 경우의 출력($\mathbf{C}{c}^{m,i}$)과 조건이 없는 경우(null-text)의 출력($\mathbf{C}{\emptyset}^{m,i}$)을 모두 계산한다. 그 후, 이 두 출력의 평균을 계산하여 하나의 안정적인 ‘앵커(anchor)’ 맵을 생성한다. 이 앵커 맵은 해당 크로스-어텐션 모듈이 확립한 최종적인 의미론적 가이드라인으로 간주되며, 선입선출(FIFO) 방식의 특징 캐시(feature cache) F에 저장된다.3 이 과정은 모델 내 모든 $l$개의 크로스-어텐션 모듈에 대해 반복되며, 수식으로 표현하면 다음과 같다. \(\mathbf{F} = \left\{ \frac{1}{2} (\mathbf{C}_{\emptyset}^{m,i} + \mathbf{C}_{c}^{m,i}) \mid i \in [1, l] \right\}\) 조건부와 비조건부 출력의 평균을 사용하는 것은 매우 실용적인 설계 결정이다. 이는 CFG의 핵심 메커니즘을 존중하면서도 단일 캐시로 두 경로를 모두 지원할 수 있는 우아한 해결책이다. 이 평균값은 일종의 ‘평균적인 의미론적 레이아웃’으로 기능하며, 이후 스텝에서 CFG 스케일이 이 기준점으로부터 예측을 조절할 수 있는 안정적인 기반을 제공한다.
단계 2: 캐시 재사용 (Reusing Cached Maps)
게이트 스텝 $m$ 이후의 모든 스텝, 즉 충실도 개선 단계($t > m$)에서는 크로스-어텐션 연산이 계산 그래프에서 완전히 생략된다. 대신, 해당 모듈의 순전파(forward pass)가 호출될 때, 캐시 F에 저장되어 있던 앵커 맵을 순서대로 꺼내어($\mathbf{F}.\text{pop}(0)$) 다음 레이어로 전달한다.3
여기서 중요한 점은, 비록 매 스텝 동일한 캐시 값이 사용되더라도 최종 출력이 매번 동일하게 생성되지는 않는다는 것이다. 이는 U-Net과 Transformer 아키텍처에 깊숙이 자리 잡은 잔차 연결(residual connection) 구조 덕분이다. 이전 레이어로부터 전달되는 입력 특징 맵 $x$는 매 스텝마다 계속해서 변하기 때문에, $x$에 동일한 캐시 값이 더해지더라도 그 결과는 계속해서 달라진다. 이 메커니즘은 모델이 고정된 의미론적 가이드를 바탕으로 하면서도, 노이즈 레벨과 이전 예측에 따라 세부적인 묘사를 계속해서 정교하게 다듬어 나갈 수 있게 하는 핵심적인 장치다.3
셀프-어텐션 게이팅은 크로스-어텐션 게이팅과 대칭적인 원리를 따른다. 셀프-어텐션은 추론 초기, 즉 의미론 계획 단계(`$t < m$)에서 그 역할이 상대적으로 미미하다. 따라서 Tgate는 이 구간에서 셀프-어텐션의 출력을 특정 스텝에서 캐싱하고, 다음 스텝들에서 이를 재사용함으로써 추가적인 연산량 감소를 달성한다.1 이 전략은 특히 어텐션 연산의 비중이 매우 큰 순수 Transformer 기반 아키텍처(예: PixArt-Alpha)에서 극적인 가속 효과를 가져온다. 실제로 이 기법을 적용했을 때, 모델의 전체 MAC(Multiply-Accumulate) 연산 횟수를 현저히 줄일 수 있음이 실험적으로 입증되었다.3
Tgate는 다음과 같은 강력하고 실용적인 특징들을 갖는다.
diffusers와 같은 널리 사용되는 생성 모델 라이브러리에 단 몇 줄의 코드 수정만으로 쉽게 통합될 수 있다. 이는 개발자들의 접근성을 크게 높여 Tgate의 빠른 확산에 기여했다.1Tgate의 효과를 입증하기 위해, 연구진은 다양한 모델과 설정에 걸쳐 광범위한 실험을 수행했다. 실험 결과는 Tgate가 생성 품질에 미치는 영향을 최소화하면서도 상당한 추론 속도 향상을 달성할 수 있음을 명확히 보여준다.
실험 결과, Tgate는 테스트된 모든 모델과 설정에서 일관되게 10%에서 최대 50%에 이르는 인상적인 추론 속도 향상을 기록했다.1 이러한 가속 효과는 어텐션 연산의 비중이 높은 모델일수록 더욱 두드러졌다.
특히, 순수 Transformer 아키텍처를 사용하는 PixArt-Alpha 모델의 경우, Tgate 적용 시 가장 극적인 성능 향상을 보였다. 50 DDIM 스텝으로 1024x1024 해상도 이미지를 생성할 때, 원본 모델의 추론 시간은 62.1초였으나 Tgate를 적용하자 33.0초로 46.9% 단축되었다. 이론적 연산량 측면에서도 총 107 TFLOPs의 MACs가 64 TFLOPs로 40.2% 감소했다.3
이러한 상당한 속도 향상에도 불구하고, 생성된 이미지의 품질 저하는 거의 관찰되지 않았다. 대부분의 경우 FID 점수는 원본과 대등한 수준을 유지했으며, 일부 설정에서는 오히려 미세하게 개선되는 현상도 나타났다.1 이는 Tgate가 모델의 성능에 기여하는 핵심적인 연산을 보존하면서, 불필요한 중복 연산만을 효과적으로 제거했음을 강력하게 시사한다. 아래 표는 주요 모델에 대한 Tgate의 성능을 요약한 것이다.
Table 1: 주요 확산 모델에 대한 Tgate 적용 시 성능 비교
| 모델 (Model) | 스케줄러 (Scheduler) | 원본 지연 시간 (s) | TGATE 지연 시간 (s) | 속도 향상 (%) | 원본 MACs (T) | TGATE MACs (T) | MACs 감소 (%) | FID (Δ) | CLIP Score (Δ) |
|---|---|---|---|---|---|---|---|---|---|
| Stable Diffusion 1.5 | DDIM 50 steps | 4.2 | 3.5 | 16.7% | 45.5 | 38.2 | 16.0% | -0.2 | -0.01 |
| Stable Diffusion XL | DDIM 50 steps | 15.8 | 12.1 | 23.4% | 135.1 | 108.7 | 19.5% | +0.1 | -0.03 |
| PixArt-Alpha | DDIM 50 steps | 62.1 | 33.0 | 46.9% | 107.0 | 64.0 | 40.2% | +0.3 | -0.05 |
| StableVideoDiffusion | 25 steps | 25.3 | 21.5 | 15.0% | - | - | - | - | - |
Tgate의 내부 작동 방식을 더 깊이 이해하기 위해 여러 애블레이션 연구가 수행되었다.
$m$의 영향:** 게이트 스텝 $m$의 값은 속도와 품질 간의 트레이드오프를 결정하는 중요한 하이퍼파라미터다. $m$을 너무 작은 값으로 설정하면(예: 총 50 스텝 중 10), 의미론 계획 단계가 충분히 진행되기 전에 크로스-어텐션이 캐싱되어 이미지의 구조가 프롬프트와 제대로 정렬되지 않는 등 품질 저하가 발생할 수 있다. 반대로 $m$을 너무 큰 값으로 설정하면(예: 40), 크로스-어텐션을 생략하는 구간이 줄어들어 가속 효과가 미미해진다. 실험 결과, 대부분의 모델에서 총 추론 스텝의 40%~60% 지점(예: 50 스텝 기준 20~30 스텝)에서 `$m$을 설정하는 것이 속도와 품질 간의 최적의 균형을 이루는 것으로 나타났다.2Tgate는 이론적 기여를 넘어 매우 높은 실용적 가치를 지닌다. 가장 큰 장점은 추가적인 학습 비용 없이 기존에 배포된 수많은 확산 모델 파이프라인에 즉시 통합하여 상당한 추론 가속을 이룰 수 있다는 점이다. 이는 개인 사용자의 로컬 환경에서 이미지 생성 경험을 쾌적하게 만드는 것부터, 대규모 AI 서비스를 운영하는 기업의 GPU 인프라 비용을 직접적으로 절감하는 데까지 광범위한 이점을 제공한다. Hugging Face의 diffusers 라이브러리에 공식적으로 통합되고1, PyPI를 통해 독립적인 패키지로 배포됨으로써1, 전 세계 개발자들이 손쉽게 Tgate를 자신의 프로젝트에 적용할 수 있게 되었다.
Tgate의 성공은 모델 최적화에 대한 중요한 관점의 전환을 시사한다. 기존의 최적화가 주로 모델의 가중치와 같은 정적인 요소를 변경하는 데 집중했다면, Tgate는 추론 과정이라는 동적인(dynamic) 차원에서 최적화의 기회를 발견했다. 즉, 모델 자체를 바꾸는 것이 아니라, 모델을 사용하는 ‘프로세스’를 시간의 흐름에 따라 지능적으로 변경하는 것이다. 이는 추론 시점의 컨텍스트(여기서는 시간 스텝 `$t$)를 고려하여 계산 그래프 자체를 동적으로 수정하는, 한 단계 더 정교한 최적화 패러다임으로의 전환을 의미한다.
Tgate는 매우 효과적인 방법론이지만 몇 가지 내재적인 한계와 고려사항을 가지고 있다.
하이퍼파라미터 튜닝 (Hyperparameter Tuning): Tgate의 성능은 게이트 스텝 $m$과 같은 하이퍼파라미터의 설정에 민감하게 반응한다. 최적의 $m$ 값은 사용되는 모델, 샘플링 스케줄러, 총 추론 스텝 수, 그리고 특정 태스크에 따라 달라질 수 있다. 따라서 최상의 성능을 얻기 위해서는 각 사용 사례에 맞춰 이러한 값을 수동으로 튜닝해야 하는 번거로움이 존재한다.2
품질-속도 트레이드오프 (Quality-Speed Trade-off): FID 점수와 같은 전반적인 이미지 품질 지표는 거의 저하되지 않지만, 텍스트-이미지 정렬도를 측정하는 CLIP Score에서는 일관되게 약간의 성능 하락이 관찰된다.2 이는 게이트 스텝
`$m$에서 캐시된 크로스-어텐션 맵이 추론 후반부의 미세한 의미론적 조정 과정을 완벽하게 대체하지는 못하기 때문으로 분석된다. 대부분의 일반적인 사용 사례에서는 이러한 미세한 차이가 문제 되지 않지만, 의학 이미지나 정밀 공학 설계와 같이 텍스트 프롬프트의 모든 디테일이 극도로 정확하게 반영되어야 하는 특수 응용 분야에서는 이 트레이드오프가 허용되지 않을 수 있다.2
Tgate는 생성 모델 효율화 연구에 새로운 가능성을 열었으며, 다음과 같은 흥미로운 미래 연구 방향을 제시한다.
Tgate는 텍스트-조건부 확산 모델의 효율성을 획기적으로 개선한 중요한 연구 성과다. 본 고찰을 통해 확인된 Tgate의 핵심 기여는 다음과 같이 요약할 수 있다.
첫째, Tgate는 확산 모델의 추론 과정에서 크로스-어텐션과 셀프-어텐션의 역할이 고정되어 있지 않고, ‘의미론 계획’과 ‘충실도 개선’이라는 두 단계에 걸쳐 시간적으로 명확히 분화된다는 근본적인 현상을 최초로 규명하고 정량적으로 입증했다.
둘째, 이러한 깊이 있는 통찰을 바탕으로, 추론 과정에서 불필요해지는 어텐션 연산을 선택적으로 생략하고 캐시된 결과를 재사용하는 간단하면서도 매우 효과적인 무학습 가속화 프레임워크를 제시했다.
셋째, 광범위한 실험을 통해 다양한 아키텍처(U-Net, Transformer), 태스크(텍스트-이미지, 텍스트-비디오), 그리고 샘플링 스케줄러에 걸쳐 Tgate의 높은 효율성, 강건성, 그리고 범용성을 입증했다. 이는 생성 AI 모델의 실용성을 한 단계 끌어올려 더 넓은 범위의 응용에 적용될 수 있는 길을 열었다.
Tgate의 성공은 생성 AI 모델의 효율성 연구에 중요한 시사점을 던진다. 이는 최적화의 대상이 모델의 정적인 구조에만 국한될 필요가 없으며, 모델이 작동하는 동적인 추론 과정 자체에 더 큰 최적화의 기회가 숨어있을 수 있음을 보여준다.
결론적으로, Tgate는 단순한 가속 기법을 넘어, 생성 모델의 내부 작동 방식에 대한 우리의 이해를 심화시킨 연구다. 이는 향후 모델 아키텍처를 설계할 때, 각 구성 요소가 전체 생성 과정의 어느 단계에서 핵심적인 역할을 수행하는지를 고려하는 ‘시간-인식(time-aware)’ 설계의 중요성을 부각시킨다. Tgate가 제시한 ‘시간적 분해(temporal decomposition)’라는 렌즈를 통해, 우리는 더욱 지능적이고 효율적인 차세대 생성 모델을 향한 새로운 지평을 바라볼 수 있을 것이다.