‘ADiT 모델’이라는 용어는 초기에 여러 대상을 지칭할 수 있는 모호성을 내포하고 있다. 공개적으로 알려진 인물 중에는 패션 모델 아딧 프리실라(Adit Priscilla) 1와 인도 배우 아디티 라오 히다리(Aditi Rao Hydari) 6가 존재한다. 그러나 본 보고서의 기반이 되는 연구 자료들의 기술적 특성을 면밀히 분석한 결과, 탐구의 핵심 대상은 인공지능(AI) 이미지 생성 및 편집 분야의 혁신적인 아키텍처인
확산 트랜스포머(Diffusion Transformer, DiT), 특히 어텐션 메커니즘을 기반으로 한 모델임이 명백하다.7 따라서 본 보고서는 AI 모델로서의 ADiT, 즉 DiT에 대한 심층 분석에 전적으로 초점을 맞출 것이다.
DiT의 등장을 이해하기 위해서는 먼저 그 이전 시대를 지배했던 아키텍처를 살펴볼 필요가 있다. 스테이블 디퓨전(Stable Diffusion)과 같은 초기 및 주류 확산 모델들은 대부분 UNet이라는 컨볼루션 신경망(CNN) 기반 아키텍처에 의존했다.12 UNet은 인코더-디코더 구조에 스킵 커넥션(skip connection)을 추가하여 이미지의 다중 스케일 특징을 효과적으로 학습하는 데 강점을 보였으며, 이는 이미지 생성 분야에서 큰 성공을 거두는 기반이 되었다.
그러나 UNet의 컨볼루션 기반 특성은 본질적인 한계를 내포하고 있었다. 가장 큰 한계는 이미지 전반에 걸친 장거리 의존성(long-range dependencies)을 효과적으로 포착하는 데 어려움을 겪는다는 점이다.10 컨볼루션 연산은 본질적으로 지역적인 픽셀 그룹(local receptive fields)에 집중하기 때문에, 이미지의 한쪽 끝에 있는 객체가 다른 쪽 끝에 있는 객체와 어떻게 상호작용하는지를 이해하는 데 비효율적이다. 이러한 한계는 특히 고해상도 이미지를 생성하거나 복잡한 구조적 변경이 필요한 편집 작업을 수행할 때 전역적 일관성(global coherence)을 저해하는 요인으로 작용했다. 결과적으로, 상당한 수준의 형태 인식 수정(shape-aware modifications)이 요구되는 작업에서 UNet 기반 모델들은 종종 부자연스러운 결과를 낳거나 구조적 무결성을 유지하는 데 실패했다.15
UNet의 근본적인 한계에 대한 해답으로 등장한 것이 바로 확산 트랜스포머(DiT)이다.16 DiT의 핵심 아이디어는 확산 모델의 UNet 백본을 잠재 공간 패치(latent patches)에 대해 작동하는 트랜스포머로 대체하는 것이다. 이러한 접근은 단순히 아키텍처를 교체하는 것을 넘어, 생성 모델링의 근본적인 패러다임을 전환하는 시도였다. 트랜스포머가 확산 모델의 새로운 백본으로 채택된 이유는 다음과 같은 명백한 장점 때문이다.
이러한 패러다임의 전환은 우연이 아니었다. 고해상도 및 복잡한 구조적 편집에 대한 수요가 증가함에 따라 CNN의 지역성 편향(locality bias)은 명백한 기술적 병목 현상이 되었다. AI 연구 커뮤니티는 이미 자연어 처리(NLP)와 비전 분야에서 트랜스포머의 우수한 확장성과 전역적 문맥 이해 능력을 목격했으며, 이를 확산 모델에 적용하는 것은 필연적인 수순이었다. DiT가 ImageNet과 같은 주요 벤치마크에서 최고 수준의 성능을 달성하며 16 그 가설을 입증했고, 이는 생성 AI 분야가 더 높은 계산 비용을 감수하더라도 지역적 특징 추출보다 전역적 의미 이해를 우선시하는 방향으로 나아가고 있음을 시사한다.
본 보고서는 DiT 아키텍처의 심층적인 분석을 통해 이미지 편집 분야에서의 역할과 잠재력을 조망하는 것을 목표로 한다. 이를 위해 다음의 구조로 논의를 전개할 것이다. 먼저, 2장에서는 DiT의 핵심 작동 메커니즘을 VAE 기반 잠재 공간 처리부터 DiT 블록의 구성 요소, 그리고 이미지 편집의 필수 전제 조건인 역전(inversion) 과정까지 상세히 분해한다. 3장에서는 DiT 기반 편집의 핵심 제어 장치인 셀프 어텐션과 크로스 어텐션의 이분법적 역할을 분석하고, 각 메커니즘이 구조 보존과 의미 부여에 어떻게 기여하는지 탐구한다. 4장에서는 DiT4Edit, In-Context Edit, LazyDiffusion 등 현대적인 DiT 기반 편집 프레임워크들을 유형별로 분류하고 그 철학과 기술적 혁신을 비교한다. 5장에서는 DiT를 GAN, ControlNet과 같은 경쟁 패러다임과 비교 분석하여 생성 AI 환경 내에서의 독자적인 위치를 조명한다. 6장에서는 DiT 기반 모델의 정량적, 정성적 성능을 평가하고, 현재 사용되는 평가 지표의 신뢰성에 대한 비판적 고찰을 제시한다. 마지막으로 7장에서는 현재 DiT 기술이 직면한 한계와 이를 극복하기 위한 미래 연구 방향을 논하며 보고서를 마무리한다.
DiT는 이미지의 원시 픽셀(raw pixels)을 직접 처리하지 않는다. 대신, 이미지 처리의 효율성과 트랜스포머 아키텍처의 호환성을 극대화하기 위해 다단계 접근법을 취한다. 첫 번째 단계는 사전 훈련된 변이형 오토인코더(Variational Autoencoder, VAE)를 사용하여 원본 이미지를 더 낮은 차원의 잠재 공간(latent space)으로 인코딩하는 것이다.14 이 과정은 고차원의 픽셀 공간을 정보가 압축된 잠재 표현으로 변환하여, 후속 연산의 계산 부담을 크게 줄여준다. 이는 Latent Diffusion Model (LDM)과 같은 기존 모델에서 이미 그 효율성이 입증된 방식이다.
일단 이미지가 잠재 표현으로 변환되면, 이 표현은 겹치지 않는 일련의 패치(patches) 또는 토큰(tokens)으로 분할된다.16 이 과정은 공간적 연속성을 가진 이미지 데이터를 트랜스포머가 자연스럽게 처리할 수 있는 순차적인 데이터(sequence of tokens)로 변환하는 핵심적인 단계이다. 결과적으로, 이미지 생성이라는 공간적 문제는 트랜스포머의 본연의 영역인 시퀀스-투-시퀀스(sequence-to-sequence) 문제로 재정의된다.
DiT의 심장은 UNet의 ResNet 블록을 대체하는 DiT 블록이다. 이 블록은 표준 비전 트랜스포머(ViT)의 구조를 따르지만, 확산 과정에 특화된 몇 가지 중요한 혁신을 포함하고 있다.
멀티헤드 셀프 어텐션 (Multi-Head Self-Attention, MHSA): DiT 블록의 핵심으로, 모든 패치 토큰 간의 전역적인 관계를 포착하는 메커니즘이다.10 각 어텐션 헤드는 입력 시퀀스 내의 서로 다른 관계적 측면을 학습하며, 이를 통해 모델은 이미지의 전체적인 구조와 복잡한 상호작용을 이해할 수 있다.
포인트별 피드포워드 네트워크 (Pointwise Feed-Forward Network, FFN): 어텐션 레이어 다음에 위치하는 표준적인 다층 퍼셉트론(MLP)으로, 어텐션을 통해 집계된 정보를 비선형적으로 변환하고 풍부한 특징 표현을 학습하는 역할을 한다.
적응형 레이어 정규화 (Adaptive Layer Norm, adaLN)를 통한 조건화: DiT의 가장 중요한 혁신 중 하나는 조건화(conditioning) 방식에 있다. 표준 레이어 정규화(Layer Normalization)와 달리, adaLN의 스케일(γ) 및 시프트(β) 파라미터는 확산 타임스텝(t)이나 클래스 레이블, 텍스트 임베딩과 같은 조건 벡터로부터 직접 예측된다.18 이 메커니즘을 통해 모델은 외부의 가이던스를 생성 과정의 각 단계에 효과적으로 주입할 수 있다. 특히, 블록의 최종 출력을 초기에 0으로 초기화하는
adaLN-Zero 변형은 대규모 모델의 훈련 안정성을 확보하는 데 결정적인 역할을 한다.
텍스트 조건화를 위한 크로스 어텐션 (Cross-Attention): PIXART-α와 같은 텍스트-이미지(text-to-image) DiT 모델에서는 셀프 어텐션 외에 추가적인 크로스 어텐션 레이어가 DiT 블록에 통합된다.19 이 레이어는 T5와 같은 텍스트 인코더로부터 생성된 텍스트 임베딩을 쿼리(query)로 사용하여, 이미지 패치 토큰(key, value)과 상호작용한다. 이를 통해 모델은 텍스트 프롬프트의 미묘한 의미를 이미지 생성에 정교하게 반영할 수 있다.
이러한 DiT의 설계는 기존의 강력한 구성 요소들을 전략적으로 재조합한 모듈성의 정수라 할 수 있다. 고차원 문제를 다루기 위해 VAE를 활용하고, 검증된 ViT 아키텍처를 생성의 백본으로 삼았으며, 확산 과정의 특수성을 해결하기 위해 adaLN이라는 독창적인 접착제를 발명했다. 이 모듈적 접근 방식 덕분에 VAE나 어텐션 메커니즘과 같은 개별 구성 요소의 발전이 전체 시스템의 성능 향상으로 직결될 수 있는 유연한 구조를 갖추게 되었다.
실제 이미지를 편집하기 위해서는, 먼저 해당 이미지를 생성할 수 있는 초기 노이즈 벡터와 조건들을 찾아내는 역전(inversion) 과정이 필수적이다.20 이는 확산 모델을 “거꾸로” 실행하여 주어진 이미지로부터 노이즈를 추정하는 과정으로, 모든 편집 작업의 출발점이다.
역전 알고리즘의 선택은 사소한 구현 디테일이 아니라, DiT 기반 편집 프레임워크의 실용성을 결정하는 핵심 요소이다. 편집 도구의 상호작용성을 위해서는 낮은 지연 시간(latency)이 필수적이며, DPM-Solver와 같은 고속 솔버의 채택은 이러한 실용적 요구에 부응하기 위한 필연적인 결정이었다. 이는 성공적인 편집 프레임워크를 구축하는 것이 단순히 핵심 노이즈 제거 모델(DiT)의 성능에만 의존하는 것이 아니라, 샘플러와 역전 알고리즘을 포함한 전체 파이프라인을 최적화해야 함을 보여준다.
DiT 기반 이미지 편집의 정교함은 두 가지 핵심 어텐션 메커니즘, 즉 셀프 어텐션(self-attention)과 크로스 어텐션(cross-attention)의 상호 보완적이면서도 뚜렷하게 구분되는 역할에 기반한다. 이 두 메커니즘의 역할을 정확히 이해하는 것은 편집의 성공과 실패를 가르는 결정적인 열쇠이다.
최근 연구들은 셀프 어텐션이 원본 이미지의 기하학적 구조, 형태, 그리고 전반적인 레이아웃을 보존하는 데 가장 중요한 역할을 한다는 사실을 명확히 밝혀냈다.22 “Towards Understanding Cross and Self-Attention…” 논문과 같은 심층 분석 연구에 따르면, 셀프 어텐션 맵은 이미지 내 다른 특징들 간의 연관성을 반영하며, 이를 통해 이미지의 공간적 정보를 효과적으로 유지한다.22
특히 트랜스포머의 깊은 레이어일수록 셀프 어텐션을 통해 객체의 세부적인 디테일과 레이아웃 정보를 더욱 효과적으로 포착하는 경향이 있다.10 이 때문에 비강체 변형(non-rigid editing)이나 대규모 형태 변경과 같이 구조적 일관성이 중요한 편집 작업에서는 셀프 어텐션 제어가 필수적이다.
이러한 통찰을 실제 기술로 구현한 대표적인 예가 Free-Prompt-Editing (FPE)이다.22 FPE는 튜닝이 필요 없는(tuning-free) 편집 방식으로, 노이즈 제거 과정에서 크로스 어텐션은 전혀 건드리지 않고 오직
셀프 어텐션 맵만을 수정하여 편집을 수행한다. 구체적으로, 원본 이미지의 노이즈 제거 과정에서 계산된 셀프 어텐션 맵을 목표 이미지 생성 과정의 동일한 스텝에 주입(inject)한다. 이를 통해 새로운 텍스트 프롬프트에 따라 의미론적 내용은 바뀌지만, 원본 이미지의 구조와 형태는 그대로 유지되는 안정적인 편집이 가능해진다.
전통적으로 크로스 어텐션의 역할은 생성된 이미지를 조건으로 주어진 텍스트 프롬프트와 정렬(align)시키는 것으로 이해되어 왔다.22 Prompt-to-Prompt (P2P)와 같은 초기 편집 기법들은 바로 이 원리를 이용하여, 프롬프트 내 특정 단어에 해당하는 크로스 어텐션 맵을 교체하거나 가중치를 조절함으로써 이미지의 의미를 수정하고자 했다.
그러나 심층 분석 결과, 크로스 어텐션 맵을 직접 조작하는 것은 선택 사항일 뿐만 아니라, 종종 편집 실패의 직접적인 원인이 될 수 있다는 역설적인 사실이 밝혀졌다.22
편집 실패의 원인: 그 핵심 이유는 크로스 어텐션 맵이 단순히 텍스트 토큰과 이미지 픽셀 간의 가중치 맵이 아니기 때문이다. 이 맵에는 조건으로 사용된 토큰 자체의 풍부한 의미론적 특징 정보(semantic feature information)가 함께 섞여 들어간다.22 따라서 원본 이미지의 크로스 어텐션 맵을 목표 이미지 생성 과정에 주입하면, 원치 않는 의미론적 정보가 “오염(semantic bleed)”처럼 번져나가 예측 불가능한 아티팩트나 왜곡을 유발할 수 있다. 예를 들어, ‘파란 차’를 ‘빨간 차’로 바꾸기 위해 ‘파란’의 크로스 어텐션 맵을 조작하면, ‘파란색’이라는 의미 정보 자체가 편집 과정을 방해하여 실패로 이어질 수 있다.
이러한 발견은 초기 편집 방법론의 근본적인 가정을 뒤흔들었다. 이미지의 내용을 바꾸기 위해 텍스트와 이미지를 연결하는 크로스 어텐션을 수정해야 한다는 논리적 가정은 경험적 현실 앞에서 무너졌다. 이 모순을 해결하기 위한 탐구는 셀프 어텐션이 구조의 진정한 수호자이며, 크로스 어텐션은 예측 불가능한 변수임을 밝혀냈다. 이는 FPE와 같은 새로운 패러다임을 낳았다. 구조가 최우선이고 크로스 어텐션이 불안정하다면, 구조만 보존하고(셀프 어텐션 주입) 새로운 프롬프트의 크로스 어텐션은 자연스럽게 형성되도록 두자는 것이다. 이 접근법의 성공은 어텐션 메커니즘에 대한 커뮤니티의 이해가 ‘블랙박스’ 조작에서 원리 기반의 정교한 제어로 발전했음을 의미한다.
FPE가 셀프 어텐션의 독립적인 힘을 증명했다면, 더 발전된 프레임워크들은 두 메커니즘을 통합적으로 또는 상호 보완적으로 제어하여 시너지를 창출하고자 한다. 이는 P2P(정: Thesis)와 FPE(반: Antithesis)를 거쳐 도달한 ‘합(Synthesis)’의 단계로 볼 수 있다.
DiT4Edit과 같은 프레임워크는 “통합 어텐션 제어(unified attention control)”라는 개념을 제안한다.10 이는 의미론적 변경이나 스타일 변환을 위해서는 크로스 어텐션을 제어하고(맵 교체 또는 미세 조정), 레이아웃과 형태 보존을 위해서는 셀프 어텐션을 제어하는 이원화된 전략을 사용한다.
또 다른 듀얼 제어 방식은 어텐션 레이어의 깊이에 따라 역할을 분담하는 것이다. 예를 들어, 모델의 “얕은(coarse)” 레이어에서는 셀프 어텐션을 제어하여 이미지의 세부 디테일을 유지하고, “깊은(fine)” 레이어에서는 스타일 변환을 유도한다. 동시에, 크로스 어텐션 제어를 통해 원본 이미지와의 구조적 일관성을 확보한다.27 이는 모델의 각 부분이 기능적으로 특화되어 있다는 깊은 이해를 바탕으로 한 정교한 접근법이다. 이처럼 연구의 흐름은 두 어텐션 메커니즘을 대립적인 것으로 보지 않고, 각자의 강점을 극대화하고 약점을 보완하는 성숙하고 미묘한 방식으로 진화하고 있다.
DiT 아키텍처의 등장은 이미지 편집 분야에 새로운 가능성의 장을 열었다. 연구자들은 DiT라는 강력하고 유연한 기반 위에 다양한 철학과 목표를 가진 편집 프레임워크들을 구축하고 있다. 본 장에서는 주요 DiT 기반 편집 프레임워크들을 유형별로 분류하고, 각각의 핵심 아이디어와 기술적 혁신을 분석하여 DiT 활용 전략의 다채로운 스펙트럼을 조망한다.
강점: 객체 편집, 스타일 편집, 형태 인식 편집 등 다양한 시나리오에서 강력한 성능을 입증했다.10
REMOVE(person_left), ADD(dog, right)와 같은 일련의 원자적 연산(atomic operations)으로 파싱한다.이러한 프레임워크들의 다양성은 DiT를 활용하는 단 하나의 “최고의” 방법이 없음을 시사한다. 오히려 DiT는 다양한 사용자 상호작용 및 제어 철학을 구현할 수 있는 유연한 기반 아키텍처 역할을 한다. 미래의 이미지 편집 도구는 이러한 철학들이 혼합된 하이브리드 형태가 될 가능성이 높다. 사용자는 인-컨텍스트 예제로 시작하여, 빠르고 게으른 인페인팅으로 수정하고, 마지막으로 프로그래밍 방식의 복잡한 지시를 통해 대대적인 변경을 가하는 워크플로우를 상상해 볼 수 있다.
표 1: 주요 DiT 기반 이미지 편집 프레임워크 비교
| 프레임워크 이름 | 핵심 철학/목표 | 주요 기술 혁신 | 주요 적용 분야 |
|---|---|---|---|
| DiT4Edit | 직접 제어 | 통합 어텐션 제어, DPM-Solver, 패치 병합 | 고해상도 객체/스타일/형태 편집 |
| In-Context Edit | 예시 기반 학습 | 비전-언어 인-컨텍스트 프롬프트, LoRA-MoE 튜닝 | 제로샷 지시 기반 편집, 파라미터 효율적 튜닝 |
| LazyDiffusion | 효율성 우선 | 비대칭 인코더-디코더, 토큰 드롭핑, 게으른 디코더 | 상호작용적 인페인팅 및 국소적 편집 |
| IEAP | 구성적 추론 | VLM 기반 지시 분해, 원자적 연산 어댑터 | 복잡한 다단계 지시, 레이아웃 변경 편집 |
DiT 아키텍처의 혁신성을 제대로 평가하기 위해서는 이를 기존의 지배적인 생성 모델 패러다임인 GAN(Generative Adversarial Networks) 및 ControlNet과 비교하여 그 강점과 약점, 그리고 독자적인 위치를 명확히 할 필요가 있다. 이 비교는 단순히 기술적 우위를 가리는 것을 넘어, 각 아키텍처가 지향하는 제어 철학의 차이를 드러낸다.
표 2: 이미지 편집을 위한 생성 아키텍처 비교 개요
| 구분 | DiT (Diffusion Transformer) | UNet (w/ ControlNet) | GAN (StyleGAN) |
|---|---|---|---|
| 백본 아키텍처 | 트랜스포머 | UNet (컨볼루션 기반) | 다층 퍼셉트론(MLP) 기반 |
| 주요 제어 메커니즘 | 텍스트 프롬프트, 어텐션 조작 | 외부 조건(포즈, 뎁스 등), 텍스트 프롬프트 | 잠재 공간(Latent Space) 벡터 조작 |
| 강점 | 뛰어난 의미론적 유연성, 고품질 생성, 확장성 | 정교한 공간적 제어, 기존 모델과의 호환성 | 실시간, 세밀하고 분리된 속성 제어 |
| 약점 | 직접적 제어의 어려움, 높은 계산 비용 | 장거리 의존성 포착 한계, 새로운 조건에 대한 훈련 필요 | 일반성 부족, 알려지지 않은 속성 편집의 어려움 |
| 이상적 사용 사례 | 복잡하고 창의적인 개념의 이미지 생성 및 편집 | 포즈, 구도, 형태 등 특정 조건을 정확히 따르는 이미지 생성 | 얼굴 편집 등 특정 도메인에서 단일 속성을 정밀하게 조절 |
GAN의 강점 - 직접적인 잠재 공간 조작:
GAN, 특히 StyleGAN과 같은 모델은 구조화되고 분리된(disentangled) 잠재 공간을 학습하는 데 탁월하다.35 이 공간에서 특정 의미론적 속성(예: ‘안경 추가’, ‘나이 들게 하기’)에 해당하는 방향 벡터를 찾으면, 잠재 벡터를 이 방향으로 이동시키는 것만으로 해당 속성을 이미지에 반영할 수 있다.36 이 방식은 실시간으로 연속적이고 매우 정밀한 편집을 가능하게 한다. 사용자는 다른 속성에 영향을 주지 않으면서 단일 속성만을 세밀하게 제어할 수 있다.35 실제 이미지를 이 잠재 공간으로 매핑하는 과정을 “GAN 역전(GAN Inversion)”이라고 한다.20
DiT의 강점 - 프롬프트를 통한 의미론적 유연성:
DiT를 포함한 확산 모델은 주로 자연어 프롬프트를 통해 제어된다. 확산 모델의 “잠재 공간”(초기 노이즈 벡터)은 GAN의 잠재 공간처럼 의미론적으로 구조화되어 있지 않다.35 편집은 텍스트 프롬프트를 변경하고, 모델의 크로스 어텐션이 그 변화를 해석하여 이미지에 반영하는 방식으로 이루어진다.39 이는 단일 벡터로는 정의하기 어려운 새로운 조합이나 복잡한 개념을 표현하는 데 있어 타의 추종을 불허하는 유연성을 제공한다.
트레이드오프:
이 두 접근 방식의 차이는 ‘직접 조작’과 ‘서술적 지시’라는 AI 상호작용 철학의 근본적인 차이를 반영한다.
미래의 생성 모델 인터페이스는 어느 한쪽이 승리하는 것이 아니라, 두 방식의 장점을 결합한 하이브리드 시스템이 될 가능성이 높다. 예를 들어, 프롬프트로 기본 이미지를 생성한 후, 특정 속성을 미세 조정하기 위해 GAN과 유사한 잠재 공간 컨트롤을 노출하는 방식이다.
Ctrl-Adapter의 등장은 DiT가 생성 모델의 새로운 표준 백본으로 부상하고 있음을 보여주는 강력한 증거이다. 이는 커뮤니티가 DiT를 미래로 인식하고 있으며, 이제는 낡은 생태계(UNet/ControlNet) 위에서 계속 개발하기보다는, 낡은 생태계의 자산을 새로운 플랫폼(DiT)으로 가져오는 ‘다리’를 놓는 것이 더 효율적이라고 판단하고 있음을 시사한다. 이는 기술 계승 과정에서 흔히 나타나는 패턴으로, 새로운 플랫폼의 지배력을 입증하는 현상이다.
DiT 기반 모델의 우수성을 논하기 위해서는 정량적 벤치마킹 결과와 정성적 시각 증거를 종합적으로 검토해야 한다. 그러나 더 깊이 있는 전문가적 분석은 현재 사용되는 평가 지표 자체의 신뢰성에 대한 비판적 고찰을 포함해야 한다. 생성 모델의 발전이 기존 평가 체계의 한계를 드러내고 있기 때문이다.
연구 논문들에서 보고된 정량적 데이터는 DiT 기반 모델의 성능적 우위를 일관되게 보여준다.
표 3: DiT4Edit 대 베이스라인 모델 정량적 성능 비교
| 모델 | 구조 | FID ↓ (512x512) | FID ↓ (1024x1024) | FID ↓ (1024x2048) | PSNR ↑ (512x512) | PSNR ↑ (1024x1024) | PSNR ↑ (1024x2048) | CLIP ↑ (512x512) | CLIP ↑ (1024x1024) | CLIP ↑ (1024x2048) | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| SDEdit | UNet-based | 93.25 | 88.56 | 143.87 | 21.54 | 20.76 | 16.35 | 22.41 | 21.39 | 20.73 | |
| IP2P | UNet-based | 88.63 | 98.73 | 103.52 | 20.36 | 19.73 | 17.13 | 20.64 | 19.36 | 21.53 | |
| Pix2Pix-Zero | UNet-based | 92.31 | 101.32 | 158.29 | 20.6 | 16.27 | 23.58 | 22.12 | 17.85 | 20.39 | |
| MasaCtrl | UNet-based | 110.75 | 176.15 | 236.49 | 17.35 | 20.51 | 16.92 | 23.51 | 21.96 | 15.23 | |
| InfEdit | UNet-based | 86.28 | 87.42 | 98.75 | 21.54 | 22.36 | 21.74 | 24.46 | 23.74 | 22.16 | |
| PnPInversion | UNet-based | 84.73 | 85.33 | 110.73 | 21.71 | 23.42 | 24.59 | 21.71 | 20.76 | 19.35 | |
| DiT4Edit (Ours) | DiT-based | 72.36 | 62.45 | 75.43 | 22.85 | 29.75 | 27.46 | 25.39 | 26.97 | 25.66 |
출처: DiT4Edit 논문 19의 데이터를 재구성함.
정량적 수치를 넘어, DiT 기반 모델들의 진정한 강점은 시각적 결과물에서 드러난다.
표준적으로 생성 모델의 평가는 이미지 분포의 유사성을 측정하는 FID(Fréchet Inception Distance)와 이미지-텍스트 정렬도를 측정하는 CLIP Score를 통해 이루어진다.51 그러나 DiT와 같은 현대 생성 모델의 성능을 평가하는 데 있어, 특히 FID는 심각한 한계를 노출하고 있다.
최근 연구들은 FID의 여러 문제점을 강력하게 비판한다.54
이러한 비판은 DiT 기반 모델이 표준 지표에서 우수하다는 사실을 넘어서, 그 평가 기준 자체에 대한 근본적인 질문을 던지게 한다. DiT와 같은 강력한 모델의 등장이 역설적으로 기존 평가 체계의 취약성을 드러낸 것이다. Inception-v3는 초기 생성 모델을 평가하는 데는 충분했을지 모르나, 현대 DiT의 창의적 스펙트럼을 감당하기에는 역부족이다. 생성 기술의 발전이 평가 기술의 발전을 강제하고 있는 형국이다. 이는 CMMD(CLIP-based MMD)와 같이 인간의 인식과 더 잘 부합하는 새로운 평가 지표 개발이 왜 중요한 미래 연구 방향인지를 명확히 보여준다.55
DiT 아키텍처는 이미지 생성 및 편집 분야에 혁명적인 발전을 가져왔지만, 동시에 새로운 기술적 과제와 한계를 드러냈다. 이러한 한계를 인식하고 이를 극복하기 위한 연구 방향을 모색하는 것은 DiT의 미래를 조망하는 데 필수적이다.
DiT 분야의 주요 연구 흐름은 아키텍처의 핵심 속성에서 비롯된 문제들을 해결하는 방향으로 나아가고 있다. 즉, DiT의 근본적인 약점(계산 비용)을 완화하고, 근본적인 강점(생성 품질 및 확장성)을 극대화하는 것이다.
효율성 최적화:
진보된 제어 메커니즘:
다중 모드 프롬프트: 텍스트를 넘어 이미지 프롬프트 57나
DragDiffusion과 같은 상호작용적인 포인트 기반 제어 59를 포함하여, 더 정밀하고 직관적인 가이던스를 제공하려는 시도가 활발하다.
비지도 편집 (Unsupervised Editing): LOCO Edit과 같이 추가적인 훈련 없이 확산 모델 내의 의미론적 부분 공간을 비지도적으로 발견하고 활용하여, 제어 가능한 편집을 가능하게 하는 연구가 부상하고 있다.60
새로운 도메인으로의 확장:
통합 모델: ACE와 같이 광범위한 생성 및 편집 작업을 단일 통합 프레임워크 내에서 처리하려는 “올인원(all-in-one)” 모델을 향한 움직임도 나타나고 있다.62
이러한 연구 동향은 미래의 생성 AI 개발이 거대한 단일 모델을 처음부터 구축하는 방식에서 벗어나고 있음을 시사한다. 대규모 DiT를 훈련하는 것은 극소수의 대형 연구소만이 감당할 수 있는 비용이 들기 때문이다. 따라서 더 넓은 연구 및 혁신의 장은, 이 거대하고 사전 훈련된 모델들을 수정하지 않고 그 위에서 작동하는 경량의, 특화된, 그리고 종종 튜닝이 필요 없는 모듈(어댑터, 컨트롤러, 가이던스 메커니즘)을 만드는 데 있다. Ctrl-Adapter, FPE, LOCO Edit, DiTFastAttn, In-Context Edit 등은 모두 이러한 흐름을 보여주는 대표적인 예이다. 이는 혁신을 민주화하고, 소수의 강력한 엔진(DiT 백본)을 중심으로 특화된 편집 기능들이 폭발적으로 증가하는 ‘캄브리아기 대폭발’과 같은 생태계를 조성할 것이다.
본 보고서는 이미지 편집을 위한 어텐션 기반 확산 트랜스포머(ADiT), 즉 DiT 모델에 대한 심층적인 고찰을 제공했다. 분석을 통해 DiT는 단순히 기존 UNet 아키텍처의 점진적 개선이 아니라, 생성 모델링의 근본적인 패러다임을 전환시킨 혁신임이 분명해졌다.
첫째, DiT의 등장은 UNet의 컨볼루션 기반 구조가 가진 장거리 의존성 포착의 한계라는 명확한 기술적 필요성에 의해 추동되었다. 트랜스포머의 셀프 어텐션 메커니즘을 도입함으로써 DiT는 전역적 문맥을 이해하고 뛰어난 확장성을 확보했으며, 이는 고해상도 이미지 생성 및 복잡한 구조적 편집에서 질적인 도약을 이루는 기반이 되었다.
둘째, DiT 내부의 어텐션 메커니즘에 대한 이해는 ‘직접 조작’에서 ‘원리 기반 제어’로 진화했다. 초기에는 크로스 어텐션이 의미론적 제어의 핵심으로 여겨졌으나, 심층 분석을 통해 셀프 어텐션이 구조 보존의 중추적 역할을 하며, 크로스 어텐션 조작은 오히려 ‘의미론적 오염’으로 인해 편집 실패를 유발할 수 있음이 밝혀졌다. 이러한 이해는 셀프 어텐션만을 제어하는 FPE를 거쳐, 두 메커니즘의 역할을 정교하게 분담하는 DiT4Edit과 같은 듀얼 어텐션 프레임워크의 등장으로 이어졌다.
셋째, DiT라는 강력한 백본 위에서 다양한 편집 철학을 가진 프레임워크 생태계가 형성되고 있다. DiT4Edit의 ‘직접 제어’, In-Context Edit의 ‘예시 기반 학습’, LazyDiffusion의 ‘효율성 우선’, IEAP의 ‘구성적 추론’은 각각 다른 사용자 요구와 기술적 과제를 해결하며 DiT의 다재다능함을 입증한다.
넷째, DiT는 GAN, ControlNet과 같은 기존 패러다임과의 비교를 통해 그 독자적인 위치를 확립했다. GAN의 정밀한 직접 제어 능력과 DiT의 유연한 의미론적 표현 능력은 상호 보완적이며, ControlNet의 방대한 제어 생태계를 DiT로 효율적으로 이식하려는 Ctrl-Adapter의 등장은 DiT가 차세대 표준 백본으로 자리매김하고 있음을 시사한다.
마지막으로, DiT가 직면한 계산 비용, 제어 정밀성, 평가 지표의 신뢰성 등의 과제들은 곧 미래 연구의 방향을 제시한다. 효율성 최적화, 다중 모드 제어, 비디오 및 3D로의 도메인 확장, 그리고 거대 모델 위에 구축되는 경량 모듈 생태계의 활성화는 DiT가 앞으로 나아갈 길을 밝히고 있다.
결론적으로, ADiT 모델, 즉 확산 트랜스포머는 이미지 편집 분야의 현주소를 재정의하고 미래의 가능성을 확장하는 핵심 기술이다. 이는 단순한 아키텍처의 변화를 넘어, 생성 AI가 어떻게 세상을 인식하고, 사용자와 상호작용하며, 창의적인 결과물을 만들어내는 방식 자체를 근본적으로 바꾸고 있는 혁신의 동력이다.
| ADIT PRISCILLA | Heroes Model Management, accessed July 19, 2025, https://www.heroesmodels.com/models/women/511-adit-priscilla/ |
| The Graduates: Adit Priscilla | models.com MDX, accessed July 19, 2025, https://models.com/mdx/the-graduates-adit-priscilla/ |
| Meet @Adit Priscilla an international super model from the Joram Model… | TikTok, accessed July 19, 2025, https://www.tiktok.com/@nrgradioug/video/7398180556808244486 |
| DiT4Edit: Diffusion Transformer for Image Editing | Request PDF - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/390719977_DiT4Edit_Diffusion_Transformer_for_Image_Editing |
| Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model | Jaemin Cho, accessed July 19, 2025, https://j-min.io/publication/ctrl-adapter_iclr2025/ |
| Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model | Papers With Code, accessed July 19, 2025, https://paperswithcode.com/paper/ctrl-adapter-an-efficient-and-versatile |
| Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model | OpenReview, accessed July 19, 2025, https://openreview.net/forum?id=ny8T8OuNHe |
| CLIP score vs FID pareto curves | dalle-mini – Weights & Biases - Wandb, accessed July 19, 2025, https://wandb.ai/dalle-mini/dalle-mini/reports/CLIP-score-vs-FID-pareto-curves–VmlldzoyMDYyNTAy |
| Exploring Low-Dimensional Subspace in Diffusion Models for Controllable Image Editing | OpenReview, accessed July 19, 2025, https://openreview.net/forum?id=50aOEfb2km¬eId=QVA8eO5JDt |