디퓨전 트랜스포머의 구조적 특성과 열역학적 연산 패러다임 분석

디퓨전 트랜스포머의 구조적 특성과 열역학적 연산 패러다임 분석

1. 서론: 디지털 시뮬레이션에서 물리적 구현으로의 전환

최근 인공지능(AI) 기반 생성 모델 분야는 U-Net 1 아키텍처 중심의 패러다임에서 디퓨전 트랜스포머(Diffusion Transformer, DiT) 3로의 급격한 이행을 경험하고 있다. DiT는 기존 컨볼루션 신경망(CNN)의 계층적 구조를 탈피하여, 자연어 처리(NLP) 분야에서 검증된 트랜스포머 아키텍처의 탁월한 확장성(scalability) 3을 생성 모델에 성공적으로 이식하였다.1 OpenAI의 Sora 6 및 Stable Diffusion 3 9와 같은 SOTA(State-of-the-Art) 모델의 등장은 DiT 아키텍처가 시공간(spatiotemporal) 데이터의 복잡한 장거리 의존성(long-range dependency)을 모델링하는 데 있어 기존 U-Net을 압도함을 입증하였다.

그러나 이러한 눈부신 성능의 이면에는 근본적인 위기가 존재한다. DiT를 포함한 거대 AI 모델의 훈련과 추론은 기하급수적인 에너지 소비를 요구하며 10, 이는 무어의 법칙(Moore’s Law)의 물리적, 경제적 한계 12와 맞물려 있다. 이 에너지 위기의 본질은 1961년 롤프 란다우어(Rolf Landauer)가 정립한 란다우어 원리(Landauer’s Principle) 14로 귀결된다. 란다우어 원리는 디지털 컴퓨터의 ‘논리적 비가역성’(logically irreversibility), 즉 정보의 삭제(erasure)가 필연적으로 ‘열역학적 엔트로피 증가’(thermodynamic entropy increase), 즉 에너지 소산(dissipation)을 유발함을 규정한다.12 DiT가 수행하는 수십억 회의 연산은 이러한 비가역적 정보 처리에 기반하며, 막대한 에너지 비용을 지불하고 있다.

본 보고서는 이러한 배경 하에 두 가지 상이하면서도 깊게 연결된 주제인 ’디퓨전 트랜스포머’와 ’열역학 컴퓨팅’을 심층 분석하고자 한다. 본 보고서의 핵심 명제는 다음과 같다: “DiT는 물리학(열역학)의 법칙을 디지털 하드웨어로 ’모방’하고 ’시뮬레이션’하는 소프트웨어의 정점인 반면, 열역학 컴퓨팅은 AI의 에너지 위기를 극복하기 위해 ’물리학 자체를 연산’의 기질(substrate)로 삼는 하드웨어 패러다임으로의 근본적인 회귀를 의미한다.”

이를 논증하기 위해, 본 보고서는 다음의 순서로 전개된다.

  1. (II장) DiT 아키텍처가 U-Net의 귀납 편향(inductive bias)을 어떻게 극복하고 확장성을 획득했는지 분석한다.

  2. ** (III장)** DiT의 ‘연산 효율성’(Gflops)과 ‘에너지 효율성’(Joules) 사이의 모순적 관계를 분석하여, 트랜스포머 아키텍처의 근본적인 에너지 문제를 규명한다.

  3. ** (IV장)** DiT가 수행하는 디퓨전 프로세스가 비평형 열역학(non-equilibrium thermodynamics)의 랑주뱅 동역학(Langevin dynamics)을 고비용으로 시뮬레이션하는 과정임을 논증한다.

  4. ** (V장)** 나아가 최신 연구가 이 생성 과정을 평형 통계 역학(equilibrium statistical mechanics)의 ‘자유 에너지 최소화’(free energy minimization) 및 ‘상전이’(phase transitions)로 재해석함을 제시한다.

  5. ** (VI장)** 란다우어의 한계를 극복하기 위한 새로운 하드웨어 패러다임, 즉 노이즈를 자원으로 활용하는 ‘열역학 컴퓨팅’(thermodynamic computing)의 원리를 설명한다.

  6. ** (VII장)** DiT(소프트웨어)와 열역학 컴퓨팅(하드웨어)의 융합점으로서, 신경망 ‘대신’ 물리적 시스템의 동역학 자체가 생성 모델이 되는 ‘생성적 열역학 컴퓨팅’(generative thermodynamic computing) 프레임워크를 심층 분석한다.

최종적으로 (VIII장) 결론에서는, DiT가 제시하는 디지털 시뮬레이션의 한계와 열역학 컴퓨팅이 제시하는 물리적 구현의 가능성을 종합하여, AI 패러다임의 미래 방향을 조망한다.

2. 디퓨전 트랜스포머(DiT) 아키텍처의 심층 분석

2.1 U-Net의 유산과 그 구조적 한계

DiT의 등장을 이해하기 위해서는 기존 디퓨전 모델의 지배적인 백본(backbone)이었던 U-Net 아키텍처의 특성을 먼저 분석해야 한다.1 U-Net은 본래 의료 영상 분할을 위해 개발되었으며 1, 인코더의 축소 경로(contracting path)와 디코더의 확장 경로(expanding path), 그리고 이 둘을 연결하는 스킵 커넥션(skip connections) 16을 특징으로 한다.

U-Net의 핵심 강점은 컨볼루션 연산 1과 계층적(hierarchical) 구조에서 비롯되는 강력한 ‘공간적 귀납 편향’(spatial inductive bias) 18이다. 이 구조는 이미지의 국소적(local) 특징과 공간적 위계(spatial hierarchy)를 포착하는 데 매우 효과적이며 20, 디퓨전 모델의 노이즈 제거(denoising) 작업에 적합했다.

그러나 이러한 U-Net의 구조적 강점은 역설적으로 그 한계로 작용하였다.

  1. 제한된 글로벌 컨텍스트: U-Net의 컨볼루션 연산은 본질적으로 국소적이다. 어텐션 메커니즘이 일부 도입되긴 하였으나 21, 아키텍처 자체가 이미지의 장거리 의존성(long-range spatial dependencies)이나 글로벌 컨텍스트(global context)를 모델링하는 데 본질적인 한계를 갖는다.20

  2. 확장성 및 유연성 부족: U-Net의 경직된 계층 구조는 입력 데이터의 해상도나 복잡성이 증가할수록 확장하기 어렵다.20 특히, 정적 이미지를 넘어 가변적인 해상도와 길이를 갖는 비디오 데이터의 시공간(spatiotemporal) 동역학을 처리하는 데 근본적인 제약이 따른다.7

2.2 DiT의 아키텍처적 혁신: U-Net의 해체와 트랜스포머의 적용

DiT는 U-Net의 귀납 편향이 고품질 이미지 생성에 필수적이지 않다는(not essential) 18 대담한 가설 하에, U-Net 백본을 트랜스포머로 완전히 대체한다.1

DiT의 핵심 아이디어는 다음과 같은 단계로 요약된다.

  1. 잠재 공간(Latent Space) 연산: 픽셀 공간에서 직접 연산하는 대신, DiT는 VAE(Variational Autoencoder)와 같은 인코더를 사용하여 원본 이미지를 저차원의 잠재 공간으로 압축한다(Latent Diffusion Models, LDMs).3

  2. 패치화(Patchify): 이 저차원 잠재 공간을 ViT(Vision Transformer) 4와 동일한 방식으로 일정한 크기의 ‘패치’(patches)로 분할한다.4

  3. 시퀀스 토큰화: 분할된 패치들은 위치 임베딩(positional embedding)과 결합되어, 트랜스포머가 처리할 수 있는 1차원의 ‘토큰 시퀀스’(sequence of tokens)로 변환된다.20

이 접근 방식은 이미지 생성이라는 공간적 문제를 NLP에서와 같은 시퀀스 모델링 문제로 효과적으로 치환한다. 트랜스포머의 셀프 어텐션(self-attention) 메커니즘은 U-Net의 국소적 컨볼루션과 달리, 시퀀스 내 모든 토큰(즉, 이미지의 모든 패치) 간의 관계를 직접적으로 모델링하여, 이미지 전체의 ’글로벌 컨텍스트’를 강력하게 포착한다.20

2.3 DiT 블록의 작동 원리: 조건부 입력의 처리

DiT는 단순한 ViT가 아니다. 디퓨전 모델은 노이즈가 주입된 이미지(잠재 패치) 외에도, 현재 노이즈 레벨을 나타내는 ’타임스텝(timestep) t’와 ’클래스 레이블(class label) c’와 같은 추가적인 조건부 정보를 반드시 처리해야 한다.24

DiT는 이러한 조건부 입력을 트랜스포머 블록에 주입하기 위해 여러 설계를 탐구하였으며 24, 그 결과 ‘adaLN’(adaptive Layer Norm) 방식이 가장 뛰어난 성능을 보임을 발견했다.4

  • adaLN의 작동 방식: adaLN은 타임스텝 t와 클래스 레이블 c의 임베딩 벡터를 입력받아, 이를 기반으로 트랜스포머 블록 내 Layer Norm 레이어의 스케일(\gamma) 및 시프트(\beta) 파라미터를 동적으로 생성한다.

  • 핵심적 역할: 이는 4에서 언급된 바와 같이 ‘사소하지만 중요한 수정’(small, but important, tweaks)이다. 조건부 정보가 단순히 입력 토큰에 더해지는 것이 아니라, 트랜스포머 블록의 정규화(Normalization) 과정을 직접 ‘조율’(modulate)하기 때문이다.

  • 이 메커니즘을 통해 DiT는 현재의 노이즈 레벨(t)에 따라 각 트랜스포머 블록의 작동 방식을 동적으로 변경할 수 있다. 즉, t가 높을 때(노이즈가 많을 때)는 거시적 구조에 집중하고, t가 낮을 때(노이즈가 적을 때)는 미세한 디테일을 복원하도록 유연하게 작동한다. 이는 전체 디노이징 궤적(trajectory)에 걸쳐 매우 효율적인 학습을 가능하게 하는 핵심 기제다.

2.4 DiT의 확장성 법칙 (Scaling Laws)

DiT의 가장 중요한 학술적 기여는 NLP 대형 언어 모델(LLM)에서 관찰된 ‘확장성 법칙’(Scaling Laws)이 생성 모델 분야에도 동일하게 적용됨을 입증한 것이다.1

연구진은 모델의 순방향 연산 복잡도(forward pass complexity), 즉 Gflops(Giga-floating-point operations per second)와 생성된 샘플의 품질(Fidelity, FID 점수로 측정) 사이에 강력하고 일관된 상관관계가 존재함을 체계적으로 입증했다.3

  • 모델의 깊이(depth)나 너비(width)를 증가시켜 Gflops를 높이면 FID가 일관되게 향상되었다.3

  • 입력 토큰의 수를 늘릴수록(즉, 패치 크기 p를 줄일수록, 예: p=2) Gflops가 증가하며 FID가 마찬가지로 향상되었다.3

이러한 확장성 법칙에 따라 구축된 DiT-XL/2 모델은, 클래스 조건부 ImageNet 생성 벤치마크에서 이전의 모든 U-Net 기반 디퓨전 모델을 능가하며 SOTA(State-of-the-Art) FID 점수(256x256 해상도에서 2.27)를 달성하였다.1

2.5 DiT의 파급 효과: Sora와 시공간 모델링

DiT의 성공은 정적 이미지를 넘어 비디오 생성 분야로 즉각 파급되었다. OpenAI의 비디오 생성 모델 Sora 6는 DiT 아키텍처의 확장성을 극적으로 보여준 사례다.

Sora는 DiT 아키텍처를 기반으로 하되, 2D 공간 패치(spatial patches)를 3D ‘시공간 패치’(spacetime patches)로 일반화하였다.6

  • U-Net의 고정된 계층적 컨볼루션 구조는 가변적인 해상도, 화면비, 그리고 특히 가변적인 ‘시간’ 길이를 갖는 비디오 데이터를 유연하게 처리하는 데 근본적인 제약이 있다.7

  • 반면, DiT는 입력을 ’토큰 시퀀스’로 취급한다.20 따라서 DiT는 시공간을 압축한 3D 토큰의 시퀀스를 6 길이와 해상도에 구애받지 않고 7 동일한 아키텍처로 처리할 수 있다.

  • DiT의 ‘공간적 귀납 편향의 부재’(no inherent spatial bias) 19와 ‘글로벌 어텐션’(global context) 20은, Sora가 복잡한 3D 시공간의 물리적 일관성(physical world simulation) 8과 장거리 시간적 논리를 학습하는 데 U-Net보다 압도적으로 유리한 아키텍처였음을 시사한다.

3. 연산 효율성(Gflops) 대 에너지 효율성(Joules): DiT와 U-Net의 재평가

3.1 Gflops 관점에서의 ‘효율성’: DiT의 승리

DiT는 특정 벤치마크에서 기존 U-Net 기반 모델보다 ‘연산 효율성’(compute efficiency)이 더 높다고 보고된다.1 이는 종종 DiT의 우수성을 입증하는 근거로 인용된다.

구체적으로 512x512 해상도 ImageNet 생성에서, DiT-XL/2 모델은 약 525 Gflops의 연산량으로 3.04의 FID를 달성하였다.1 이는 2813 Gflops라는 훨씬 더 많은 연산량을 요구함에도 불구하고 3.85의 FID에 그친 U-Net 기반 ADM-U 모델보다 명백히 효율적인 결과다.1 이러한 Gflops 대비 효율성은 DiT가 고도로 압축된 잠재 공간에서 작동하며 3, 트랜스포머 아키텍처가 U-Net의 컨볼루션보다 더 적은 연산으로 높은 표현력을 달성할 수 있음을 시사한다.18

3.2 실제 에너지 소비(Joules)의 역설: U-Net의 재평가

그러나 ’Gflops’로 측정된 이론적 연산 효율성은 ‘Joules’ 또는 ’kWh’로 측정된 실제 ‘에너지 효율성’(energy efficiency)과 반드시 일치하지 않는다. 최근 AI 모델의 실제 에너지 소비를 측정한 연구들은 DiT의 효율성에 대해 심각한 역설을 제기한다.28

이 연구들은 “U-Net 기반 모델이 (추론 시) 트랜스포머 기반 모델보다 (에너지를) 덜 소비하는 경향이 있다”(U-Net-based models tend to consume less than Transformer-based ones)고 명시적으로 결론 내린다.28

Gflops(이론적 연산 횟수)와 Joules(실제 에너지 소비) 사이의 이러한 괴리 30는 AI 모델의 에너지 소비가 부동소수점 연산(FLOPs) 자체에 의해서만 결정되지 않음을 보여준다.31 실제 에너지 소비는 연산뿐만 아니라 데이터 이동(메모리 접근), 하드웨어 아키텍처, 캐시 효율성 등 복합적인 요인에 의해 결정된다.30

3.3 원인 분석: DiT는 왜 더 많은 에너지를 사용하는가? (메모리 바운드 특성)

DiT가 U-Net보다 Gflops가 낮음에도 불구하고 실제 에너지를 더 많이 소비할 수 있는 29 근본적인 이유는, 트랜스포머 아키텍처와 CNN 아키텍처의 본질적인 연산 특성 차이에 있다.

  1. 컴퓨트 바운드(Compute-bound) vs. 메모리 바운드(Memory-bound): CNN(U-Net의 기반)은 상대적으로 ‘컴퓨트 바운드’ 특성을 갖는다.32 즉, 전체 에너지 소비에서 곱셈-누적(Multiply-Accumulate, MAC) 연산이 차지하는 비중이 높다.

  2. 트랜스포머의 메모리 바운드 특성: 반면, DiT와 같은 트랜스포머 아키텍처(GPT-like)는 본질적으로 ‘메모리 바운드’ 특성을 갖는다.32

  • 트랜스포머의 핵심인 셀프 어텐션(self-attention) 메커니즘 33은 입력 시퀀스 길이에 대해 O(N^2)의 2차(quadratic) 복잡도를 갖는다.

  • 이 과정은 Gflops로 측정되는 연산 자체보다, 거대한 파라미터 텐서와 Key-Value(KV) 캐시를 GPU의 HBM(High Bandwidth Memory)에서 로드하고(load) 저장하는(store) 과정에서 막대한 ‘데이터 이동’(data-transfer cost)을 유발한다.32

현대 반도체 아키텍처에서 1비트의 데이터를 메모리(DRAM)에서 연산 유닛(ALU)으로 이동시키는 데 드는 에너지는, 1비트를 연산하는 데 드는 에너지보다 수백 배에서 수천 배 더 비싸다.32 DiT의 글로벌 어텐션 20은 U-Net의 국소적 컨볼루션 1보다 훨씬 더 방대하고 비효율적인 메모리 접근 패턴을 야기하며, Gflops 수치로는 드러나지 않는 막대한 ‘숨겨진’ 에너지 비용을 발생시킨다.

3.4 DiT의 에너지 문제는 AI 전체의 위기

DiT의 이러한 에너지 비효율성은 개별 모델의 문제를 넘어, AI 분야 전체가 직면한 지속 불가능성(unsustainability) 10을 상징한다. AI 모델의 계산 요구량은 전 세계 에너지 생산량을 위협할 수 있는 수준으로 폭증하고 있으며 11, 이는 ’DiT’와 같은 디지털 시뮬레이션 방식에 근본적인 한계가 있음을 시사한다. 이 문제는 결국 알고리즘의 개선만으로는 해결할 수 없으며, 컴퓨팅 패러다임 자체의 근본적인 변화를 요구한다.


표 1: DiT 아키텍처와 U-Net의 연산 및 에너지 효율성 비교 분석

특성ADM-U (U-Net)LDM (U-Net)DiT-XL/2 (Transformer) [1, 3]
백본 아키텍처U-Net (Convolutional)U-Net (Convolutional)Transformer 4
핵심 메커니즘계층적 컨볼루션, 스킵 커넥션잠재 공간 U-Net잠재 공간 패치, 글로벌 셀프 어텐션 20
귀납 편향강한 공간적/계층적 편향 18강한 공간적/계층적 편향시퀀스 기반 (편향 적음) 19
연산량 (Gflops) (512x512 기준)2813 Gflops103 Gflops (LDM-4)525 Gflops 1
샘플 품질 (FID) (512x512 기준)3.85(참고값)3.04 (더 우수) 1
Gflops 대비 효율낮음(기준 모델)높음 (적은 Gflops로 더 나은 FID) 1
실제 에너지 소비 (Inference Energy)(기준)(기준)더 높은 경향 (U-Net 대비) 28
핵심 특성컴퓨트 바운드 (경향) 32컴퓨트 바운드 (경향)메모리 바운드 (높은 데이터 이동 비용) 32

4. 디퓨전 모델의 열역학적 뿌리: 비평형 통계 물리학

DiT가 직면한 에너지 문제와는 별개로, DiT가 기반한 ‘디퓨전 모델’ 프레임워크 자체는 물리학, 특히 ‘비평형 열역학’(nonequilibrium thermodynamics)과 불가분의 관계를 맺고 있다. DiT가 소프트웨어 아키텍처라면, 디퓨전 프로세스는 이 아키텍처가 시뮬레이션하는 물리적 동역학이다.

4.1 디퓨전 모델의 영감: 비평형 열역학

최초의 디퓨전 모델(DDPMs)은 비평형 열역학의 아이디어에서 직접적인 영감을 받았다.34

물리학에서 ‘확산’(diffusion)은 고도로 정돈된(low-entropy) 상태의 시스템이 시간의 흐름에 따라 무작위적인 상호작용(예: 브라운 운동)을 거쳐 점차 무질서해지며(high-entropy), 최종적으로는 아무런 구조가 없는 열 평형(thermal equilibrium) 상태에 도달하는 비가역적(irreversible) 프로세스를 의미한다.39 잉크 방울이 물에 퍼져나가며 결국 물 전체가 균일하게 흐려지는 현상이 고전적인 예다.39

4.2 순방향 프로세스 (Forward Process)와 랑주뱅 동역학 (Langevin Dynamics)

디퓨전 모델의 ‘순방향 프로세스’(Forward Process)는 이러한 물리적 확산 과정을 수학적으로 모델링한 것이다.

  1. 데이터 파괴 (Data Destruction): 원본 데이터(이미지, x_0)에 점진적으로, 수천 번의 타임스텝(t=1...T)에 걸쳐 가우시안 노이즈(Gaussian noise)를 반복적으로 추가한다.5

  2. 구조 파괴: 이 과정을 통해 데이터는 서서히 그 구조(structure)를 잃어버리며 38, t=T 시점에는 원본의 정보를 완전히 상실한 순수한 가우시안 백색 잡음(x_T) 상태가 된다.

이 순방향 노이즈 추가 과정은 물리학에서 입자의 무작위적 움직임, 즉 ‘브라운 운동’(Brownian motion) 1을 기술하는 ‘랑주뱅 동역학’(Langevin dynamics) 42과 수학적으로 동일하다.

랑주뱅 동역학은 더 일반적인 ‘확률 미분 방정식’(Stochastic Differential Equations, SDEs) 44의 한 형태다. SDE는 시스템의 동역학을 (1) 시스템을 특정 상태로 이끄는 결정론적 힘인 ‘드리프트’(drift) 항과, (2) 무작위적 요동을 나타내는 ‘확산’(diffusion) 또는 ‘노이즈’ 항의 합으로 기술한다.44 디퓨전 모델의 순방향 프로세스는 데이터를 가우시안 분포라는 ’평형 상태’로 이끄는(drift) SDE로 정확하게 정의될 수 있다.42

4.3 역방향 프로세스 (Backward Process)와 통계적 추론

생성(Generation)은 이 물리 과정을 정확히 ‘역재생’(reverse)하는 것이다. 즉, 순수한 노이즈(x_T)에서 시작하여 시간을 거꾸로 돌리면서(t=T...1) 노이즈를 점진적으로 제거하고, 원본 데이터의 구조(x_0)를 복원(restore structure)하는 과정이다.38

물리학적으로, 이 역방향 프로세스 또한 ‘역시간 SDE’(reverse-time SDE) 41라는 또 다른 (그러나 훨씬 더 복잡한) 랑주뱅 동역학으로 기술될 수 있다는 것이 Anderson (1982)에 의해 증명되었다.41

여기서 DiT/U-Net 아키텍처의 근본적인 역할이 드러난다.

  1. 순방향 SDE는 노이즈를 추가하는 간단한 과정이다.

  2. 하지만 ’역시간 SDE’는 47, 현재 상태의 데이터 분포(p(x_t))에 대한 미분값, 즉 ‘점수 함수’(Score function, \nabla_x \log p(x_t)) 41라는 항을 필요로 한다.

  3. 이 ’점수 함수’는 시시각각 변하는 복잡한 고차원 데이터 분포의 기울기를 나타내므로, 현실적으로 계산이 불가능(intractable)하다.

DiT와 U-Net의 역할은 바로 이 계산 불가능한 물리량, 즉 ’점수 함수’를 근사(approximate)하는 ‘함수 근사기’(function approximator) 49다. DiT는 수많은 데이터로부터 점수 함수를 학습하여, 물리적으로 불가능했던 ’역시간 SDE’를 풀 수 있게 해주는 고도로 정교한 ’물리 시뮬레이터’의 핵심 부품이다.48 생성 과정은 이 학습된 점수 함수를 이용해 역시간 SDE를 수치적으로 적분(integrate)하여 노이즈로부터 샘플을 복원하는 ‘통계적 추론’(statistical inference) 42 과정이다.

4.4 비평형 열역학과 생성 품질의 관계

이러한 물리학적 연결은 단순한 비유가 아니라, 모델의 성능을 분석하고 개선하는 이론적 도구가 된다. 최근 연구들은 비평형 열역학의 엄밀한 도구(예: 변동 정리(Fluctuation Theorem), 엔트로피 생성(Entropy Production)) 42를 사용하여 디퓨전 모델의 근본적인 제약 조건을 유도하고 있다.

50의 연구는 디퓨전 모델의 ‘속도-정확도 관계’(speed-accuracy relations) 50를 유도하였다. 이는 데이터 생성의 정확도(quality)가 생성 과정에서 발생하는 ‘열역학적 소산’(dissipation) 또는 ‘엔트로피 생성’(entropy production) 51에 의해 근본적으로 제약됨을 보여준다.

더 나아가51은 ‘최적 수송 동역학’(optimal transport dynamics)이 소산을 최소화하며 가장 정확한 데이터 생성을 산출함을 이론적으로 보였다. 이는 현재 널리 사용되는 DDPM과 같은 경험적 샘플링 방식이 아직 ‘최적이 아님’(suboptimal) 51을 시사한다. 결론적으로, 비평형 열역학 이론은 향후 더 효율적이고 고품질의 디퓨전 모델(DiT 포함)을 설계하는 강력한 이론적 기반 51을 제공한다.

5. 디퓨전 생성의 재해석: 평형 통계 역학과 상전이

IV장이 디퓨전 프로세스를 ‘비평형’(non-equilibrium) 동역학의 궤적(trajectory) 38으로 분석했다면, 최근의 획기적인 연구들은 이 과정을 ‘평형 통계 역학’(equilibrium statistical mechanics)의 언어로 재정의(reformulate)하는 데 성공했다.53 이 관점은 DiT가 ‘무엇을’ 학습하는지, 그리고 ‘어떻게’ 구조를 생성하는지에 대한 더 깊은 물리적 통찰을 제공한다.

5.1 생성 과정으로서의 ‘자유 에너지 최소화’

이 새로운 관점에서, 디퓨전 모델의 생성 과정(역방향 SDE)은 시스템이 외부와 ‘열 평형’(thermal equilibrium) 상태를 유지하면서 서서히 ’냉각’되는 과정과 동일하게 해석된다.53 물리학적으로, 이러한 과정은 시스템의 ‘자유 에너지’(Free Energy)를 최소화하는 방향으로 일어난다.

  • 생성 과정은 ‘확률적 단열 변환’(stochastic adiabatic transformation)으로 재해석된다.53

  • DiT가 학습하는 ’점수 함수’는 사실 이 시스템의 (음의) ‘자유 에너지 지형’(Free Energy Landscape)의 기울기(gradient)와 같다.56

  • 따라서 DiT는 데이터 분포의 복잡하고 고차원적인 ’에너지 지형’을 학습하는 것과 같다.56

생성 과정의 의미는 다음과 같이 재정의된다: t=T (고온)의 순수 노이즈 상태는 에너지 지형에서 가장 높은 에너지와 엔트로피를 갖는 상태다.49 t를 0으로 낮추는(냉각하는) 과정은, DiT가 안내하는 이 에너지 지형의 경사를 따라 내려가 56 가장 안정적인(에너지가 낮은) 상태로 ‘응축’(condensation) 54하는 물리적 과정이다. 이 최종 저(低)에너지 상태가 바로 생성된 이미지다.

5.2 상전이(Phase Transitions)와 대칭성 붕괴(Symmetry Breaking)

이 ‘냉각’ 및 ‘응축’ 과정은 매끄럽고 연속적으로 일어나지 않는다. 이 관점의 가장 핵심적인 발견은, 디퓨전 생성 과정이 특정 임계 시간(t_c)에서 불연속적인 ‘2차 상전이’(second-order phase transitions) 53를 겪는다는 수학적 입증이다.

물리학에서 상전이(예: 물이 얼음이 되는 과정)는 ‘대칭성 붕괴’(symmetry breaking phenomena) 53와 동의어다. 디퓨전 생성 과정에서의 대칭성 붕괴는 다음과 같이 일어난다.

  1. t > t_c (고온/대칭 상태): t가 임계 시간보다 클 때, 시스템은 완전한 노이즈 상태다. 자유 에너지 지형은 단 하나의 최소값(평균 지점)을 갖는다.56 이 상태는 모든 가능한 이미지(고양이, 개, 자동차…)에 대해 ’대칭적’이다.

  2. t = t_c (임계점/상전이): 특정 임계 시간(온도) t_c에서 상전이가 발생한다. 이 시점에서 단일했던 에너지 최소값이 여러 개의 ‘가지’(branches)로 ‘분기’(bifurcation)된다.54

  3. t < t_c (저온/대칭성 붕괴 상태): 이 분기된 가지(에너지 최소값들)는 다름 아닌 데이터 분포의 ‘시맨틱 클래스’(semantic classes) (예: ‘고양이’ 이미지 집합, ‘개’ 이미지 집합) 59 또는 주요 시각적 특징(visual features) 57에 해당한다. 시스템은 이 시점에서 ’대칭성’을 잃고, 여러 가지 중 하나를 ’선택’하여 그 방향으로 ‘붕괴’(collapse) 57해야 한다.

결론적으로, DiT의 ’생성 능력’은 이 ‘임계 불안정성’(critical instability) 53에서 비롯된다. DiT 아키텍처는 U-Net 아키텍처보다 22 이러한 복잡다단한(multi-modal) 자유 에너지 지형과, 그 지형 위에서 벌어지는 급격한 상전이 동역학 42을 더 효과적으로 학습하고 표현할 수 있기 때문에 더 우수한 생성 품질을 보이는 것으로 물리적 해석이 가능하다.

6. 열역학 컴퓨팅: 노이즈를 억제에서 자원으로

III장에서 논의했듯이, DiT와 같은 대형 모델은 ’란다우어 원리’가 규정하는 디지털 컴퓨팅의 물리적 한계로 인해 막대한 에너지를 소모한다.10 ‘열역학 컴퓨팅’(Thermodynamic Computing)은 이 문제를 해결하기 위해 등장한 근본적으로 다른 하드웨어 패러다임이다.13

6.1 란다우어 원리: 정보와 엔트로피의 연결

열역학 컴퓨팅의 필요성을 이해하기 위해서는 란다우어 원리 14를 다시 한 번 명확히 정의해야 한다.

  • 원리: 란다우어 원리는 ‘논리적 비가역성’(logically irreversible manipulation)과 ’열역학적 엔트로피 증가’를 연결한다.14

  • 논리적 비가역성: 논리적으로 비가역적인 연산이란, 연산의 결과로부터 입력을 유일하게 복원할 수 없는 연산을 말한다. 대표적인 예가 1비트 정보의 ‘삭제’(erasure) 14다. (예: AND(1, 0) = 0이라는 결과로부터 입력이 (1, 0)이었는지, (0, 1)이었는지, (0, 0)이었는지 알 수 없다).

  • 에너지 소산: 디지털 컴퓨터는 이러한 비가역적 논리 게이트(예: AND, OR)를 기반으로 한다. 란다우어는 이러한 논리적 비가역성(정보 엔트로피의 감소)이 발생할 때, 열역학 제2법칙을 위배하지 않기 위해 반드시 그에 상응하는 ‘열역학적 엔트로피 증가’(즉, 에너지 소산)가 정보 비(非)보유 자유도(non-information bearing degrees of freedom), 즉 환경으로 방출되어야 함을 증명했다.14

  • 최소 비용: 이 최소 에너지 소산량은 k_B T \ln 2로, 여기서 k_B는 볼츠만 상수, T는 시스템의 온도다.15 DiT가 이미지를 생성하며 수행하는 수조 번의 디지털 연산은 매번 이 란다우어 한계에 따른 막대한 누적 열(에너지) 소산을 유발한다.12

6.2 대안: 가역 컴퓨팅 (Reversible Computing)

란다우어 원리는 역설적으로 AI의 에너지 위기에 대한 ‘해결책’ 또한 제시한다. 만약 연산이 ‘논리적으로 가역적’(logically reversible)이라면 (즉, 출력을 보고 입력을 항상 복원할 수 있다면), 정보의 삭제가 일어나지 않는다. 따라서 이러한 연산은 원리적으로(in principle) ‘열역학적으로 가역적인’ 방식으로 수행될 수 있으며 14, 에너지 소산(엔트로피 증가) 없이, 즉 이론적으로 ’0’의 에너지 비용으로 수행될 수 있다.14

6.3 열역학 컴퓨팅 (Thermodynamic Computing)의 핵심 원리

’열역학 컴퓨팅’은 이러한 가역 컴퓨팅을 물리적으로 구현하려는 새로운 하드웨어 패러다임이다.60 그 핵심 원리는 디지털 컴퓨팅의 철학과 정반대다.

  1. 노이즈의 활용 (Harnessing Noise): 기존 디지털 컴퓨팅은 시스템의 근본적인 ‘열 노이즈’(thermal noise)나 ‘전기 노이즈’(electrical noise)를 연산의 ’오류’로 간주하고, 이를 ‘억제’(suppress)하기 위해 막대한 에너지를 소모한다.13 반면, 열역학 컴퓨팅은 이러한 ‘자연적 확률성’(natural stochastic behavior)을 ’억제’하는 대신 ‘활용’(harnesses)하며, 이를 ‘연산 자원’(computing resource)으로 재정의한다.61

  2. 아날로그와 확률성 (Analog and Stochastic): 열역학 컴퓨팅은 ‘0’ 또는 ’1’의 결정론적(deterministic) 디지털 비트 62가 아닌, 연속적인(analog) 신호 61와 확률적(stochastic) 상태를 기반으로 한다.

  3. ’프로그래밍’이 아닌 ‘유도’: 이 시스템은 폰 노이만 구조처럼 명령어를 순차적으로 실행하도록 ’프로그래밍’되지 않는다.60 대신, 시스템의 물리적 속성(예: 커패시터, 인덕터)을 조절하여 원하는 해답(예: 가장 에너지가 낮은 상태)으로 시스템이 ‘자연스럽게 진화’(evolve)하거나 ‘평형’(equilibration)을 찾아가도록 ‘유도’(guide) 또는 ‘훈련’(train)된다.60

이러한 열역학 컴퓨팅의 작동 원리(자연적 진화, 평형 상태 탐색, 확률성 활용) 60는 V장에서 분석한 디퓨전 모델의 ’평형 통계 역학’적 재해석(자유 에너지 최소화, 열 평형 상태로의 단열 변환) 53과 놀라울 정도로 정확하게 일치한다. DiT는 이러한 물리적 진화 과정을 디지털로 시뮬레이션하기 위해 막대한 에너지를 소모하는 42 반면, 열역학 컴퓨팅은 그 물리적 진화 자체를 연산으로 사용한다.69

7. 종합: 생성적 열역학 컴퓨팅 (Generative Thermodynamic Computing)

DiT 아키텍처의 분석과 열역학 컴퓨팅 원리의 고찰은 필연적으로 하나의 질문으로 수렴한다: 만약 DiT가 물리적 프로세스(랑주뱅 동역학)의 고비용 디지털 ’시뮬레이션’이라면, 그 ’물리적 프로세스 자체’를 생성 모델로 사용할 수는 없는가?

7.1 DiT의 근본적 한계 재정의

IV장과 V장에서 분석했듯이, DiT는 랑주뱅 동역학 42과 자유 에너지 최소화 56라는 ’물리적 프로세스’를 모방하는 고도로 정교한 소프트웨어다. 그러나 DiT는 디지털-결정론적 하드웨어 13 위에서 이 확률론적-아날로그 프로세스를 ’시뮬레이션’하기 때문에, 란다우어 원리 15와 메모리 바운드 특성 32에 의해 막대한 에너지 비용 29을 지불한다.

7.2 새로운 패러다임의 제안: ‘생성적 열역학 컴퓨팅’

최근 arXiv에 발표된 ‘생성적 열역학 컴퓨팅’(Generative Thermodynamic Computing) 70 프레임워크는 이 두 세계를 통합하는 획기적인 패러다임을 제안한다.

이 프레임워크는 디퓨전 모델의 생성 논리 73를 따르지만, 가장 결정적인 요소를 대체한다.

7.3 작동 방식: DiT를 물리 시스템으로 대체

  • 신경망의 부재: 기존 디퓨전 모델이 노이즈 제거(denoising)를 위해 DiT나 U-Net과 같은 거대한 ‘신경망’(neural networks)을 사용하는 것과 달리 70, 생성적 열역학 컴퓨팅은 이 신경망을 ‘물리적 시스템’(physical system) 72 또는 ‘아날로그 하드웨어’(analog hardware) 70로 완전히 대체한다.

  • 하드웨어 자체가 모델: DiT 모델의 ‘가중치’(weights)에 해당했던 정보, 즉 생성될 데이터의 ‘에너지 지형’(energy landscape) 73은, 이 물리 시스템을 구성하는 아날로그 부품들(예: 비선형 진동자) 간의 물리적 ‘커플링’(couplings) 72에 직접 인코딩(encoded)된다.

  • 자발적 생성: 데이터 생성(예: MNIST 숫자 생성) 72은 DiT가 역시간 SDE를 한 스텝씩 수치적으로 계산하는 ’시뮬레이션’이 아니다. 대신, 노이즈 상태에서 시작한 이 물리 시스템이 그 ’에너지 지형’을 따라 ‘자연적인 시간 진화’(natural time evolution), 즉 랑주뱅 동역학 70을 겪으며 자발적으로(autonomously) 71 구조화된 상태(숫자 이미지)로 수렴하는 ’물리 현상 그 자체’다.

7.4 학습(Training)의 열역학적 재정의

이 물리 시스템은 어떻게 ’학습’하는가? 이 프레임워크의 가장 심오한 지점은 ’학습’의 재정의에 있다.

  • 학습 목표: 시스템의 물리적 커플링은 ‘노이즈 추가 궤적(noising trajectory)의 역방향 확률을 최대화’(maximizing the probability… the reverse of a noising trajectory) 70하도록 조정(훈련)된다.

  • 물리적 의미 (최소 열 방출 원리): 이 수학적 학습 목표는 놀라운 물리적 의미를 갖는다. 이는 시스템이 데이터를 생성(denoising)할 때 발생하는 ‘열 방출’(heat emission)을 최소화’ 70 하도록 학습하는 것과 동일함이 밝혀졌다.

  • 즉, 이 시스템은 란다우어 원리 15를 정면으로 돌파하기 위해, 가장 ‘열역학적으로 가역적인’(thermodynamically reversible) 14 방식으로 작동하도록 스스로를 훈련한다. DiT가 에너지를 ’소비’하며 비가역적으로 시뮬레이션하는 것을, 이 하드웨어는 에너지를 ’보존’하며 가역적으로 ’수행’하도록 진화하는 것이다.

7.5 정보 병목(Information Bottleneck)과 두 종류의 엔트로피

이 패러다임의 전환은 AI가 다루는 ’정보’와 ’엔트로피’의 개념을 근본적으로 바꾼다.

  • 섀넌 엔트로피 (DiT): DiT와 같은 트랜스포머는 ‘정보 병목’(Information Bottleneck) 75 원리에 따라 작동한다. 이는 정보를 효율적으로 압축하고85, 추상적인 비트(bit)로 표현되는 ‘섀넌 엔트로피’(Shannon entropy) 77, 즉 정보의 불확실성을 다룬다.79

  • 열역학적 엔트로피 (Thermodynamic Computing): 반면, 열역학 컴퓨팅 67과 이를 기반한 생성 모델 70은 ‘열역학적 엔트로피’(Thermodynamic entropy) 80를 직접 다룬다. 이는 시스템의 물리적 ‘미시상태’(microstates) 80의 수와 에너지 소산(J/K) 80을 의미한다.

’생성적 열역학 컴퓨팅’은 DiT가 추상적으로 다루던 섀넌 정보77를, 물리적 기판의 열역학적 엔트로피81와 직접 연결 78하고 통일하려는 시도이며, 이는 AI와 물리학의 궁극적인 융합을 의미한다.


표 2: 3가지 생성 패러다임의 열역학적 비교

패러다임 (Paradigm)디퓨전 트랜스포머 (DiT) [3, 20]디퓨전 모델 (이론) [42, 53]생성적 열역학 컴퓨팅
연산 주체 (Computation Substrate)디지털 하드웨어 (GPU/TPU)수학적/물리학적 추상 개념아날로그 물리 시스템 70
노이즈의 역할 (Role of Noise)알고리즘적으로 ’주입’되는 인공 노이즈 (시뮬레이션 대상) [83]시스템의 동역학을 정의하는 확률적 항 (SDE) [44]‘억제’ 대상이 아닌 ‘연산 자원’ (물리적 노이즈) [67, 70]
열역학과의 관계 (Relation to Thermodynamics)랑주뱅 동역학 42 및 자유 에너지 최소화 56의 디지털 시뮬레이션비평형/평형 통계 역학의 이론적 프레임워크 [34, 54]랑주뱅 동역학의 물리적 구현 (Implementation) [71, 73]
핵심 목표 (Primary Goal)역시간 SDE의 ’점수 함수’를 신경망으로 근사(Approximate) 48생성 과정을 ‘자유 에너지 최소화’ 및 ’상전이’로 설명(Explain) 54신경망 없이, 물리 시스템 자체가 ’최소 열 방출’로 생성(Generate) 70
에너지 효율 (Energy Efficiency)매우 낮음. (란다우어 한계 + 메모리 바운드 비효율성) 29(해당 없음)이론적으로 매우 높음. (열역학적 가역성 추구) 14

8. 결론: DiT를 넘어, 물리 법칙으로의 회귀

본 보고서는 디퓨전 트랜스포머(DiT)의 아키텍처적 혁신과 그 이면에 숨겨진 에너지 문제, 그리고 이를 해결하기 위한 근본적인 패러다임으로서의 열역학 컴퓨팅을 심층적으로 분석하였다.

  1. DiT의 현재 위상: 물리학을 모방하는 정교한 시뮬레이터

DiT는 U-Net의 경직된 공간적 귀납 편향을 극복하고, 트랜스포머의 범용 확장성 법칙 3을 생성 모델에 성공적으로 이식했다. 이는 아키텍처적 승리인 동시에, 물리학적 승리다. DiT는 비평형 열역학의 랑주뱅 동역학 42을 디지털 하드웨어 상에서 가장 정교하게 ’시뮬레이션’하는 42 소프트웨어의 정점이다. 나아가, 평형 통계 역학의 관점에서 복잡한 ‘자유 에너지 지형’ 56과 ‘상전이’ 동역학 58을 가장 효과적으로 학습하고 재현하는 현존 아키텍처임이 입증되었다.7

  1. DiT의 근본적 한계: 시뮬레이션의 막대한 비용

그러나 DiT의 성공은 ‘란다우어 원리’ 15로 대변되는 디지털 컴퓨팅의 근본적인 물리적 한계 12와, 트랜스포머 아키텍처 고유의 ‘메모리 바운드’ 에너지 비효율성 29이라는 거대한 장벽에 직면해 있다. DiT는 물리학을 정교하게 ’모방’하지만, 그 모방의 ‘비용’(에너지)이 디지털 하드웨어의 비가역성으로 인해 지속 불가능한 수준에 이르고 있다.11

  1. 열역학 컴퓨팅의 역할: 물리 법칙으로의 회귀

열역학 컴퓨팅 61은 이러한 에너지 장벽에 대한 알고리즘적 개선이 아닌, 근본적인 ’물리적 해결책’을 제시한다. 억제해야 할 ’노이즈’를 연산의 ’자원’으로 67, 비가역적 ’소산’을 가역적 ’보존’으로 14, 결정론적 ’디지털’을 확률론적 ’아날로그’로 61 전환하는 패러다임의 변화를 요구한다.

  1. 최종 종합 및 미래 전망: 생성적 열역학 컴퓨팅

‘생성적 열역학 컴퓨팅’ 70은 이 두 세계의 필연적인 융합을 보여준다. 이는 DiT라는 고비용 ’시뮬레이터’를 저비용의 ’물리적 시스템’으로 대체 73하려는 시도다. 이 새로운 패러다임에서, ’학습’은 ‘열 방출 최소화’ 71라는 물리적 목표와 동일시된다.

미래의 생성 모델은 두 가지 방향으로 진화할 것이다. 단기적으로는 DiT의 학습된 가중치(에너지 지형)를 아날로그 열역학 하드웨어에 ‘각인’(imprint)하여 저전력 추론을 달성하는 방향, 그리고 장기적으로는 DiT와 같은 복잡한 아키텍처 자체가 필요 없이, 물리 시스템이 스스로 ‘자유 에너지 최소화’ 72와 ‘상전이’ 57를 통해 구조를 생성하도록 진화하는 방향이다.

결론적으로, 인공지능은 물리학을 모방하는 단계를 지나, 물리학 법칙 그 자체가 연산의 기질이 되는 근원적인 단계로 회귀하고 있다. DiT는 그 회귀의 필요성을 증명한 가장 정교한 디지털 유산이 될 것이다.

9. Works cited

  1. Diffusion Transformer (DiT) Models: A Beginner’s Guide - Encord, accessed November 5, 2025, https://encord.com/blog/diffusion-models-with-transformers/
  2. On the Scalability of Diffusion-based Text-to-Image Generation - arXiv, accessed November 5, 2025, https://arxiv.org/html/2404.02883v1
  3. [2212.09748] Scalable Diffusion Models with Transformers - arXiv, accessed November 5, 2025, https://arxiv.org/abs/2212.09748
  4. Scalable Diffusion Models with Transformers - William Peebles, accessed November 5, 2025, https://www.wpeebles.com/DiT
  5. Diffusion Transformer Explained | Towards Data Science, accessed November 5, 2025, https://towardsdatascience.com/diffusion-transformer-explained-e603c4770f7e/
  6. How to Break Down Sora 2’s Architecture & Key Upgrades - skywork ai, accessed November 5, 2025, https://skywork.ai/blog/how-to-break-down-sora-2s-architecture-key-upgrades/
  7. Sora: OpenAI’s Video Model Architecture and Use Cases - ALLPCB, accessed November 5, 2025, https://www.allpcb.com/allelectrohub/sora-openais-video-model-architecture-and-use-cases
  8. Video generation models as world simulators | OpenAI, accessed November 5, 2025, https://openai.com/index/video-generation-models-as-world-simulators/
  9. TerDiT: Ternary Diffusion Models with Transformers - arXiv, accessed November 5, 2025, https://arxiv.org/html/2405.14854v1
  10. Watt for What: Rethinking Deep Learning’s Energy-Performance Relationship - arXiv, accessed November 5, 2025, https://arxiv.org/html/2310.06522v2
  11. AI Power Consumption Exploding - Semiconductor Engineering, accessed November 5, 2025, https://semiengineering.com/ai-power-consumption-exploding/
  12. 무어의 법칙 (r241 판) - 나무위키, accessed November 5, 2025, https://namu.wiki/w/%EB%AC%B4%EC%96%B4%EC%9D%98%20%EB%B2%95%EC%B9%99?uuid=a5a409c3-f9dc-4314-8274-d5bb394f623e
  13. Thermodynamic Computing - A New Paradigm - Deep Learning Partnership, accessed November 5, 2025, https://deeplp.com/blogs-%26-contact/f/thermodynamic-computing—a-new-paradigm
  14. Notes on Landauer’s principle, Reversible Computation and …, accessed November 5, 2025, https://arxiv.org/abs/physics/0210005
  15. Landauer’s principle - Wikipedia, accessed November 5, 2025, https://en.wikipedia.org/wiki/Landauer%27s_principle
  16. Efficient Scaling of Diffusion Transformers for Text-to-Image Generation - arXiv, accessed November 5, 2025, https://arxiv.org/html/2412.12391v1
  17. Why U-Net instead of Transformers? : r/learnmachinelearning - Reddit, accessed November 5, 2025, https://www.reddit.com/r/learnmachinelearning/comments/1c2kbsx/why_unet_instead_of_transformers/
  18. Diffusion Transformer (DiT) Model - Emergent Mind, accessed November 5, 2025, https://www.emergentmind.com/topics/diffusion-transformer-dit
  19. Diffusion Transformers Explained: The Beginner’s Guide - Lightly AI, accessed November 5, 2025, https://www.lightly.ai/blog/diffusion-transformers-dit
  20. Diffusion Transformers: The New Backbone of Generative Vision | by Yashas Donthi | Sep, 2025 | Medium, accessed November 5, 2025, https://medium.com/@yashasdonthi/diffusion-transformers-the-new-backbone-of-generative-vision-78eb9df657d5
  21. Efficient Diffusion Models for Vision: A Survey - arXiv, accessed November 5, 2025, https://arxiv.org/html/2210.09292v3
  22. U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers - arXiv, accessed November 5, 2025, https://arxiv.org/html/2405.02730v1
  23. U-Net Inspired Transformer Architecture for Multivariate Time Series Synthesis - MDPI, accessed November 5, 2025, https://www.mdpi.com/1424-8220/25/13/4073
  24. (DIT)Scalable Diffusion Models with Transformers - JunHan’s AI Factory - 티스토리, accessed November 5, 2025, https://junhan-ai.tistory.com/238
  25. Thermodynamics-inspired Explanations of Artificial Intelligence - arXiv, accessed November 5, 2025, https://arxiv.org/html/2206.13475v3
  26. facebookresearch/DiT: Official PyTorch Implementation of “Scalable Diffusion Models with Transformers” - GitHub, accessed November 5, 2025, https://github.com/facebookresearch/DiT
  27. OpenAI Sora’s Technical Review - Jianing Qi, accessed November 5, 2025, https://j-qi.medium.com/openai-soras-technical-review-a8f85b44cb7f
  28. The Hidden Cost of an Image: Quantifying the Energy Consumption of AI Image Generation, accessed November 5, 2025, https://arxiv.org/html/2506.17016v1
  29. The Hidden Cost of an Image: Quantifying the Energy Consumption of AI Image Generation, accessed November 5, 2025, https://www.researchgate.net/publication/392918101_The_Hidden_Cost_of_an_Image_Quantifying_the_Energy_Consumption_of_AI_Image_Generation
  30. Measuring the Energy Consumption and Efficiency of Deep Neural Networks: An Empirical Analysis and Design Recommendations - arXiv, accessed November 5, 2025, https://arxiv.org/html/2403.08151v1
  31. exploring the compute-energy link for training and testing neural networks for SED systems, accessed November 5, 2025, https://arxiv.org/html/2409.05080v1
  32. Comparative Study on Energy Consumption of Neural Networks by Scaling of Weight-Memory Energy Versus Computing Energy for Implementing Low-Power Edge Intelligence - MDPI, accessed November 5, 2025, https://www.mdpi.com/2079-9292/14/13/2718
  33. Towards an Energy Consumption Index for Deep Learning Models: A Comparative Analysis of Architectures, GPUs, and Measurement Tools - MDPI, accessed November 5, 2025, https://www.mdpi.com/1424-8220/25/3/846
  34. [2006.11239] Denoising Diffusion Probabilistic Models - arXiv, accessed November 5, 2025, https://arxiv.org/abs/2006.11239
  35. [1503.03585] Deep Unsupervised Learning using Nonequilibrium Thermodynamics - arXiv, accessed November 5, 2025, https://arxiv.org/abs/1503.03585
  36. [논문분석] Denoising Diffusion Probabilistic Models (DDPMs) - velog, accessed November 5, 2025, https://velog.io/@sea_note/%EB%85%BC%EB%AC%B8%EB%B6%84%EC%84%9D-Denoising-Diffusion-Probabilistic-Models-DDPMs-g3v64x4j
  37. What are Diffusion Models? | Lil’Log, accessed November 5, 2025, https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
  38. Step by Step visual introduction to Diffusion Models - Medium, accessed November 5, 2025, https://medium.com/@kemalpiro/step-by-step-visual-introduction-to-diffusion-models-235942d2f15c
  39. The Physics Principle That Inspired Modern AI Art - Quanta Magazine, accessed November 5, 2025, https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/
  40. 인공지능의 새로운 길, 디퓨전 모델: 물리학과 머신러닝의 만남 - TILNOTE, accessed November 5, 2025, https://tilnote.io/pages/68a9ad4c085901005a5f84bb
  41. Introduction to Stochastic Differential Equations for score-based diffusion modelling, accessed November 5, 2025, https://medium.com/@ninadchaphekar/introduction-to-stochastic-differential-equations-for-score-based-diffusion-modelling-9b8e134f8e2c
  42. Nonequilbrium physics of generative diffusion models | Phys. Rev. E, accessed November 5, 2025, https://link.aps.org/doi/10.1103/PhysRevE.111.014111
  43. Langevin dynamics - Wikipedia, accessed November 5, 2025, https://en.wikipedia.org/wiki/Langevin_dynamics
  44. accessed November 5, 2025, https://math.nyu.edu/~goodman/teaching/StochCalc2011/SDE.pdf
  45. Stochastic differential equation - Wikipedia, accessed November 5, 2025, https://en.wikipedia.org/wiki/Stochastic_differential_equation
  46. Stochastic Differential Equations, accessed November 5, 2025, https://ethz.ch/content/dam/ethz/special-interest/mavt/dynamic-systems-n-control/idsc-dam/Lectures/Stochastic-Systems/SDE.pdf
  47. Deriving Reverse-Time Stochastic Differential Equations (SDEs) - Ji-Ha Kim, accessed November 5, 2025, https://jiha-kim.github.io/posts/deriving-reverse-time-stochastic-differential-equations-sdes/
  48. How do you simulate the reverse SDE for continuous-time models? - Milvus, accessed November 5, 2025, https://milvus.io/ai-quick-reference/how-do-you-simulate-the-reverse-sde-for-continuoustime-models
  49. Diffusion model - Wikipedia, accessed November 5, 2025, https://en.wikipedia.org/wiki/Diffusion_model
  50. [2407.04495] Speed-accuracy relations for diffusion models: Wisdom from nonequilibrium thermodynamics and optimal transport - arXiv, accessed November 5, 2025, https://arxiv.org/abs/2407.04495
  51. Speed-Accuracy Relations for Diffusion Models: Wisdom from Nonequilibrium Thermodynamics and Optimal Transport | Phys. Rev. X - Physical Review Link Manager, accessed November 5, 2025, https://link.aps.org/doi/10.1103/x5vj-8jq9
  52. Nonequilbrium physics of generative diffusion models - arXiv, accessed November 5, 2025, https://arxiv.org/html/2405.11932v1
  53. [2310.17467] The statistical thermodynamics of generative diffusion models: Phase transitions, symmetry breaking and critical instability - arXiv, accessed November 5, 2025, https://arxiv.org/abs/2310.17467
  54. The statistical thermodynamics of generative diffusion models: Phase transitions, Symmetry breaking and critical instability - arXiv, accessed November 5, 2025, https://arxiv.org/html/2310.17467v2
  55. The Statistical Thermodynamics of Generative Diffusion Models: Phase Transitions, Symmetry Breaking, and Critical Instability - PMC - PubMed Central, accessed November 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11941662/
  56. The Statistical Thermodynamics of Generative Diffusion Models: Phase Transitions, Symmetry Breaking, and Critical Instability - MDPI, accessed November 5, 2025, https://www.mdpi.com/1099-4300/27/3/291
  57. Dynamical regimes of diffusion models - PMC, accessed November 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11570668/
  58. accessed November 5, 2025, https://arxiv.org/html/2310.17467v2#:~:text=Using%20this%20reformulation%2C%20we%20show,condition%20in%20the%20generative%20dynamics.
  59. Special Issue : The Statistical Physics of Generative Diffusion Models - MDPI, accessed November 5, 2025, https://www.mdpi.com/journal/entropy/special_issues/Gener_Diffus_Model
  60. Thermodynamic Computing: It’s All About Energy, accessed November 5, 2025, https://cra.org/ccc/wp-content/uploads/sites/2/2020/02/Todd-Hylton-Thermodynamic-Computing-AAAS-Annual-Meeting-February-2020-v2.pdf
  61. Thermodynamic Computing: The next computer architecture - OODAloop, accessed November 5, 2025, https://oodaloop.com/analysis/disruptive-technology/thermodynamic-computing-the-next-computer-architecture/
  62. Breaking the AI Energy Barrier: The Rise of Thermodynamic Computing | by Sam Vaseghi, accessed November 5, 2025, https://ai.gopubby.com/breaking-the-ai-energy-barrier-the-rise-of-thermodynamic-computing-f796f079fd5f
  63. Notes on Landauer’s principle, reversible computation, and Maxwell’s Demon - cs.Princeton, accessed November 5, 2025, https://www.cs.princeton.edu/courses/archive/fall06/cos576/papers/bennett03.pdf
  64. accessed November 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7514250/#:~:text=The%20Landauer%20principle%20in%20its,freedom%20of%20the%20information%2Dprocessing
  65. The Landauer Principle: Re-Formulation of the Second Thermodynamics Law or a Step to Great Unification? - NIH, accessed November 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7514250/
  66. 브라이언 그린은 (어떤) 의식도 (미래로 무한히 확장되면) 결국 스스로 과열될 거라고 주장하는데 - 이거 설명해 줄 사람? : r/AskPhysics - Reddit, accessed November 5, 2025, https://www.reddit.com/r/AskPhysics/comments/f6lrbh/brian_greene_claims_any_consciousness/?tl=ko
  67. accessed November 5, 2025, https://cacm.acm.org/news/thermodynamic-computing-becomes-cool/#:~:text=The%20approach%2C%20which%20harnesses%20the,harnessed%20as%20a%20computing%20resource.
  68. What is Thermodynamic Computing and how does it help AI development?! | by Laszlo Fazekas | Medium, accessed November 5, 2025, https://thebojda.medium.com/what-is-thermodynamic-computing-and-how-does-it-help-ai-development-1dd3b75a9ee6
  69. Thermodynamic computing via autonomous quantum thermal machines - PMC - PubMed Central, accessed November 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11758477/
  70. [2506.15121] Generative thermodynamic computing - arXiv, accessed November 5, 2025, https://arxiv.org/abs/2506.15121
  71. Generative Thermodynamic Computing - Statistical Mechanics - Scribd, accessed November 5, 2025, https://www.scribd.com/document/878743752/2506-15121v1
  72. Generative thermodynamic computing - arXiv, accessed November 5, 2025, https://arxiv.org/html/2506.15121v1
  73. accessed November 5, 2025, https://arxiv.org/html/2506.15121v3#:~:text=This%20approach%20follows%20the%20logic,emerges%20from%20a%20physical%20dynamics.
  74. Generative thermodynamic computing - arXiv, accessed November 5, 2025, https://arxiv.org/html/2506.15121v3
  75. Special Issue : The Information Bottleneck: Foundations, Algorithms, and Modern Applications - MDPI, accessed November 5, 2025, https://www.mdpi.com/journal/entropy/special_issues/4G167IS2H3
  76. Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers - arXiv, accessed November 5, 2025, https://arxiv.org/html/2507.04388v1
  77. Entropy in thermodynamics and information theory - Wikipedia, accessed November 5, 2025, https://en.wikipedia.org/wiki/Entropy_in_thermodynamics_and_information_theory
  78. Axiomatic Relation between Thermodynamic and Information-Theoretic Entropies, accessed November 5, 2025, https://link.aps.org/doi/10.1103/PhysRevLett.117.260601
  79. Information vs Thermodynamic Entropy - arXiv, accessed November 5, 2025, https://arxiv.org/html/2407.08962v1
  80. 엔트로피 - 위키백과, 우리 모두의 백과사전, accessed November 5, 2025, https://ko.wikipedia.org/wiki/%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC
  81. (PDF) Entropy: From Thermodynamics to Information Processing - ResearchGate, accessed November 5, 2025, https://www.researchgate.net/publication/355236013_Entropy_From_Thermodynamics_to_Information_Processing
  82. Entropy: From Thermodynamics to Information Processing - MDPI, accessed November 5, 2025, https://www.mdpi.com/1099-4300/23/10/1340/pdf?version=1634201772
  83. An optimal method in diffusion models from a nonequilibrium thermodynamic perspective: Revealing the relationship between thermodynamic dissipation and accuracy of data generation, accessed November 5, 2025, https://www.t.u-tokyo.ac.jp/en/press/pr2025-08-01-001
  84. Training-free Diffusion Acceleration with Bottleneck Sampling - arXiv, accessed November 5, 2025, https://arxiv.org/html/2503.18940v1
  85. A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers, accessed November 5, 2025, https://openreview.net/forum?id=FetaeuGsEs
  86. [2305.11213] Information-Ordered Bottlenecks for Adaptive Semantic Compression - arXiv, accessed November 5, 2025, https://arxiv.org/abs/2305.11213