자연어 처리(NLP) 분야에서 트랜스포머 아키텍처가 거둔 혁신적인 성공은 컴퓨터 비전 연구의 지형을 근본적으로 바꾸어 놓았습니다.1 “An Image is Worth 16x16 Words”라는 도발적인 제목의 논문에서 제안된 Vision Transformer(ViT)는 컨볼루션 신경망(CNN)에 대한 의존 없이, 순수 트랜스포머 아키텍처를 이미지 분류 문제에 직접 적용하여 탁월한 성능을 달성할 수 있음을 입증했습니다.2 ViT의 성공은 이미지라는 시각적 데이터를 NLP 모델이 처리할 수 있는 ‘토큰(token)’의 시퀀스로 변환하는 독창적인 전처리 과정, 즉 ‘시각적 토큰화’에 기반합니다. 이 과정은 후속 연구와 멀티모달 AI 발전의 초석을 다졌다는 점에서 그 중요성이 매우 큽니다. 본 파트에서는 ViT의 핵심을 이루는 이 시각적 토큰화의 기본 패러다임을 단계별로 상세히 분석하고, 그 기저에 깔린 원리를 해부합니다.
ViT의 가장 혁신적인 기여는 컴퓨터 비전 문제를 NLP의 핵심 패러다임인 시퀀스-투-시퀀스(sequence-to-sequence) 문제로 재정의한 것입니다.2 이는 기존의 CNN 기반 접근법과는 완전히 다른 관점을 제시했으며, 최소한의 수정만으로 NLP 트랜스포머를 비전 태스크에 적용할 수 있는 길을 열었습니다. 이 변환 과정은 크게 두 단계로 구성됩니다: 이미지 패치화(Image Patching)와 선형 투영(Linear Projection).
시각적 토큰화의 첫 단계는 2차원의 이미지 그리드를 1차원의 토큰 시퀀스로 변환하는 것입니다. 예를 들어, 224×224 픽셀 크기의 입력 이미지가 주어지면, ViT는 이를 일정한 크기(예: 16×16 픽셀)의 겹치지 않는 정사각형 패치(patch)들로 분할합니다.2 이 과정은 마치 문장을 단어 단위로 나누는 것과 유사하며, 이미지를 ‘단어’에 해당하는 패치들의 ‘문장’으로 간주하는 개념적 전환을 의미합니다.6
224×224 크기의 이미지를 16×16 크기의 패치로 분할할 경우, 총 (224/16)×(224/16)=14×14=196개의 패치가 생성됩니다.7 이렇게 생성된 2차원 패치 그리드는 순차적으로 배열되어 196개 길이를 갖는 1차원 시퀀스를 형성합니다. 이 간단한 분할 과정이 바로 이미지를 트랜스포머가 처리할 수 있는 형식으로 만드는 첫걸음입니다.
다음으로, 각 2차원 패치는 1차원 벡터로 평탄화(flattening)됩니다. 예를 들어, RGB 이미지의 16×16 패치는 16×16×3=768 차원의 벡터로 변환됩니다. 이렇게 생성된 고차원 벡터는 학습 가능한 선형 투영 레이어(trainable linear projection layer)를 통해 모델의 고유한 임베딩 공간(예: D 차원)으로 투영됩니다.5
이 선형 투영의 목적은 두 가지입니다. 첫째, 각 패치를 트랜스포머 인코더가 처리할 수 있는 고정된 차원의 벡터, 즉 ‘패치 임베딩(patch embedding)’으로 변환하는 것입니다. 둘째, 이 투영 과정을 통해 시각적으로 유사한 내용을 담고 있는 패치들이 벡터 공간상에서 서로 가까운 위치에 매핑되도록 학습하는 것입니다.6 이렇게 생성된 패치 임베딩들의 시퀀스가 트랜스포머 인코더의 최종 입력이 됩니다.
트랜스포머의 핵심 메커니즘인 자기-어텐션(self-attention)은 본질적으로 순서에 무관(permutation-invariant)합니다. 즉, 입력 토큰들을 순서가 없는 집합(set)으로 간주합니다.7 만약 위치 정보가 없다면, 모델은 정상적인 이미지와 패치들이 무작위로 섞인 이미지를 구분할 수 없게 됩니다. 따라서 이미지의 공간적 구조를 보존하기 위해서는 각 패치의 위치 정보를 명시적으로 주입해주어야 합니다.5 이를 위해 다양한 위치 임베딩(Positional Embedding) 기법이 사용됩니다.
ViT 원본 논문에서 채택한 방식입니다. APE는 시퀀스 내 각 패치 위치에 해당하는 고유한 학습 가능 벡터입니다. 이 위치 벡터들은 첫 번째 트랜스포머 레이어에 입력되기 전에 패치 임베딩에 직접 더해집니다.5 모델은 훈련 과정에서 이 위치 벡터들을 학습하여 각 위치의 공간적 의미를 파악하게 됩니다. APE는 NLP 트랜스포머처럼 고정된 사인/코사인 함수를 사용할 수도 있지만, 현대의 ViT에서는 학습 가능한 파라미터를 사용하는 것이 더 일반적입니다.11
Swin Transformer와 같은 모델에서 대중화된 대안적 접근 방식입니다. 각 토큰에 절대적인 위치 벡터를 더하는 대신, RPB는 두 토큰(쿼리와 키) 간의 상대적인 거리에 기반하여 학습 가능한 편향(bias) 값을 어텐션 행렬에 직접 더합니다.13 이 방식은 다양한 스케일에서 수많은 토큰을 처리해야 하는 계층적 ViT에서 특히 선호됩니다.13
대규모 언어 모델(LLM)에서 큰 성공을 거둔 회전 위치 임베딩(Rotary Position Embedding, RoPE)도 비전 분야에서 탐색되고 있습니다. RoPE는 쿼리(query)와 키(key) 벡터를 회전시켜 위치 정보를 적용하며, 더 나은 외삽(extrapolation) 특성을 제공하는 것으로 알려져 있지만, 비전 태스크에서의 효과는 아직 활발히 연구 중입니다.13
ViT는 패치 임베딩 시퀀스의 맨 앞에 특별하고 학습 가능한 `` (classification) 토큰을 추가합니다.5 이 토큰은 이미지의 특정 패치와 직접적으로 대응되지 않으며, 일종의 “백지 상태(blank slate)”에서 시작합니다.6
토큰이 여러 트랜스포머 레이어를 통과하면서, 자기-어텐션 메커니즘은 이 토큰이 다른 모든 패치 토큰들로부터 정보를 집계하도록 만듭니다.[14] 최종적으로 이미지 분류 결정이 오직 이 토큰의 출력 임베딩에만 기반하여 내려지기 때문에, 모델은 전체 이미지의 내용을 요약하는 전역적인 표현(global representation)을 이 단일 벡터에 인코딩하는 방법을 학습하도록 강제됩니다.6
ViT 논문에서는 토큰의 대안으로 모든 패치 토큰에 대해 전역 평균 풀링(Global Average Pooling, GAP)을 수행하는 방법도 언급합니다. 이는 ResNet과 같은 CNN에서 흔히 사용되는 기법이지만 [14], 토큰 방식이 많은 ViT 변형 모델에서 표준으로 자리 잡았습니다.
이처럼 ViT의 시각적 토큰화는 이미지를 패치 시퀀스로 변환하고, 위치 정보를 주입하며, 전역 정보 집계를 위한 `` 토큰을 활용하는 일련의 체계적인 과정입니다. 이 패러다임의 가장 심오한 결과는 시각적 정보를 ‘토큰’이라는 일반적인 형태로 추상화했다는 점입니다. 이미지 패치를 벡터 시퀀스로 변환함으로써, ViT는 모달리티에 구애받지 않는(modality-agnostic) 입력 파이프라인을 창조했습니다. NLP 트랜스포머가 단어 토큰 시퀀스를 처리하는 원리를 그대로 차용하여, 이미지를 ‘문장’으로, 패치를 ‘단어’로 간주하는 가설을 성공적으로 입증한 것입니다.2
이러한 추상화는 단순히 비전 문제를 해결하는 것을 넘어, 훨씬 더 큰 파급 효과를 낳았습니다. 바로 이 통일된 토큰 표현 방식이 멀티모달 학습(multimodal learning) 분야 전체를 가능하게 한 핵심 동력이 되었기 때문입니다. ViT에서 나온 시각 토큰과 언어 모델에서 나온 텍스트 토큰을 단순히 이어 붙여 동일한 어텐션 메커니즘으로 처리할 수 있게 되면서, 서로 다른 모달리티 간의 깊은 융합이 가능해졌습니다.15 결국, ViT의 간단해 보이는 토큰화 단계는 여러 모달리티를 넘나들며 추론할 수 있는 범용 인공지능을 향한 중요한 기초 공사였던 셈입니다.
1부에서 설명한 ViT의 기본 토큰화 방식은 혁신적이었지만, 동시에 여러 내재적 한계를 안고 있었습니다. 이러한 한계점들은 이후 3부에서 논의될 다양한 아키텍처 발전의 핵심적인 동기가 되었습니다. 본 파트에서는 단순한 그리드 기반 패치 분할 방식의 약점을 비판적으로 분석하고, 그로 인해 발생하는 문제들을 심층적으로 탐구합니다.
토큰화의 근본적인 목표는 정보를 의미 있는 단위로 분할하는 것입니다. 그러나 ViT의 토큰화 방식은 이 목표를 달성하는 데 있어 NLP와 본질적인 차이를 보입니다.
NLP에서 사용되는 WordPiece나 Byte Pair Encoding(BPE)과 같은 토큰화 기법은 의미론적 무결성(semantic integrity)을 보존하도록 설계되었습니다. 문장은 의미를 가진 단위인 단어나 하위 단어(sub-word)로 분리되며, 이를 통해 서로 다른 개념이 하나의 토큰으로 임의로 융합되는 것을 방지합니다.1
반면, ViT의 그리드 기반 패치 분할은 이미지의 내용과는 전혀 무관하게 기계적으로 이루어지는 “강제 분할(hard split)”입니다.18 이로 인해 하나의 패치가 여러 객체의 일부(예: 고양이 귀의 절반과 배경의 일부)를 임의로 섞거나, 작은 객체 하나를 여러 패치에 걸쳐 조각내는 현상이 발생합니다.1
그 결과, 생성된 토큰들은 명확한 의미론적 내용을 결여하게 되어 해석을 어렵게 만들고, 모델이 정보를 효과적으로 캡슐화하는 능력을 저해합니다.19 이는 마치 NLP 모델이 단어 단위가 아닌, 고정된 글자 수마다 문장을 잘라버리는 것과 같아서 원래의 의미를 파악하기 어렵게 만드는 것과 유사합니다.19
귀납적 편향(inductive bias)은 모델이 훈련 데이터로부터 보지 못한 데이터로 일반화하기 위해 사용하는 일련의 가정을 의미합니다.20 CNN은 시각적 태스크에 매우 효과적인 강력한 귀납적 편향을 내장하고 있습니다.
표준 ViT 아키텍처는 이러한 시각적 귀납적 편향을 대부분 버립니다. 자기-어텐션 메커니즘은 이론적으로 어떤 두 픽셀(또는 패치)이든 거리에 상관없이 관계를 맺을 수 있게 하여, 첫 번째 레이어부터 전역적인 수용장(global receptive field)을 갖습니다.9 이러한 설계는 몇 가지 중요한 결과를 초래합니다.
결과 1: 극심한 데이터 의존성 (Data Hunger)
내장된 가정 없이는, ViT가 이미지의 근본적인 속성(예: 지역적 구조의 중요성)을 처음부터 데이터로부터 학습해야 합니다. 이 때문에 엄청난 양의 훈련 데이터가 필요합니다. ImageNet-1K와 같은 중간 크기의 데이터셋에서 훈련될 때, 바닐라 ViT는 비슷한 크기의 CNN에 비해 성능이 저조합니다.3 JFT-300M(3억 개 이상의 이미지)과 같은 대규모 데이터셋으로 사전 훈련을 거쳐야만, 이른바 “대규모 훈련이 귀납적 편향을 이기는(large-scale training trumps inductive bias)” 현상이 나타나며 ViT가 CNN을 능가하는 성능을 보입니다.3
결과 2: 형태 대 질감 편향 (Shape vs. Texture Bias)
연구에 따르면 CNN은 인간의 시각과 달리 형태(shape)보다는 질감(texture)에 기반하여 이미지를 분류하는 강한 편향을 보입니다.20 더 느슨한 귀납적 편향을 가진 ViT는 지역적 질감에 훨씬 더 편향되어 있지만, 유연한 어텐션 메커니즘 덕분에 데이터가 충분하다면 형태 정보도 효과적으로 학습할 수 있는 잠재력을 가집니다.20
결과 3: 낮은 스케일 불변성 (Poor Scale Invariance)
고정된 패치 크기와 절대 위치 임베딩은 바닐라 ViT가 다양한 스케일의 객체나 다양한 해상도의 이미지를 처리하는 데 어려움을 겪게 만듭니다. 이는 풀링 레이어와 계층적 구조를 통해 스케일 변화에 더 자연스럽게 대처하는 CNN과 대조되는 지점입니다.19
이러한 차이점들은 모델 설계에서의 근본적인 트레이드오프를 드러냅니다. CNN은 ‘견고한’ 설계를 가집니다. 컨볼루션 필터는 지역성과 이동 등변성을 강제하며 9, 이러한 견고함은 학습을 더 쉽고 데이터 효율적으로 만드는 강력한 가정으로 작용합니다. 반면, ViT는 ‘유연한’ 설계를 가집니다. 입력 데이터에 대해 거의 가정을 하지 않음으로써 비지역적인 패턴을 포함한 어떤 패턴이든 학습할 수 있는 잠재력을 지닙니다.23 하지만 이 유연성 때문에 모델이 탐색해야 할 가설 공간이 훨씬 더 커지고 복잡해집니다. 귀납적 편향의 안내 없이는, 올바른 패턴을 찾고 우연한 상관관계에 과적합되는 것을 피하기 위해 방대한 양의 데이터가 필요하게 됩니다.3 이는 모델 설계における 편향(bias)과 분산(variance) 간의 근본적인 트레이드오프를 보여줍니다. CNN은 높은 편향(강한 가정)과 낮은 분산(적은 데이터 필요)을 가지는 반면, ViT는 낮은 편향(약한 가정)과 높은 분산(많은 데이터 필요)을 가집니다. 이후 ViT 아키텍처의 발전 전체는 이 스펙트럼 위에서 ‘최적점’을 찾는 과정, 즉 트랜스포머의 강력하고 유연한 전역 모델링 능력을 희생하지 않으면서 데이터 효율성을 향상시키기 위해 ‘좋은’ 시각적 편향을 얼마나, 어떻게 다시 도입할 것인가에 대한 탐구로 볼 수 있습니다.
| 속성 | 컨볼루션 신경망 (CNN) | Vision Transformer (ViT) |
|---|---|---|
| 기본 단위 | 픽셀 (지역적 필터 내) | 이미지 패치 |
| 수용장 | 계층적으로 증가 (초기에는 지역적) | 처음부터 전역적 |
| 핵심 귀납적 편향 | 지역성, 이동 등변성, 계층 구조 9 | 최소한의 편향; 순서 무관성 (위치 임베딩으로 해결) 9 |
| 데이터 효율성 | 높음 (내장된 편향 덕분) | 낮음 (대규모 사전 훈련 필요) 3 |
| 특징 계층 | 명시적 (단순 –» 복잡) 21 | 덜 명시적 (전역적 관계 모델링) |
| 스케일 불변성 | 상대적으로 높음 (풀링 레이어) | 낮음 (고정 패치 크기) 27 |
| 핵심 연산 | 컨볼루션 (가중치 공유) | 자기-어텐션 (모든 토큰 간 상호작용) |
표 1: 기본 토큰화 패러다임 비교 (ViT 대 CNN)
ViT의 설계는 계산 비용 측면에서도 중요한 문제를 안고 있습니다.
제곱 복잡도 병목 현상 (Quadratic Complexity Bottleneck):
자기-어텐션 메커니즘은 토큰의 수 N에 대해 $O(N^2)$의 계산 및 메모리 복잡도를 가집니다.3
고해상도 이미지의 영향:
이미지의 경우, 토큰의 수(N)는 입력 이미지 해상도에 따라 제곱으로 증가합니다. 예를 들어, 이미지의 가로와 세로를 두 배로 늘리면 패치의 수는 네 배가 됩니다. 이로 인해 의미 분할(semantic segmentation)과 같이 고해상도 이미지를 처리해야 하는 태스크에 바닐라 ViT를 적용하는 것은 계산적으로 거의 불가능합니다.3
효율성 개선의 동기:
이러한 제곱 복잡도 병목 현상은 더 효율적인 트랜스포머 아키텍처를 개발하는 주된 동기가 되었습니다. 연구는 토큰 수를 줄이거나, 희소(sparse) 또는 지역적 어텐션 패턴을 구현하거나, 계층적 모델을 만들어 이 문제를 완화하는 데 집중되었습니다.32
결론적으로, 바닐라 ViT의 토큰화 방식은 의미론적 정보의 손실, 시각적 귀납적 편향의 부재로 인한 데이터 비효율성, 그리고 제곱 복잡도로 인한 확장성 문제라는 세 가지 주요 한계를 가지고 있습니다. 이러한 문제점들은 ViT가 더 넓은 범위의 비전 태스크에 효과적으로 적용되기 위해 반드시 해결해야 할 과제였으며, 이는 곧 3부에서 다룰 다양한 아키텍처 혁신의 자양분이 되었습니다.
바닐라 ViT가 제시한 한계점들을 극복하기 위해, 연구 커뮤니티는 토큰화 방식과 아키텍처 자체를 개선하는 다양한 혁신적인 방법론을 제안했습니다. 이 파트에서는 비전 트랜스포머를 진정으로 효과적이고 효율적으로 만들기 위한 주요 연구 방향들을 심층적으로 탐구합니다. 이러한 노력들은 ‘순수 트랜스포머’라는 초기 이념을 넘어, 실용적인 고성능을 추구하는 방향으로 수렴하고 있습니다.
T2T-ViT는 바닐라 ViT의 두 가지 핵심 약점, 즉 1) 단순한 토큰화 방식이 엣지나 선과 같은 중요한 지역적 구조를 모델링하지 못하는 문제와 2) 표준 백본의 어텐션 계산이 중복적이라는 문제를 직접적으로 해결하고자 제안되었습니다.36
단일 강제 분할 대신, T2T-ViT는 점진적인 토큰화 과정(progressive tokenization)을 사용합니다.18
소프트 분할 (Soft Split): 이 과정은 이미지를 겹치는(overlapping) 패치로 분할하는 것으로 시작합니다. 이러한 겹침은 인접한 토큰들이 정보를 공유하게 하여 지역적 연속성을 더 잘 보존하도록 돕습니다.38 이는 PyTorch의
Unfold 연산을 통해 구현될 수 있습니다.39
재귀적 집계 (Recursive Aggregation): T2T 모듈은 여러 단계로 구성됩니다. 각 단계에서 토큰 시퀀스는 관계를 모델링하기 위해 소규모 트랜스포머 레이어를 통과합니다. 그 후, 토큰들은 다시 2차원 공간 레이아웃으로 “재구조화(restructured)”되고, 또 다른 소프트 분할을 통해 인접 토큰들이 하나의 새로운 토큰으로 재귀적으로 결합됩니다. 이 과정은 토큰의 수를 점진적으로 줄이면서 각 토큰을 지역적 이웃 정보로 풍부하게 만듭니다.37
이러한 점진적 구조화는 모델이 전역 어텐션을 적용하기 전에 지역적 특징을 명시적으로 학습할 수 있게 합니다. 이는 샘플 효율성을 크게 향상시켜, T2T-ViT가 ImageNet에서 처음부터 훈련될 때 바닐라 ViT나 일부 ResNet보다 더 적은 파라미터를 사용하면서도 더 높은 성능을 달성하게 만듭니다.36
Swin Transformer는 ViT의 제곱 복잡도 문제와 다중 스케일 특징 표현의 부재를 해결하여, 객체 탐지나 의미 분할과 같은 조밀한 예측(dense prediction) 태스크를 위한 범용 백본(general-purpose backbone)으로 사용될 수 있도록 설계되었습니다.29
3.2.1 CNN을 닮은 계층 구조
Swin Transformer는 CNN과 유사한 계층적 설계를 다시 도입합니다. 작은 크기의 패치로 시작하여 후속 단계에서는 “패치 병합(patch merging)” 레이어를 사용하여 특징 맵을 다운샘플링(토큰 수 감소)하고 채널 차원을 늘립니다. 이는 특징 피라미드(feature pyramid)와 같이 다중 스케일의 특징 맵을 생성하며, 이는 많은 비전 태스크에 필수적입니다.41
제곱 복잡도 문제를 해결하기 위해, 자기-어텐션은 전역적으로 계산되지 않습니다. 대신, 이미지는 겹치지 않는 윈도우(예: 7×7 패치)로 분할되고, 자기-어텐션은 각 윈도우 내부에서만 계산됩니다.41 이로 인해 계산 복잡도는 이미지 픽셀 수에 대해 선형(linear)이 됩니다.
W-MSA의 한계는 윈도우 간 정보 흐름이 없다는 것입니다. 이를 해결하기 위해, Swin은 한 레이어에서는 일반 윈도우 방식(W-MSA)을, 다음 레이어에서는 “이동된 윈도우(shifted window)” 방식을 번갈아 사용합니다. 이동된 윈도우는 이전 레이어 윈도우의 경계를 가로지르기 때문에, 윈도우 간 연결을 가능하게 하고 연속적인 레이어를 통해 효과적으로 전역적인 수용장을 구축합니다.41
이 접근 방식은 내용과 무관한 그리드 방식에서 벗어나 2.1절에서 논의된 “의미론적 불일치” 문제를 직접적으로 해결하려는 시도입니다.
이 접근 방식의 핵심 아이디어는 두 세계의 장점을 결합하는 것입니다: CNN의 강력하고 데이터 효율적인 지역 특징 추출 및 귀납적 편향을 트랜스포머의 강력한 전역 컨텍스트 모델링과 결합하는 것입니다.22 이 방법은 특히 작은 데이터셋에서의 성능 향상이나 자원이 제한된 애플리케이션에 효과적입니다.22
한 서베이 논문25에 따르면, 하이브리드 모델은 컨볼루션 연산이 자기-어텐션 메커니즘과 통합되는 방식에 따라 여러 유형으로 분류될 수 있습니다.
| 통합 전략 | 핵심 원리 | 대표 모델 |
|---|---|---|
| 초기 레이어 통합 | CNN을 특징 추출 ‘줄기(stem)’로 사용하여 초기 특징 맵을 생성한 후, 이를 트랜스포머 본체에 입력 | LeViT, Hybrid ViT 25 |
| 측면 레이어 통합 | ViT를 인코더로, CNN을 디코더로 사용. 조밀한 예측 태스크에서 주로 사용 | DPT, LocalViT 25 |
| 순차적 통합 | 네트워크 아키텍처 내에서 CNN 블록과 트랜스포머 블록을 순차적으로 번갈아 쌓음 | CoAtNet, BoTNet 25 |
| 병렬 통합 | 별도의 CNN과 트랜스포머 브랜치가 입력을 병렬로 처리하고, 다양한 지점에서 특징을 융합 | Conformer, Mobile-Former 25 |
| 계층적 통합 | 컨볼루션과 어텐션을 모두 포함하는 통합된 하이브리드 블록을 설계하고, 이를 반복적으로 쌓아 계층적 네트워크 구성 | CvT, MaxViT, Visformer 25 |
| 어텐션 기반 통합 | 어텐션 메커니즘 내부에 컨볼루션 연산을 통합하여 지역적 편향을 추가 | ResT, CeiT 25 |
| 채널 부스팅 기반 통합 | 전이 학습 기반 보조 학습기(ViT)를 사용하여 부스팅된 채널을 생성하고, 이를 CNN 채널과 결합 | CB-HVT 25 |
표 2: 하이브리드 CNN-Transformer 통합 전략 분류
EHCTNet (원격 탐사) 44 및 BEFUnet (의료 영상) 45과 같은 특정 도메인에 맞춰진 모델들은 이러한 하이브리드 원칙을 적용하여, 지역적(CNN) 및 전역적(Transformer) 특징을 모두 캡처하기 위해 이중 브랜치 인코더와 같은 맞춤형 설계를 사용합니다.
이러한 다양한 혁신들은 무작위적인 시도가 아니라, 명확하고 수렴적인 진화 경향을 나타냅니다. 초기 ViT가 제시한 ‘순수 트랜스포머’라는 이념적 접근 방식은 시각적 사전 지식의 부재라는 한계에 부딪혔습니다. 이에 대한 해결책으로 T2T-ViT 37나 슈퍼픽셀 ViT 1는 모델의 ‘입력단’을 수정하여 더 나은 토큰을 만드는 방식으로 지역적/의미론적 편향을 주입하려 했습니다. Swin Transformer 42는 핵심 어텐션 메커니즘 자체를 수정하여 백본이 CNN과 유사한 방식으로 작동하도록 만들었습니다. 그리고 하이브리드 모델들 25은 가장 직접적인 경로를 택해, CNN 구성 요소를 트랜스포머 아키텍처에 명시적으로 삽입하여 부족한 귀납적 편향을 제공했습니다. 이 세 가지 경로는 서로 다른 메커니즘을 사용하지만, 모두 자기-어텐션의 전역적 추론 능력과 컨볼루션의 효율적이고 계층적인 지역 특징 추출 능력을 결합하려는 동일한 목표를 향해 나아가고 있습니다. 이는 해당 분야가 이념적 순수성을 넘어 실용적인 고성능 엔지니어링으로 성숙하고 있음을 보여줍니다.
| 모델 | 토큰화 패러다임 | 핵심 혁신 | 계산 복잡도 | 파라미터(M) | MACs(G) | ImageNet-1K Top-1 Acc(%) |
|---|---|---|---|---|---|---|
| ViT-Base/16 | 그리드 기반 패치 | 전역 자기-어텐션 | O(N2) | 86 | 17.6 | 81.8 2 |
| T2T-ViT-14 | 점진적 집계 | 소프트 분할 & 재귀적 집계 | O(N2) | 21.5 | 5.2 | 81.5 36 |
| Swin-T | 계층적 윈도우 | 이동된 윈도우 어텐션 | O(N) | 29 | 4.5 | 81.3 42 |
| sViT | 의미론적 (경계 상자) | 의미론적 무결성 토큰 | O(N2) | - | - | - 1 |
| DHVT-Small | 하이브리드 (CNN+ViT) | 동적 하이브리드 구조 | - | 22.8 | - | 85.7 (CIFAR-100) 22 |
표 3: 주요 고급 ViT 아키텍처의 분류 및 성능 비교
ViT의 핵심 개념인 시각적 토큰화는 2D 이미지 분류를 넘어, 그 유연성과 강력한 표현력을 바탕으로 3D 비전, 비디오 분석, 멀티모달 학습 등 인공지능의 더 넓은 영역으로 확장되고 있습니다. 이 파트에서는 토큰화 개념이 어떻게 다른 데이터 모달리티에 맞게 변형되고 적용되는지, 그리고 이것이 AI 분야 전반에 미치는 영향을 탐구합니다.
포인트 클라우드나 복셀과 같은 3D 데이터는 2D 이미지와는 다른 고유한 특성을 가집니다. 포인트 클라우드는 순서가 없는 가변 크기의 집합이며, 복셀 그리드는 매우 희소(sparse)한 특성을 보입니다.46 이러한 특성은 새로운 토큰화 전략을 요구합니다.
포인트 클라우드 토큰화:
가장 일반적인 접근 방식 중 하나는 포인트들을 지역적인 “포인트 패치”로 그룹화하고, mini-PointNet과 같은 소규모 네트워크를 사용하여 각 패치에 대한 임베딩을 생성하는 것입니다. 이 임베딩들이 바로 트랜스포머의 토큰 역할을 합니다.46 포인트 클라우드의 순서 없는 특성은 순서에 무관한 자기-어텐션 메커니즘과 자연스럽게 맞아떨어지지만, 트랜스포머에 고정된 크기의 입력 시퀀스를 제공하기 위해서는 최원점 샘플링(Farthest Point Sampling)과 같은 효율적인 샘플링 기법이 필수적입니다.46
복셀 토큰화:
복셀 그리드는 3D 이미지처럼 취급될 수 있지만, 그 희소성 때문에 비효율적입니다. 따라서 많은 방법들이 비어있지 않은 복셀에만 집중하거나, “패치 어텐션 모듈(Patch Attention Modules)”과 같은 기술을 사용하여 입력 크기에 대한 선형 복잡도를 달성합니다.46 3D 비전 트랜스포머는 의미 분할, 객체 탐지, 형상 완성 등 다양한 태스크에 적용되고 있으며, 관련 연구 목록은 46 등에서 포괄적으로 다루어지고 있습니다.
비디오는 시간에 따른 차원을 추가하여 데이터의 차원성을 극적으로 높이고 계산 비용을 증가시킵니다.31 따라서 비디오 토큰화 전략은 공간과 시간을 모두 효율적으로 처리해야 합니다.
주요 토큰화 전략 31:
비디오를 위한 효율적인 어텐션:
긴 시퀀스를 처리하기 위해, 완전한 시공간 어텐션은 종종 분해됩니다. 분해된 어텐션(Factorized Attention)은 일반적인 전략으로, 각 프레임 내에서 공간적 어텐션을 계산하고, 프레임 간에 시간적 어텐션을 계산하여 복잡도를 $O((S \cdot T)^2)$에서 $O(S^2 \cdot T + S \cdot T^2)$로 크게 줄입니다.31 TimeSformer와 ViViT와 같은 모델이 이 접근 방식의 대표적인 예입니다.48
1부에서 언급했듯이, ‘토큰’은 서로 다른 모달리티를 연결하는 공통 화폐 역할을 합니다. 이 섹션에서는 시각 토큰과 텍스트 토큰이 어떻게 융합되는지 더 자세히 살펴봅니다.
이러한 확장은 ViT의 토큰화 성공이 트랜스포머를 언어 특정 도구에서, 이산적이거나 연속적인 표현의 집합으로 구조화될 수 있는 모든 데이터에 대한 범용 계산 엔진으로 일반화했음을 보여줍니다. ViT는 공간 데이터(이미지)가 토큰화될 수 있음을 증명했고 2, 비디오 트랜스포머는 시공간 데이터의 토큰화를 31, 3D 트랜스포머는 순서 없는 포인트 집합과 희소 그리드의 토큰화를 가능하게 했습니다.46 더 나아가 멀티모달 트랜스포머는 이종 토큰 집합(예: 이미지 패치 + 단어)이 단일 아키텍처에서 원활하게 처리될 수 있음을 보여주었습니다.16 로보틱스 분야에서 연속적인 운동 동작을 토큰으로 이산화하려는 “행동 토큰화(action tokenization)” 연구 50는 이러한 경향의 정점을 보여줍니다.
이러한 흐름은 미래에 단일 범용 “파운데이션 모델” 아키텍처(아마도 트랜스포머)가 각 모달리티에 대한 전문화된 “토크나이저”를 통해 이미지, 텍스트, 비디오, 소리, 3D 스캔, 로봇 행동 등 방대한 종류의 데이터를 수용하고 추론할 수 있음을 시사합니다. 핵심 처리 엔진은 동일하게 유지되면서 입력단만 바뀌는 것입니다. 이는 보다 일반적인 인공지능을 향한 중요한 발걸음입니다.
본 보고서는 Vision Transformer의 시각적 토큰화가 단순한 전처리 기술을 넘어 컴퓨터 비전과 인공지능의 패러다임을 어떻게 바꾸었는지를 비판적으로 고찰했습니다. 이 마지막 파트에서는 지금까지의 논의를 종합하고, 시각적 토큰화 및 표현 학습의 미래 궤적을 전망합니다.
보고서의 서사를 요약하면, ViT의 등장은 ‘순수 트랜스포머’라는 급진적인 접근으로 시작되었으나, 곧 시각적 사전 지식의 부재라는 한계에 직면했습니다. 이후 T2T-ViT, Swin Transformer, 하이브리드 모델과 같은 혁신들은 이러한 사전 지식을 실용적으로 재통합하려는 노력의 산물입니다.
이 과정에서 “하나의 정답은 없다”는 결론에 도달합니다. 최적의 토큰화 전략은 특정 태스크, 데이터셋 크기, 그리고 계산 제약 조건에 따라 달라집니다.
미래는 정적이고 미리 정의된 토큰화를 넘어서는 방향으로 나아가고 있습니다.
이러한 발전에도 불구하고, 여전히 해결해야 할 중요한 연구 과제들이 남아 있습니다.
결론적으로, 시각적 토큰화는 ViT의 등장을 가능하게 한 핵심 기술에서 출발하여, 이제는 다양한 데이터 모달리티를 통합하고 인공지능의 범용성을 확장하는 근본적인 메커니즘으로 진화하고 있습니다. 고정된 그리드에서 의미론적, 계층적, 적응형 토큰화로 나아가는 여정은 모델이 세상을 더 효율적이고, 유연하며, 인간과 유사한 방식으로 인식하도록 만드는 과정 그 자체입니다. 앞으로의 연구는 이러한 미해결 과제들을 해결하며, 더욱 강력하고 일반화된 시각 표현 학습의 새로운 지평을 열어갈 것입니다.
| PATCH EMBEDDING | Vision Transformers explained - YouTube, accessed July 16, 2025, https://www.youtube.com/watch?v=lBicvB4iyYU |
| ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | Learning-Deep-Learning, accessed July 16, 2025, https://patrick-llgc.github.io/Learning-Deep-Learning/paper_notes/vit.html |
| Multimodal Learning With Transformers: A Survey | by Eleventh Hour Enthusiast | Medium, accessed July 16, 2025, https://medium.com/@EleventhHourEnthusiast/multimodal-learning-with-transformers-a-survey-3b28b1dcaf03 |
| CNNs vs Vision Transformers - Biological Computer Vision (3/3) | by Niranjan Rajesh | Bits and Neurons | Medium, accessed July 16, 2025, https://medium.com/bits-and-neurons/cnns-vs-vision-transformers-biological-computer-vision-3-3-56ff955ba463 |
| Swin Transformers: The most powerful tool in Computer Vision | by Sieun Park | Medium, accessed July 16, 2025, https://sieunpark77.medium.com/swin-transformers-the-most-powerful-tool-in-computer-vision-659f78744871 |
| ViT: Transformers began to conquer the computer vision field | by Dong-Keon Kim | Medium, accessed July 16, 2025, https://medium.com/@kdk199604/vit-transformers-began-to-conquer-the-computer-vision-field-777f3602136e |
| How T2T-ViT Enhances ViTs: An In-Depth Guide with PyTorch | by Övül Arslan | Medium, accessed July 16, 2025, https://medium.com/@ovularslan/how-t2t-vit-enhances-vits-an-in-depth-guide-with-pytorch-d127dd523c0a |