Booil Jung

트랜스포머 기반 아키텍처의 시각적 토큰화

자연어 처리(NLP) 분야에서 트랜스포머 아키텍처가 거둔 혁신적인 성공은 컴퓨터 비전 연구의 지형을 근본적으로 바꾸어 놓았습니다.1 “An Image is Worth 16x16 Words”라는 도발적인 제목의 논문에서 제안된 Vision Transformer(ViT)는 컨볼루션 신경망(CNN)에 대한 의존 없이, 순수 트랜스포머 아키텍처를 이미지 분류 문제에 직접 적용하여 탁월한 성능을 달성할 수 있음을 입증했습니다.2 ViT의 성공은 이미지라는 시각적 데이터를 NLP 모델이 처리할 수 있는 ‘토큰(token)’의 시퀀스로 변환하는 독창적인 전처리 과정, 즉 ‘시각적 토큰화’에 기반합니다. 이 과정은 후속 연구와 멀티모달 AI 발전의 초석을 다졌다는 점에서 그 중요성이 매우 큽니다. 본 파트에서는 ViT의 핵심을 이루는 이 시각적 토큰화의 기본 패러다임을 단계별로 상세히 분석하고, 그 기저에 깔린 원리를 해부합니다.

ViT의 가장 혁신적인 기여는 컴퓨터 비전 문제를 NLP의 핵심 패러다임인 시퀀스-투-시퀀스(sequence-to-sequence) 문제로 재정의한 것입니다.2 이는 기존의 CNN 기반 접근법과는 완전히 다른 관점을 제시했으며, 최소한의 수정만으로 NLP 트랜스포머를 비전 태스크에 적용할 수 있는 길을 열었습니다. 이 변환 과정은 크게 두 단계로 구성됩니다: 이미지 패치화(Image Patching)와 선형 투영(Linear Projection).

시각적 토큰화의 첫 단계는 2차원의 이미지 그리드를 1차원의 토큰 시퀀스로 변환하는 것입니다. 예를 들어, 224×224 픽셀 크기의 입력 이미지가 주어지면, ViT는 이를 일정한 크기(예: 16×16 픽셀)의 겹치지 않는 정사각형 패치(patch)들로 분할합니다.2 이 과정은 마치 문장을 단어 단위로 나누는 것과 유사하며, 이미지를 ‘단어’에 해당하는 패치들의 ‘문장’으로 간주하는 개념적 전환을 의미합니다.6

224×224 크기의 이미지를 16×16 크기의 패치로 분할할 경우, 총 (224/16)×(224/16)=14×14=196개의 패치가 생성됩니다.7 이렇게 생성된 2차원 패치 그리드는 순차적으로 배열되어 196개 길이를 갖는 1차원 시퀀스를 형성합니다. 이 간단한 분할 과정이 바로 이미지를 트랜스포머가 처리할 수 있는 형식으로 만드는 첫걸음입니다.

다음으로, 각 2차원 패치는 1차원 벡터로 평탄화(flattening)됩니다. 예를 들어, RGB 이미지의 16×16 패치는 16×16×3=768 차원의 벡터로 변환됩니다. 이렇게 생성된 고차원 벡터는 학습 가능한 선형 투영 레이어(trainable linear projection layer)를 통해 모델의 고유한 임베딩 공간(예: D 차원)으로 투영됩니다.5

이 선형 투영의 목적은 두 가지입니다. 첫째, 각 패치를 트랜스포머 인코더가 처리할 수 있는 고정된 차원의 벡터, 즉 ‘패치 임베딩(patch embedding)’으로 변환하는 것입니다. 둘째, 이 투영 과정을 통해 시각적으로 유사한 내용을 담고 있는 패치들이 벡터 공간상에서 서로 가까운 위치에 매핑되도록 학습하는 것입니다.6 이렇게 생성된 패치 임베딩들의 시퀀스가 트랜스포머 인코더의 최종 입력이 됩니다.

트랜스포머의 핵심 메커니즘인 자기-어텐션(self-attention)은 본질적으로 순서에 무관(permutation-invariant)합니다. 즉, 입력 토큰들을 순서가 없는 집합(set)으로 간주합니다.7 만약 위치 정보가 없다면, 모델은 정상적인 이미지와 패치들이 무작위로 섞인 이미지를 구분할 수 없게 됩니다. 따라서 이미지의 공간적 구조를 보존하기 위해서는 각 패치의 위치 정보를 명시적으로 주입해주어야 합니다.5 이를 위해 다양한 위치 임베딩(Positional Embedding) 기법이 사용됩니다.

ViT 원본 논문에서 채택한 방식입니다. APE는 시퀀스 내 각 패치 위치에 해당하는 고유한 학습 가능 벡터입니다. 이 위치 벡터들은 첫 번째 트랜스포머 레이어에 입력되기 전에 패치 임베딩에 직접 더해집니다.5 모델은 훈련 과정에서 이 위치 벡터들을 학습하여 각 위치의 공간적 의미를 파악하게 됩니다. APE는 NLP 트랜스포머처럼 고정된 사인/코사인 함수를 사용할 수도 있지만, 현대의 ViT에서는 학습 가능한 파라미터를 사용하는 것이 더 일반적입니다.11

Swin Transformer와 같은 모델에서 대중화된 대안적 접근 방식입니다. 각 토큰에 절대적인 위치 벡터를 더하는 대신, RPB는 두 토큰(쿼리와 키) 간의 상대적인 거리에 기반하여 학습 가능한 편향(bias) 값을 어텐션 행렬에 직접 더합니다.13 이 방식은 다양한 스케일에서 수많은 토큰을 처리해야 하는 계층적 ViT에서 특히 선호됩니다.13

대규모 언어 모델(LLM)에서 큰 성공을 거둔 회전 위치 임베딩(Rotary Position Embedding, RoPE)도 비전 분야에서 탐색되고 있습니다. RoPE는 쿼리(query)와 키(key) 벡터를 회전시켜 위치 정보를 적용하며, 더 나은 외삽(extrapolation) 특성을 제공하는 것으로 알려져 있지만, 비전 태스크에서의 효과는 아직 활발히 연구 중입니다.13

ViT는 패치 임베딩 시퀀스의 맨 앞에 특별하고 학습 가능한 `` (classification) 토큰을 추가합니다.5 이 토큰은 이미지의 특정 패치와 직접적으로 대응되지 않으며, 일종의 “백지 상태(blank slate)”에서 시작합니다.6

토큰이 여러 트랜스포머 레이어를 통과하면서, 자기-어텐션 메커니즘은 이 토큰이 다른 모든 패치 토큰들로부터 정보를 집계하도록 만듭니다.[14] 최종적으로 이미지 분류 결정이 오직 이 토큰의 출력 임베딩에만 기반하여 내려지기 때문에, 모델은 전체 이미지의 내용을 요약하는 전역적인 표현(global representation)을 이 단일 벡터에 인코딩하는 방법을 학습하도록 강제됩니다.6

ViT 논문에서는 토큰의 대안으로 모든 패치 토큰에 대해 전역 평균 풀링(Global Average Pooling, GAP)을 수행하는 방법도 언급합니다. 이는 ResNet과 같은 CNN에서 흔히 사용되는 기법이지만 [14], 토큰 방식이 많은 ViT 변형 모델에서 표준으로 자리 잡았습니다.

이처럼 ViT의 시각적 토큰화는 이미지를 패치 시퀀스로 변환하고, 위치 정보를 주입하며, 전역 정보 집계를 위한 `` 토큰을 활용하는 일련의 체계적인 과정입니다. 이 패러다임의 가장 심오한 결과는 시각적 정보를 ‘토큰’이라는 일반적인 형태로 추상화했다는 점입니다. 이미지 패치를 벡터 시퀀스로 변환함으로써, ViT는 모달리티에 구애받지 않는(modality-agnostic) 입력 파이프라인을 창조했습니다. NLP 트랜스포머가 단어 토큰 시퀀스를 처리하는 원리를 그대로 차용하여, 이미지를 ‘문장’으로, 패치를 ‘단어’로 간주하는 가설을 성공적으로 입증한 것입니다.2

이러한 추상화는 단순히 비전 문제를 해결하는 것을 넘어, 훨씬 더 큰 파급 효과를 낳았습니다. 바로 이 통일된 토큰 표현 방식이 멀티모달 학습(multimodal learning) 분야 전체를 가능하게 한 핵심 동력이 되었기 때문입니다. ViT에서 나온 시각 토큰과 언어 모델에서 나온 텍스트 토큰을 단순히 이어 붙여 동일한 어텐션 메커니즘으로 처리할 수 있게 되면서, 서로 다른 모달리티 간의 깊은 융합이 가능해졌습니다.15 결국, ViT의 간단해 보이는 토큰화 단계는 여러 모달리티를 넘나들며 추론할 수 있는 범용 인공지능을 향한 중요한 기초 공사였던 셈입니다.

1부에서 설명한 ViT의 기본 토큰화 방식은 혁신적이었지만, 동시에 여러 내재적 한계를 안고 있었습니다. 이러한 한계점들은 이후 3부에서 논의될 다양한 아키텍처 발전의 핵심적인 동기가 되었습니다. 본 파트에서는 단순한 그리드 기반 패치 분할 방식의 약점을 비판적으로 분석하고, 그로 인해 발생하는 문제들을 심층적으로 탐구합니다.

토큰화의 근본적인 목표는 정보를 의미 있는 단위로 분할하는 것입니다. 그러나 ViT의 토큰화 방식은 이 목표를 달성하는 데 있어 NLP와 본질적인 차이를 보입니다.

NLP에서 사용되는 WordPiece나 Byte Pair Encoding(BPE)과 같은 토큰화 기법은 의미론적 무결성(semantic integrity)을 보존하도록 설계되었습니다. 문장은 의미를 가진 단위인 단어나 하위 단어(sub-word)로 분리되며, 이를 통해 서로 다른 개념이 하나의 토큰으로 임의로 융합되는 것을 방지합니다.1

반면, ViT의 그리드 기반 패치 분할은 이미지의 내용과는 전혀 무관하게 기계적으로 이루어지는 “강제 분할(hard split)”입니다.18 이로 인해 하나의 패치가 여러 객체의 일부(예: 고양이 귀의 절반과 배경의 일부)를 임의로 섞거나, 작은 객체 하나를 여러 패치에 걸쳐 조각내는 현상이 발생합니다.1

그 결과, 생성된 토큰들은 명확한 의미론적 내용을 결여하게 되어 해석을 어렵게 만들고, 모델이 정보를 효과적으로 캡슐화하는 능력을 저해합니다.19 이는 마치 NLP 모델이 단어 단위가 아닌, 고정된 글자 수마다 문장을 잘라버리는 것과 같아서 원래의 의미를 파악하기 어렵게 만드는 것과 유사합니다.19

귀납적 편향(inductive bias)은 모델이 훈련 데이터로부터 보지 못한 데이터로 일반화하기 위해 사용하는 일련의 가정을 의미합니다.20 CNN은 시각적 태스크에 매우 효과적인 강력한 귀납적 편향을 내장하고 있습니다.

표준 ViT 아키텍처는 이러한 시각적 귀납적 편향을 대부분 버립니다. 자기-어텐션 메커니즘은 이론적으로 어떤 두 픽셀(또는 패치)이든 거리에 상관없이 관계를 맺을 수 있게 하여, 첫 번째 레이어부터 전역적인 수용장(global receptive field)을 갖습니다.9 이러한 설계는 몇 가지 중요한 결과를 초래합니다.

이러한 차이점들은 모델 설계에서의 근본적인 트레이드오프를 드러냅니다. CNN은 ‘견고한’ 설계를 가집니다. 컨볼루션 필터는 지역성과 이동 등변성을 강제하며 9, 이러한 견고함은 학습을 더 쉽고 데이터 효율적으로 만드는 강력한 가정으로 작용합니다. 반면, ViT는 ‘유연한’ 설계를 가집니다. 입력 데이터에 대해 거의 가정을 하지 않음으로써 비지역적인 패턴을 포함한 어떤 패턴이든 학습할 수 있는 잠재력을 지닙니다.23 하지만 이 유연성 때문에 모델이 탐색해야 할 가설 공간이 훨씬 더 커지고 복잡해집니다. 귀납적 편향의 안내 없이는, 올바른 패턴을 찾고 우연한 상관관계에 과적합되는 것을 피하기 위해 방대한 양의 데이터가 필요하게 됩니다.3 이는 모델 설계における 편향(bias)과 분산(variance) 간의 근본적인 트레이드오프를 보여줍니다. CNN은 높은 편향(강한 가정)과 낮은 분산(적은 데이터 필요)을 가지는 반면, ViT는 낮은 편향(약한 가정)과 높은 분산(많은 데이터 필요)을 가집니다. 이후 ViT 아키텍처의 발전 전체는 이 스펙트럼 위에서 ‘최적점’을 찾는 과정, 즉 트랜스포머의 강력하고 유연한 전역 모델링 능력을 희생하지 않으면서 데이터 효율성을 향상시키기 위해 ‘좋은’ 시각적 편향을 얼마나, 어떻게 다시 도입할 것인가에 대한 탐구로 볼 수 있습니다.

속성 컨볼루션 신경망 (CNN) Vision Transformer (ViT)
기본 단위 픽셀 (지역적 필터 내) 이미지 패치
수용장 계층적으로 증가 (초기에는 지역적) 처음부터 전역적
핵심 귀납적 편향 지역성, 이동 등변성, 계층 구조 9 최소한의 편향; 순서 무관성 (위치 임베딩으로 해결) 9
데이터 효율성 높음 (내장된 편향 덕분) 낮음 (대규모 사전 훈련 필요) 3
특징 계층 명시적 (단순 –» 복잡) 21 덜 명시적 (전역적 관계 모델링)
스케일 불변성 상대적으로 높음 (풀링 레이어) 낮음 (고정 패치 크기) 27
핵심 연산 컨볼루션 (가중치 공유) 자기-어텐션 (모든 토큰 간 상호작용)

표 1: 기본 토큰화 패러다임 비교 (ViT 대 CNN)

ViT의 설계는 계산 비용 측면에서도 중요한 문제를 안고 있습니다.

결론적으로, 바닐라 ViT의 토큰화 방식은 의미론적 정보의 손실, 시각적 귀납적 편향의 부재로 인한 데이터 비효율성, 그리고 제곱 복잡도로 인한 확장성 문제라는 세 가지 주요 한계를 가지고 있습니다. 이러한 문제점들은 ViT가 더 넓은 범위의 비전 태스크에 효과적으로 적용되기 위해 반드시 해결해야 할 과제였으며, 이는 곧 3부에서 다룰 다양한 아키텍처 혁신의 자양분이 되었습니다.

바닐라 ViT가 제시한 한계점들을 극복하기 위해, 연구 커뮤니티는 토큰화 방식과 아키텍처 자체를 개선하는 다양한 혁신적인 방법론을 제안했습니다. 이 파트에서는 비전 트랜스포머를 진정으로 효과적이고 효율적으로 만들기 위한 주요 연구 방향들을 심층적으로 탐구합니다. 이러한 노력들은 ‘순수 트랜스포머’라는 초기 이념을 넘어, 실용적인 고성능을 추구하는 방향으로 수렴하고 있습니다.

T2T-ViT는 바닐라 ViT의 두 가지 핵심 약점, 즉 1) 단순한 토큰화 방식이 엣지나 선과 같은 중요한 지역적 구조를 모델링하지 못하는 문제와 2) 표준 백본의 어텐션 계산이 중복적이라는 문제를 직접적으로 해결하고자 제안되었습니다.36

단일 강제 분할 대신, T2T-ViT는 점진적인 토큰화 과정(progressive tokenization)을 사용합니다.18

이러한 점진적 구조화는 모델이 전역 어텐션을 적용하기 전에 지역적 특징을 명시적으로 학습할 수 있게 합니다. 이는 샘플 효율성을 크게 향상시켜, T2T-ViT가 ImageNet에서 처음부터 훈련될 때 바닐라 ViT나 일부 ResNet보다 더 적은 파라미터를 사용하면서도 더 높은 성능을 달성하게 만듭니다.36

Swin Transformer는 ViT의 제곱 복잡도 문제와 다중 스케일 특징 표현의 부재를 해결하여, 객체 탐지나 의미 분할과 같은 조밀한 예측(dense prediction) 태스크를 위한 범용 백본(general-purpose backbone)으로 사용될 수 있도록 설계되었습니다.29

3.2.1 CNN을 닮은 계층 구조

Swin Transformer는 CNN과 유사한 계층적 설계를 다시 도입합니다. 작은 크기의 패치로 시작하여 후속 단계에서는 “패치 병합(patch merging)” 레이어를 사용하여 특징 맵을 다운샘플링(토큰 수 감소)하고 채널 차원을 늘립니다. 이는 특징 피라미드(feature pyramid)와 같이 다중 스케일의 특징 맵을 생성하며, 이는 많은 비전 태스크에 필수적입니다.41

제곱 복잡도 문제를 해결하기 위해, 자기-어텐션은 전역적으로 계산되지 않습니다. 대신, 이미지는 겹치지 않는 윈도우(예: 7×7 패치)로 분할되고, 자기-어텐션은 각 윈도우 내부에서만 계산됩니다.41 이로 인해 계산 복잡도는 이미지 픽셀 수에 대해 선형(linear)이 됩니다.

W-MSA의 한계는 윈도우 간 정보 흐름이 없다는 것입니다. 이를 해결하기 위해, Swin은 한 레이어에서는 일반 윈도우 방식(W-MSA)을, 다음 레이어에서는 “이동된 윈도우(shifted window)” 방식을 번갈아 사용합니다. 이동된 윈도우는 이전 레이어 윈도우의 경계를 가로지르기 때문에, 윈도우 간 연결을 가능하게 하고 연속적인 레이어를 통해 효과적으로 전역적인 수용장을 구축합니다.41

이 접근 방식은 내용과 무관한 그리드 방식에서 벗어나 2.1절에서 논의된 “의미론적 불일치” 문제를 직접적으로 해결하려는 시도입니다.

이 접근 방식의 핵심 아이디어는 두 세계의 장점을 결합하는 것입니다: CNN의 강력하고 데이터 효율적인 지역 특징 추출 및 귀납적 편향을 트랜스포머의 강력한 전역 컨텍스트 모델링과 결합하는 것입니다.22 이 방법은 특히 작은 데이터셋에서의 성능 향상이나 자원이 제한된 애플리케이션에 효과적입니다.22

한 서베이 논문25에 따르면, 하이브리드 모델은 컨볼루션 연산이 자기-어텐션 메커니즘과 통합되는 방식에 따라 여러 유형으로 분류될 수 있습니다.

통합 전략 핵심 원리 대표 모델
초기 레이어 통합 CNN을 특징 추출 ‘줄기(stem)’로 사용하여 초기 특징 맵을 생성한 후, 이를 트랜스포머 본체에 입력 LeViT, Hybrid ViT 25
측면 레이어 통합 ViT를 인코더로, CNN을 디코더로 사용. 조밀한 예측 태스크에서 주로 사용 DPT, LocalViT 25
순차적 통합 네트워크 아키텍처 내에서 CNN 블록과 트랜스포머 블록을 순차적으로 번갈아 쌓음 CoAtNet, BoTNet 25
병렬 통합 별도의 CNN과 트랜스포머 브랜치가 입력을 병렬로 처리하고, 다양한 지점에서 특징을 융합 Conformer, Mobile-Former 25
계층적 통합 컨볼루션과 어텐션을 모두 포함하는 통합된 하이브리드 블록을 설계하고, 이를 반복적으로 쌓아 계층적 네트워크 구성 CvT, MaxViT, Visformer 25
어텐션 기반 통합 어텐션 메커니즘 내부에 컨볼루션 연산을 통합하여 지역적 편향을 추가 ResT, CeiT 25
채널 부스팅 기반 통합 전이 학습 기반 보조 학습기(ViT)를 사용하여 부스팅된 채널을 생성하고, 이를 CNN 채널과 결합 CB-HVT 25

표 2: 하이브리드 CNN-Transformer 통합 전략 분류

EHCTNet (원격 탐사) 44 및 BEFUnet (의료 영상) 45과 같은 특정 도메인에 맞춰진 모델들은 이러한 하이브리드 원칙을 적용하여, 지역적(CNN) 및 전역적(Transformer) 특징을 모두 캡처하기 위해 이중 브랜치 인코더와 같은 맞춤형 설계를 사용합니다.

이러한 다양한 혁신들은 무작위적인 시도가 아니라, 명확하고 수렴적인 진화 경향을 나타냅니다. 초기 ViT가 제시한 ‘순수 트랜스포머’라는 이념적 접근 방식은 시각적 사전 지식의 부재라는 한계에 부딪혔습니다. 이에 대한 해결책으로 T2T-ViT 37나 슈퍼픽셀 ViT 1는 모델의 ‘입력단’을 수정하여 더 나은 토큰을 만드는 방식으로 지역적/의미론적 편향을 주입하려 했습니다. Swin Transformer 42는 핵심 어텐션 메커니즘 자체를 수정하여 백본이 CNN과 유사한 방식으로 작동하도록 만들었습니다. 그리고 하이브리드 모델들 25은 가장 직접적인 경로를 택해, CNN 구성 요소를 트랜스포머 아키텍처에 명시적으로 삽입하여 부족한 귀납적 편향을 제공했습니다. 이 세 가지 경로는 서로 다른 메커니즘을 사용하지만, 모두 자기-어텐션의 전역적 추론 능력과 컨볼루션의 효율적이고 계층적인 지역 특징 추출 능력을 결합하려는 동일한 목표를 향해 나아가고 있습니다. 이는 해당 분야가 이념적 순수성을 넘어 실용적인 고성능 엔지니어링으로 성숙하고 있음을 보여줍니다.

모델 토큰화 패러다임 핵심 혁신 계산 복잡도 파라미터(M) MACs(G) ImageNet-1K Top-1 Acc(%)
ViT-Base/16 그리드 기반 패치 전역 자기-어텐션 O(N2) 86 17.6 81.8 2
T2T-ViT-14 점진적 집계 소프트 분할 & 재귀적 집계 O(N2) 21.5 5.2 81.5 36
Swin-T 계층적 윈도우 이동된 윈도우 어텐션 O(N) 29 4.5 81.3 42
sViT 의미론적 (경계 상자) 의미론적 무결성 토큰 O(N2) - - - 1
DHVT-Small 하이브리드 (CNN+ViT) 동적 하이브리드 구조 - 22.8 - 85.7 (CIFAR-100) 22

표 3: 주요 고급 ViT 아키텍처의 분류 및 성능 비교

ViT의 핵심 개념인 시각적 토큰화는 2D 이미지 분류를 넘어, 그 유연성과 강력한 표현력을 바탕으로 3D 비전, 비디오 분석, 멀티모달 학습 등 인공지능의 더 넓은 영역으로 확장되고 있습니다. 이 파트에서는 토큰화 개념이 어떻게 다른 데이터 모달리티에 맞게 변형되고 적용되는지, 그리고 이것이 AI 분야 전반에 미치는 영향을 탐구합니다.

포인트 클라우드나 복셀과 같은 3D 데이터는 2D 이미지와는 다른 고유한 특성을 가집니다. 포인트 클라우드는 순서가 없는 가변 크기의 집합이며, 복셀 그리드는 매우 희소(sparse)한 특성을 보입니다.46 이러한 특성은 새로운 토큰화 전략을 요구합니다.

비디오는 시간에 따른 차원을 추가하여 데이터의 차원성을 극적으로 높이고 계산 비용을 증가시킵니다.31 따라서 비디오 토큰화 전략은 공간과 시간을 모두 효율적으로 처리해야 합니다.

1부에서 언급했듯이, ‘토큰’은 서로 다른 모달리티를 연결하는 공통 화폐 역할을 합니다. 이 섹션에서는 시각 토큰과 텍스트 토큰이 어떻게 융합되는지 더 자세히 살펴봅니다.

이러한 확장은 ViT의 토큰화 성공이 트랜스포머를 언어 특정 도구에서, 이산적이거나 연속적인 표현의 집합으로 구조화될 수 있는 모든 데이터에 대한 범용 계산 엔진으로 일반화했음을 보여줍니다. ViT는 공간 데이터(이미지)가 토큰화될 수 있음을 증명했고 2, 비디오 트랜스포머는 시공간 데이터의 토큰화를 31, 3D 트랜스포머는 순서 없는 포인트 집합과 희소 그리드의 토큰화를 가능하게 했습니다.46 더 나아가 멀티모달 트랜스포머는 이종 토큰 집합(예: 이미지 패치 + 단어)이 단일 아키텍처에서 원활하게 처리될 수 있음을 보여주었습니다.16 로보틱스 분야에서 연속적인 운동 동작을 토큰으로 이산화하려는 “행동 토큰화(action tokenization)” 연구 50는 이러한 경향의 정점을 보여줍니다.

이러한 흐름은 미래에 단일 범용 “파운데이션 모델” 아키텍처(아마도 트랜스포머)가 각 모달리티에 대한 전문화된 “토크나이저”를 통해 이미지, 텍스트, 비디오, 소리, 3D 스캔, 로봇 행동 등 방대한 종류의 데이터를 수용하고 추론할 수 있음을 시사합니다. 핵심 처리 엔진은 동일하게 유지되면서 입력단만 바뀌는 것입니다. 이는 보다 일반적인 인공지능을 향한 중요한 발걸음입니다.

본 보고서는 Vision Transformer의 시각적 토큰화가 단순한 전처리 기술을 넘어 컴퓨터 비전과 인공지능의 패러다임을 어떻게 바꾸었는지를 비판적으로 고찰했습니다. 이 마지막 파트에서는 지금까지의 논의를 종합하고, 시각적 토큰화 및 표현 학습의 미래 궤적을 전망합니다.

보고서의 서사를 요약하면, ViT의 등장은 ‘순수 트랜스포머’라는 급진적인 접근으로 시작되었으나, 곧 시각적 사전 지식의 부재라는 한계에 직면했습니다. 이후 T2T-ViT, Swin Transformer, 하이브리드 모델과 같은 혁신들은 이러한 사전 지식을 실용적으로 재통합하려는 노력의 산물입니다.

이 과정에서 “하나의 정답은 없다”는 결론에 도달합니다. 최적의 토큰화 전략은 특정 태스크, 데이터셋 크기, 그리고 계산 제약 조건에 따라 달라집니다.

미래는 정적이고 미리 정의된 토큰화를 넘어서는 방향으로 나아가고 있습니다.

이러한 발전에도 불구하고, 여전히 해결해야 할 중요한 연구 과제들이 남아 있습니다.

결론적으로, 시각적 토큰화는 ViT의 등장을 가능하게 한 핵심 기술에서 출발하여, 이제는 다양한 데이터 모달리티를 통합하고 인공지능의 범용성을 확장하는 근본적인 메커니즘으로 진화하고 있습니다. 고정된 그리드에서 의미론적, 계층적, 적응형 토큰화로 나아가는 여정은 모델이 세상을 더 효율적이고, 유연하며, 인간과 유사한 방식으로 인식하도록 만드는 과정 그 자체입니다. 앞으로의 연구는 이러한 미해결 과제들을 해결하며, 더욱 강력하고 일반화된 시각 표현 학습의 새로운 지평을 열어갈 것입니다.

  1. Superpixel Tokenization for Vision Transformers: Preserving Semantic Integrity in Visual Tokens - arXiv, accessed July 16, 2025, https://arxiv.org/html/2412.04680v2
  2. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, accessed July 16, 2025, https://research.google/pubs/an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale/
  3. (PDF) An Image is Worth 16x16 Words: Transformers for Image …, accessed July 16, 2025, https://scispace.com/papers/an-image-is-worth-16x16-words-transformers-for-image-v85s5ahlww
  4. Paper page - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, accessed July 16, 2025, https://huggingface.co/papers/2010.11929
  5. Tutorial 15: Vision Transformers - UvA DL Notebooks v1.2 documentation, accessed July 16, 2025, https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial15/Vision_Transformer.html
  6. Vision Transformers (ViT) Explained - Pinecone, accessed July 16, 2025, https://www.pinecone.io/learn/series/image-search/vision-transformers/
  7. Does the position of the tokens in Vision Transformer matter? - AI Stack Exchange, accessed July 16, 2025, https://ai.stackexchange.com/questions/38658/does-the-position-of-the-tokens-in-vision-transformer-matter
  8. PATCH EMBEDDING Vision Transformers explained - YouTube, accessed July 16, 2025, https://www.youtube.com/watch?v=lBicvB4iyYU
  9. ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Learning-Deep-Learning, accessed July 16, 2025, https://patrick-llgc.github.io/Learning-Deep-Learning/paper_notes/vit.html
  10. The Role of Position Embeddings in Transformers for Automatic Speech Recognition, accessed July 16, 2025, https://project-archive.inf.ed.ac.uk/msc/20226068/msc_proj.pdf
  11. Maximizing the Position Embedding for Vision Transformers with Global Average Pooling, accessed July 16, 2025, https://arxiv.org/html/2502.02919v1
  12. Vision Transformers Explained: The Future of Computer Vision? - Roboflow Blog, accessed July 16, 2025, https://blog.roboflow.com/vision-transformers/
  13. Rotary Position Embedding for Vision Transformer, accessed July 16, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01584.pdf
  14. Class token in ViT and BERT - Data Science Stack Exchange, accessed July 16, 2025, https://datascience.stackexchange.com/questions/90649/class-token-in-vit-and-bert
  15. Transformers in Vision: A Survey - arXiv, accessed July 16, 2025, http://arxiv.org/pdf/2101.01169
  16. Multimodal Learning With Transformers: A Survey by Eleventh Hour Enthusiast Medium, accessed July 16, 2025, https://medium.com/@EleventhHourEnthusiast/multimodal-learning-with-transformers-a-survey-3b28b1dcaf03
  17. (PDF) Multimodal Learning With Transformers: A Survey, accessed July 16, 2025, https://www.researchgate.net/publication/370688791_Multimodal_Learning_With_Transformers_A_Survey
  18. A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical Document Image Enhancement - arXiv, accessed July 16, 2025, https://arxiv.org/html/2312.03946v1
  19. Vision Transformers with Natural Language Semantics - arXiv, accessed July 16, 2025, https://arxiv.org/html/2402.17863v1
  20. CNNs vs Vision Transformers - Biological Computer Vision (3/3) by Niranjan Rajesh Bits and Neurons Medium, accessed July 16, 2025, https://medium.com/bits-and-neurons/cnns-vs-vision-transformers-biological-computer-vision-3-3-56ff955ba463
  21. Comparing Vision Transformers and Convolutional Neural Networks for Image Classification: A Literature Review - MDPI, accessed July 16, 2025, https://www.mdpi.com/2076-3417/13/9/5521
  22. Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets - NIPS, accessed July 16, 2025, https://proceedings.nips.cc/paper_files/paper/2022/file/5e0b46975d1bfe6030b1687b0ada1b85-Paper-Conference.pdf
  23. Efficient Training of Visual Transformers with Small Datasets, accessed July 16, 2025, https://proceedings.neurips.cc/paper/2021/file/c81e155d85dae5430a8cee6f2242e82c-Paper.pdf
  24. Visualization Comparison of Vision Transformers and … - Rui SHI, accessed July 16, 2025, https://shirui-homepage.com/files/pdf/research/202310visViT-TMM.pdf
  25. A survey of the Vision Transformers and their CNN-Transformer based Variants - arXiv, accessed July 16, 2025, https://arxiv.org/pdf/2305.09880
  26. A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships - arXiv, accessed July 16, 2025, https://arxiv.org/html/2408.15178v1
  27. ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias - OpenReview, accessed July 16, 2025, https://openreview.net/pdf?id=_WnAQKse_uK
  28. Are vision transformers scale invariant like CNNs? - AI Stack Exchange, accessed July 16, 2025, https://ai.stackexchange.com/questions/48381/are-vision-transformers-scale-invariant-like-cnns
  29. Swin Transformers: The most powerful tool in Computer Vision by Sieun Park Medium, accessed July 16, 2025, https://sieunpark77.medium.com/swin-transformers-the-most-powerful-tool-in-computer-vision-659f78744871
  30. arXiv:2308.09372v4 [cs.CV] 24 Feb 2025, accessed July 16, 2025, https://arxiv.org/pdf/2308.09372
  31. Video Transformers: A Survey - arXiv, accessed July 16, 2025, http://arxiv.org/pdf/2201.05991
  32. Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers - arXiv, accessed July 16, 2025, https://arxiv.org/html/2308.09372v2
  33. ViT: Transformers began to conquer the computer vision field by Dong-Keon Kim Medium, accessed July 16, 2025, https://medium.com/@kdk199604/vit-transformers-began-to-conquer-the-computer-vision-field-777f3602136e
  34. MicroViT: A Vision Transformer with Low Complexity Self Attention for Edge Device - arXiv, accessed July 16, 2025, https://arxiv.org/html/2502.05800v1
  35. ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages - arXiv, accessed July 16, 2025, https://arxiv.org/html/2504.14825v1
  36. [2101.11986] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet, accessed July 16, 2025, https://arxiv.org/abs/2101.11986
  37. Tokens-to-token vit: Training vision transformers from scratch on imagenet - Zihang Jiang, accessed July 16, 2025, https://zihangjiang.github.io/publication/2021-01-28-t2t-vit
  38. How T2T-ViT Enhances ViTs: An In-Depth Guide with PyTorch by Övül Arslan Medium, accessed July 16, 2025, https://medium.com/@ovularslan/how-t2t-vit-enhances-vits-an-in-depth-guide-with-pytorch-d127dd523c0a
  39. Tokens-to-Token Vision Transformers, Explained - Towards Data Science, accessed July 16, 2025, https://towardsdatascience.com/tokens-to-token-vision-transformers-explained-2fa4e2002daa/
  40. Review - Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet, accessed July 16, 2025, https://sh-tsang.medium.com/review-tokens-to-token-vit-training-vision-transformers-from-scratch-on-imagenet-8b318325ad0d
  41. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows - Medium, accessed July 16, 2025, https://medium.com/@crlc112358/swin-transformer-hierarchical-vision-transformer-using-shifted-windows-ca1ccc8760b8
  42. Swin Transformer: Hierarchical Vision Transformer using Shifted …, accessed July 16, 2025, https://arxiv.org/pdf/2103.14030
  43. Cumulative Spatial Knowledge Distillation for Vision Transformers - ICCV 2023 Open Access Repository, accessed July 16, 2025, https://openaccess.thecvf.com/content/ICCV2023/html/Zhao_Cumulative_Spatial_Knowledge_Distillation_for_Vision_Transformers_ICCV_2023_paper.html
  44. EHCTNet: Enhanced Hybrid of CNN and Transformer Network for Remote Sensing Image Change Detection - arXiv, accessed July 16, 2025, https://arxiv.org/html/2501.01238v1
  45. BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation, accessed July 16, 2025, https://arxiv.org/html/2402.08793v1
  46. 3D Vision with Transformers: A Survey - arXiv, accessed July 16, 2025, https://arxiv.org/pdf/2208.04309
  47. lahoud/3d-vision-transformers: A list of 3D computer vision papers with Transformers - GitHub, accessed July 16, 2025, https://github.com/lahoud/3d-vision-transformers
  48. Video Understanding with Large Language Models: A Survey - arXiv, accessed July 16, 2025, https://arxiv.org/html/2312.17432v5
  49. MLIF-Net: Multimodal Fusion of Vision Transformers and Large Language Models for AI Image Detection - Preprints.org, accessed July 16, 2025, https://www.preprints.org/manuscript/202505.2370/v1
  50. A Survey on Vision-Language-Action Models: An Action …, accessed July 16, 2025, https://www.aimodels.fyi/papers/arxiv/survey-vision-language-action-models-action-tokenization
  51. A-ViT: Adaptive Tokens for Efficient Vision Transformer - CVF Open Access, accessed July 16, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Yin_A-ViT_Adaptive_Tokens_for_Efficient_Vision_Transformer_CVPR_2022_paper.pdf
  52. A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration - arXiv, accessed July 16, 2025, https://arxiv.org/html/2506.05709v1
  53. tokenformer: rethinking transformer scal - arXiv, accessed July 16, 2025, https://arxiv.org/pdf/2410.23168?
  54. Paper page - ViTAR: Vision Transformer with Any Resolution - Hugging Face, accessed July 16, 2025, https://huggingface.co/papers/2403.18361
  55. A Survey of the Self Supervised Learning Mechanisms for Vision Transformers - arXiv, accessed July 16, 2025, https://arxiv.org/html/2408.17059v5