ViViT (비디오 비전 트랜스포머, Video Vision Transformer, 2021-03-29)

1. 서론 (Introduction)

1.1 컴퓨터 비전의 패러다임 전환: CNN에서 트랜스포머로

지난 10여 년간 컴퓨터 비전(Computer Vision) 분야는 심층 합성곱 신경망(Convolutional Neural Networks, CNN)의 독무대였다고 해도 과언이 아니다. 2012년 AlexNet의 등장 이후, 이미지 분류, 객체 탐지, 세그멘테이션 등 시각적 인식 작업의 표준은 지역적 수용 영역(Local Receptive Field)과 가중치 공유(Weight Sharing), 그리고 이동 불변성(Translation Invariance)이라는 강력한 귀납적 편향(Inductive Bias)을 가진 CNN 아키텍처에 의해 주도되었다.1 그러나 2017년 자연어 처리(NLP) 분야에서 구글이 발표한 “Attention Is All You Need” 논문의 트랜스포머(Transformer) 아키텍처는 순차적 데이터 처리의 새로운 지평을 열었으며, 이는 곧 시각 지능 분야로의 전이(Transfer)를 예고하였다.

2020년 말, 구글 리서치 팀이 발표한 비전 트랜스포머(Vision Transformer, ViT)는 이미지를 고정된 크기의 패치(Patch) 시퀀스로 취급하고, 이를 순수 트랜스포머 인코더에 입력하여 처리함으로써 대규모 데이터셋에서 CNN을 능가하거나 대등한 성능을 달성할 수 있음을 입증하였다.3 ViT의 성공은 지역적 연산에 국한되지 않고 이미지 전체의 전역적 문맥(Global Context)을 학습할 수 있는 자기 주의(Self-Attention) 메커니즘의 효용성을 시각 데이터에서도 확인시켜 주었다. 이러한 흐름은 정지 이미지를 넘어 시간 축(Temporal Dimension)을 포함하는 비디오 데이터의 이해(Video Understanding)로 자연스럽게 확장되었다.

1.2 비디오 데이터 처리의 고유한 난제

비디오 데이터는 정지 이미지에 시간이라는 차원이 추가된 4차원 텐서( $T \times H \times W \times C$ ) 구조를 가진다. 여기서 $T$ 는 프레임 수, $H$ 와 $W$ 는 공간 해상도, $C$ 는 채널 수를 의미한다. 비디오 이해 모델은 공간적 특징(예: 객체의 모양, 색상)뿐만 아니라 시간적 특징(예: 객체의 이동, 변형, 인과관계)을 동시에 포착해야 하므로 이미지 인식보다 훨씬 높은 복잡도를 요구한다.3

기존의 비디오 인식 모델은 주로 3D CNN(예: C3D, I3D, SlowFast)에 의존하였다.2 3D CNN은 시간 축으로 확장된 합성곱 커널을 사용하여 시공간적 특징을 추출하지만, 다음과 같은 한계를 지닌다. 첫째, 3D 합성곱 연산은 연산량(FLOPs)과 메모리 사용량이 매우 크다. 둘째, CNN의 특성상 수용 영역이 제한적이어서, 비디오의 시작과 끝과 같이 멀리 떨어진 프레임 간의 장거리 의존성(Long-range dependency)을 포착하기 위해서는 네트워크를 매우 깊게 쌓아야 한다.

1.3 ViViT의 등장 배경과 연구 목표

이러한 배경 속에서 2021년 구글 리서치 팀이 제안한 **ViViT (Video Vision Transformer)**는 비디오 분류 작업을 위해 합성곱을 완전히 배제하고 순수 트랜스포머(Pure Transformer) 아키텍처를 적용한 선구적인 연구이다.3 ViViT의 핵심 연구 질문은 “이미지에서 입증된 트랜스포머의 성공을 어떻게 하면 비디오의 시공간적 특성에 맞게 효과적으로 확장할 수 있는가?“이다. 특히 비디오 데이터의 방대한 토큰(Token) 수를 처리하면서도 연산 효율성을 유지하고, CNN에 비해 부족한 귀납적 편향을 극복하기 위한 데이터 효율적인 학습 전략을 수립하는 것이 본 연구의 주된 목표이다.

본 보고서는 ViViT의 아키텍처 설계, 다양한 모델 변형, 초기화 전략, 그리고 실험적 성능을 포괄적으로 분석한다. 특히 원문 논문과 다양한 후속 연구 자료를 바탕으로, ViViT가 비디오 이해 분야에 미친 기술적 파급력과 학술적 의의를 심층적으로 고찰한다.

2. 이론적 배경 (Theoretical Background)

2.1 비전 트랜스포머 (ViT)의 기초

ViViT를 이해하기 위해서는 그 모태가 되는 ViT의 작동 원리를 명확히 파악해야 한다. ViT는 입력 이미지 $x \in \mathbb{R}^{H \times W \times C}$ 를 $P \times P$ 크기의 패치로 분할한다. 패치의 개수 $N = HW/P^2$ 이 되며, 각 패치는 평탄화(Flatten)된 후 선형 투영(Linear Projection)을 거쳐 $D$ 차원의 임베딩 벡터로 변환된다.8 여기에 위치 정보를 보존하기 위한 위치 임베딩(Positional Embedding)이 더해지고, 클래스 토큰()이 시퀀스의 맨 앞에 추가된다.

2.2 자기 주의(Self-Attention) 메커니즘과 복잡도 문제

트랜스포머의 핵심인 다중 헤드 자기 주의(Multi-Head Self-Attention, MSA)는 입력 시퀀스 $z$ 에 대해 질의(Query, $Q$ ), 키(Key, $K$ ), 값(Value, $V$ )을 생성하고 다음 수식에 따라 어텐션 가중치를 계산한다.
$Attention(Q, K, V) = Softmax(\frac{QK^T}{\sqrt{d_k}})V$
이 연산은 모든 토큰 쌍 간의 관계를 계산하므로, 입력 토큰 수 $N$ 에 대해 $O(N^2)$ 의 시간 및 메모리 복잡도를 가진다. 비디오 데이터의 경우, 프레임 수 $T$ 가 곱해지므로 전체 토큰 수는 $N_{video} = T \times (H/P) \times (W/P)$ 가 된다. 예를 들어, 해상도가 $224 \times 224$ 이고 패치 크기가 $16$ 이며 프레임 수가 $32$ 인 비디오의 경우, 토큰 수는 $32 \times 14 \times 14 = 6,272$ 개에 달한다. 이를 $O(N^2)$ 복잡도를 가진 표준 트랜스포머에 그대로 입력할 경우, 어텐션 행렬의 크기는 약 $3,900만 \times 3,900만$ 에 달해 연산이 사실상 불가능해진다.3

따라서 ViViT 연구의 핵심은 **“어떻게 하면 비디오의 시공간적 정보를 손실 없이 처리하면서도, 폭발적으로 증가하는 토큰 수에 대응하여 연산 효율성을 확보할 것인가?”**라는 문제 해결에 집중되어 있다.

3. ViViT 아키텍처 및 토큰화 전략 (ViViT Architecture & Tokenization)

ViViT는 ViT의 구조를 계승하되, 비디오 입력을 처리하기 위한 토큰화(Embedding) 방식과 트랜스포머 내부의 어텐션 구조 변형을 통해 위에서 언급한 문제들을 해결한다.

3.1 비디오 임베딩 방법론 (Video Embedding Methods)

입력 비디오를 트랜스포머가 처리할 수 있는 토큰 시퀀스로 변환하는 방식은 모델의 초기 정보 획득 능력과 연산 효율성을 결정짓는 첫 번째 단계이다. ViViT는 두 가지 주요 임베딩 방식을 제안한다.3

3.1.1 균일 프레임 샘플링 (Uniform Frame Sampling)

가장 단순하고 직관적인 방법은 비디오에서 $n_t$ 개의 프레임을 균일하게 샘플링하고, 각 프레임에 대해 ViT와 동일한 2D 패치 임베딩을 독립적으로 수행하는 것이다.

과정: 입력 비디오 클립에서 인덱스 $t$ 에 해당하는 프레임을 추출한다. 각 프레임을 겹치지 않는 패치로 자르고 선형 투영한다.
토큰 구성: 생성된 모든 패치 토큰들을 단순히 연결(Concatenate)하여 긴 시퀀스를 만든다.
특징: 구현이 매우 간단하고, 기존에 이미지넷(ImageNet) 등으로 사전 학습된 ViT의 임베딩 가중치를 그대로 사용할 수 있다는 장점이 있다. 그러나 토큰화 단계에서는 프레임 간의 시간적 정보 교환이 전혀 일어나지 않으며, 시간적 관계 학습은 전적으로 이후의 트랜스포머 레이어에 위임된다.3

3.1.2 튜브렛 임베딩 (Tubelet Embedding)

ViViT가 제안한 보다 진보된 방식은 2D 패치를 시간 축으로 확장하여 3D 볼륨(Volume)을 추출하는 ‘튜브렛(Tubelet)’ 방식이다.

과정: 입력 비디오 텐서에서 $t \times h \times w$ 크기의 시공간 튜브를 추출한다. 이는 3D 합성곱(Convolution) 연산과 구조적으로 동일하다.
토큰 수: 튜브렛의 시간적 크기 $t$ 가 클수록 전체 토큰 수 $N$ 은 $N/t$ 로 감소한다. 예를 들어 $t=2$ 로 설정하면 토큰 수는 절반으로 줄어든다.
장점:

초기 시공간 융합: 토큰 생성 단계에서부터 픽셀 수준의 시간적 변화와 공간적 정보를 동시에 압축(Fusion)한다. 이는 움직임(Motion) 정보가 중요한 비디오 분류에서 유리하다.
효율성: 토큰의 총 개수를 줄임으로써 이어지는 트랜스포머 레이어의 연산 부하( $O(N^2)$ )를 획기적으로 낮출 수 있다.

의의: 튜브렛 임베딩은 비디오 데이터를 ’이미지들의 나열’이 아닌 ’시공간적 볼륨’으로 취급한다는 점에서 3D CNN의 철학을 트랜스포머 입력 단에 효과적으로 적용한 사례이다.3

[표 1] 비디오 임베딩 방식 비교

특징	균일 프레임 샘플링 (Uniform Frame Sampling)	튜브렛 임베딩 (Tubelet Embedding)
입력 단위	2D 이미지 패치 ( $1 \times h \times w$ )	3D 시공간 튜브 ( $t \times h \times w$ )
정보 융합 시점	트랜스포머 레이어 내부	입력 토큰화 단계 (Embedding Layer)
토큰 수	많음 ( $T \times H/h \times W/w$ )	적음 ( $T/t \times H/h \times W/w$ )
연산 방식	2D Convolution (Stride = Patch Size)	3D Convolution (Stride = Tubelet Size)
사전 학습 호환성	높음 (기존 ViT 가중치 그대로 사용)	중간 (3D 필터로의 변환 과정 필요)

3.2 모델 변형 (Model Variants): 어텐션 구조의 효율화

토큰화된 입력을 처리하는 트랜스포머 인코더의 구조에 따라 ViViT는 네 가지 변형을 제시한다. 이는 정확도(Accuracy)와 연산 효율성(Efficiency) 사이의 트레이드오프를 탐색하기 위함이다.3

3.2.1 모델 1: 시공간 어텐션 (Spatio-temporal Attention)

모든 시공간 토큰을 하나의 긴 시퀀스로 간주하고 표준 트랜스포머 인코더에 입력하는 방식이다.

매커니즘: 공간적 위치와 시간적 프레임에 관계없이 모든 토큰이 서로 어텐션을 수행한다(All-to-all interaction).
분석: 이론적으로는 시공간적 상호작용을 가장 완벽하게 모델링할 수 있어 정확도 측면에서 유리할 수 있다. 그러나 $O(N^2)$ 의 복잡도로 인해 토큰 수가 조금만 늘어나도 연산량과 메모리 소모가 감당할 수 없을 정도로 폭증한다. 따라서 실제 적용에는 제약이 따른다.3

3.2.2 모델 2: 분해된 인코더 (Factorised Encoder) - [핵심 제안]

ViViT 논문에서 가장 중점적으로 다루며, 실험적으로 최고의 효율성을 입증한 모델이다. 이 모델은 트랜스포머를 두 개의 분리된 인코더로 나눈다.

공간 인코더 (Spatial Encoder): 각 프레임 내의 공간 토큰들끼리만 상호작용한다. 이는 프레임 별로 독립적인 ViT를 수행하는 것과 같다. 이를 통해 각 프레임의 공간적 특징을 압축한 잠재 표현(Representation)을 생성한다 (예: CLS 토큰).
시간 인코더 (Temporal Encoder): 공간 인코더에서 출력된 프레임 별 요약 토큰들을 모아 시간적 상호작용을 수행한다.

매커니즘: 일종의 ‘Late Fusion’ 전략으로 볼 수 있다. 공간적 특징을 먼저 추출한 뒤, 이들의 시간적 변화를 모델링한다.
복잡도 분석: $O(n_t \cdot (n_h n_w)^2 + n_t^2)$ 로, 모델 1의 $O((n_t n_h n_w)^2)$ 에 비해 획기적으로 낮다.
장점: 파라미터 수는 모델 1보다 많을 수 있으나(인코더가 2개이므로), FLOPs(부동소수점 연산 수)는 훨씬 적어 더 깊은 모델이나 더 많은 프레임을 처리할 수 있게 한다.3

3.2.3 모델 3: 분해된 자기 주의 (Factorised Self-Attention)

하나의 트랜스포머 블록 내부에서 어텐션 연산을 공간과 시간으로 분리하는 방식이다.

매커니즘: 입력 토큰에 대해 먼저 ’공간적 자기 주의(Spatial Self-Attention)’를 수행하고, 이어서 ’시간적 자기 주의(Temporal Self-Attention)’를 수행한다. 즉, “공간 어텐션 -> 시간 어텐션 -> MLP” 순서로 블록이 구성된다.
특징: 레이어 수준이 아닌 연산 수준에서의 분해이다. 이 모델은 입력 텐서의 형태 변환(Reshape) 과정에서 모호성을 피하기 위해 일반적으로 CLS 토큰을 사용하지 않는다. 모델 2와 유사한 연산 효율성을 가지지만, 각 블록마다 어텐션이 두 번 수행되므로 파라미터 효율성은 다를 수 있다.3

3.2.4 모델 4: 분해된 점곱 어텐션 (Factorised Dot-Product Attention)

멀티 헤드 어텐션(Multi-Head Attention)의 헤드를 나누어 역할을 분담시키는 방식이다.

매커니즘: 예를 들어 헤드가 16개라면, 8개 헤드는 공간적 이웃 토큰들에만 집중(Attend)하고, 나머지 8개 헤드는 동일한 공간 위치의 시간적 이웃 토큰들에만 집중한다.
특징: 모델 1과 동일한 파라미터 수를 유지하면서도 연산 복잡도를 낮출 수 있다. 그러나 실험 결과, 모델 2에 비해 정확도가 다소 떨어지는 것으로 나타났다.3

4. 초기화 전략 및 정규화 (Initialization & Regularization)

순수 트랜스포머 모델은 CNN에 비해 데이터에 대한 귀납적 편향이 부족하여, 학습을 위해 방대한 양의 데이터가 필요하다는 ‘데이터 기근(Data Hunger)’ 특성을 가진다. 비디오 데이터셋(Kinetics 등)은 이미지 데이터셋(JFT-300M 등)에 비해 규모가 작기 때문에, ViViT의 성공적인 학습을 위해서는 대규모 이미지 데이터셋으로 사전 학습된 가중치를 효과적으로 전이(Transfer)하는 전략이 필수적이다.3

4.1 필터 팽창과 중앙 프레임 초기화 (Central Frame Initialization)

사전 학습된 이미지 모델은 2D 패치 입력을 가정하므로, 2D 필터( $d \times h \times w$ )를 가진다. 이를 튜브렛 임베딩을 위한 3D 필터( $d \times t \times h \times w$ )로 변환해야 한다.

평균 팽창 (Average Inflation): 3D CNN(예: I3D)에서 주로 사용된 방법으로, 2D 필터를 시간 축으로 $t$ 번 복제하고 $t$ 로 나누어 평균을 취한다.

수식: $E = \frac{1}{t} [E_{img},..., E_{img}]$

중앙 프레임 초기화 (Central Frame Initialization): ViViT 저자들이 제안한 핵심 기법이다. 3D 필터의 시간 축 중심(Center)에만 사전 학습된 2D 필터 가중치를 할당하고, 나머지 시간 위치는 0으로 초기화한다.

수식: $E = [0,..., E_{img},..., 0]$
효과: 학습 초기(Initial state)에는 튜브렛 임베딩이 마치 ’균일 프레임 샘플링’처럼 동작한다. 즉, 시간적 통합 없이 각 프레임의 특징을 독립적으로 추출하는 상태로 시작하여, 사전 학습된 이미지 모델의 성능을 100% 보존한다. 학습이 진행됨에 따라 주변 프레임의 가중치(0이었던 부분)가 업데이트되며 점진적으로 시간적 정보를 학습하게 된다. 이는 최적화 관점에서 매우 유리하며, 실험적으로 평균 팽창 방식보다 더 높은 성능과 빠른 수렴을 보였다.3

4.2 위치 임베딩의 적응

이미지 모델의 위치 임베딩은 2D 공간 정보만 가지고 있다. 이를 비디오로 확장할 때, ViViT는 공간적 위치 임베딩을 시간 축으로 복제(Repeat)하여 초기화한다. 즉, 서로 다른 프레임의 동일한 공간 위치( $x, y$ )에 있는 토큰들은 학습 시작 시점에는 동일한 위치 임베딩 값을 가진다. 이후 학습 과정을 통해 시간적 순서에 따른 위치 정보가 미세 조정(Fine-tuning)된다.3

4.3 정규화 기법 (Regularization)

작은 비디오 데이터셋에서의 과적합(Overfitting)을 방지하기 위해 ViViT는 강력한 정규화 전략을 사용한다. 이는 트랜스포머 기반 비디오 모델 학습의 ’표준 레시피’가 되었다.

Stochastic Depth: 깊은 네트워크 학습 시, 일정 확률로 레이어를 건너뛰어(Drop) 학습한다. 이는 앙상블 효과를 주며 과적합을 막는다.
데이터 증강 (Data Augmentation):
Mixup: 두 비디오 샘플의 픽셀과 라벨을 선형적으로 혼합한다.
Cutmix: 비디오의 일부분을 잘라내어 다른 비디오의 패치로 채워 넣는다.
RandAugment: 회전, 색상 변환 등 다양한 증강 기법을 무작위로 적용한다.
Label Smoothing: 정답 라벨을 0과 1이 아닌 부드러운 분포로 변환하여 모델의 과신(Overconfidence)을 방지한다.3

5. 실험 결과 및 성능 분석 (Experimental Analysis)

ViViT는 다양한 벤치마크 데이터셋에서 최첨단(State-of-the-Art, SOTA) 성능을 달성하였다. 각 데이터셋의 특성에 따른 ViViT의 성능을 상세히 분석한다.

5.1 Kinetics-400 & Kinetics-600

Kinetics 데이터셋은 유튜브 비디오 클립으로 구성된 행동 인식(Action Recognition)의 표준 벤치마크이다. 주로 객체의 외형(Appearance) 정보가 중요하며, 배경 정보가 행동 유추에 큰 힌트가 된다.

성능: ViViT-L(Large) 모델은 JFT-300M 대규모 데이터셋으로 사전 학습 후 전이 학습을 수행했을 때, Kinetics-400에서 83.5%, Kinetics-600에서 **85.8%**의 Top-1 정확도를 기록하였다.
비교: 이는 당시 최고의 3D CNN 모델들(SlowFast, X3D 등)을 큰 차이로 따돌리는 결과였다. 특히 Factorised Encoder(모델 2)를 사용할 경우, FLOPs는 기존 모델 대비 크게 증가하지 않으면서도 압도적인 정확도를 보여주어 ’효율적인 고성능’을 입증했다.3
인사이트: 외형 정보가 중요한 Kinetics에서는 ViT 기반의 강력한 공간 특징 추출 능력이 빛을 발했다.

[표 2] Kinetics-400 데이터셋에서의 모델 성능 비교

모델 (Model)	백본 (Backbone)	사전 학습 데이터	Top-1 정확도 (%)	FLOPs (G)
SlowFast R101	ResNet-101	ImageNet-1K	79.8	213
X3D-XL	-	-	79.1	48
TimeSformer-L	ViT-L	ImageNet-21K	80.7	2380
ViViT-L (FE)	ViT-L	ImageNet-21K	81.7	3980
ViViT-H	ViT-H	JFT-300M	84.9	-

5.2 Something-Something v2 (SSv2)

SSv2는 “무언가를 떨어뜨리기”, “무언가를 왼쪽에서 오른쪽으로 밀기“와 같이 객체 자체보다 시간적 순서와 동작의 패턴이 핵심인 데이터셋이다. 배경 정보가 억제되어 있어 시간적 모델링 능력을 평가하기에 적합하다.

초기 도전: 순수 공간 정보에 강한 트랜스포머에게는 까다로운 데이터셋이다. 초기 실험에서는 3D CNN에 비해 우위가 확실치 않았다.
극복: 그러나 ViViT는 충분한 모델 크기와 데이터가 뒷받침될 때, 그리고 Factorised Encoder를 통해 시간적 관계를 명시적으로 모델링할 때 강력한 성능을 보였다. ViViT-L 모델은 SSv2에서 65.4% (Top-1) 이상의 정확도를 기록하며 경쟁력을 입증했다.12
비교: TimeSformer와 비교했을 때, ViViT는 더 적은 수의 프레임으로도 높은 성능을 내는 경향을 보였으나, SSv2에서는 TimeSformer의 Divided Space-Time Attention 방식도 매우 효과적임이 드러났다.

5.3 Epic Kitchens-100

일인칭 시점(Egocentric)의 주방 활동을 담은 데이터셋으로, 급격한 카메라 움직임, 손에 의한 가려짐(Occlusion), 작은 객체 크기 등으로 난이도가 매우 높다. 평가는 동사(Verb)와 명사(Noun)를 각각 예측하고, 이를 조합한 행동(Action) 정확도를 측정한다.

강점: ViViT는 특히 명사(Noun) 인식에서 타의 추종을 불허하는 성능을 보였다. 이는 고해상도 이미지 처리와 전역적 문맥 파악에 능한 ViT의 특성 때문이다. 동사(Verb) 인식에서도 준수한 성능을 보였다.
챌린지 성과: 구글 리서치 팀은 ViViT를 기반으로 오디오, 광학 흐름(Optical Flow) 정보를 결합한 멀티모달 앙상블 모델을 구축하여, 2021년 및 2022년 Epic Kitchens 챌린지 행동 인식 부문에서 1위를 차지하였다.14
단일 모델 성능: 단일 모델로서도 ViViT는 기존의 SlowFast 기반 앙상블 모델보다 높은 성능을 기록하며, 복잡한 일인칭 비디오 분석에서도 트랜스포머가 유효함을 증명했다.15

6. 심화 분석 및 경쟁 모델 비교 (Comparative Analysis)

6.1 ViViT vs TimeSformer

페이스북 AI 리서치(FAIR)가 제안한 TimeSformer는 ViViT와 거의 동시에 발표된 유사한 컨셉의 모델이다.20

공통점: 둘 다 CNN을 배제하고 순수 트랜스포머를 사용하며, 시공간 어텐션을 분리하여 연산 효율성을 추구했다.
차이점 1 (아키텍처): TimeSformer는 “Divided Space-Time Attention” 방식을 주로 사용하는데, 이는 ViViT의 모델 3(Factorised Self-Attention)과 유사하다. 반면 ViViT는 모델 2(Factorised Encoder), 즉 공간 인코더와 시간 인코더를 완전히 층(Layer) 단위로 분리하는 방식에 더 집중하였다. ViViT의 방식은 공간적 특징을 고도로 추상화한 뒤 시간적 모델링을 수행하므로(Late Fusion), 더 많은 프레임을 처리하는 데 있어 메모리 효율성이 더 뛰어난 경향이 있다.
차이점 2 (입력): TimeSformer는 2D 패치 샘플링을 주로 사용한 반면, ViViT는 **튜브렛 임베딩(3D Conv)**의 중요성을 강조하였다. 튜브렛 임베딩은 초기 모션 정보를 잡는 데 더 유리하다.
결론: 두 모델 모두 우수하나, 대규모 데이터셋(JFT 등)을 활용한 확장성(Scalability) 측면에서는 ViViT의 Factorised Encoder 구조가 더 높은 고점(High ceiling)을 보여주었다.

6.2 순수 트랜스포머 vs 3D CNN

귀납적 편향의 양날의 검: 3D CNN(SlowFast, I3D)은 지역성과 이동 불변성이라는 강력한 편향 덕분에 적은 데이터로도 학습이 잘 되고 수렴이 빠르다. 그러나 이는 모델이 데이터로부터 더 복잡하고 전역적인 패턴을 학습하는 것을 방해하는 제약(Constraint)이 되기도 한다.
데이터 효율성: ViViT는 데이터가 적을 때는 3D CNN보다 성능이 낮거나 과적합되기 쉽다. 그러나 데이터가 충분히 많아지면(Large-scale regime), ViViT는 CNN의 성능 포화(Saturation) 지점을 뚫고 계속해서 성능이 향상되는 경향을 보인다.
추론 효율: ViViT(특히 Factorised Encoder)는 학습 비용은 높지만, 추론 시에는 3D CNN보다 FLOPs 대비 정확도 효율이 우수한 경우가 많다. 3D CNN은 모든 위치에서 3D 연산을 수행해야 하지만, ViViT는 중요하지 않은 정보는 어텐션 가중치를 통해 무시할 수 있기 때문이다.

7. 한계점 및 향후 발전 방향 (Limitations & Future Directions)

ViViT는 비디오 인식의 패러다임을 바꾸었으나 여전히 해결해야 할 과제들이 존재한다.

데이터 기근 (Data Hunger): ViViT의 최고 성능은 구글 내부의 JFT-300M과 같은 비공개 대규모 데이터셋에 의존한다. 일반 연구자들이 ImageNet-1K나 21K만으로 ViViT를 학습시켜 SOTA를 달성하기는 쉽지 않다. 이를 해결하기 위해 최근 **VideoMAE (Masked Autoencoders)**와 같은 자기 지도 학습(Self-Supervised Learning) 방법론이 대두되고 있으며, 이는 라벨 없는 대량의 비디오 데이터를 활용하여 데이터 효율성을 극적으로 높이고 있다.6
긴 비디오 처리의 한계: Factorised Encoder를 통해 효율성을 높였음에도 불구하고, 수 분 이상의 긴 비디오(Long-form video)를 처리하기에는 여전히 메모리 제약이 크다. 토큰의 수를 동적으로 줄이는 Token Pruning이나, 선형 복잡도를 가진 어텐션(Linear Attention) 메커니즘의 도입이 필요하다.
멀티모달 확장: ViViT는 시각 정보에 집중되어 있으나, 비디오는 오디오, 자막 등 다양한 양식을 포함한다. Epic Kitchens 챌린지에서 보여주었듯이, ViViT를 오디오 트랜스포머와 결합하거나 텍스트-비디오 모델(예: VideoCLIP)로 확장하는 연구가 활발히 진행 중이다.1

8. 결론 (Conclusion)

ViViT(Video Vision Transformer)는 이미지 분야에서 증명된 트랜스포머의 효용성을 비디오 도메인으로 성공적으로 확장시킨 기념비적인 연구이다. 구글 리서치 팀은 비디오 데이터의 4차원적 특성에 대응하기 위해 **튜브렛 임베딩(Tubelet Embedding)**을 통해 초기 시공간 정보를 포착하고, 분해된 인코더(Factorised Encoder) 구조를 통해 연산 효율성과 모델링 능력의 최적 균형점을 찾아내었다.

특히 **중앙 프레임 초기화(Central Frame Initialization)**와 같은 실용적인 학습 기법을 제안하여, 2D 이미지 모델의 풍부한 지식을 3D 비디오 모델로 전이하는 효과적인 경로를 개척하였다. Kinetics, Something-Something v2, Epic Kitchens 등 주요 벤치마크에서의 압도적인 성능은 비디오 이해(Video Understanding)의 주류 아키텍처가 3D CNN에서 트랜스포머로 전환되는 결정적인 계기가 되었다.

ViViT는 단순한 분류 모델을 넘어, 오늘날의 멀티모달 비디오 이해, 비디오 생성(Video Generation), 그리고 로보틱스 비전(Robotics Vision) 등 다양한 응용 분야의 기반(Foundation) 모델로서 그 기술적 가치를 지속적으로 증명하고 있다. 향후 연구는 ViViT의 구조적 효율성을 더욱 개선하고, 자기 지도 학습을 통해 데이터 의존성을 줄이는 방향으로 진화할 것이다.

9. 참고 자료

ViViT: A Video Vision Transformer - Anurag Arnab - SciSpace, https://scispace.com/papers/vivit-a-video-vision-transformer-36v65snadn
arXiv:2106.13014v1 [cs.CV] 24 Jun 2021, https://arxiv.org/pdf/2106.13014
ViViT: A Video Vision Transformer - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2021/papers/Arnab_ViViT_A_Video_Vision_Transformer_ICCV_2021_paper.pdf
Video Vision Transformer - Keras, https://keras.io/examples/vision/vivit/
Video Vision Transformer (ViViT) - GeeksforGeeks, https://www.geeksforgeeks.org/computer-vision/video-vision-transformer-vivit/
[PDF] ViViT: A Video Vision Transformer - Semantic Scholar, https://www.semanticscholar.org/paper/ViViT%3A-A-Video-Vision-Transformer-Arnab-Dehghani/b6382a7351c0c595f91472ac71d3b2d87b3c4844
Video Vision Transformer (ViViT) - Hugging Face, https://huggingface.co/docs/transformers/model_doc/vivit
Building Vision Transformers (ViT) from Scratch | by Maninder Singh, https://medium.com/@manindersingh120996/building-vision-transformers-vit-from-scratch-1f46a36ed44b
Interactive Look: Self-Attention in Vision Transformers - Abhik Sarkar, https://www.abhik.xyz/concepts/attention/self-attention-vit
(PDF) ViViT: A Video Vision Transformer - ResearchGate, https://www.researchgate.net/publication/350512479_ViViT_A_Video_Vision_Transformer
Transformers in Video Processing (Part 1) - Hugging Face, https://huggingface.co/learn/computer-vision-course/unit7/video-processing/transformers-based-models
Optimizing ViViT Training: Time and Memory Reduction for Action …, https://arxiv.org/pdf/2306.04822
Position Embeddings for Vision Transformers, Explained, https://towardsdatascience.com/position-embeddings-for-vision-transformers-explained-a6f9add341d5/
arXiv:2106.05058v1 [cs.CV] 9 Jun 2021, https://arxiv.org/pdf/2106.05058
Towards Training Stronger Video Vision Transformers for EPIC …, https://ar5iv.labs.arxiv.org/html/2106.05058
[Quick Review] ViViT: A Video Vision Transformer - Liner, https://liner.com/review/vivit-video-vision-transformer
Comparison of performance on Something-Something-V2., https://www.researchgate.net/figure/Comparison-of-performance-on-Something-Something-V2_tbl3_363192335
Optimizing Factorized Encoder Models: Time and Memory …, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01635.pdf
EPIC-KITCHENS-100- 2022 Challenges Report, https://epic-kitchens.github.io/Reports/EPIC-KITCHENS-Challenges-2022-Report.pdf
TimeSFormer: Efficient and Effective Video Understanding Without …, https://medium.com/@kdk199604/timesformer-efficient-and-effective-video-understanding-without-convolutions-249ea6316851
TimeSformer: Is Space-Time Attention All You Need for Video …, https://medium.com/lunit/timesformer-is-space-time-attention-all-you-need-for-video-understanding-5668e84162f4
Daily Papers - Hugging Face, https://huggingface.co/papers?q=Something-Something-v2