MobileViT 경량화, 범용성, 모바일 친화적 비전 트랜스포머 (2021-10-05)

2025-12-13, G30DR

1. 서론: 모바일 비전 컴퓨팅의 패러다임 전환과 하이브리드 아키텍처의 부상

지난 10년 동안 컴퓨터 비전(Computer Vision) 분야는 딥러닝, 특히 합성곱 신경망(Convolutional Neural Networks, CNN)의 비약적인 발전에 힘입어 전례 없는 성장을 이룩했다. 이미지 분류, 객체 탐지, 의미론적 분할(Semantic Segmentation)과 같은 핵심 과제에서 CNN은 인간의 인지 능력을 상회하는 성능을 보여주며 사실상의 표준(De-facto standard)으로 자리 잡았다. 특히 모바일 장치와 엣지 디바이스(Edge Devices)의 보급 확대로 인해, 제한된 하드웨어 자원 내에서 고성능을 보장하는 경량화 모델에 대한 수요가 폭발적으로 증가했다. 이에 따라 MobileNet, ShuffleNet, GhostNet과 같은 효율적인 CNN 아키텍처들이 등장하여 모바일 비전 애플리케이션의 기반을 닦았다.1

그러나 CNN은 본질적으로 국소적인 수용 영역(Local Receptive Field)을 가지는 특성이 있다. 이는 이미지 내의 인접한 픽셀들 간의 관계를 학습하는 데에는 유리하지만, 이미지 전체에 걸친 장거리 의존성(Long-range Dependencies)을 포착하는 데에는 구조적인 한계를 지닌다. 이를 극복하기 위해 자연어 처리(NLP) 분야를 석권한 트랜스포머(Transformer) 아키텍처를 비전 분야에 도입하려는 시도가 이어졌고, 그 결과 비전 트랜스포머(Vision Transformer, ViT)가 탄생했다. ViT는 자기 주의(Self-Attention) 메커니즘을 통해 이미지의 전역적인 문맥(Global Context)을 효과적으로 학습할 수 있음을 입증했다. 하지만 초기 ViT 모델들은 수백만 개 이상의 파라미터를 가진 거대 모델(Heavy-weight)이었으며, CNN이 가진 공간적 귀납 편향(Spatial Inductive Bias)의 부재로 인해 학습이 어렵고 과적합(Overfitting)에 취약하며 막대한 양의 학습 데이터를 필요로 한다는 단점이 있었다.1

이러한 배경 속에서 2022년 Apple의 연구진(Sachin Mehta, Mohammad Rastegari)이 제안한 MobileViT는 CNN과 ViT의 장점만을 결합하여 모바일 환경에 최적화된 새로운 하이브리드 아키텍처를 제시했다. MobileViT는 “경량화(Light-weight)”, “범용성(General-purpose)”, “모바일 친화적(Mobile-friendly)“이라는 세 가지 핵심 목표를 달성하기 위해 설계되었다. 본 보고서는 MobileViT의 설계 철학, 아키텍처의 세부 메커니즘, 파생 모델(v2, v3)로의 진화 과정, 그리고 모바일 장치에서의 실제 성능 및 한계점을 포괄적으로 분석한다. 또한, MobileNet 시리즈 및 최신 경량화 모델들과의 비교를 통해 MobileViT가 제시하는 하이브리드 아키텍처의 효용성과 기술적 함의를 심도 있게 고찰한다.

2. MobileViT 아키텍처 설계 및 방법론: 합성곱으로서의 트랜스포머

MobileViT의 가장 큰 혁신은 트랜스포머를 기존 CNN 아키텍처의 대체제가 아닌, 합성곱 연산의 확장된 형태로 재해석했다는 점에 있다. 연구진은 이를 “합성곱으로서의 트랜스포머(Transformers as Convolutions)“라고 명명하며, CNN의 구조적 이점을 유지하면서 트랜스포머의 전역 처리 능력을 주입하는 전략을 취했다.

2.1 MobileViT 블록의 구조와 작동 원리

MobileViT 아키텍처의 핵심은 MobileViT 블록이다. 이 블록은 입력 텐서 $X \in \mathbb{R}^{H \times W \times C}$ 를 받아 국소적 정보와 전역적 정보를 모두 학습한 후 다시 원래의 차원으로 복원하는 정교한 과정을 수행한다. 이 과정은 크게 국소 표현 학습, 전역 표현 학습, 그리고 융합의 세 단계로 나눌 수 있다.2

2.1.1 국소 표현 학습 (Local Representations via Convolutions)

입력 텐서 $X$ 는 먼저 표준 $n \times n$ 합성곱(주로 $3 \times 3$ )을 통과한다. 이 단계는 CNN의 특성을 활용하여 이미지의 공간적 귀납 편향을 모델에 주입하고 저수준의 특징(Edge, Texture 등)을 포착하는 역할을 한다. $3 \times 3$ 합성곱을 통해 $X$ 는 공간적 정보가 인코딩된 중간 특징 맵으로 변환된다. 이어 $1 \times 1$ 점별 합성곱(Pointwise Convolution)을 통해 채널 차원을 $C$ 에서 $d$ 로 투영(Projection)한다. 이 과정은 후속 트랜스포머 연산을 위한 선형 결합(Linear Combination)을 수행하며, 연산 효율성을 위해 채널 수를 조절하는 역할도 겸한다.6

2.1.2 전역 표현 학습 (Global Representations via Transformers)

MobileViT의 독창성은 국소 특징을 전역 특징으로 변환하는 방식에서 드러난다. 기존 ViT는 이미지를 패치로 자르고 1차원 시퀀스로 평탄화(Flatten)하여 공간 정보를 잃어버리는 반면, MobileViT는 Unfolding(펼침) 연산을 통해 공간 정보를 보존한다.

Unfolding (펼침): 특징 맵을 겹치지 않는 $P \times P$ 크기의 패치로 나눈다. 이를 통해 특징 맵은 $P \times P$ 크기의 패치 $N$ 개로 재구성된다( $N = \frac{H \times W}{P \times P}$ ). 이때 텐서의 형태는 공간적 위치 정보를 유지하는 방식으로 변환된다.
Transformer (트랜스포머): 펼쳐진 패치들에 대해 표준 트랜스포머 인코더(Multi-head Self-Attention)를 적용한다. 여기서 중요한 점은, 트랜스포머가 각 패치 내부의 픽셀 간 관계를 학습하는 것이 아니라, 서로 다른 패치에 존재하는 동일한 상대적 위치의 픽셀들 간의 관계를 학습한다는 것이다. 즉, $(i, j)$ 위치에 있는 픽셀은 다른 모든 패치의 $(i, j)$ 위치 픽셀들과 주의(Attention)를 계산한다. 이를 통해 모델은 공간적 위치 정보를 잃지 않으면서 이미지 전체에 걸친 전역적 정보를 효과적으로 인코딩할 수 있다. 이는 유효 수용 영역(Effective Receptive Field)을 $H \times W$ 전체로 확장하는 효과를 낳는다.2
Folding (접힘): 트랜스포머를 통과하여 전역 정보가 반영된 벡터들은 다시 원래의 공간 해상도( $H \times W$ )를 가진 특징 맵으로 접힌다(Fold). 이 과정에서 각 픽셀은 자신의 위치 정보를 유지한 채 이미지 전체의 문맥 정보를 함유하게 된다.

2.1.3 융합 (Fusion)

전역 정보를 담은 특징 맵은 다시 $1 \times 1$ 점별 합성곱을 거쳐 원래 채널 크기( $C$ )로 복원된다. 그 후, 원본 입력 특징 맵(국소 정보만을 담고 있는 초기 텐서)과 채널 방향으로 연결(Concatenation)된다. 마지막으로 $n \times n$ 합성곱(주로 $3 \times 3$ )을 통해 연결된 국소 특징과 전역 특징을 융합한다. 이 융합 과정을 통해 MobileViT 블록의 출력은 이미지의 세밀한 디테일과 전체적인 구조 정보를 동시에 포함하게 된다.

이러한 설계는 트랜스포머를 마치 하나의 합성곱 레이어처럼 보이게 만든다. 입력과 출력의 텐서 형태가 동일하므로( $H \times W \times C$ ), 기존 CNN 아키텍처 내에 MobileViT 블록을 이질감 없이 삽입하거나 교체할 수 있다.2

2.2 전체 네트워크 아키텍처 구성

MobileViT 아키텍처는 효율적인 추론을 위해 MobileNetV2의 역잔차 블록(Inverted Residual Block, MV2)과 MobileViT 블록을 단계적으로 배치하는 구조를 채택했다.

Stem (초기 단계): 네트워크의 시작 부분은 $3 \times 3$ 표준 합성곱으로 구성된다. 이는 입력 이미지의 해상도를 유지하면서 기본적인 특징을 추출하는 단계이다.
MV2 블록 (중간 단계): 초기 및 중간 레이어에서는 주로 MV2 블록을 사용하여 특징 맵의 해상도를 줄이고(Downsampling), 국소적인 특징을 효율적으로 학습한다. MV2 블록은 깊이별 분리 합성곱(Depthwise Separable Convolution)을 사용하여 연산량과 파라미터 수를 최소화한다.
MobileViT 블록 (후기 단계): 특징 맵의 공간 해상도가 충분히 작아진 후반부(예: $32 \times 32$ , $16 \times 16$ , $8 \times 8$ )에 MobileViT 블록을 배치한다. 고해상도에서 트랜스포머를 적용하는 것은 연산 비용이 매우 높기 때문에, 해상도가 낮아진 상태에서 전역적인 문맥 처리를 수행하여 효율성을 극대화하는 전략이다.
Head (최종 단계): 마지막으로 전역 평균 풀링(Global Average Pooling)과 완전 연결 층(Fully Connected Layer)을 통해 최종적인 분류 또는 예측을 수행한다.2

MobileViT는 모델 크기에 따라 XXS, XS, S 등 다양한 변형을 제공하며, 각 변형은 채널의 폭(Width)과 블록의 깊이(Depth)를 조절하여 파라미터 수와 연산량을 최적화한다.

2.3 다중 스케일 샘플러 (Multi-scale Sampler)를 통한 학습 효율화

ViT 기반 모델들은 일반적으로 고정된 입력 해상도를 사용하여 학습하며, 다른 해상도로 미세 조정(Fine-tuning)하려면 위치 임베딩을 보간(Interpolate)해야 하는 복잡함이 있다. 그러나 MobileViT는 위치 임베딩을 사용하지 않는 구조적 특성 덕분에 다양한 해상도의 입력을 유연하게 처리할 수 있다.

저자들은 이러한 특성을 활용하여 학습 효율과 일반화 성능을 동시에 높이기 위해 다중 스케일 샘플러(Multi-scale Sampler) 전략을 도입했다. 이 전략의 핵심은 학습 과정에서 매 배치마다 입력 이미지의 해상도를 동적으로 변경하는 것이다.

동적 배치 크기 조정: 단순히 이미지 크기만 바꾸는 것이 아니라, 해상도에 따라 배치 크기(Batch Size)를 조정하여 GPU 메모리 사용량을 최적화한다. 해상도가 낮을수록 더 큰 배치 크기를 사용하고, 해상도가 높을수록 작은 배치 크기를 사용하여 전체적인 학습 속도를 향상시킨다.
공식: $t$ 번째 배치의 배치 크기 $b_t$ 는 최대 해상도 $(H_n, W_n)$ 와 기본 배치 크기 $b$ 를 기준으로 다음과 같이 계산된다:
$b_t = \frac{H_n \times W_n \times b}{H_t \times W_t}$
여기서 $(H_t, W_t)$ 는 현재 배치의 해상도이다.
효과: 이 방식은 모델이 다양한 스케일의 특징에 강건해지도록(Robust) 돕는다. 실험 결과, 다중 스케일 샘플러를 적용했을 때 동일한 모델 구조에서도 정확도가 약 0.5% 향상되었으며, 추론 시 다양한 해상도의 이미지가 입력되더라도 별도의 튜닝 없이 높은 성능을 유지할 수 있었다.2

3. MobileViT 패밀리의 진화: v1에서 v3까지

2022년 초기 MobileViT(v1) 발표 이후, 모델의 연산 효율성과 확장성을 더욱 개선하기 위한 후속 연구들이 빠르게 진행되었다. 이는 모바일 환경에서의 “지연 시간(Latency)” 문제를 해결하고 모델의 표현력을 강화하기 위함이었다.

3.1 MobileViT v2: 분리 가능한 자기 주의 (Separable Self-Attention)

MobileViT v1은 높은 정확도를 달성했지만, 다중 헤드 자기 주의(MHSA) 연산의 복잡도가 입력 토큰 수( $N$ )의 제곱( $O(N^2)$ )에 비례한다는 구조적 한계가 있었다. 이는 고해상도 이미지를 처리할 때 막대한 연산 비용과 메모리 사용량을 초래하여 모바일 기기에서의 실시간 추론을 방해하는 요인이 되었다.

이를 해결하기 위해 제안된 MobileViT v2는 분리 가능한 자기 주의(Separable Self-Attention) 메커니즘을 도입하여 연산 복잡도를 획기적으로 낮추었다.

개념적 전환: 기존의 MHSA가 모든 토큰 간의 관계를 계산( $N \times N$ )하는 반면, 분리 가능한 자기 주의는 잠재 토큰(Latent Token, $L$ ) 개념을 도입하여 연산을 두 단계로 분리한다.
연산 과정:

정보 수집 (Gather): 입력 토큰들이 잠재 토큰으로 정보를 전달한다. 이는 입력 이미지의 정보를 소수의 잠재 벡터로 압축하는 과정이다.
정보 분배 (Distribute): 잠재 토큰 내에서 처리된 정보가 다시 원래의 입력 토큰들로 전파된다.

복잡도 개선: 이 방식은 $Q, K, V$ 행렬 곱셈을 요소별(Element-wise) 연산과 합산(Summation)으로 대체하여 전체 연산 복잡도를 선형 시간( $O(N)$ )으로 감소시켰다.
구조 단순화: v2는 v1에 존재했던 복잡한 융합 블록(Fusion Block)을 제거하고, 단순한 잔차 연결(Residual Connection)만을 사용하여 모델의 구조를 경량화했다. 결과적으로 MobileViT v2는 동일한 파라미터 수준에서 v1 대비 약 3.2배 빠른 추론 속도를 달성하며 고해상도 작업에서의 효율성을 크게 높였다.5

3.2 MobileViT v3: 융합의 재발견과 구조적 완성

MobileViT v2는 속도 면에서 큰 진전을 이루었으나, 융합 블록의 제거로 인해 국소 특징과 전역 특징의 결합력이 약해져 일부 작업에서 정확도 손실이 발생했다. 또한, v1 아키텍처는 모델의 폭(Width, 채널 수)을 늘릴 때 파라미터 수가 급격히 증가하는 확장성(Scalability) 문제를 안고 있었다. MobileViT v3는 이러한 v1과 v2의 단점을 모두 보완하기 위해 설계되었다.

1x1 융합 (1x1 Fusion): v1에서 사용된 $3 \times 3$ 융합 합성곱은 채널 수가 늘어날수록 연산량이 기하급수적으로 증가하는 병목 구간이었다. v3는 이를 $1 \times 1$ 합성곱으로 대체하여 연산 효율성을 유지하면서도 국소-전역 특징의 융합 기능을 복원했다. 이는 파라미터 수를 획기적으로 줄이면서도 정보 통합 능력을 유지하는 핵심 설계 변경이다.
입력 잔차 연결 (Input Residual Connection): v3는 융합 블록의 출력에 원본 입력 특징을 더해주는 잔차 연결을 추가했다. 이는 그래디언트 소실 문제를 완화하고 학습의 안정성을 높여 모델이 더 깊고 넓어지더라도 효율적으로 학습될 수 있게 했다.
로컬 표현 블록 최적화: 국소 표현 블록 내의 표준 $3 \times 3$ 합성곱을 깊이별 분리 합성곱(Depthwise Separable Convolution)으로 교체하여 파라미터 효율성을 더욱 높였다.
성능: 이러한 개선을 통해 MobileViT v3는 v1 및 v2보다 적은 파라미터로 더 높은 정확도를 달성했다. 특히 ImageNet-1K 분류에서 v3-S 모델은 동급 경량 모델 중 최고 수준의 정확도(79.3%)를 기록하며 하이브리드 아키텍처의 완성형을 보여주었다.5

4. 성능 평가 및 비교 분석: 수치로 증명된 우월성

MobileViT의 성능은 이미지 분류, 객체 탐지, 의미론적 분할 등 다양한 컴퓨터 비전 작업에서 광범위하게 검증되었다. 특히 MobileNetV2, MobileNetV3와 같은 기존의 최첨단(State-of-the-Art) 경량 모델들과의 비교를 통해 그 우월성이 입증되었다.

4.1 이미지 분류 (ImageNet-1K)

ImageNet-1K 데이터셋을 이용한 분류 작업에서 MobileViT는 적은 파라미터 수로도 기존 모델들을 압도하는 성능을 보였다.

모델	파라미터 수 (M)	Top-1 정확도 (%)	특징 및 비고
MobileNetV2 (1.0)	3.4	71.8	경량 CNN의 표준
MobileNetV3-Large	5.4	75.2	NAS(Neural Architecture Search)로 최적화됨
DeiT-Tiny	5.7	72.2	초기 경량화 ViT 모델
MobileViT-S (v1)	5.6	78.4	MobileNetV3 대비 +3.2%, DeiT 대비 +6.2%
MobileViT-XS (v1)	2.3	74.8	초경량 모델에서도 높은 성능 유지
EfficientNet-B0	5.3	76.3	복합 스케일링 적용 CNN
MobileViT v3-S	5.x	79.3	v1 및 v2 대비 최고 성능 달성

분석: 약 5~6백만 개의 파라미터 예산에서 MobileViT-S는 MobileNetV3보다 3.2%, DeiT보다 6.2% 높은 정확도를 기록했다. 이는 단순한 수치 차이를 넘어, CNN의 공간적 귀납 편향과 트랜스포머의 전역적 문맥 이해 능력이 결합되었을 때의 시너지 효과를 명확히 보여준다. 특히 MobileViT는 복잡한 데이터 증강(Augmentation) 기법 없이 기본적인 학습 설정만으로도 이러한 성능을 달성하여 모델 자체의 견고성(Robustness)과 학습 용이성을 증명했다.2

4.2 객체 탐지 및 의미론적 분할 (Dense Prediction Tasks)

MobileViT의 진가는 단순 분류보다 문맥 이해가 중요한 고밀도 예측(Dense Prediction) 작업에서 더욱 두드러진다. 객체의 위치를 정확히 파악하거나 픽셀 단위로 분류해야 하는 작업에서는 전역적인 정보 처리가 필수적이기 때문이다.

객체 탐지 (MS-COCO Dataset): SSDLite 탐지 네트워크의 백본으로 MobileViT를 사용했을 때, MobileNetV3 백본을 사용한 경우보다 mAP(mean Average Precision)가 5.7% 향상되었다. 이는 파라미터 수가 비슷함에도 불구하고 성능 차이가 극명하게 나타난 사례로, MobileViT의 전역적 문맥 정보가 객체 식별 및 위치 추정에 결정적인 기여를 했음을 시사한다.1
의미론적 분할 (Pascal VOC & ADE20K): DeepLabv3 아키텍처에서 MobileViT-XS를 백본으로 사용했을 때, MobileNetV2 기반 모델보다 파라미터 수는 1.6배 적으면서도 mIOU(mean Intersection Over Union) 성능은 더 높게 측정되었다(77.1% vs 75.7%). 또한, ADE20K 데이터셋에서도 MobileViT v3 모델들이 v2 모델들보다 약 1.6%~2.0% 높은 mIOU를 기록하며 복잡한 장면 분할에서도 우수한 성능을 입증했다.2

5. 지연 시간(Latency) 분석과 논쟁: 모바일 친화적인가?

MobileViT는 “모바일 친화적(Mobile-friendly)“이라는 타이틀을 걸고 있지만, 실제 하드웨어에서의 지연 시간(Latency)은 연구 커뮤니티 내에서 뜨거운 논쟁의 대상이 되었다. FLOPs(초당 부동소수점 연산 수)가 낮다고 해서 반드시 실제 실행 속도가 빠른 것은 아니라는 “모바일 AI의 역설“을 보여주는 대표적인 사례이기 때문이다.

5.1 이론적 효율성 대 실제 속도

이론적으로 MobileViT의 FLOPs는 경쟁 모델들과 유사하거나 더 낮다. 그러나 iPhone 12와 같은 실제 모바일 장치에서 CoreML로 측정된 지연 시간은 MobileNetV2나 V3보다 현저히 느리게 나타난다.

모델	파라미터 수 (M)	ImageNet Top-1 (%)	Latency (iPhone 12, ms)	비고
MobileNetV2	3.5	71.8	~1.7 ms	매우 빠름
MobileNetV3	5.4	75.2	~1.01 ms	하드웨어 최적화
MobileViT-XS	2.3	74.8	~7.28 ms	상대적으로 느림
RepViT (Ours)	-	79.2 (Simulated)	~1.6 ms	최신 최적화 모델
EfficientViT-L1	-	79.2	~1.6 ms	지연 시간 최적화

원인 분석 (Why is it slower?):

메모리 접근 비용 (Memory Access Cost): MobileViT의 핵심인 Unfold, Reshape, Gather/Scatter 연산은 메모리에 연속적으로 접근하지 않는 경우가 많다. 이는 캐시 적중률(Cache Hit Rate)을 떨어뜨리고 메모리 대역폭을 과도하게 사용하여, 단순한 연산량(MACs) 지표에는 반영되지 않는 막대한 시간 비용을 발생시킨다.15
하드웨어 최적화 부족: 모바일 기기의 NPU(Neural Processing Unit)와 GPU는 $3 \times 3$ 표준 합성곱과 같은 CNN 연산에 고도로 최적화되어 있다. 반면, MobileViT가 사용하는 복잡한 텐서 변환 및 어텐션 연산은 이러한 하드웨어 가속의 이점을 온전히 누리기 어렵다.16
비선형 활성화 함수: MobileViT는 Layer Normalization이나 GELU 등의 활성화 함수를 사용하는데, 이는 CNN에서 주로 사용하는 Batch Normalization(추론 시 합성곱에 융합 가능)과 ReLU 조합보다 추론 시 연산 비용이 높고 최적화가 덜 되어 있다.16

이러한 “지연 시간 격차(Latency Gap)“는 이후 EfficientFormer, RepViT, FastViT와 같은 후속 연구들이 등장하는 직접적인 계기가 되었다. 이들 연구는 MobileViT의 높은 정확도를 유지하면서도 모바일 하드웨어 친화적인 연산(예: 구조적 재배열, BN 융합)을 사용하여 실제 속도를 MobileNet 수준으로 끌어올리는 것을 목표로 했다.17

6. 산업 및 연구 분야에서의 실제 응용 사례

MobileViT는 그 범용성과 높은 정확도 덕분에 단순한 연구 대상을 넘어 다양한 산업 및 과학 분야에서 실질적인 해결책으로 활용되고 있다.

6.1 의료 영상 분석 (Medical Imaging)

의료 분야에서 정확도는 환자의 생명과 직결되는 중요한 요소이다. MobileViT는 병변의 국소적 특징(질감, 경계)과 전역적 분포(위치, 확산)를 동시에 분석할 수 있어 진단 모델로 각광받고 있다.

피부 병변 및 가축 질병 분류: 소의 럼피 스킨 병(Lumpy Skin Disease) 분류 연구에서 MobileViT는 병변의 세밀한 텍스처와 전체적인 피부 상태를 함께 학습하여 기존 CNN 모델 대비 높은 분류 정확도와 정밀도를 달성했다. 또한 피부암(Melanoma) 진단에서도 합성곱과 트랜스포머의 이점을 활용하여 오진율을 낮추는 데 기여했다.1
구강암 탐지: SE-MobileViT라는 변형 모델은 구강 병변 탐지에서 활용되어, 자원 제약적인 임상 환경에서도 높은 정확도와 자원 효율성을 입증했다. 이는 고가의 GPU 서버 없이도 현장 진단 기기(Point-of-Care)에서 AI 진단이 가능함을 시사한다.20
심전도(ECG) 분석: 1차원 시계열 데이터인 ECG 신호 분석을 위해 변형된 MobileViT-ECA 모델은 LSTM(Long Short-Term Memory)과 결합되어 심방세동(Atrial Fibrillation) 탐지에 활용되었다. 이 하이브리드 모델은 심박 패턴의 국소적 이상과 장기적인 리듬 변화를 동시에 포착하여 87.80%의 높은 정확도를 기록했다.21

6.2 스마트 농업 및 식품 산업 (Smart Agriculture)

농작물 모니터링: 토마토 재배 모니터링 시스템이나 커피 원두의 로스팅 레벨 식별 시스템에서 MobileViT는 경량화된 백본으로 채택되었다. 드론이나 엣지 카메라와 같은 저전력 장비에서 실시간으로 작물의 상태를 분석하고 수확 시기를 판단하는 데 있어, MobileViT의 경량성은 핵심적인 역할을 수행했다.1

6.3 지능형 교통 시스템 (Intelligent Transport Systems)

운전자 모니터링: 운전자의 주의 분산(Distracted Driving)을 실시간으로 탐지하는 시스템에서 MobileViT는 높은 프레임 속도와 정확도를 동시에 만족하는 모델로 평가받았다. 복잡한 차내 환경에서 운전자의 미세한 표정 변화(국소)와 전체적인 자세(전역)를 통합적으로 분석하여 안전 운전을 돕는 기술로 활용되고 있다.1

7. 결론 및 향후 전망

MobileViT는 컴퓨터 비전 역사에서 “경량화“와 “고성능“이라는 두 마리 토끼를 잡기 위해 CNN과 트랜스포머의 이분법적 대립을 넘어선 기념비적인 연구이다. Apple 연구진은 트랜스포머를 합성곱의 관점에서 재해석함으로써, 데이터 효율성과 학습 안정성이라는 CNN의 장점과 장거리 의존성 모델링이라는 ViT의 장점을 유기적으로 결합하는 데 성공했다.

핵심 요약:

구조적 혁신: “트랜스포머를 합성곱처럼” 다루는 MobileViT 블록은 하이브리드 아키텍처 설계의 새로운 표준을 제시했다.
성능 우위: MobileNetV3를 비롯한 기존의 강력한 경량 모델들을 정확도 면에서 확실히 앞섰으며, 특히 객체 탐지와 분할 작업에서 탁월한 성능을 보였다.
한계 인식: 실제 모바일 기기에서의 지연 시간(Latency) 문제는 여전히 해결해야 할 과제로 남아 있으며, 이는 후속 연구인 EfficientViT, RepViT 등으로 이어지는 기술적 진보의 촉매제가 되었다.

향후 전망:

MobileViT 이후 등장한 v2, v3, 그리고 다양한 파생 연구들의 흐름을 볼 때, “하이브리드 구조의 초경량화” 트렌드는 앞으로도 지속될 것이다. 특히 단순한 파라미터 감소를 넘어, 실제 하드웨어의 특성(메모리 계층, 병렬 처리 구조)을 고려한 지연 시간 인식 신경망 탐색(Latency-aware Neural Architecture Search) 방향으로 연구가 심화될 것이다. MobileViT는 이러한 엣지 AI(Edge AI) 시대를 여는 핵심적인 원천 기술로서, 앞으로도 모바일 비전 컴퓨팅의 중요한 벤치마크이자 영감의 원천으로 남을 것이다.

8. 참고 자료

Light-weight, General-purpose, and Mobile-friendly Vision Transformer, https://www.researchgate.net/publication/355093218_MobileViT_Light-weight_General-purpose_and_Mobile-friendly_Vision_Transformer
mobilevit: light-weight, general-purpose - arXiv, https://arxiv.org/pdf/2110.02178
Review — MobileViT: Light-weight, General-purpose, and Mobile …, https://sh-tsang.medium.com/review-mobilevit-light-weight-general-purpose-and-mobile-friendly-vision-transformer-3ef154376e93
Light-weight, General-purpose, and Mobile-friendly Vision Transformer, https://www.alphaxiv.org/overview/2110.02178v2
MobileViT Block Overview, https://www.emergentmind.com/topics/mobilevit-block
MobileViT v2 - Hugging Face Community Computer Vision Course, https://huggingface.co/learn/computer-vision-course/unit3/vision-transformers/mobilevit
MobileViT Architecture - Emergent Mind, https://www.emergentmind.com/topics/mobilevit-architecture
MobileViT Explained: Global Context with Mobile Efficiency …, https://medium.com/@ovularslan/mobilevit-explained-global-context-with-mobile-efficiency-pytorch-implementation-b7b0a1241a18
MobileViT: A mobile-friendly Transformer-based model for image …, https://keras.io/examples/vision/mobilevit/
MobileViTv3: Mobile-Friendly Vision Transformer with Simple and …, https://sh-tsang.medium.com/brief-review-mobilevitv3-mobile-friendly-vision-transformer-with-simple-and-effective-fusion-of-4faee5740a63
Mobile-Friendly Vision Transformer with Simple and Effective Fusion …, https://www.researchgate.net/publication/364110059_MobileViTv3_Mobile-Friendly_Vision_Transformer_with_Simple_and_Effective_Fusion_of_Local_Global_and_Input_Features
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS - OpenReview, https://openreview.net/pdf/3c077e568e6e2a9686448126c1f9386f26a96496.pdf
Light-weight, General-purpose, and Mobile-friendly Vision Transformer, https://liner.com/review/mobilevit-lightweight-generalpurpose-and-mobilefriendly-vision-transformer
Light-weight, General-purpose, and Mobile-friendly Vision Transformer, https://arxiv.org/abs/2110.02178
[Literature Review] A Study on Inference Latency for Vision …, https://www.themoonlight.io/en/review/a-study-on-inference-latency-for-vision-transformers-on-mobile-devices
EfficientViT: Vision Transformers at MobileNet Speed - OpenReview, https://openreview.net/references/pdf?id=qZQzyaVD_
Rethinking Vision Transformers for MobileNet Size and Speed, https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Rethinking_Vision_Transformers_for_MobileNet_Size_and_Speed_ICCV_2023_paper.pdf
RepViT: Revisiting Mobile CNN From ViT Perspective - arXiv, https://arxiv.org/html/2307.09283v7
HI-MViT: A lightweight model for explainable skin disease …, https://pmc.ncbi.nlm.nih.gov/articles/PMC10576942/
(PDF) Benchmarking SE-MobileViT Against Heavyweight Models, https://www.researchgate.net/publication/395636332_Benchmarking_SE-MobileViT_Against_Heavyweight_Models_Comparative_study_of_accuracy_latency_and_resource_efficiency_for_oral_cancer_detection_tasks
A Multi-Scale Deep Learning Framework Combining MobileViT-ECA …, https://www.researchgate.net/publication/391580904_A_Multi-Scale_Deep_Learning_Framework_Combining_MobileViT-ECA_and_LSTM_for_Accurate_ECG_Analysis
A comparison between: (a) MobileViTv1 and MobileViTv3 modules …, https://www.researchgate.net/figure/A-comparison-between-a-MobileViTv1-and-MobileViTv3-modules-and-b-MobileViTv2-and_fig2_364110059