Chapter 87. 주의 메커니즘의 비전 확장: 비전 트랜스포머(ViT)의 등장 배경 Chapter 87. 주의 메커니즘의 비전 확장: 비전 트랜스포머(ViT)의 등장 배경 87.1합성곱 신경망(CNN)의 지역적 수용장 한계와 장거리 의존성 문제 87.2자연어 처리에서의 자기 주의(Self-Attention) 메커니즘 성공 사례 87.3트랜스포머 아키텍처의 핵심 구성 요소 복습: 쿼리, 키, 값 행렬 87.4비전 태스크에 대한 주의 메커니즘 적용의 초기 시도 87.5비전 트랜스포머(ViT)의 제안 동기와 “An Image is Worth 16x16 Words” 논문 개요 87.6이미지의 패치 시퀀스 변환: 2차원 공간 데이터의 1차원 토큰화 87.7패치 임베딩(Patch Embedding)의 선형 투영 연산과 차원 매핑 87.8위치 임베딩(Position Embedding)의 필요성과 학습 가능한 위치 인코딩 87.9클래스 토큰([CLS] Token)의 역할과 분류 헤드 연결 구조 87.10ViT 인코더의 다중 헤드 자기 주의(Multi-Head Self-Attention) 연산 87.11ViT 인코더의 피드포워드 네트워크(FFN)와 계층 정규화(Layer Normalization) 87.12ViT의 사전 학습(Pre-training) 전략: 대규모 데이터셋(JFT-300M)의 필수성 87.13CNN 대비 ViT의 귀납적 편향(Inductive Bias) 부재와 데이터 효율성 문제 87.14ViT의 스케일링 법칙: 모델 크기와 데이터 규모에 따른 성능 변화 87.15ViT의 주의 맵(Attention Map) 시각화와 전역적 특징 포착 분석 87.16DeiT(Data-efficient Image Transformers)의 지식 증류(Knowledge Distillation) 기반 학습 87.17하이브리드 아키텍처: CNN 특징 추출기와 트랜스포머 인코더의 결합 87.18Swin Transformer의 이동 윈도우(Shifted Window) 주의 메커니즘 87.19Swin Transformer의 계층적 특징 맵 구성과 다운샘플링 전략 87.20비전 트랜스포머 변형 모델의 계보: CaiT, PVT, CrossViT 87.21비전 트랜스포머의 객체 탐지(Object Detection) 및 분할(Segmentation) 응용 87.22비전 트랜스포머의 연산 복잡도(O(n²))와 효율적 주의 근사 기법 87.23ViT가 컴퓨터 비전 패러다임에 미친 영향과 후속 연구 방향