Chapter 87. 주의 메커니즘의 비전 확장: 비전 트랜스포머(ViT)의 등장 배경

Chapter 87. 주의 메커니즘의 비전 확장: 비전 트랜스포머(ViT)의 등장 배경
87.1합성곱 신경망(CNN)의 지역적 수용장 한계와 장거리 의존성 문제
87.2자연어 처리에서의 자기 주의(Self-Attention) 메커니즘 성공 사례
87.3트랜스포머 아키텍처의 핵심 구성 요소 복습: 쿼리, 키, 값 행렬
87.4비전 태스크에 대한 주의 메커니즘 적용의 초기 시도
87.5비전 트랜스포머(ViT)의 제안 동기와 “An Image is Worth 16x16 Words” 논문 개요
87.6이미지의 패치 시퀀스 변환: 2차원 공간 데이터의 1차원 토큰화
87.7패치 임베딩(Patch Embedding)의 선형 투영 연산과 차원 매핑
87.8위치 임베딩(Position Embedding)의 필요성과 학습 가능한 위치 인코딩
87.9클래스 토큰([CLS] Token)의 역할과 분류 헤드 연결 구조
87.10ViT 인코더의 다중 헤드 자기 주의(Multi-Head Self-Attention) 연산
87.11ViT 인코더의 피드포워드 네트워크(FFN)와 계층 정규화(Layer Normalization)
87.12ViT의 사전 학습(Pre-training) 전략: 대규모 데이터셋(JFT-300M)의 필수성
87.13CNN 대비 ViT의 귀납적 편향(Inductive Bias) 부재와 데이터 효율성 문제
87.14ViT의 스케일링 법칙: 모델 크기와 데이터 규모에 따른 성능 변화
87.15ViT의 주의 맵(Attention Map) 시각화와 전역적 특징 포착 분석
87.16DeiT(Data-efficient Image Transformers)의 지식 증류(Knowledge Distillation) 기반 학습
87.17하이브리드 아키텍처: CNN 특징 추출기와 트랜스포머 인코더의 결합
87.18Swin Transformer의 이동 윈도우(Shifted Window) 주의 메커니즘
87.19Swin Transformer의 계층적 특징 맵 구성과 다운샘플링 전략
87.20비전 트랜스포머 변형 모델의 계보: CaiT, PVT, CrossViT
87.21비전 트랜스포머의 객체 탐지(Object Detection) 및 분할(Segmentation) 응용
87.22비전 트랜스포머의 연산 복잡도(O(n²))와 효율적 주의 근사 기법
87.23ViT가 컴퓨터 비전 패러다임에 미친 영향과 후속 연구 방향