Chapter 88. 이미지를 토큰으로: 패치 분할(Patch Splitting)과 선형 투영(Linear Projection) Chapter 88. 이미지를 토큰으로: 패치 분할(Patch Splitting)과 선형 투영(Linear Projection) 88.1비전 트랜스포머 입력 표현의 근본 문제: 픽셀 단위 처리의 연산 폭발 88.2자연어 처리의 토큰화 개념과 비전 도메인으로의 유추 88.3이미지 패치 분할(Patch Splitting)의 정의와 공간 분해 원리 88.4패치 크기(Patch Size) 선택에 따른 시퀀스 길이와 연산 복잡도 관계 88.5패치 크기별 해상도-효율성 트레이드오프 분석 88.6패치의 텐서 표현: 채널×높이×너비에서 1차원 벡터로의 평탄화(Flattening) 88.7선형 투영(Linear Projection)의 수학적 정의: 가중치 행렬과 편향 벡터 88.8학습 가능한 투영 행렬을 통한 패치 임베딩 공간 매핑 88.9선형 투영과 합성곱 연산의 수학적 등가성 증명 88.10투영 차원(Embedding Dimension)의 선택과 표현력 영향 88.11패치 임베딩 시퀀스의 구성: 공간적 순서와 래스터 스캔 방식 88.12입력 해상도 변화에 대한 패치 분할의 유연성과 제약 88.13클래스 토큰([CLS] Token)의 삽입과 시퀀스 확장 구조 88.14학습 가능한 위치 임베딩(Learnable Position Embedding)과 패치 순서 정보 부여 88.151차원 위치 임베딩과 2차원 위치 임베딩의 성능 비교 88.16위치 임베딩의 보간(Interpolation)을 통한 가변 해상도 추론 88.17패치 임베딩 과정의 정보 손실 분석: 경계 불연속성과 의미 단절 88.18중첩 패치(Overlapping Patch)를 통한 경계 정보 보존 전략 88.19계층적 패치 분할: 다중 스케일 패치 토큰화 기법 88.20합성곱 기반 패치 임베딩(Convolutional Patch Embedding)의 설계 88.21패치 토큰화와 자기 주의(Self-Attention) 연산의 결합 구조 88.22패치 분할 전략이 ViT 성능에 미치는 실험적 분석 88.23토큰화 기법의 발전 방향: 적응적 패치 분할과 동적 토큰 선택