Chapter 60. VLM의 시각 인코더와 언어 디코더 연결 Chapter 60. VLM의 시각 인코더와 언어 디코더 연결 60.1시각 인코더와 언어 디코더 연결의 필요성 60.2시각 인코더의 선택: ViT, CLIP 시각 인코더 60.3시각 특징의 추출 위치와 해상도 60.4선형 투영 기반 연결 방식 60.5다층 퍼셉트론(MLP) 기반 연결 방식 60.6교차 어텐션(Cross-Attention) 기반 연결 방식 60.7Q-Former와 학습 가능한 질의 토큰 60.8시각 토큰 수의 압축과 효율성 60.9고해상도 시각 입력의 처리 전략 60.10시각 인코더의 동결(Freezing)과 미세 조정 전략 60.11연결 모듈의 학습 단계별 전략 60.12연결 방식에 따른 성능 비교 분석