Chapter 60. VLM의 시각 인코더와 언어 디코더 연결

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 6. 대규모 언어 모델 기초 / Chapter 60. VLM의 시각 인코더와 언어...

Chapter 60. VLM의 시각 인코더와 언어 디코더 연결

Chapter 60. VLM의 시각 인코더와 언어 디코더 연결
60.1시각 인코더와 언어 디코더 연결의 필요성
60.2시각 인코더의 선택: ViT, CLIP 시각 인코더
60.3시각 특징의 추출 위치와 해상도
60.4선형 투영 기반 연결 방식
60.5다층 퍼셉트론(MLP) 기반 연결 방식
60.6교차 어텐션(Cross-Attention) 기반 연결 방식
60.7Q-Former와 학습 가능한 질의 토큰
60.8시각 토큰 수의 압축과 효율성
60.9고해상도 시각 입력의 처리 전략
60.10시각 인코더의 동결(Freezing)과 미세 조정 전략
60.11연결 모듈의 학습 단계별 전략
60.12연결 방식에 따른 성능 비교 분석

Generated by Rust Site Gen