Chapter 59. 시각-언어 모델(Vision-Language Model, VLM) 구조 Chapter 59. 시각-언어 모델(Vision-Language Model, VLM) 구조 59.1시각-언어 모델의 정의와 목표 59.2VLM의 전체 아키텍처 구성 59.3시각 인코더(Vision Encoder)의 역할과 선택 59.4언어 디코더(Language Decoder)의 역할과 선택 59.5모달리티 연결 모듈(Modality Connector)의 개요 59.6선형 투영(Linear Projection) 기반 연결 59.7Q-Former 기반 연결 59.8시각 토큰(Visual Token)의 생성과 처리 59.9VLM의 사전 학습 목적 함수 59.10VLM의 미세 조정 전략 59.11LLaVA 아키텍처의 구조 59.12VLM의 자율주행 분야 적용 가능성