Chapter 59. 시각-언어 모델(Vision-Language Model, VLM) 구조

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 6. 대규모 언어 모델 기초 / Chapter 59. 시각-언어 모델(Vision...

Chapter 59. 시각-언어 모델(Vision-Language Model, VLM) 구조

Chapter 59. 시각-언어 모델(Vision-Language Model, VLM) 구조
59.1시각-언어 모델의 정의와 목표
59.2VLM의 전체 아키텍처 구성
59.3시각 인코더(Vision Encoder)의 역할과 선택
59.4언어 디코더(Language Decoder)의 역할과 선택
59.5모달리티 연결 모듈(Modality Connector)의 개요
59.6선형 투영(Linear Projection) 기반 연결
59.7Q-Former 기반 연결
59.8시각 토큰(Visual Token)의 생성과 처리
59.9VLM의 사전 학습 목적 함수
59.10VLM의 미세 조정 전략
59.11LLaVA 아키텍처의 구조
59.12VLM의 자율주행 분야 적용 가능성

Generated by Rust Site Gen