16.2.2 이미지 인코더와 텍스트 인코더의 잠재 공간(Latent Space) 매핑
Home
/
로봇, 자율주행을 위한 Embodied AI & Modern Control
/
Chapter 16. 시각-언어 모델과 개방형 어휘 인식 (VLMs & Open-Vocabulary Perception)
/
16.2 시각-언어 정렬(Vision-Language Alignment)의 핵심 원리
/
16.2.2 이미지 인코더와 텍스트 인코더의 잠재 공간(Latent Space) 매핑
16.2.2 이미지 인코더와 텍스트 인코더의 잠재 공간(Latent Space) 매핑