16.2 시각-언어 정렬(Vision-Language Alignment)의 핵심 원리

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 16. 시각-언어 모델과 개방형 어... / 16.2 시각-언어 정렬(Vision-Langua...

16.2 시각-언어 정렬(Vision-Language Alignment)의 핵심 원리

16.2시각-언어 정렬(Vision-Language Alignment)의 핵심 원리
16.2.1CLIP(Contrastive Language-Image Pre-training)과 그 변형들: SigLIP, ALIGN
16.2.2이미지 인코더와 텍스트 인코더의 잠재 공간(Latent Space) 매핑
16.2.3제로샷(Zero-shot) 분류와 검색: 로봇이 처음 본 물체를 분류하는 메커니즘

Generated by Rust Site Gen