16.6 로봇 지각을 위한 최신 VLM 아키텍처 및 튜닝

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 16. 시각-언어 모델과 개방형 어... / 16.6 로봇 지각을 위한 최신 VLM 아키텍처 ...

16.6 로봇 지각을 위한 최신 VLM 아키텍처 및 튜닝

16.6로봇 지각을 위한 최신 VLM 아키텍처 및 튜닝
16.6.1대형 멀티모달 모델(LMM)의 등장: GPT-4V, Gemini, Claude의 비전 기능 활용
16.6.2시각적 프롬프팅(Visual Prompting): 포인트, 박스, 스크리블을 통한 로봇 인터랙션
16.6.3로봇 데이터셋을 활용한 파인튜닝(Fine-tuning)과 어댑터(Adapter) 기술

Generated by Rust Site Gen