397.78 비전-언어 모델(VLM) 기반 환경 이해와 임무 계획

1. 서론

비전-언어 모델(Vision-Language Model, VLM)은 시각적 입력과 자연어 입력을 동시에 처리하는 다중 모달(Multi-Modal) 기초 모델(Foundation Model)이다. 전통적인 로봇 임무 계획 시스템은 사전 구축된 환경 지도(Map)와 기호적 표현(Symbolic Representation)에 의존하여 환경을 이해하였으나, VLM의 등장으로 카메라 이미지에서 직접 환경의 의미적 정보를 추출하고 이를 임무 계획에 활용하는 새로운 패러다임이 형성되었다. 본 절에서는 VLM의 기본 원리, 로봇 환경 이해에의 적용, 그리고 VLM 기반 임무 계획의 아키텍처와 현재의 한계를 체계적으로 기술한다.

2. VLM의 기본 원리와 구조

2.1 시각-언어 정렬 (Vision-Language Alignment)

VLM의 핵심 원리는 시각적 표현(Visual Representation)과 언어적 표현(Linguistic Representation)을 공유 임베딩 공간(Shared Embedding Space)에 정렬(Align)하는 것이다. 이미지 입력 $I$ 와 텍스트 입력 $T$ 에 대해 각각의 인코더(Encoder)가 임베딩 벡터를 생성하고, 이들 사이의 유사도가 의미적 일관성을 반영하도록 학습된다.

$\text{sim}(f_V(I), f_L(T)) \propto P(\text{match} \mid I, T)$

여기서 $f_V(\cdot)$ 은 시각 인코더, $f_L(\cdot)$ 은 언어 인코더, $\text{sim}(\cdot, \cdot)$ 은 유사도 함수이다. CLIP (Radford et al., 2021)은 대조 학습(Contrastive Learning)을 통해 4억 개의 이미지-텍스트 쌍에서 이러한 정렬을 학습한 대표적인 VLM이다.

2.2 시각적 질의 응답 (Visual Question Answering)

임무 계획에 직접적으로 활용되는 VLM 능력은 시각적 질의 응답(Visual Question Answering, VQA)이다. 이미지 $I$ 와 질문 $Q$ 가 주어졌을 때, VLM은 답변 $A$ 를 생성한다.

$A = f_{\text{VLM}}(I, Q)$

로봇 도메인에서의 VQA 질의 유형은 다음과 같다.

질의 유형	예시	임무 계획 활용
객체 인식	“테이블 위에 무엇이 있는가?”	과업 대상 식별
공간 관계	“빨간 블록은 파란 블록의 어디에 있는가?”	공간적 전제 조건 확인
상태 인식	“서랍은 열려 있는가?”	현재 상태 평가
가용성 판단	“로봇 팔이 컵에 도달할 수 있는가?”	행동 실행 가능성 평가
안전 평가	“경로에 장애물이 있는가?”	안전 제약 확인

2.3 시각적 접지 (Visual Grounding)

시각적 접지(Visual Grounding)는 자연어로 기술된 객체나 영역을 이미지 내에서 정확히 위치시키는 능력이다. 자연어 참조 표현(Referring Expression) $R$ 이 주어졌을 때, 이미지 $I$ 에서 해당 영역의 바운딩 박스(Bounding Box) $B$ 를 예측한다.

$B = f_{\text{ground}}(I, R)$

로봇 임무 계획에서 시각적 접지는 자연어 임무 지시에 포함된 대상 객체를 실제 환경 내에서 식별하고, 해당 객체의 3차원 위치를 추정하는 데 활용된다.

3. 환경 이해를 위한 VLM 활용

3.1 장면 이해 (Scene Understanding)

VLM 기반 장면 이해는 카메라 이미지로부터 환경의 시맨틱(Semantic) 정보를 추출하는 과정이다. 전통적인 의미적 분할(Semantic Segmentation)이나 객체 탐지(Object Detection)와 달리, VLM은 사전 정의된 클래스 목록 없이도 개방 어휘(Open-Vocabulary) 방식으로 객체를 인식하고 속성을 기술할 수 있다.

개방 어휘 객체 탐지(Open-Vocabulary Object Detection)는 다음과 같이 형식화된다.

$\{(b_i, c_i, s_i)\}_{i=1}^{N} = f_{\text{detect}}(I, \mathcal{C}_{\text{open}})$

여기서 $b_i$ 는 바운딩 박스, $c_i$ 는 자연어 클래스 레이블, $s_i$ 는 신뢰도 점수, $\mathcal{C}_{\text{open}}$ 은 개방 어휘 클래스 집합이다. OWL-ViT (Minderer et al., 2022)와 Grounding DINO (Liu et al., 2023)가 대표적인 개방 어휘 탐지 모델이다.

3.2 차원 환경 표현 구축

VLM의 2차원 시각 이해를 3차원 환경 표현으로 확장하는 것은 로봇 임무 계획에서 핵심적이다.

3.2.1 언어 기반 3차원 의미 맵 (Language-Grounded 3D Semantic Map)

다수의 시점(Viewpoint)에서 촬영된 이미지에 VLM의 의미적 특징(Semantic Feature)을 투영하여 3차원 의미 맵을 구축한다. ConceptFusion (Jatavallabhula et al., 2023)은 CLIP의 시각적 특징을 3차원 포인트 클라우드(Point Cloud)에 융합하여, 자연어 쿼리로 3차원 공간의 특정 객체나 영역을 검색할 수 있는 표현을 구축하였다.

$\mathbf{F}_{3D}(p) = \text{Aggregate}\left(\{f_V(I_v, p) \mid v \in \mathcal{V}(p)\}\right)$

여기서 $p$ 는 3차원 점, $\mathcal{V}(p)$ 는 $p$ 를 관측 가능한 시점 집합, $f_V(I_v, p)$ 는 시점 $v$ 의 이미지에서 $p$ 에 해당하는 픽셀의 CLIP 특징이다.

3.2.2 신경 복사 필드 (Neural Radiance Field, NeRF) 통합

NeRF와 VLM의 결합을 통해 의미적으로 풍부한 3차원 장면 표현을 구축할 수 있다. LERF (Kerr et al., 2023)는 NeRF의 각 3차원 점에 CLIP 언어 임베딩을 함께 학습하여, 자연어 쿼리를 3차원 공간에서 직접 접지할 수 있는 표현을 제시하였다.

3.3 가용성 추정 (Affordance Estimation)

VLM은 환경 내 객체의 가용성(Affordance), 즉 객체에 대해 수행 가능한 행동의 가능성을 추정하는 데 활용된다.

$P(\text{affordance} \mid I, a, o) = f_{\text{VLM}}(I, \text{"Can the robot } a \text{ the } o \text{?"})$

여기서 $a$ 는 행동(예: 집다, 밀다, 열다), $o$ 는 객체이다. 이러한 가용성 추정은 SayCan (Ahn et al., 2022)의 접지 메커니즘과 직접적으로 결합되며, 물리적으로 실행 가능한 행동만을 선택하는 데 핵심적인 역할을 한다.

4. VLM 기반 임무 계획 아키텍처

4.1 단일 단계 VLM 계획

단일 단계(Single-Stage) VLM 계획 아키텍처에서는 VLM이 이미지와 자연어 임무 지시를 동시에 입력받아 행동 계획을 직접 출력한다.

$\pi = f_{\text{VLM}}(I, \mathcal{L})$

이 접근법은 별도의 인식 파이프라인 없이 종단간(End-to-End) 계획을 가능하게 하나, 복잡한 다단계 임무에서의 계획 정확도가 제한적이다.

PaLM-E (Driess et al., 2023)는 5,620억 파라미터 규모의 VLM으로, 시각 입력에서 직접 로봇 행동 계획을 생성하는 연구를 제시하였다. PaLM-E는 다수의 시각적 토큰(Visual Token)을 언어 토큰과 함께 처리하여, 시각적 맥락에 기반한 과업 계획을 생성한다.

4.2 다단계 인식-계획 파이프라인

다단계(Multi-Stage) 아키텍처에서는 VLM 기반 인식과 LLM 기반 계획을 분리하여 각 단계를 독립적으로 최적화한다.

1단계: VLM 기반 환경 인식

$\mathcal{E} = f_{\text{VLM}}^{\text{perceive}}(I)$

여기서 $\mathcal{E}$ 는 환경의 텍스트 기술(객체 목록, 위치, 속성, 관계)이다.

2단계: LLM 기반 임무 계획

$\pi = f_{\text{LLM}}^{\text{plan}}(\mathcal{L}, \mathcal{E}, \mathcal{S})$

여기서 $\mathcal{S}$ 는 스킬 라이브러리이다.

이 분리된 아키텍처의 장점은 각 모듈의 독립적 개선이 가능하다는 것이다. VIMA (Jiang et al., 2023)와 RT-2 (Brohan et al., 2023)가 이러한 다단계 접근법의 대표적 사례이다.

4.3 폐루프 시각-계획 통합

폐루프(Closed-Loop) 통합 아키텍처에서는 VLM이 지속적으로 환경을 관측하고, 관측 결과에 따라 계획을 실시간으로 수정한다.

$\pi_{t+1} = f_{\text{VLM}}(\mathcal{L}, I_t, h_t, r_t)$

여기서 $I_t$ 는 시각 $t$ 에서의 이미지, $h_t$ 는 행동 이력, $r_t$ 는 이전 행동의 실행 결과이다.

이 아키텍처는 환경의 동적 변화에 대한 적응 능력을 제공한다. VoxPoser (Huang et al., 2023)는 VLM을 활용하여 3차원 가치 맵(Value Map)을 생성하고, 이를 모션 플래너(Motion Planner)의 비용 함수로 활용하여, 시각-계획 통합을 구현하였다.

5. 핵심 도전 과제

5.1 공간 추론의 정확성

현재의 VLM은 2차원 이미지 이해에는 우수한 성능을 보이나, 3차원 공간 추론(Spatial Reasoning)에서 한계를 드러낸다. 특히 다음의 공간적 판단에서 오류가 빈번하다.

상대적 크기 비교: 원근법(Perspective)에 의한 크기 왜곡을 정확히 보정하지 못한다.
깊이 추정(Depth Estimation): 단일 이미지에서 정확한 깊이를 추정하는 것이 어렵다.
가려진 객체(Occluded Object) 인식: 부분적으로 가려진 객체의 전체 형상과 위치를 추론하는 것이 제한적이다.

이러한 한계를 완화하기 위해 깊이 카메라(Depth Camera), 스테레오 비전(Stereo Vision), 또는 VLM과 3차원 인식 모듈의 결합이 활용된다.

5.2 시간적 추론의 한계

단일 이미지 기반 VLM은 시간적 추론(Temporal Reasoning)이 근본적으로 제약된다. 동적 환경에서의 상태 변화, 객체의 이동 궤적, 사건의 발생 순서 등을 추론하기 위해서는 비디오 VLM(Video VLM) 또는 시간적 메모리 메커니즘의 도입이 필요하다.

5.3 도메인 갭 (Domain Gap)

대규모 인터넷 이미지에서 학습된 VLM은 로봇 도메인의 특수한 시각 환경(산업 현장, 실험실, 야외)에서 성능 저하를 경험할 수 있다. 이러한 도메인 갭(Domain Gap)을 해소하기 위해 도메인 적응(Domain Adaptation), 미세 조정(Fine-Tuning), 또는 소수 샷 학습(Few-Shot Learning) 기법이 적용된다.

5.4 실시간 처리 부담

대규모 VLM의 추론은 상당한 계산 자원을 요구하며, 이는 로봇 시스템의 실시간 운용 요구와 상충한다. 모델 양자화(Quantization), 지식 증류(Knowledge Distillation), 또는 효율적 아키텍처 설계를 통한 추론 속도 향상이 실용적 배포를 위해 필수적이다.

6. 요약

VLM 기반 환경 이해와 임무 계획은 로봇이 인간과 유사한 방식으로 시각적 환경을 이해하고, 자연어 지시에 따라 적절한 임무 계획을 생성할 수 있는 가능성을 제시한다. 개방 어휘 객체 탐지, 언어 기반 3차원 의미 맵 구축, 가용성 추정 등의 VLM 활용 기법은 환경 이해의 유연성과 범용성을 크게 향상시켰다. 단일 단계 계획, 다단계 인식-계획 파이프라인, 폐루프 시각-계획 통합 등의 아키텍처는 VLM의 환경 이해 능력을 임무 계획과 결합하는 다양한 전략을 제시한다. 그러나 공간 추론의 정확성, 시간적 추론의 한계, 도메인 갭, 실시간 처리 부담 등의 과제가 향후 해결되어야 하며, 형식 검증과 물리 시뮬레이션과의 통합을 통해 안전하고 신뢰성 있는 VLM 기반 임무 계획 시스템의 구현이 추진되고 있다.

참고 문헌

Ahn, M., Brohan, A., Brown, N., Chebotar, Y., Cortes, O., David, B., Finn, C., et al. (2022). “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” arXiv preprint arXiv:2204.01691.
Brohan, A., Brown, N., Carbajal, J., Chebotar, Y., Chen, X., Choromanski, K., et al. (2023). “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” arXiv preprint arXiv:2307.15818.
Driess, D., Xia, F., Sajjadi, M. S. M., Lynch, C., Chowdhery, A., Ichter, B., et al. (2023). “PaLM-E: An Embodied Multimodal Language Model.” Proceedings of the International Conference on Machine Learning (ICML).
Huang, W., Wang, C., Zhang, R., Li, Y., Wu, J., and Fei-Fei, L. (2023). “VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models.” Proceedings of the Conference on Robot Learning (CoRL).
Jatavallabhula, K. M., Kuwajerwala, A., Gu, Q., Omama, M., Chen, T., Maalouf, A., et al. (2023). “ConceptFusion: Open-set Multimodal 3D Mapping.” Proceedings of Robotics: Science and Systems (RSS).
Jiang, Y., Gupta, A., Zhang, Z., Wang, G., Dou, Y., Chen, Y., et al. (2023). “VIMA: General Robot Manipulation with Multimodal Prompts.” Proceedings of the International Conference on Machine Learning (ICML).
Kerr, J., Kim, C. M., Goldberg, K., Kanazawa, A., and Tancik, M. (2023). “LERF: Language Embedded Radiance Fields.” Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., et al. (2023). “Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection.” arXiv preprint arXiv:2303.05499.
Minderer, M., Greff, A., Groshev, E., and Houlsby, N. (2022). “Simple Open-Vocabulary Object Detection with Vision Transformers.” Proceedings of the European Conference on Computer Vision (ECCV).
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., et al. (2021). “Learning Transferable Visual Models From Natural Language Supervision.” Proceedings of the International Conference on Machine Learning (ICML).

version: 1.0