6.6 사례 연구: 자연어 명령 기반 내비게이션 (Object Goal Navigation)

1. 서론: 엠바디드 AI와 의미론적 탐색의 진화

인공지능 연구의 최전선은 이제 정적인 데이터 세트를 처리하는 것을 넘어, 물리적 세계와 상호작용하는 **엠바디드 AI(Embodied AI)**로 확장되고 있다. 이 변화의 중심에는 로봇이 인간의 자연어 명령을 이해하고, 시각적 정보를 해석하여 복잡한 3차원 공간을 탐색하는 능력이 자리 잡고 있다. 특히, **자연어 명령 기반 사물 목표 내비게이션(Object Goal Navigation, 이하 ObjectNav)**은 로봇이 “냉장고에서 물병을 가져와“와 같은 고차원적인 명령을 수행하기 위해 필수적인 기술로 부상했다. 제미나이(Gemini)와 같은 멀티모달 대형 언어 모델(MLLM)의 등장은 기존의 제한된 어휘(Closed-Vocabulary)에 갇혀 있던 내비게이션 시스템을 무한한 표현이 가능한 개방형 어휘(Open-Vocabulary) 환경으로 이끄는 기폭제가 되었다.

본 장에서는 ObjectNav의 이론적 배경부터 최신 아키텍처, 그리고 제미나이와 같은 파운데이션 모델(Foundation Models)이 내비게이션 파이프라인에 통합되는 방식에 대해 심층적으로 다룬다. 특히 기존의 지도 기반 접근법과 학습 기반 접근법의 대립과 융합, 3D 장면 그래프(Scene Graph)를 활용한 환경의 구조화된 이해, 그리고 최신 벤치마크인 HM3D-OVON과 DIVSCENE을 통한 성능 평가 결과를 상세히 분석함으로써, 독자들이 이 분야의 기술적 난제와 미래 방향성을 포괄적으로 이해할 수 있도록 돕는다.

1.1 시각적 내비게이션의 패러다임 전환

전통적인 로봇 내비게이션은 주로 기하학적 지도 작성(Mapping)과 위치 추정(Localization)에 초점을 맞추어 왔다. SLAM(Simultaneous Localization and Mapping) 기술을 통해 정밀한 점유 격자 지도(Occupancy Grid Map)를 작성하고, 이를 바탕으로 충돌 없는 경로를 계획하는 것이 주된 목표였다. 그러나 이러한 접근 방식은 “부엌“이나 “소파“와 같은 공간의 의미론적(Semantic) 속성을 이해하지 못한다는 근본적인 한계가 있었다.

ObjectNav는 이러한 기하학적 탐색을 의미론적 탐색으로 격상시킨다. 에이전트는 미지의 환경(Unseen Environment)에 배치되며, 목표물의 정확한 좌표 대신 “침대를 찾아라“와 같은 범주형 목표(Categorical Goal) 또는 “창가 옆에 있는 빨간색 의자“와 같은 서술형 목표(Descriptive Goal)를 부여받는다. 이는 에이전트에게 단순히 ’비어 있는 공간’을 찾는 것을 넘어, ’객체의 존재 가능성’을 추론하고 탐색하는 인지적 능력을 요구한다.

1.2 기존 과제와의 차별성

ObjectNav를 명확히 이해하기 위해서는 유사한 엠바디드 AI 과제들과의 차이점을 구분해야 한다.

PointGoal Navigation: 에이전트에게 목표 지점의 상대적 좌표(예: “현재 위치에서 북쪽 5m, 동쪽 2m”)가 주어진다. 이는 주로 지도 작성 능력과 장애물 회피 능력에 초점을 맞추며, 의미론적 이해는 필요하지 않다.
Vision-and-Language Navigation (VLN): 에이전트는 “복도를 따라가다가 두 번째 문에서 좌회전하여 하얀 테이블 앞에서 멈춰라“와 같이 상세한 경로 지침(Instruction)을 받는다. VLN은 경로를 따라가는 순차적 행동 결정에 집중하는 반면, ObjectNav는 목표물의 위치를 스스로 탐색해 찾아내야 하는 능동적 탐색(Active Exploration) 성격이 강하다.

최근의 연구 동향은 제미나이와 같은 VLM을 활용하여, 단순한 객체 범주가 아닌 복잡한 자연어 묘사를 이해하고, 이전에 본 적 없는 객체(Novel Object)를 탐지하는 **개방형 어휘 사물 내비게이션(Open-Vocabulary Object Navigation, OVON)**으로 빠르게 이동하고 있다.

2. 문제 정의 및 수학적 정식화 (Problem Formulation)

ObjectNav 문제는 불확실성 하에서의 순차적 의사결정 문제로, 수학적으로는 **부분 관찰 마르코프 결정 과정(POMDP, Partially Observable Markov Decision Process)**으로 정식화된다. 이는 로봇이 환경의 전체 상태를 알지 못하고, 제한된 센서를 통해서만 정보를 얻을 수 있음을 의미한다.

2.1 상태 공간과 관측 모델

시점 $t$ 에서의 환경 상태를 $s_t \in \mathcal{S}$ 라고 할 때, 에이전트는 $s_t$ 전체가 아닌 관측값 $o_t \in \mathcal{O}$ 만을 수신한다. 관측값 $o_t$ 는 일반적으로 다음과 같은 튜플로 구성된다.
$o_t = \langle I_t, D_t, P_t, G \rangle$

$I_t$ (RGB Image): 에이전트의 1인칭 시점(Egocentric View)에서 획득한 RGB 이미지이다. 일반적으로 $H \times W \times 3$ 의 차원을 가진다.
$D_t$ (Depth Map): 각 픽셀의 깊이 정보를 담고 있는 이미지로, 환경의 3차원 구조를 파악하는 데 사용된다. 많은 연구에서 깊이 센서는 노이즈가 포함되거나 누락된 영역이 있는 것으로 가정하여 현실성을 높인다.
$P_t$ (Proprioception/Pose): 에이전트의 현재 위치 $(x, y)$ 와 방향 $\theta$ 정보를 포함한다. 이는 GPS와 나침반 센서를 모사한 것으로, SLAM 모듈을 통해 추정된 값을 사용하기도 한다.
$G$ (Goal): 탐색해야 할 목표를 나타낸다. 고전적인 ObjectNav에서는 $G \in { \text{'chair'}, \text{'bed'}, \dots }$ 와 같이 고정된 클래스 ID였으나, OVON에서는 “A cozy leather armchair“와 같은 자연어 텍스트 임베딩 벡터로 표현된다.

2.2 행동 공간 (Action Space)

에이전트는 정책(Policy) $\pi(a_t | o_t, h_{t-1})$ 에 따라 행동 $a_t \in \mathcal{A}$ 를 선택한다. 여기서 $h_{t-1}$ 은 이전 시점까지의 관측 및 행동 이력을 요약한 히든 스테이트(Hidden State)이다. 행동 공간 $\mathcal{A}$ 는 일반적으로 이산적(Discrete)이다.
$\mathcal{A} = \{ \text{MoveForward}, \text{TurnLeft}, \text{TurnRight}, \text{LookUp}, \text{LookDown}, \text{Stop} \}$
일부 연구, 특히 자율 주행과 연계된 연구에서는 연속적인 행동 공간(Continuous Action Space)을 사용하여 속도( $v$ )와 각속도( $\omega$ )를 직접 제어하기도 한다. Stop 행동은 에이전트가 목표물에 도달했다고 판단했을 때 수행하며, 이 행동이 수행되는 순간 에피소드가 종료된다.

2.3 성공 조건 및 평가 지표 (Evaluation Metrics)

ObjectNav 에피소드의 성공 여부 $S_i$ 는 다음 두 가지 조건을 동시에 만족했을 때 $1$ 로 정의된다.

근접성(Proximity): 에이전트가 Stop을 호출한 위치와 목표 객체 사이의 유클리드 거리가 특정 임계값 $d_{th}$ (보통 $1.0m$ 또는 $1.5m$ ) 이내여야 한다.
가시성(Visibility): Stop 호출 시점에서 목표 객체가 에이전트의 시야(Field of View) 내에 존재해야 하며, 장애물에 의해 가려지지 않아야 한다(Oracle Visibility Check).

단순한 성공 여부를 넘어, 경로의 효율성을 평가하기 위해 SPL (Success weighted by Path Length) 지표가 표준으로 사용된다.
$SPL = \frac{1}{N} \sum_{i=1}^{N} S_i \frac{l_i}{\max(p_i, l_i)}$
여기서 $N$ 은 총 에피소드 수, $l_i$ 는 시작점에서 목표물까지의 최단 경로 거리(Geodesic Distance), $p_i$ 는 에이전트가 실제 이동한 경로의 길이이다. SPL은 성공한 에피소드에 대해서만 경로 효율성을 따지므로, 성공률과 효율성을 동시에 보여주는 강력한 지표이다. 최근에는 목표물까지의 거리가 줄어든 정도를 반영하는 SoftSPL도 사용되어, 실패했더라도 목표에 근접한 경우를 부분적으로 인정하기도 한다.

3. 아키텍처 패러다임: 모듈형 vs. 엔드투엔드 (Modular vs. End-to-End)

ObjectNav 시스템을 설계하는 방식은 크게 모듈형(Modular) 접근법과 엔드투엔드(End-to-End) 학습 접근법으로 나뉜다. 이 두 패러다임은 각각 명확한 장단점을 가지며, 최근 제미나이와 같은 VLM의 도입으로 인해 두 방식 모두 새로운 국면을 맞이하고 있다.

3.1 모듈형 아키텍처 (Modular Architecture)

모듈형 아키텍처는 로봇 공학의 전통적인 파이프라인 방식을 계승하여, 전체 시스템을 기능별 하위 모듈로 분리한다.

구성 요소:

매핑 모듈 (Mapping): RGB-D 입력을 받아 환경의 지도를 작성한다. 최근에는 단순한 점유 지도뿐만 아니라, VLM을 활용해 각 위치의 의미론적 정보를 저장하는 의미론적 지도(Semantic Map)를 작성한다. 예를 들어, VLFM (Vision-Language Frontier Maps) 은 지도상의 미탐험 영역(Frontier)에 대해 목표 객체와의 의미론적 유사도 점수를 계산하여 저장한다.
계획 모듈 (Planning): 작성된 지도를 바탕으로 장기적인 목표 지점(Global Goal)을 결정한다. 이때 “물병은 부엌에 있을 확률이 높다“와 같은 상식적 추론이 개입되며, 제미나이와 같은 LLM이 이 추론 과정을 담당하기도 한다.
로컬 내비게이션 (Local Navigation): 결정된 목표 지점까지 장애물을 피하며 이동하는 단기 경로를 생성한다. 주로 FMM(Fast Marching Method)이나 A* 알고리즘이 사용된다.

장점 및 분석:
Sim-to-Real 전이성: 의 연구에 따르면, 모듈형 접근법은 시뮬레이션에서 현실 세계로의 전이(Transfer) 성능이 매우 뛰어나다. 현실 세계 90% 성공률을 보인 반면, 엔드투엔드 방식은 23%에 그쳤다. 이는 지도 작성이나 경로 계획 알고리즘이 시각적 도메인 변화(Lighting, Texture 등)에 덜 민감하기 때문이다.
해석 가능성 (Explainability): 탐색 실패 시, “객체 인식 실패“인지 “경로 생성 실패“인지 원인을 명확히 파악할 수 있다.
메모리 활용: ConceptGraphs 와 같이 3D 장면 그래프를 활용하면, 탐색한 환경 정보를 구조화하여 장기 기억으로 활용할 수 있다.

3.2 엔드투엔드 학습 아키텍처 (End-to-End Learning)

엔드투엔드 방식은 센서 입력(픽셀)부터 제어 신호(액션)까지를 하나의 신경망(주로 Transformer나 RNN)으로 연결하여 강화학습(RL)이나 모방학습(IL)으로 학습한다.

진화 과정: 초기에는 CNN과 LSTM을 결합한 단순한 형태였으나, 최근에는 시각적 인코더(ViT)와 언어 인코더를 결합한 멀티모달 트랜스포머 구조가 주를 이룬다.
OVSegDT (Open-Vocabulary Segmentation Decision Transformer) : 최신 엔드투엔드 모델의 대표적인 예로, 목표 객체에 대한 이진 마스크(Binary Mask)를 명시적인 입력으로 사용하는 트랜스포머 기반 정책이다. 이는 엔드투엔드 모델이 시각적 특징 전체를 학습하느라 겪는 과적합 문제를 해결하고, 학습 효율성을 33% 향상시켰다.
장점 및 분석:
최적화: 모듈 간의 인터페이스 손실 없이 전체 태스크 성능(Reward)을 직접 최적화할 수 있다.
유연성: 수동으로 알고리즘을 설계하기 어려운 복잡한 회피 기동이나, 지도로 표현하기 힘든 암묵적인 탐색 전략(예: 문틈으로 살짝 엿보기)을 학습할 수 있다.
한계:
데이터 효율성: 수억 건의 상호작용 데이터가 필요하며, 학습된 환경(Seen Scenes)에 과적합되어 새로운 환경(Unseen Scenes)에서의 성능 저하가 심각하다.

3.3 비교 요약

다음 표는 2024-2025년 기준 최신 연구 결과들을 바탕으로 두 아키텍처를 비교한 것이다.

비교 항목	모듈형 아키텍처 (Modular)	엔드투엔드 아키텍처 (End-to-End)
핵심 철학	분할 정복 (Decompose & Conquer)	데이터 기반 학습 (Learn from Data)
주요 구성	SLAM, 의미론적 지도, 결정론적 플래너	Deep Neural Networks (Transformer, RNN)
VLM 활용	객체 탐지(Detector) 및 상위 추론(Planner)	입력 토큰 임베딩 및 멀티모달 퓨전
Sim-to-Real	매우 우수 (도메인 갭에 강건함)	취약 (Visual Domain Gap에 민감)
샘플 효율성	높음 (사전 지식 활용)	낮음 (대규모 데이터 필요)
SOTA 모델	VLFM , ConceptGraphs	OVSegDT , Habitat-Web
실패 모드	모듈 간 오차 누적 (Error Propagation)	설명 불가능한 행동, 과적합

4. 제미나이와 VLM을 활용한 개방형 어휘 내비게이션 기술

제미나이(Gemini), GPT-4V, CLIP과 같은 대형 모델들은 ObjectNav를 ‘닫힌 집합’ 문제에서 ‘열린 집합’ 문제로 전환시켰다. 이제 로봇은 훈련 데이터에 없던 “토이 스토리의 버즈 라이트이어 인형“이나 “손잡이가 부러진 컵“과 같은 구체적인 대상을 이해하고 찾을 수 있다.

4.1 제로샷 인지와 의미론적 접지 (Zero-Shot Perception & Grounding)

과거의 객체 탐지 모델(YOLO 등)은 사전에 정의된 클래스만 탐지할 수 있었다. 반면, VLM 기반의 **제로샷 탐지(Zero-Shot Detection)**는 이미지와 텍스트 사이의 의미론적 유사도를 계산하여 임의의 객체를 인식한다.

Grounding DINO & SAM: 의 OVIGo-3DHSG 연구에서는 Grounding DINO를 사용하여 텍스트 쿼리에 해당하는 객체의 바운딩 박스를 찾고, SAM(Segment Anything Model)을 통해 정밀한 픽셀 마스크를 추출한다. 이를 통해 배경 노이즈를 제거하고 목표물만을 정확히 3차원 공간에 투영할 수 있다.
VLM의 활용 메커니즘:

사용자 명령 쿼리 $Q$ 를 텍스트 인코더로 임베딩한다: $E_{text}(Q)$ .
로봇의 카메라 영상 $I_t$ 를 비전 인코더로 임베딩한다: $E_{vis}(I_t)$ .
두 임베딩 간의 유사도(Similarity Score) $S = E_{text}(Q) \cdot E_{vis}(I_t)$ 를 계산하여, 특정 임계값 이상일 경우 객체가 존재하는 것으로 판단한다. VLFM 은 이 점수를 지도상의 각 셀(Cell)에 투영하여 ’의미론적 가치 지도’를 생성한다.

4.2 체인-오브-쏘트(Chain-of-Thought) 기반 추론

단순한 인식을 넘어, VLM은 내비게이션을 위한 고차원적인 추론을 수행한다.

상식적 추론(Commonsense Reasoning): “물병을 찾아라“는 명령에 대해, VLM은 “물병은 부엌이나 식탁 위에 있을 가능성이 높다“는 사전 지식을 인출한다.
추론 과정의 명시화: DIVSCENE 연구에서는 VLM에게 내비게이션 결정을 내리게 할 때, 단순히 “앞으로 가라“는 행동만 출력하게 하는 것보다, “목표물은 작은 물체이므로 책상 위를 탐색해야 한다. 현재 거실에 있으므로 서재 쪽으로 이동한다.“와 같은 CoT(Chain-of-Thought) 과정을 생성하게 했을 때 탐색 효율(SPL)이 20% 이상 향상됨을 입증했다. 이는 제미나이의 추론 능력을 내비게이션 정책에 직접적으로 활용하는 강력한 방법이다.

5. 핵심 알고리즘 및 아키텍처 심층 분석

본 절에서는 2024년과 2025년에 발표된 주요 연구들 중, 제미나이 활용 관점에서 가장 중요한 세 가지 알고리즘을 상세히 분석한다.

5.1 OVSegDT: 세그멘테이션 기반 결정 트랜스포머

OVSegDT (Open-Vocabulary Segmentation Decision Transformer) 는 엔드투엔드 학습의 효율성을 획기적으로 개선한 모델이다.

문제 의식: 기존 엔드투엔드 모델은 RGB 이미지를 통째로 입력받아 목표물을 스스로 학습해야 했다. 이는 막대한 데이터를 요구하며, 시각적 복잡성에 쉽게 과적합되었다.
혁신적 접근: OVSegDT는 **‘의미론적 인코더(Semantic Encoder)’**를 도입했다. 사전 학습된 개방형 어휘 분할 모델(Open-Vocabulary Segmentation Model)을 사용하여 목표 객체에 해당하는 영역을 이진 마스크(Binary Mask)로 변환하고, 이를 RGB 이미지와 함께 트랜스포머에 입력한다.
아키텍처 상세:

입력 처리: $o_t = [I_t, M_t, h_{t-1}]$ . 여기서 $M_t$ 는 목표 객체의 마스크이다.
트랜스포머 정책: 4개 레이어의 GPT 스타일 디코더를 사용하여 시계열 데이터를 처리한다.
보조 손실 함수(Auxiliary Loss): 강화학습 보상 외에도, 에이전트가 목표물의 마스크를 얼마나 정확히 예측했는지를 평가하는 세그멘테이션 손실(Segmentation Loss)을 추가하여 학습을 가속화했다.

결과: HM3D-OVON 벤치마크에서 기존 엔드투엔드 방식 대비 충돌 횟수를 50% 줄이고, 학습 속도를 33% 향상시키는 성과를 거두었다.

5.2 ConceptGraphs: 3D 장면 그래프와 LLM 계획

ConceptGraphs 는 환경을 구조화된 데이터베이스로 변환하여 LLM의 추론 능력을 극대화하는 모듈형 접근법이다.

매핑 파이프라인:

인스턴스 생성: RGB-D 시퀀스에서 SAM 등을 이용해 객체 마스크를 추출하고, 이를 3D 포인트 클라우드에 투영하여 개별 객체 인스턴스(Node)를 생성한다.
VLM 캡셔닝: 각 3D 객체의 이미지를 잘라내어(Crop), VLM(제미나이, GPT-4V 등)에게 “이 물체는 무엇이며 재질과 상태는 어떠한가?“를 묻고, 그 답변을 노드의 속성으로 저장한다.
관계 추출: 객체 간의 공간적 관계(Edge)를 계산하여 그래프를 완성한다.

LLM 기반 계획: 사용자가 “내 파란색 텀블러 어디 있어?“라고 물으면, LLM은 저장된 장면 그래프의 텍스트 캡션들을 검색하여 가장 일치하는 노드를 찾고, 해당 위치로 로봇을 안내하는 계획을 수립한다. 이는 단순 탐색을 넘어 ’환경 지식화’를 실현한 사례이다.

5.3 OVIGo-3DHSG: 계층적 장면 그래프

OVIGo-3DHSG 는 ConceptGraphs를 확장하여 계층적(Hierarchical) 구조를 도입했다.

계층 구조: 건물(Building) -> 방(Room) -> 위치(Location) -> 객체(Object)의 4단계 계층을 정의한다. 여기서 ’위치’는 “부엌의 싱크대 주변“과 같이 의미론적으로 연관된 객체들의 그룹을 의미한다.
연역적 추론(Deductive Reasoning): “싱크대 위에 있는 세제“를 찾으라는 명령이 오면, 전체 그래프를 뒤지는 대신 부엌 노드 -> 싱크대 주변 위치 -> 세제 객체 순으로 탐색 범위를 좁혀나가는 알고리즘을 사용한다. 이는 대규모 환경에서의 탐색 속도를 획기적으로 개선한다.

6. 데이터셋 및 벤치마크 생태계

제미나이와 같은 고성능 모델의 능력을 검증하기 위해, 데이터셋과 벤치마크 또한 ’다양성’과 ’개방성’을 중심으로 진화하고 있다.

6.1 HM3D-OVON (Habitat-Matterport 3D Open-Vocabulary ObjectNav)

HM3D-OVON 은 현재 가장 권위 있는 개방형 어휘 내비게이션 벤치마크이다.

구성: 기존 HM3D 데이터셋의 고해상도 3D 스캔 환경을 기반으로 하되, 목표 객체 카테고리를 21개에서 수천 개 이상의 개방형 어휘로 확장했다.
특징: “하얀색 세라믹 머그잔“과 같이 속성(Attribute)이 포함된 쿼리를 처리해야 하며, 희소하게 등장하는 객체(Long-tail Objects)에 대한 탐지 능력을 평가한다.
평가: 성공률(SR)과 SPL 외에도, 목표 인식의 정확도와 오탐지(False Positive) 비율을 엄격하게 측정한다. OVSegDT와 같은 최신 모델들이 이 벤치마크에서 경쟁하고 있다.

6.2 DIVSCENE (Diverse Scenes and Objects)

2025년 발표된 DIVSCENE 은 데이터의 **다양성(Diversity)**에 방점을 둔 데이터셋이다.

배경: 기존 데이터셋이 가정집 등 제한된 환경에 편중된 점을 극복하기 위해 제안되었다.
규모 및 다양성: 81개 유형의 4,614개 씬과 5,707종류의 목표 객체를 포함한다. 여기에는 음악 스튜디오, 치과 진료실, 와인 저장고, 스키장 롯지 등 매우 이질적인(Out-of-Distribution) 환경이 포함된다.
생성 방법론: Holodeck 과 같은 생성형 AI 파이프라인을 활용하여, 텍스트 프롬프트로부터 3D 환경을 절차적으로 생성(Procedural Generation)함으로써 데이터의 다양성을 확보했다.
실험 결과: DIVSCENE에서 훈련된 에이전트(NATVLM 등)는 기존 모델 대비 20% 이상 높은 일반화 성능을 보였으며, 이는 다양한 환경 데이터가 VLM의 적응력을 높이는 데 필수적임을 시사한다.

데이터셋	환경 수 (Scenes)	객체 종류 (Categories)	주요 특징	활용 목적
HM3D-OVON	1,000+ (Scanned)	2,000+ (Open)	고해상도 실사 스캔, 롱테일 객체	SOTA 모델 성능 벤치마킹
DIVSCENE	4,614 (Generated)	5,707+	81개 유형의 다양한 씬 (치과, 스튜디오 등)	환경 일반화(Generalization) 테스트
ProcTHOR	10,000+ (Proc.)	Closed Set	대규모 절차적 생성 환경	엔드투엔드 모델 사전 학습

7. 연구 결과 및 시사점

최신 연구 결과들을 종합해 볼 때, VLM 기반 ObjectNav 기술은 괄목할 만한 성장을 이루었으나 여전히 명확한 한계와 도전 과제들이 존재한다.

모듈형의 강세와 엔드투엔드의 추격: 현재까지는 VLFM 과 같은 모듈형 접근법이 낯선 환경에서의 안정성(Robustness) 측면에서 우위를 점하고 있다. 특히 Sim-to-Real 전이 시, 모듈형 방식은 90% 수준의 성공률을 유지하는 반면, 엔드투엔드 방식은 시각적 도메인 차이에 민감하게 반응하여 성능이 급격히 하락하는 경향이 있다. 그러나 OVSegDT 와 같이 의미론적 정보를 명시적으로 주입한 엔드투엔드 모델이 빠르게 격차를 좁히고 있다.
공간적 관계 추론의 한계: 대부분의 모델은 단일 객체(“의자”) 탐색에는 능숙하지만, “식탁 옆에 있는 의자“와 같은 **공간적 관계(Spatial Relationship)**를 포함한 쿼리 처리에는 여전히 취약하다. 이는 2D 지도 기반 접근법이 객체 간의 3차원적 관계를 충분히 표현하지 못하기 때문이다. 이를 해결하기 위해 OVIGo-3DHSG 와 같은 계층적 그래프 도입이 시도되고 있다.
VLM의 불확실성(Uncertainty) 관리: 제미나이와 같은 VLM은 때때로 벽의 그림을 실제 물체로 오인하거나, 작은 물체를 놓치는 환각(Hallucination) 현상을 보인다. 따라서 VLM의 출력에 대한 확신도(Confidence)를 추정하고, 불확실성이 높을 경우 능동적으로 더 가까이 가서 확인하는 불확실성 인식 탐색(Uncertainty-Informed Exploration) 기술이 중요해지고 있다.

8. 결론 및 미래 전망

ObjectNav는 엠바디드 AI가 실험실을 벗어나 인간의 일상 공간으로 진입하기 위한 가장 중요한 관문이다. 본 장의 사례 연구를 통해 우리는 제미나이와 같은 VLM이 로봇에게 단순한 시각 인식을 넘어 ’상식’과 ‘추론’ 능력을 부여하고 있음을 확인했다.

향후 연구는 다음과 같은 방향으로 전개될 것으로 전망된다.

동적 환경(Dynamic Environments)으로의 확장: 정적인 가구가 아닌, 움직이는 사람이나 위치가 변하는 물체를 추적하고 탐색하는 연구가 활발해질 것이다.
안전성(Safety) 내재화: 시뮬레이션에서의 성공이 현실에서의 안전을 보장하지 않는다. 충돌 방지뿐만 아니라 “뜨거운 난로 근처에는 가지 마라“와 같은 의미론적 안전 제약을 VLM의 추론 과정에 통합하는 연구가 필수적이다.
온디바이스(On-device) AI: 현재의 고성능 모델들은 클라우드 연결을 필요로 하는 경우가 많다. 로봇 자체에서 구동 가능한 경량화된 VLM(Small Language Models)과 효율적인 3D 표현 기술(3D Gaussian Splatting 등)의 결합이 가속화될 것이다.

이러한 기술적 진보는 머지않아 로봇이 우리의 언어를 완벽히 이해하고, 복잡한 가정 및 산업 환경에서 신뢰할 수 있는 파트너로 거듭나는 시대를 열어줄 것이다.

9. 참고 자료

Open-Vocabulary Object-Oriented Navigation Based on Dynamic …, https://www.researchgate.net/publication/398056931_OpenObject-NAV_Open-Vocabulary_Object-Oriented_Navigation_Based_on_Dynamic_Carrier-Relationship_Scene_Graph
HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary …, https://www.researchgate.net/publication/387423198_HM3D-OVON_A_Dataset_and_Benchmark_for_Open-Vocabulary_Object_Goal_Navigation
Object-Goal Visual Navigation via Effective Exploration of Relations …, https://openaccess.thecvf.com/content/CVPR2023/papers/Du_Object-Goal_Visual_Navigation_via_Effective_Exploration_of_Relations_Among_Historical_CVPR_2023_paper.pdf
A Survey of Object Goal Navigation - -ORCA - Cardiff University, https://orca.cardiff.ac.uk/id/eprint/167432/1/ObjectGoalNavigationSurveyTASE.pdf
Outdoor Vision-and-Language Navigation Needs Object-Level …, https://www.mdpi.com/1424-8220/23/13/6028
Diagnosing Vision-and-Language Navigation: What Really Matters, https://aclanthology.org/2022.naacl-main.438.pdf
DIVSCENE: Towards Open-Vocabulary Object Navigation with …, https://aclanthology.org/2025.findings-emnlp.513.pdf
Segmenting Transformer for Open-Vocabulary Object Goal Navigation, https://arxiv.org/html/2508.11479v1
Bridging the Gap Between Modular and End-to-end Autonomous …, https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-79.pdf
DivScene: Benchmarking LVLMs for Object Navigation with Diverse …, https://www.researchgate.net/publication/384631140_DivScene_Benchmarking_LVLMs_for_Object_Navigation_with_Diverse_Scenes_and_Objects
A Survey of End-to-End Driving: Architectures and Training Methods, https://arxiv.org/pdf/2003.06404
\benchmarkname: Evaluation of Natural Language Understanding in …, https://arxiv.org/html/2507.07299v1
Towards Long-Horizon Vision-Language Navigation - Guanbin Li, https://guanbinli.com/papers/Towards_Long-Horizon_Vision-Language_Navigation_Platform_Benchmark_and_Method_CVPR_2025_paper.pdf
Navigating to Objects in the Real World - Theophile Gervet, https://theophilegervet.github.io/projects/real-world-object-navigation/
Open-Vocabulary 3D Scene Graphs for Perception and Planning, https://concept-graphs.github.io/assets/pdf/2023-ConceptGraphs.pdf
(PDF) OVSegDT: Segmenting Transformer for Open-Vocabulary …, https://www.researchgate.net/publication/394525136_OVSegDT_Segmenting_Transformer_for_Open-Vocabulary_Object_Goal_Navigation
1 Introduction - arXiv, https://arxiv.org/html/2507.12123v1
Open-Vocabulary Functional 3D Scene Graphs for Real-World …, https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_Open-Vocabulary_Functional_3D_Scene_Graphs_for_Real-World_Indoor_Spaces_CVPR_2025_paper.pdf
(PDF) Open-Vocabulary Indoor Object Grounding with 3D …, https://www.researchgate.net/publication/393771537_Open-Vocabulary_Indoor_Object_Grounding_with_3D_Hierarchical_Scene_Graph
DivScene: Benchmarking LVLMs for Object Navigation with Diverse …, https://zhaowei-wang-nlp.github.io/divscene-project-page/
Uncertainty-Informed Active Perception for Open Vocabulary Object …, https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/bajpaio2025ecmr.pdf
(PDF) SD-OVON: A Semantics-aware Dataset and Benchmark …, https://www.researchgate.net/publication/392105165_SD-OVON_A_Semantics-aware_Dataset_and_Benchmark_Generation_Pipeline_for_Open-Vocabulary_Object_Navigation_in_Dynamic_Scenes
52CV/CVPR-2025-Papers - GitHub, https://github.com/52CV/CVPR-2025-Papers