6.4.2 언어 기반 3D 맵핑 (Language-Driven Semantic Mapping): VL-Maps, ConceptFusion 등의 사례 연구.

6.4.2 언어 기반 3D 맵핑 (Language-Driven Semantic Mapping): VL-Maps, ConceptFusion 등의 사례 연구.

1. 서론: 의미론적 공간 이해의 새로운 패러다임

로봇 공학 및 컴퓨터 비전 분야에서 ’지도 작성(Mapping)’의 개념은 지난 수십 년간 급격한 진화를 거듭해왔다. 초기의 지도가 단순히 로봇이 충돌하지 않고 이동할 수 있는 공간과 장애물을 구분하는 기하학적(Geometric) 정보, 즉 점유 지도(Occupancy Grid)나 점군(Point Cloud) 생성에 국한되었다면, 현대의 지도는 공간 내에 존재하는 객체의 의미(Semantics)를 이해하는 방향으로 발전하고 있다. 이러한 ’의미론적 슬램(Semantic SLAM)’은 로봇이 “좌표 (x, y)로 이동하라“는 명령 대신 “부엌에 있는 냉장고 앞으로 이동하라“는 고차원적인 명령을 수행할 수 있게 하는 핵심 기술이다.

그러나 기존의 의미론적 맵핑 방식은 근본적인 한계에 봉착해 있었다. 대부분의 시스템은 사전에 정의된 ’닫힌 집합(Closed-set)’의 범주만을 인식할 수 있었다. 예를 들어, COCO 데이터셋으로 학습된 객체 감지기를 사용하는 로봇은 ‘사람’, ‘의자’, ‘컵’ 등 80여 개의 지정된 객체 외에는 인식하지 못하며, “베이맥스 인형“이나 “앉아서 쉴 수 있는 곳“과 같은 구체적이거나 추상적인 개념을 지도에 표현할 수 없었다. 이는 비정형화된 실제 환경(In-the-wild)에서 로봇의 효용성을 크게 제한하는 요인이었다.

최근 거대 언어 모델(LLM)과 비전-언어 모델(VLM)의 등장은 이러한 한계를 극복할 수 있는 돌파구를 마련해주었다. CLIP(Contrastive Language-Image Pre-training)과 같은 파운데이션 모델(Foundation Model)은 수십억 쌍의 이미지-텍스트 데이터를 통해 학습되어, 임의의 시각적 패턴을 풍부한 의미론적 벡터 공간(Embedding Space)에 매핑할 수 있는 능력을 갖추었다. **언어 기반 3D 맵핑(Language-Driven Semantic Mapping)**은 이러한 파운데이션 모델의 2D 추론 능력을 3차원 물리 공간으로 확장(‘리프팅’, Lifting)하여, 사전에 정의되지 않은 무한한 어휘(Open-vocabulary)를 처리할 수 있는 공간 표현을 구축하는 기술이다.

본 장에서는 이 분야의 기술적 지평을 연 두 가지 대표적인 연구 사례인 **VL-Maps (Visual Language Maps)**와 ConceptFusion을 중심으로, 파운데이션 모델이 3D 공간 정보와 결합되는 메커니즘, 각 접근 방식의 구조적 차이, 그리고 이를 통해 가능해진 새로운 로봇 애플리케이션의 가능성을 심층적으로 분석한다.

2. 기술적 배경: 파운데이션 모델의 3차원 확장

VL-Maps와 ConceptFusion을 상세히 분석하기에 앞서, 이들 시스템의 기반이 되는 핵심 기술 요소와 2D 모델을 3D로 확장할 때 발생하는 공통적인 기술적 난제들을 이해할 필요가 있다. 이들은 단순히 기존 SLAM 파이프라인에 딥러닝 모델을 붙이는 수준을 넘어, 공간을 표현하는 데이터 구조 자체의 혁신을 요구한다.

2.1 기반 모델: CLIP과 픽셀 단위 임베딩

이 분야의 핵심 동력은 오픈AI(OpenAI)의 CLIP과 같은 멀티모달 모델이다. CLIP은 이미지 인코더와 텍스트 인코더를 동시에 학습시켜, 의미론적으로 유사한 이미지와 텍스트가 고차원 벡터 공간(예: 512차원 또는 768차원) 내에서 가깝게 위치하도록 만든다.

  • 벡터 유사도 기반 검색: 이를 통해 “빨간 의자“라는 텍스트 쿼리의 벡터와 실제 빨간 의자 이미지의 벡터 간 코사인 유사도(Cosine Similarity)를 계산함으로써, 별도의 재학습 없이도 제로샷(Zero-shot) 인식이 가능해진다.
  • LSeg (Language-driven Semantic Segmentation): CLIP은 이미지 전체에 대한 글로벌 벡터를 생성하는 반면, 맵핑을 위해서는 픽셀 단위의 의미 정보가 필요하다. LSeg는 CLIP의 텍스트 인코더를 활용하여, 이미지의 각 픽셀이 어떤 텍스트 임베딩과 가장 유사한지를 학습하는 방식으로 픽셀 단위의 고밀도 임베딩 맵(Dense Embedding Map)을 생성한다. 이는 VL-Maps와 같은 시스템의 근간이 된다.
  • SAM (Segment Anything Model): 최근에는 메타(Meta)의 SAM과 같이 범주에 구애받지 않고 객체의 경계를 정밀하게 분할하는 모델이 도입되면서, 객체 단위(Object-level)의 의미론적 맵핑 성능이 비약적으로 향상되었다. ConceptFusion은 이 SAM을 활용하여 객체 경계를 명확히 하고 특징의 혼합을 방지한다.

2.2 2D-to-3D 리프팅(Lifting)의 본질적 난제

2D 이미지 기반의 강력한 모델들을 3D 공간으로 전이하는 과정, 즉 ’리프팅’은 단순한 투영 이상의 복잡한 문제를 수반한다.

1. 시점 의존성(View Dependency)과 일관성 문제 동일한 3D 객체라 하더라도 바라보는 각도에 따라 2D 모델이 생성하는 임베딩 벡터는 달라질 수 있다. 예를 들어, 소파의 뒷모습을 보았을 때는 ’벽’이나 ’장식장’과 유사한 벡터가 생성될 수 있고, 앞모습을 보았을 때 비로소 ’소파’에 가까운 벡터가 생성된다. SLAM 과정에서 이 두 시점의 정보가 동일한 3D 복셀(Voxel)에 융합될 때, 단순한 평균화(Averaging)는 정보의 희석을 초래하여 결국 어떤 특징도 뚜렷하게 나타나지 않는 ’회색 영역’을 만들 위험이 있다. 이를 “평균화의 함정(The Averaging Trap)“이라 부르기도 하며, 각 연구는 이를 해결하기 위해 신뢰도 기반 융합(Confidence-based Fusion)이나 베이지안 업데이트 등 다양한 기법을 도입한다.

2. 기하학적 오차와 특징의 오정렬 깊이(Depth) 센서의 노이즈나 SLAM 시스템의 포즈 추정 오차는 2D 픽셀의 의미 정보를 잘못된 3D 좌표에 매핑하게 만든다. 특히 객체의 경계 부분(Edge)에서는 배경의 의미 정보가 객체로, 혹은 그 반대로 투영되는 ‘블리딩(Bleeding)’ 현상이 발생하기 쉽다. 이는 지도 상에서 객체의 형체를 모호하게 만들고, 정밀한 조작(Manipulation) 작업을 방해한다.

3. 데이터 희소성과 제로샷 전이 2D 이미지-텍스트 데이터는 인터넷상에 무한히 존재하지만, 3D 공간 데이터와 텍스트가 쌍을 이룬 데이터셋(예: ScanNet 등)은 상대적으로 매우 희소하고 규모가 작다. 따라서 본 절에서 다루는 방법론들은 3D 데이터를 직접 학습하는 대신, 2D 파운데이션 모델의 지식을 3D로 전이하는 제로샷 방식을 채택하고 있다. 이는 추가적인 학습 비용 없이도 모델을 새로운 환경에 즉시 적용할 수 있게 하는 핵심 경쟁력이다.

3. 사례 연구 1: VL-Maps (Visual Language Maps)

VL-Maps는 2023년 IEEE ICRA에서 발표된 연구로, 파운데이션 모델의 특징을 로봇의 내비게이션(Navigation) 스택에 직접 통합하는 데 중점을 둔 시스템이다. 이 연구의 가장 큰 특징은 자연어를 로봇이 이해할 수 있는 ’코드’로 변환하고, 이를 3D 지도와 연동하여 복잡한 공간 추론을 수행한다는 점이다.

3.1 시스템 아키텍처: 탑다운 격자 지도의 구축

VL-Maps는 복잡한 3D 포인트 클라우드 전체를 무겁게 유지하는 대신, 로봇의 이동 효율성에 최적화된 다채널 탑다운 격자 지도(Top-down Grid Map) 형식을 채택한다. 이는 기존 로봇 공학에서 표준으로 사용되는 점유 지도(Occupancy Map)와 호환성을 유지하면서도, 각 격자 셀에 고차원 의미 벡터를 저장하는 방식이다.

  1. 밀집 픽셀 임베딩 추출 (Dense Embedding Extraction): 로봇이 탐색 과정에서 수집한 RGB-D 비디오 스트림의 각 프레임은 LSeg와 같은 개방형 어휘 분할 모델을 통과한다. LSeg는 이미지의 각 픽셀 (u, v)에 대해 D차원(예: 512차원)의 임베딩 벡터를 할당한다. 이 벡터는 특정 클래스 레이블이 아닌, 해당 픽셀의 시각-언어적 특징 자체를 나타낸다.

  2. 3D 역투영 및 격자 융합 (Back-projection & Grid Fusion):

추출된 픽셀 임베딩은 해당 픽셀의 깊이 정보와 카메라의 외부 파라미터(Extrinsic Matrix)를 이용하여 3D 공간으로 역투영된다. VL-Maps는 이를 지면(Ground)에 수직으로 투영하여 2D 격자 지도를 형성한다.

  • 한 격자 셀(Grid Cell)에 여러 프레임의 정보가 투영될 경우, VL-Maps는 단순 평균 또는 가중 평균 방식을 사용하여 벡터를 융합한다.
  • 최종 결과물은 H \times W \times D 크기의 텐서(Tensor) 형태를 띠며, 여기서 (H, W)는 지도의 공간 해상도, D는 특징 벡터의 차원이다.

이러한 접근 방식은 3D 공간의 높이 정보를 일부 희생하지만, 내비게이션 작업에 필요한 연산량을 획기적으로 줄이고 메모리 효율성을 확보한다는 장점이 있다.

3.2 핵심 혁신: LLM을 활용한 코드 생성 (Code as Policies)

VL-Maps의 진정한 혁신은 생성된 지도를 활용하는 방식에 있다. 단순한 “TV 찾기“를 넘어, “소파와 TV 사이로 이동해라” 혹은 “의자 오른쪽 3미터 지점으로 가라“와 같은 복합 명령을 수행하기 위해 거대 언어 모델(LLM)을 추론 엔진으로 활용한다.

자연어 명령의 코드 변환 프로세스:

VL-Maps는 GPT-3와 같은 LLM에게 사전에 정의된 API 함수 목록과 몇 가지 예제(Few-shot Prompting)를 제공한다. 사용자가 자연어 명령을 입력하면, LLM은 이를 실행 가능한 파이썬(Python) 코드로 변환한다.

  • 사용자 명령: “소파와 TV 사이로 이동해서 동쪽을 봐라.”

  • LLM 생성 코드 (예시):

    # 1. 랜드마크 위치 검색
    sofa_location = get_landmark_pos("sofa")
    tv_location = get_landmark_pos("tv")
    
    # 2. 공간 추론 및 목표 지점 계산
    target_position = (sofa_location + tv_location) / 2
    
    # 3. 로봇 이동 명령 실행
    robot.move_to(target_position)
    robot.turn("east")
    

이 과정에서 `get_landmark_pos("sofa")` 함수는 "sofa"라는 텍스트를 CLIP 텍스트 인코더로 변환한 후, 미리 구축된 VL-Map의 모든 격자 셀과 코사인 유사도를 계산하여 가장 유사도가 높은 위치를 반환한다. 이처럼 LLM의 논리적 추론 능력과 VL-Maps의 공간적 인덱싱 능력을 결합함으로써, 기존의 단일 목표 네비게이션(PointGoal Navigation)을 넘어선 **공간 언어 네비게이션(Spatial Language Navigation)**을 구현했다.

### 3.3  다중 신체(Multi-Embodiment) 대응 및 실험 결과


VL-Maps의 또 다른 강점은 단일 지도를 다양한 로봇 플랫폼이 공유할 수 있다는 점이다. 예를 들어, 드론과 청소 로봇은 이동 가능한 영역이 다르다. VL-Maps는 쿼리 시점에 장애물 목록(예: 청소 로봇에게는 '의자'가 장애물이지만, 드론에게는 아님)을 정의하여 **동적 장애물 지도(On-the-fly Obstacle Map)**를 생성한다.

**실험 성과:** Habitat 시뮬레이터와 실제 LoCoBot을 이용한 실험에서, VL-Maps는 기존의 지도 기반 방법론 대비 '공간 문법(Spatial Syntax)'이 포함된 복잡한 명령 수행에서 월등히 높은 성공률(Success Rate)을 기록했다. 특히, 사전에 학습되지 않은(Unseen) 객체 클래스에 대한 탐색에서도 텍스트 임베딩의 일반화 능력 덕분에 높은 성능을 유지했다. 정량적으로는 기존의 CLIP-Fields나 LERF와 비교했을 때, 맵 생성 속도와 쿼리 응답 속도 면에서 실시간 로봇 제어에 적합한 효율성을 입증했다.

------

## 4.  사례 연구 2: ConceptFusion


VL-Maps가 내비게이션을 위한 효율적인 2.5D 표현에 집중했다면, **ConceptFusion**은 3차원 공간 전체에 대한 밀집되고 정밀한(Dense and Precise) 이해를 목표로 하는 연구이다. 2023년 RSS(Robotics: Science and Systems)에서 발표된 이 연구는 "어떻게 하면 파운데이션 모델의 2D 특징을 3D 포인트 클라우드에 손실 없이, 그리고 시점 변화에 강건하게 융합할 수 있을까?"라는 질문에 대한 심도 있는 해답을 제시한다.

### 4.1  픽셀 정렬(Pixel-Aligned) 특징 구성의 정교화


ConceptFusion은 CLIP과 같이 이미지 전체에 대한 글로벌 임베딩(Global Embedding)만을 출력하는 모델을 픽셀 단위 맵핑에 활용하기 위해 **로컬-글로벌 융합 전략**을 제안한다. 단순히 이미지를 잘라내어(Cropping) CLIP에 넣는 방식은 문맥(Context)을 잃어버리거나 계산 비용이 과다할 수 있다.

ConceptFusion은 다음과 같은 3단계 프로세스를 통해 이를 해결한다:

1. **범용 객체 마스킹 (Generic Object Masking):** SAM(Segment Anything Model)과 같은 클래스 불가지론적(Class-agnostic) 분할 모델을 사용하여 이미지 내의 모든 잠재적 객체 영역에 대한 마스크를 생성한다.
2. **특징 추출 및 정렬:**
- $f_G$: 원본 이미지 전체를 CLIP 인코더에 통과시켜 얻은 글로벌 특징 벡터.
- $f_L$: 각 마스크 영역을 잘라내어 CLIP 인코더에 통과시켜 얻은 로컬 특징 벡터.
- ConceptFusion은 이 두 벡터를 융합하여 픽셀별 특징 $f_P$를 생성한다. 이때, 로컬 특징이 글로벌 문맥 내에서 얼마나 중요한지를 판단하기 위해 **유사도 기반 가중치**를 계산한다. 구체적으로는 각 로컬 특징과 글로벌 특징 간의 코사인 유사도, 그리고 로컬 특징들 간의 상호 유사도를 계산하여 최적의 융합 비율을 결정한다.
3. **결과:** 이를 통해 생성된 특징 맵은 객체의 경계가 뚜렷하며(Sharp Boundaries), 동시에 주변 환경의 문맥 정보까지 포함하게 된다.

### 4.2  신뢰도 기반 3D 융합 (Confidence-based 3D Fusion)


ConceptFusion은 전통적인 SLAM 시스템(예: ElasticFusion, ORB-SLAM) 위에 구축되며, 3D 점군(Point Cloud)의 각 점에 고차원 벡터를 저장한다. 이때 가장 중요한 기술적 기여는 **뷰 의존성을 처리하는 신뢰도 기반 융합 메커니즘**이다.

2D 특징을 3D 점에 업데이트할 때, ConceptFusion은 단순히 새로운 값을 덮어쓰거나 산술 평균하지 않는다. 대신, 현재 관측의 신뢰도를 계산하여 가중 이동 평균(Weighted Moving Average)을 수행한다.

- **방사형 거리 가중치 (Radial Distance Weighting):** 카메라 렌즈의 특성상 이미지의 가장자리(Edge) 부분은 왜곡이 심하고 특징 추출의 정확도가 떨어진다. 반면 이미지 중심부는 신뢰도가 높다. ConceptFusion은 픽셀의 위치가 이미지 중심에서 얼마나 떨어져 있는지를 기반으로 가중치 $\alpha$를 부여한다.

- **융합 방정식 (Fusion Equation):**
  $$
  f_{3D}^{new} \leftarrow \frac{W_{old} \cdot f_{3D}^{old} + \alpha \cdot f_{2D}}{W_{old} + \alpha}
$$

  $$
  W_{new} \leftarrow W_{old} + \alpha
$$

여기서 $W$는 누적된 가중치의 합이다. 이 방식은 노이즈가 많은 관측값(이미지 가장자리 등)이 지도 전체의 품질을 저하시키는 것을 방지하고, 다수의 뷰에서 관측된 일관된 정보가 점진적으로 강화되도록 만든다.

### 4.3  진정한 멀티모달 쿼리 (Multimodal Querying)


ConceptFusion의 가장 강력한 기능은 텍스트뿐만 아니라 이미지, 오디오, 그리고 클릭(Click)을 통한 쿼리를 지원한다는 점이다.

- **텍스트 쿼리:** "나무로 된 테이블"과 같은 자연어 검색.
- **이미지 쿼리 (Visual Search):** 사용자가 스마트폰으로 찍은 특정 객체의 사진을 입력하면, 3D 지도 내에서 그와 가장 유사한 객체를 찾아낸다. 이는 CLIP의 이미지-이미지 유사도 계산 능력을 활용한 것이다.
- **오디오 쿼리 (Audio-Visual Mapping):** AudioCLIP과 같은 모델을 연동하여, "문 두드리는 소리"나 "유리 깨지는 소리"와 같은 오디오 입력을 벡터로 변환하고, 3D 공간 상에서 해당 소리와 연관된 위치(예: 문, 창문)를 찾아낸다.
- **클릭 쿼리 (Click-to-Search):** 지도상의 한 점을 클릭하면, 그 점의 특징 벡터를 쿼리로 사용하여 공간 내의 유사한 모든 객체(예: 회의실 내의 모든 의자)를 즉시 하이라이트한다.

**성능 평가:** 실제 환경 및 시뮬레이션 실험 결과, ConceptFusion은 기존의 지도 학습(Supervised) 기반 의미론적 맵핑 방법들보다 3D IoU(Intersection over Union) 성능에서 **40% 이상의 압도적인 격차**로 우수한 성능을 보였다. 특히 학습 데이터에 거의 등장하지 않는 희귀 객체(Long-tail concepts)를 인식하고 맵핑하는 데 있어 타의 추종을 불허하는 성능을 입증했다.

------

## 5.  비교 분석 및 관련 생태계


VL-Maps와 ConceptFusion은 모두 '개방형 어휘 3D 맵핑'이라는 동일한 목표를 향해 나아가고 있지만, 그 접근 방식과 최적화된 응용 분야는 뚜렷하게 구분된다. 또한 이들과 유사한 시기에 등장한 CLIP-Fields, LERF, OpenScene 등의 연구들과의 비교를 통해 기술적 위치를 명확히 할 수 있다.

### 5.1  VL-Maps vs. ConceptFusion 상세 비교


| **비교 항목**                  | **VL-Maps**                                                  | **ConceptFusion**                                            |
| ------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |
| **핵심 철학**                  | **행동 지향 (Action-Oriented):**   네비게이션과 로봇 제어를 위한 지도 | **인식 지향 (Perception-Oriented):**   정밀한 장면 이해와 검색을 위한 지도 |
| **기반 모델**                  | LSeg (픽셀 임베딩) + LLM (코드 생성)                         | CLIP + SAM (마스크 기반 융합)                                |
| **지도 표현 (Representation)** | **2.5D 다채널 격자 지도 (Grid Map)**   - 메모리 효율적, 기존 네비게이션 스택 호환 | **3D 점군 (Point Cloud) / 서펠 (Surfel)**   - 완전한 3차원 기하 정보 보존 |
| **쿼리 인터페이스**            | **자연어 -> 코드 (Code Generation)**   - 논리적/절차적 명령 수행 가능 ("오른쪽으로 가라") | **벡터 유사도 검색 (Retrieval)**   - 멀티모달(텍스트, 이미지, 오디오) 쿼리 지원 |
| **주요 장점**                  | - 복잡한 공간 추론(Spatial Reasoning) 가능   - 다중 로봇(Multi-embodiment) 유연성   - 계산 속도가 빠름 (실시간 경로 계획 용이) | - 객체 경계가 뚜렷한 정밀한 분할   - 제로샷 성능 및 롱테일 객체 인식 우수   - 텍스트 외 다양한 입력 모달리티 지원 |
| **주요 한계**                  | - 높이 정보 손실 (수직적 구조 파악 어려움)   - 정밀 조작(Manipulation)에는 부적합할 수 있음 | - 대규모 포인트 클라우드 처리 시 메모리/연산 비용 큼   - 절차적 명령 수행을 위한 로직 부재 |

**분석적 통찰:** VL-Maps는 **"미들웨어(Middleware)"**로서의 성격이 강하다. LLM과 로봇 제어 시스템 사이를 연결하며, 지도를 행동의 매개체로 활용한다. 반면 ConceptFusion은 **"데이터베이스(Database)"**로서의 성격이 강하다. 환경에 대한 최대한 상세하고 풍부한 정보를 저장하고, 필요에 따라 검색하여 꺼내 쓰는 구조이다. 따라서 자율 주행 휠체어나 배달 로봇과 같이 이동이 주된 목적이라면 VL-Maps가, 집안일 돕기 로봇이나 AR 글래스와 같이 객체와 정밀하게 상호작용하거나 정보를 증강해야 한다면 ConceptFusion이 더 적합한 선택지가 될 수 있다.

### 5.2  관련 연구 생태계 (Related Works)


이 두 연구 외에도 유사한 시기에 등장한 중요한 파생 연구들이 존재한다.

- CLIP-Fields : ConceptFusion과 유사하게 3D 점군에 CLIP 특징을 매핑하지만, 특징을 저장하는 방식에서 신경망(Neural Network)을 사용한다는 차이가 있다. 즉, 좌표 $(x, y, z)$를 입력하면 특징 벡터를 출력하는 암시적 함수(Implicit Function)를 학습시킨다. 이는 메모리 효율을 높일 수 있지만, 학습 시간이 필요하고 실시간 업데이트가 어렵다는 단점이 있다.
- LERF (Language Embedded Radiance Fields) : NeRF(Neural Radiance Fields) 기술을 기반으로 한다. 3D 공간을 밀도와 색상뿐만 아니라 CLIP 벡터장(Field)으로 표현한다. 사진과 같은 사실적인 렌더링과 의미론적 쿼리가 동시에 가능하지만, NeRF 특유의 긴 학습 시간과 무거운 추론 비용으로 인해 실시간 로봇 응용에는 제약이 있다.
- OpenScene : 3D 점군 전체에 대해 거대한 3D 컨볼루션 네트워크(3D CNN)나 트랜스포머를 적용하여 특징을 추출하는 방식이다. 매우 높은 정확도를 자랑하지만, 오프라인 처리가 주를 이루며 실시간 SLAM과의 통합보다는 완성된 지도의 후처리에 가깝다.

이러한 비교를 통해 볼 때, VL-Maps와 ConceptFusion은 **"실시간성"과 "정확성" 사이의 트레이드오프** 공간에서 각기 다른 최적점을 찾아낸 사례라 할 수 있다. VL-Maps는 실시간성과 제어 용이성에, ConceptFusion은 정확성과 멀티모달 확장성에 무게를 두었다.

## 6.  기술적 한계 및 미래 발전 방향


언어 기반 3D 맵핑 기술은 로봇의 인지 능력을 비약적으로 향상시켰지만, 상용화 수준의 완전한 자율성을 달성하기 위해서는 여전히 해결해야 할 과제들이 남아 있다.

### 6.1  메모리 효율성과 확장성 (Scalability)


현재의 방식은 수백만 개의 점이나 격자 셀 각각에 512차원 이상의 고밀도 벡터를 저장한다. 이는 거대한 메모리 공간을 요구하며, 도시 규모나 대형 빌딩 전체를 맵핑할 때 심각한 병목 현상을 초래한다.

- **해결 방향:** 모든 벡터를 저장하는 대신, 주성분 분석(PCA)이나 양자화(Quantization)를 통해 차원을 축소하거나, 의미 있는 상위 K개의 개념 확률만을 저장하는 희소 표현(Sparse Representation) 방식이 연구되고 있다. 최근 등장한 **ConceptGraphs**는 포인트 클라우드 대신 객체 중심의 그래프 구조를 사용하여 이러한 문제를 해결하려는 시도이다.

### 6.2  동적 환경과 지도의 갱신 (Dynamic Environments)


VL-Maps와 ConceptFusion은 기본적으로 정적인 환경을 가정한다. 의자가 옮겨지거나 사람이 지나가면, 기존의 지도는 현실과 불일치하게 된다(Staleness). 현재의 단순 융합 방식은 이동한 객체의 잔상(Ghosting)을 남기거나, 새로운 위치에 대한 업데이트가 지연되는 문제가 있다.

- **해결 방향:** 시계열 데이터를 분석하여 변화를 감지하고, "이동한 객체"를 추적하여 지도에서 능동적으로 삭제/갱신하는 **4D 의미론적 맵핑** 기술이 요구된다.

### 6.3  불확실성의 정량화 (Uncertainty Quantification)


파운데이션 모델은 때때로 확신에 차서 틀린 답을 내놓는다(Hallucination). 로봇 안전을 위해서는 모델이 "이 물체가 무엇인지 모르겠다"거나 "이 영역은 판단이 불확실하다"는 정보를 제공해야 한다.

- **해결 방향:** 임베딩 벡터와 함께 인식의 불확실성(Entropy)을 지도에 함께 저장하고, 경로 계획 시 불확실한 영역을 회피하거나 추가 탐색을 통해 정보를 보강하는 **능동적 탐색(Active Exploration)** 전략과의 결합이 필요하다.

------

## 7.  결론


VL-Maps와 ConceptFusion은 '언어'라는 직관적인 인터페이스를 통해 인간과 로봇이 공간 정보를 공유하고 소통할 수 있는 새로운 가능성을 열었다. **VL-Maps**는 LLM의 추론 능력을 물리적 공간 이동으로 구체화하는 데 성공했고, **ConceptFusion**은 멀티모달 파운데이션 모델의 풍부한 지식을 3D 공간에 정밀하게 이식함으로써 로봇의 '눈'을 획기적으로 개선했다.

이 두 사례 연구는 로봇 공학의 패러다임이 '하드코딩된 규칙과 닫힌 범주'에서 '데이터 주도의 개방형 추론'으로 전환되고 있음을 보여주는 강력한 증거이다. 향후 이러한 기술들이 경량화되고 동적 환경에 적응할 수 있게 된다면, 우리는 가사 도우미 로봇이 "어제 먹다 남은 과자를 거실 탁자에서 가져와"라는 명령을 자연스럽게 수행하는 진정한 의미의 **체화된 인공지능(Embodied AI)** 시대를 맞이하게 될 것이다. 이는 단순한 기술적 진보를 넘어, 로봇이 인간의 생활 공간에 진정으로 통합되기 위한 필수적인 진화 과정이다.

## 8. 참고 자료


1. Deep Learning-Based Vision Systems for Robot Semantic Navigation, https://www.mdpi.com/2227-7080/12/9/157
2. Lifting Foundation Masks for Label-Free Semantic Scene Completion, https://arxiv.org/html/2407.03425v1
3. SSR-2D: Semantic 3D Scene Reconstruction from 2D Images - arXiv, https://arxiv.org/html/2302.03640v4
4. PointCLIP: Point Cloud Understanding by CLIP - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhang_PointCLIP_Point_Cloud_Understanding_by_CLIP_CVPR_2022_paper.pdf
5. Few-Shot 3D Keypoint Detection with Back-Projected 2D Features, https://repository.kaust.edu.sa/bitstreams/a03e9546-25a7-426e-a489-675f80024fa4/download
6. Multi-view Consistent 3D Panoptic Scene Understanding, https://ojs.aaai.org/index.php/AAAI/article/view/32598/34753
7. Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D, https://openaccess.thecvf.com/content/CVPR2024/papers/T_Lift3D_Zero-Shot_Lifting_of_Any_2D_Vision_Model_to_3D_CVPR_2024_paper.pdf
8. LangSplat: 3D Language Gaussian Splatting - IEEE Xplore, https://ieeexplore.ieee.org/iel8/10654794/10654797/10655933.pdf
9. Language Embedded 3D Gaussians for Open-Vocabulary Scene ..., https://openaccess.thecvf.com/content/CVPR2024/papers/Shi_Language_Embedded_3D_Gaussians_for_Open-Vocabulary_Scene_Understanding_CVPR_2024_paper.pdf
10. Multi-Scale 3D Gaussian Splatting for Anti-Aliased Rendering, https://openaccess.thecvf.com/content/CVPR2024/papers/Yan_Multi-Scale_3D_Gaussian_Splatting_for_Anti-Aliased_Rendering_CVPR_2024_paper.pdf
11. Appearance-Semantic Joint Gaussian Representation for 3D ... - arXiv, https://arxiv.org/html/2411.19235v2
12. Computer Vision in Robotics: A Guide to Smarter Automation, https://prudentpartners.in/computer-vision-in-robotics/
13. Voxel Grid Perception in 3D Scene Analysis - Emergent Mind, https://www.emergentmind.com/topics/voxel-grid-perception
14. 47 3D Motion and Its 2D Projection - Foundations of Computer Vision, https://visionbook.mit.edu/2d_motion_from_3d.html
15. Camera Calibration and 3D Reconstruction - OpenCV Documentation, https://docs.opencv.org/4.x/d9/d0c/group__calib3d.html
16. 3D Gaussian Splatting for Real Time Radiance Field Rendering ..., https://trepo.tuni.fi/bitstream/10024/157725/2/GunesUlas.pdf
17. Computing the Pixel Coordinates of a 3D Point - Scratchapixel, https://www.scratchapixel.com/lessons/3d-basic-rendering/computing-pixel-coordinates-of-3d-point/mathematics-computing-2d-coordinates-of-3d-points.html
18. What are Intrinsic and Extrinsic Camera Parameters in Computer ..., https://towardsdatascience.com/what-are-intrinsic-and-extrinsic-camera-parameters-in-computer-vision-7071b72fb8ec/
19. Depth map to 3D point cloud with OpenCV ? : r/computervision, https://www.reddit.com/r/computervision/comments/ln5enw/depth_map_to_3d_point_cloud_with_opencv/
20. Back projecting a 2D pixel from an image to its corresponding 3D ..., https://math.stackexchange.com/questions/4382437/back-projecting-a-2d-pixel-from-an-image-to-its-corresponding-3d-point
21. Back-projecting a 2d point to a ray edit - OpenCV Q&A Forum, https://answers.opencv.org/question/117354/back-projecting-a-2d-point-to-a-ray/
22. Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D, https://cseweb.ucsd.edu/~ravir/mukundcvprarxiv.pdf
23. OpenUrban3D: Annotation-Free Open-Vocabulary Semantic ... - arXiv, https://arxiv.org/html/2509.10842v1
24. Ray casting - Wikipedia, https://en.wikipedia.org/wiki/Ray_casting
25. Voxelisation Algorithms and Data Structures: A Review - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC8707769/
26. A Fast Voxel Traversal Algorithm for Ray Tracing, http://www.cse.yorku.ca/~amana/research/grid.pdf
27. This Tiny Algorithm Can Render BILLIONS of Voxels in Real Time, https://www.youtube.com/watch?v=ztkh1r1ioZo
28. Panoptic Lifting for 3D Scene Understanding with Neural Fields, https://nihalsid.github.io/panoptic-lifting/static/PanopticLifting.pdf
29. ConceptFusion: Open-set Multimodal 3D Mapping - ResearchGate, https://www.researchgate.net/publication/368507767_ConceptFusion_Open-set_Multimodal_3D_Mapping
30. Lifting by Gaussians: A Simple Fast and Flexible Method for 3D ..., https://openaccess.thecvf.com/content/WACV2025/papers/Chacko_Lifting_by_Gaussians_A_Simple_Fast_and_Flexible_Method_for_WACV_2025_paper.pdf
31. ConceptFusion: Open-set Multimodal 3D Mapping, https://concept-fusion.github.io/
32. 2023-ConceptFusion | PDF | Image Segmentation - Scribd, https://www.scribd.com/document/982340016/2023-ConceptFusion
33. Probabilistic Projective Association and Semantic Guided ..., https://cg.cs.tsinghua.edu.cn/papers/ICRA-2019-densemapping.pdf
34. 3d object detection by feature aggregation using point cloud ..., https://www.researchgate.net/publication/343401425_3D_OBJECT_DETECTION_BY_FEATURE_AGGREGATION_USING_POINT_CLOUD_INFORMATION_FOR_FACTORY_OF_THE_FUTURE
35. Bayesian Spatial Kernel Smoothing for Scalable Dense Semantic ..., https://robots.engin.umich.edu/publications/ganlu-2020a.pdf
36. Dynamic Semantic Occupancy Mapping Using 3D Scene Flow and ..., https://ieeexplore.ieee.org/iel7/6287639/9668973/09882042.pdf
37. Dynamic Association of Semantics and Parameter Estimates ... - arXiv, https://arxiv.org/html/2601.09158v1
38. (PDF) SLIM-VDB: A Real-Time 3D Probabilistic Semantic Mapping ..., https://www.researchgate.net/publication/398720759_SLIM-VDB_A_Real-Time_3D_Probabilistic_Semantic_Mapping_Framework
39. Supercharging 3D Gaussian Splatting to Enable Distilled Feature ..., https://openaccess.thecvf.com/content/CVPR2024/papers/Zhou_Feature_3DGS_Supercharging_3D_Gaussian_Splatting_to_Enable_Distilled_Feature_CVPR_2024_paper.pdf
40. Point Cloud Generation From Multiple Angles of Voxel Grids, https://scispace.com/pdf/point-cloud-generation-from-multiple-angles-of-voxel-grids-4v2r1egz30.pdf
41. VoxFormer: Sparse Voxel Transformer for Camera-based 3D ..., https://3dcompat-dataset.org/workshop/C3DV23/papers/VoxFormer_CVPR.pdf
42. LERF: Language Embedded Radiance Fields - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2023/papers/Kerr_LERF_Language_Embedded_Radiance_Fields_ICCV_2023_paper.pdf
43. LERF - nerfstudio, https://docs.nerf.studio/nerfology/methods/lerf.html
44. Supercharging 3D Gaussian Splatting to Enable Distilled Feature ..., https://www.researchgate.net/publication/384173383_Feature_3DGS_Supercharging_3D_Gaussian_Splatting_to_Enable_Distilled_Feature_Fields
45. LangSplat: 3D Language Gaussian Splatting - alphaXiv, https://www.alphaxiv.org/overview/2312.16084v2