동시적 위치 추정 및 지도 작성(Simultaneous Localization and Mapping, SLAM)은 로봇 공학의 가장 근본적인 문제 중 하나로, 미지의 환경에 대한 지도를 구축하거나 갱신하는 동시에, 그 환경 내에서 로봇 자신의 위치를 지속적으로 추적하는 계산적 과제를 의미한다.1 이 문제는 본질적으로 순환적인 의존성을 내포하고 있다. 즉, 정확한 지도가 있어야 로봇의 위치를 정확하게 추정할 수 있으며, 반대로 로봇의 위치를 정확하게 알아야 일관성 있는 지도를 작성할 수 있다. 이 때문에 SLAM은 종종 “닭이 먼저냐, 달걀이 먼저냐”의 문제에 비유되곤 한다. 로봇은 아무런 사전 정보 없이 미지의 공간에 놓였을 때, 자신의 움직임과 센서 관측만을 바탕으로 이 두 가지 과업을 동시에 해결해야 한다.
SLAM 시스템의 작동 원리는 크게 두 가지 핵심 구성 요소로 나눌 수 있다. 첫째는 ‘환경 관측(Range Measurement)’ 단계로, 로봇에 탑재된 다양한 센서를 통해 주변 환경에 대한 원시 데이터를 수집한다. 여기에 사용되는 센서는 매우 다양하며, 저렴하고 풍부한 정보를 제공하는 카메라(단안, 스테레오, RGB-D), 정밀한 3차원 거리 정보를 제공하는 LiDAR(Light Detection and Ranging), 수중이나 특정 환경에서 유용한 소나(Sonar), 그리고 로봇의 움직임을 추정하는 데 도움을 주는 관성 측정 장치(Inertial Measurement Unit, IMU) 등이 대표적이다.3 둘째는 ‘데이터 해석 및 지도 생성(Data Extraction)’ 단계로, 수집된 원시 데이터를 처리하여 환경 내의 구별 가능한 특징, 즉 랜드마크(Landmark)를 식별하고, 이 랜드마크들의 상대적인 위치 관계를 파악하여 지도를 생성한다.2 이 지도는 기하학적 정확성을 중시하는 메트릭 맵(Metric Map, 예: 특징점 맵, 점유 격자 맵)이 될 수도 있고, 장소 간의 연결 관계에 초점을 맞춘 위상 맵(Topological Map)이 될 수도 있다.1 이 두 구성 요소는 끊임없이 상호작용하며, 로봇이 움직이고 새로운 관측을 할 때마다 지도와 로봇의 위치 추정치를 함께 갱신해 나간다.
단일 로봇 SLAM 기술은 지난 수십 년간 괄목할 만한 발전을 이루었지만, 실제 세계의 복잡하고 넓은 환경에 적용될 때 몇 가지 근본적인 한계에 직면한다.
첫째, 누적 오차(Error Accumulation) 문제가 가장 심각하다. 로봇의 움직임 추정(Odometry)과 센서 측정에는 필연적으로 작은 오차가 포함되어 있다. 단일 로봇은 이동 거리가 길어질수록 이 작은 오차들이 계속해서 쌓여 전체 궤적과 지도의 정확도를 심각하게 저하시키는 드리프트(drift) 현상을 겪게 된다.6 이러한 누적 오차를 보정하는 가장 효과적인 방법은 ‘루프 폐쇄(Loop Closure)’이다. 이는 로봇이 이전에 방문했던 장소를 다시 인식하고, 현재 위치와 과거 위치 사이의 제약 조건을 생성하여 그동안 쌓인 오차를 전체 궤적에 분배하여 수정하는 과정이다.2 그러나 대규모 환경에서는 로봇이 의미 있는 루프를 형성하기까지 매우 오랜 시간이 걸리거나, 아예 루프를 형성하지 못할 수도 있다. 이 경우, 누적 오차는 보정되지 못한 채 계속 증가하여 지도의 일관성을 파괴할 수 있다.
둘째, 탐사 효율성 및 시간(Exploration Efficiency and Time)의 한계다. 단 하나의 로봇이 광활한 지역을 탐사하고 지도를 작성하는 데는 막대한 시간이 소요된다.8 이는 재난 현장 수색, 대규모 물류 창고 관리, 행성 탐사와 같이 신속한 상황 파악과 지도 생성이 필수적인 응용 분야에서는 치명적인 단점으로 작용한다.9
셋째, 강건성 및 실패 위험(Robustness and Risk of Failure) 문제다. 단일 로봇 시스템은 그 로봇 자체의 하드웨어 고장, 특정 지역에서의 센서 데이터 품질 저하로 인한 측위 실패(Localization Failure), 또는 움직이는 물체가 많은 동적 환경이나 특징이 부족한 복도와 같은 도전적인 환경에서의 성능 저하에 매우 취약하다.10 하나의 로봇에 문제가 생기면 전체 임무가 중단되거나 실패로 돌아갈 위험이 크다.
이러한 단일 로봇 SLAM의 한계를 극복하기 위한 자연스러운 해법으로 협력적 동시적 위치 추정 및 지도 작성(Collaborative SLAM, C-SLAM)이 등장했다. C-SLAM은 여러 대의 로봇이 서로 협력하여 공동의 목표, 즉 하나의 통합된 전역 지도를 생성하고 그 안에서 각자의 위치를 추정하는 기술이다.13 C-SLAM은 단일 로봇 시스템에 비해 다음과 같은 명확하고 강력한 이점을 제공한다.
첫째, 효율성과 확장성(Efficiency and Scalability)이 비약적으로 향상된다. 여러 로봇이 동시에 환경의 서로 다른 구역을 탐사함으로써 전체 지도 작성 시간을 획기적으로 단축할 수 있다.8 한 연구에서는 C-SLAM 시스템이 단일 로봇 시스템에 비해 평균적으로 약 40%의 성능 향상을 보였다고 보고했다.9 이는 단순히 작업을 병렬로 처리하는 것 이상의 의미를 갖는다.
둘째, 강건성과 신뢰성(Robustness and Reliability)이 크게 증대된다. C-SLAM의 가장 강력한 장점 중 하나는 로봇 간 상호 관측을 통한 오차 보정 능력에 있다. 한 로봇이 다른 로봇을 직접 관측하거나, 두 로봇이 같은 장소를 서로 다른 시간에 방문하여 공통의 랜드마크를 인식하는 ‘로봇 간 루프 폐쇄(Inter-robot loop closure)’는 개별 로봇의 누적 오차를 훨씬 더 빠르고 효과적으로 보정하는 강력한 제약 조건으로 작용한다.15 또한, 일부 로봇이 임무 수행 중 고장 나거나 손실되더라도, 나머지 로봇들이 수집한 정보를 바탕으로 임무를 계속 수행할 수 있어 전체 시스템의 내결함성(fault tolerance)이 매우 높아진다.9
셋째, 향상된 정확도(Enhanced Accuracy)를 달성할 수 있다. 여러 로봇이 다양한 시점에서 수집한 풍부한 데이터를 융합함으로써, 단일 로봇이 생성하는 지도보다 훨씬 더 정확하고, 완전하며, 중복성이 제거된 고품질의 전역 지도를 생성할 수 있다.
이러한 이점들은 C-SLAM이 단순한 병렬 처리 시스템을 넘어서는 가치를 지니게 한다. 단일 로봇 SLAM의 핵심 문제가 누적 오차와 탐사 시간이라면, 가장 단순한 해결책은 여러 로봇을 투입하여 작업을 나누어 수행하는 것이다. 그러나 C-SLAM의 진정한 힘은 ‘협력’ 그 자체에서 나온다. 로봇 간의 상호 관측은 각 로봇의 독립적인 궤적 그래프를 하나의 거대한 네트워크로 연결하는 강력한 제약 조건으로 작용한다. 이러한 상호 제약 조건은 단일 로봇이 자신의 과거로 돌아가야만 얻을 수 있는 루프 폐쇄보다 훨씬 더 자주, 그리고 훨씬 더 넓은 공간적 범위에 걸쳐 발생할 수 있다. 결과적으로 로봇의 수가 증가함에 따라, 이러한 상호 제약 조건의 수는 잠재적으로 기하급수적으로 증가할 수 있다. 이는 단순히 개별 로봇의 오차를 보정하는 수준을 넘어, 시스템에 참여한 모든 로봇의 궤적과 전체 지도를 하나의 일관된 최적화 프레임워크 내에서 동시에 조정하여 전역적인 정확도와 강건성을 비선형적으로 향상시키는 ‘네트워크 효과’를 창출한다. 따라서 C-SLAM은 N개의 로봇이 1/N의 시간으로 작업을 완료하는 것을 넘어, 로봇 간의 상호작용을 통해 시스템 전체의 성능을 질적으로 향상시키는 새로운 패러다임이라 할 수 있다.
C-SLAM 시스템을 구현하는 방식은 크게 중앙집중형(Centralized)과 분산형(Decentralized) 아키텍처로 나뉜다. 이 두 접근 방식은 데이터 처리, 통신, 시스템 관리 방식에서 근본적인 차이를 보이며, 각각 뚜렷한 장단점을 가진다. 아키텍처의 선택은 시스템의 확장성, 강건성, 그리고 적용 환경에 지대한 영향을 미친다.
중앙집중형 아키텍처는 전통적인 클라이언트-서버 모델을 따른다.17 이 구조에서 다수의 로봇(에이전트 또는 클라이언트)들은 각자 자신의 프론트엔드(front-end)를 실행하여 센서 데이터를 처리하고, 이로부터 얻은 추상화된 정보를 중앙 서버(base station)로 전송한다. 중앙 서버는 시스템의 ‘두뇌’ 역할을 하며, 모든 로봇으로부터 수신한 데이터를 취합하여 전역 지도 최적화, 로봇 간 루프 폐쇄 검출, 여러 지도의 병합 등 계산적으로 매우 복잡하고 집약적인 백엔드(back-end) 작업을 전담한다.13
장점:
중앙집중형 구조의 가장 큰 장점은 자원이 제한적인 로봇에 유리하다는 점이다. 로봇은 상대적으로 가벼운 실시간 작업, 예를 들어 시각 주행 거리계(Visual Odometry) 계산과 같은 프론트엔드 처리만 수행하고, 무거운 최적화 계산은 고성능 중앙 서버에 오프로드(offload)할 수 있다.18 이는 컴퓨팅 성능, 메모리, 배터리 용량이 제한적인 소형 드론(UAV)이나 저전력 로봇을 C-SLAM 시스템에 통합하는 것을 가능하게 한다.20 또한, 중앙 서버가 모든 로봇의 정보(전역 뷰)를 가지고 있기 때문에, 전역적으로 일관된 최적의 해를 구하기가 비교적 용이하다. 데이터 관리와 작업 스케줄링이 중앙에서 통합적으로 이루어지므로 시스템의 조정이 단순화된다.17
단점:
반면, 중앙집중형 구조는 몇 가지 치명적인 단점을 내포한다. 가장 큰 문제는 단일 실패 지점(Single Point of Failure)의 존재다. 만약 중앙 서버가 네트워크 문제나 하드웨어 고장으로 다운되면, 전체 협력 시스템이 마비된다.13 비록 개별 로봇이 독립적으로 자신의 위치를 추적하는 자율성은 유지될 수 있으나18, 로봇 간의 협력을 통한 지도 병합 및 오차 보정은 불가능해진다. 두 번째로, 통신 병목 현상과 확장성 한계가 심각하다. 시스템에 참여하는 로봇의 수가 증가함에 따라, 중앙 서버로 향하는 통신 트래픽이 선형적으로 증가하여 결국 통신 대역폭의 한계에 부딪히게 된다.13 이는 수십, 수백 대의 로봇으로 구성된 대규모 로봇 팀(swarm)으로 시스템을 확장하는 것을 매우 어렵게 만든다.15 마지막으로, 이 아키텍처는 안정적인 통신 링크를 요구한다. 지하, 수중, 재난 현장, 또는 넓은 실외와 같이 통신 인프라가 불안정하거나 존재하지 않는 환경에서는 로봇들이 중앙 서버와 지속적으로 안정적인 연결을 유지하기가 현실적으로 어렵다.15
분산형 아키텍처는 중앙 서버라는 개념 없이, 시스템에 참여하는 모든 로봇이 동등한 역할을 수행하며 P2P(Peer-to-Peer) 방식으로 직접 통신하는 구조다.17 각 로봇은 자신의 지역 지도(local map)와 궤적을 독립적으로 유지 및 관리한다. 그러다 통신 범위 내에 들어온 다른 로봇과 정보를 교환하여 서로의 상대 위치를 파악하고, 각자의 지역 지도를 병합하며, 분산된 합의(consensus) 알고리즘을 통해 전역적으로 일관된 지도와 궤적을 점진적으로 구축해 나간다.13
장점:
분산형 구조의 가장 큰 미덕은 뛰어난 강건성과 내결함성(Robustness and Fault Tolerance)이다. 중앙 서버라는 단일 실패 지점이 없기 때문에, 일부 로봇이 고장나거나 특정 로봇 간의 통신 링크가 끊어지더라도 시스템 전체는 큰 영향 없이 계속해서 작동할 수 있다.9 이는 예측 불가능하고 위험한 환경에서 임무를 수행해야 하는 로봇 스웜(robot swarm)의 핵심 철학과 완벽하게 부합한다.22 또한, 통신이 중앙 서버가 아닌 이웃 로봇과 지역적으로(locally) 이루어지므로, 로봇의 수가 증가해도 전체 시스템의 통신 부하가 폭발적으로 증가하지 않는다. 이는 탁월한 확장성(High Scalability)을 보장하며, 대규모 로봇 스웜을 운용하는 데 매우 적합하다.13 마지막으로, 외부 통신 인프라에 대한 의존도가 낮아 인프라 독립성을 가지며, 다양한 환경에 매우 유연하게 적용될 수 있다.16
단점:
분산형 구조는 그 유연성만큼이나 높은 복잡성을 수반한다. 전역적인 정보를 가진 중앙 조정자 없이, 각 로봇이 지역적인 정보만을 바탕으로 전역적인 일관성을 유지하기 위한 분산 합의 및 최적화 알고리즘이 매우 복잡하다. 각 로봇은 정교한 데이터 관리 및 북키핑(bookkeeping) 전략을 필요로 한다.15 또한, 중앙 서버가 수행하던 계산의 일부를 각 로봇이 분담해야 하므로, 중앙집중형 시스템에 비해 더 많은 온보드 계산 자원을 요구한다.15 이로 인해 저사양 로봇에는 부담이 될 수 있다. 마지막으로, 전역 최적화 과정에서 모든 정보를 한 번에 고려하는 것이 아니기 때문에, 최적의 해로 수렴하는 속도가 상대적으로 느리거나, 경우에 따라 전역 최적해(globally optimal solution)가 아닌 차선책(sub-optimal solution)에 머무를 가능성도 존재한다.
결론적으로, 중앙집중형과 분산형 아키텍처의 선택은 단순히 기술적인 문제를 넘어, 시스템 설계의 근본적인 철학, 즉 ‘통제’와 ‘자율성’ 사이의 트레이드오프를 반영한다.21 중앙집중형은 전역 최적화의 ‘효율성’과 ‘통제’를 우선시하는 반면, 분산형은 시스템의 ‘강건성’과 ‘자율성’을 최우선 가치로 둔다.
그러나 실제 시스템에서 이 두 가지 아키텍처가 순수한 형태로 존재하는 경우는 드물다. 많은 시스템들이 두 패러다임의 장점을 결합한 하이브리드 형태로 구현된다.24 예를 들어, 대표적인 중앙집중형 시스템인 CCM-SLAM에서도, 에이전트 로봇은 중앙 서버와의 통신이 끊기더라도 독립적으로 자신의 항법을 계속 수행할 수 있는 ‘자율성’을 보장받는다.18 이는 협력 기능만 중앙에 의존할 뿐, 핵심 기능은 분산되어 있는 하이브리드적 특성을 보여준다. 반대로, 분산형 시스템에서도 완전한 무질서 상태로 작동하는 것이 아니라, 분산된 시스템 내에 ‘구조’와 ‘질서’를 부여하려는 노력이 이루어진다. 예를 들어, 분산 포즈 그래프 최적화(PGO)를 수행하기 위해 임시로 리더 로봇을 선출하는 방식이 제안되기도 하고 16, 통신 부하를 줄이기 위해 로봇 간 루프 폐쇄 정보 교환의 우선순위를 정하는 정교한 기법이 도입되기도 한다.13
따라서 C-SLAM 아키텍처 논의의 핵심은 이분법적인 선택이 아니라, 주어진 임무의 특성(예: 소규모 실내 탐사 vs. 광역 재난 현장 수색), 로봇의 하드웨어 제약(예: 저사양 드론 vs. 고성능 지상 로봇), 그리고 통신 환경의 가용성(예: 안정적인 Wi-Fi vs. 불안정한 ad-hoc 네트워크)에 맞춰 두 패러다임의 요소를 어떻게 전략적으로 융합하고 최적의 균형점을 찾을 것인가에 대한 ‘설계 철학’의 문제로 귀결된다.
다음 표는 중앙집중형과 분산형 C-SLAM 아키텍처의 주요 특징을 요약하여 비교한다.
| 특성 (Feature) | 중앙집중형 (Centralized) | 분산형 (Decentralized) |
|---|---|---|
| 기본 구조 | 클라이언트-서버 모델: 다수의 에이전트와 하나의 중앙 서버 17 | P2P 네트워크: 중앙 서버 없이 에이전트 간 직접 통신 21 |
| 주요 장점 | 전역 최적화 용이, 에이전트의 계산 부하 경감 17 | 높은 강건성, 뛰어난 확장성, 인프라 독립성 16 |
| 주요 단점 | 단일 실패 지점, 통신 병목, 확장성 제한 13 | 분산 조정의 복잡성, 높은 온보드 계산 부하 15 |
| 확장성 | 제한적: 서버의 성능과 네트워크 대역폭에 크게 의존 15 | 높음: 통신이 지역적으로 이루어져 로봇 수 증가에 강함 13 |
| 내결함성 | 낮음: 중앙 서버 실패 시 협력 기능 전체가 마비됨 16 | 높음: 개별 노드(로봇)의 실패가 전체 시스템에 미치는 영향이 적음 9 |
| 통신 요구사항 | 모든 에이전트와 서버 간의 안정적이고 지속적인 연결 필요 15 | 에이전트 간의 간헐적이고 지역적인 P2P 연결만으로도 작동 가능 13 |
| 적합한 애플리케이션 | 소규모 로봇 팀, 통신이 보장된 실내 환경, 자원이 제한된 로봇 운용 18 | 대규모 로봇 스웜, GPS 거부 환경(지하, 수중), 재난 현장 수색 15 |
SLAM 시스템, 특히 C-SLAM 시스템의 복잡한 구조는 일반적으로 두 개의 주요 논리적 블록, 즉 프론트엔드(Front-end)와 백엔드(Back-end)로 나뉘어 설명된다.25 이 두 구성 요소는 각각 뚜렷하면서도 상호 보완적인 역할을 수행하며, 이들의 명확한 분리는 C-SLAM 시스템의 모듈성과 유연성을 보장하는 핵심 설계 원칙이다.
프론트엔드는 SLAM 시스템의 ‘감각 기관’이자 ‘실시간 반응’ 부분을 담당한다. 주요 역할은 로봇의 센서로부터 끊임없이 들어오는 원시 데이터(raw data)를 실시간으로 처리하여, 백엔드가 이해하고 처리할 수 있는 추상화된 데이터 형태로 변환하는 것이다.25 프론트엔드의 모든 연산은 속도가 매우 중요하며, 로봇의 움직임에 맞춰 지연 없이 수행되어야 한다.
프론트엔드의 주요 기능은 다음과 같다:
백엔드는 SLAM 시스템의 ‘기억’과 ‘추론’ 부분을 담당한다. 프론트엔드에서 전달받은 추상화된 데이터(키프레임, 랜드마크 관측, 상대 포즈 제약 등)를 기반으로, 시간에 걸쳐 누적된 모든 정보를 통합하여 전역적으로 가장 일관성 있는 지도와 궤적을 추정하는 역할을 한다.6 백엔드 처리는 일반적으로 실시간으로 이루어질 필요는 없으며, 별도의 스레드에서 주기적으로 또는 특정 이벤트(예: 루프 폐쇄 검출)가 발생했을 때 수행된다.
백엔드의 주요 기능은 다음과 같다:
이처럼 프론트엔드와 백엔드를 명확히 분리하는 설계는 C-SLAM 시스템의 아키텍처 유연성을 가능하게 하는 핵심적인 역할을 한다. 프론트엔드는 본질적으로 센서에 종속적이다. 시각 SLAM의 프론트엔드는 카메라 데이터 처리에, LiDAR SLAM의 프론트엔드는 포인트 클라우드 처리에 특화되어 있다.6 반면, 백엔드는 센서에 독립적(sensor-agnostic)이다.6 백엔드가 다루는 것은 센서의 종류와 무관하게 ‘포즈’와 ‘제약’이라는 추상화된 그래프 구조이기 때문이다.
이러한 분리 덕분에 다양한 C-SLAM 아키텍처가 가능해진다. 중앙집중형 시스템에서는 각 로봇이 자신의 센서에 맞는 프론트엔드를 ‘온보드’에서 실시간으로 실행하고, 그 결과로 나온 추상화된 데이터(키프레임, 지역 포즈 그래프 등)만을 중앙 서버로 전송한다.18 중앙 서버는 이렇게 수집된 데이터를 ‘포즈 그래프’라는 공통된 형태로 받아 통합하고, 강력한 계산 자원을 이용해 전역 최적화라는 백엔드 작업을 수행한다. 이 구조는 서로 다른 센서를 장착한 이기종(heterogeneous) 로봇 팀을 지원하는 데 매우 효과적이다.15 분산형 시스템에서도 이 분리 원칙은 동일하게 적용된다. 각 로봇은 자신의 프론트엔드를 독립적으로 실행하고, 다른 로봇과는 백엔드 수준의 정보, 즉 포즈 그래프의 일부나 루프 폐쇄 후보 정보 등을 교환하여 분산된 방식으로 최적화를 수행한다.13
결론적으로, 프론트엔드(실시간, 지역적, 센서 종속적)와 백엔드(비실시간, 전역적, 센서 독립적)의 명확한 역할 분리는 C-SLAM 시스템이 중앙집중형, 분산형, 또는 이 둘을 혼합한 하이브리드형 등 다양한 아키텍처를 유연하게 채택하고, 이기종 로봇으로 구성된 팀을 효과적으로 운용할 수 있게 만드는 근본적인 설계 원리라고 할 수 있다.
그래프 기반 SLAM은 현대 SLAM 기술의 주류를 이루는 접근법으로, 복잡한 SLAM 문제를 직관적인 그래프 구조를 통해 표현하고 최적화 이론을 바탕으로 해결한다. 이 접근법의 핵심은 SLAM 문제를 모든 센서 측정값과 가장 일관성이 높은 로봇의 궤적 및 지도 상태를 찾는 비선형 최소제곱(Non-linear Least Squares) 최적화 문제로 공식화하는 것이다.31
그래프 기반 SLAM에서, 시스템의 상태(로봇의 포즈, 랜드마크의 위치 등)는 그래프의 노드(node)로 표현되고, 이 상태들 사이의 관계를 나타내는 센서 측정값은 노드들을 연결하는 엣지(edge)로 표현된다.34 예를 들어, 로봇이 시간 $t-1$에서 $t$로 이동했을 때의 움직임은 두 포즈 노드 $x_{t-1}$과 $x_t$를 연결하는 엣지가 되며, 이 엣지는 주행기록계(odometry) 측정값이라는 제약 조건을 나타낸다. 마찬가지로, 로봇이 포즈 $x_t$에서 랜드마크 $m_j$를 관측했다면, 노드 $x_t$와 $m_j$ 사이에 관측 제약 조건을 나타내는 엣지가 생성된다.
모든 센서 측정에는 노이즈가 포함되어 있기 때문에, 이 엣지들이 나타내는 제약 조건들은 서로 완벽하게 일치하지 않고 모순을 포함하게 된다. 그래프 기반 SLAM의 목표는 이러한 모든 모순, 즉 오차를 전역적으로 최소화하는 노드들의 최적 배치(configuration)를 찾는 것이다.33 이 문제는 결국 모든 측정 오차의 가중 제곱 합을 최소화하는 비선형 최소제곱 문제로 귀결된다.31
이 최적화 문제를 수학적으로 명확히 정의하기 위해 몇 가지 핵심 변수들을 이해해야 한다.
상태 벡터 (State Vector) $x$: 최적화의 대상이 되는 모든 변수들을 모아놓은 벡터다. 일반적으로 시스템이 추정하고자 하는 모든 시간 단계에서의 로봇 포즈 $x_i$들과 모든 랜드마크의 위치 $m_j$를 포함한다.33 예를 들어, $n$개의 로봇 포즈와 $k$개의 랜드마크가 있는 시스템의 상태 벡터는 다음과 같이 표현될 수 있다:
\(x = (x_1^T, x_2^T,..., x_n^T, m_1^T, m_2^T,..., m_k^T)^T\)
여기서 각 포즈 $x_i$는 2D 환경에서는 위치와 방향을 나타내는 $(x, y, \theta)$로, 3D 환경에서는 $(x, y, z, q_x, q_y, q_z, q_w)$ (위치 + 쿼터니언) 등으로 표현된다. 랜드마크 $m_j$는 일반적으로 3D 공간상의 좌표 $(x, y, z)$로 표현된다.37
측정 모델 (Measurement Model) $z_{ij}$: 센서를 통해 직접 얻은 측정값으로, 그래프에서 엣지를 형성하는 정보의 원천이다. 이는 두 노드 $i$와 $j$ 사이의 상대적인 관계를 나타낸다. 예를 들어, $z_{ij}$는 두 포즈 노드 $x_i$와 $x_j$ 사이의 상대적인 변위(relative displacement)를 나타내는 주행기록계 측정값일 수도 있고, 포즈 노드 $x_i$에서 랜드마크 노드 $m_j$를 바라본 상대적인 위치 및 방향을 나타내는 관측값일 수도 있다.33
오차 함수 (Error Function) $e_{ij}(x)$: 최적화의 핵심이 되는 함수로, 현재 추정된 상태 벡터 $x$를 기반으로 예측한 측정값과 실제 센서 측정값 $z_{ij}$ 사이의 차이를 계산한다. 예측된 측정값은 예측 함수 $h(x_i, x_j)$를 통해 계산되며, 이는 현재 추정된 포즈 $x_i$에서 $x_j$를 바라보면 어떤 측정값이 나와야 하는지를 나타낸다. 따라서 오차 함수는 다음과 같이 정의된다 31:
\(e_{ij}(x) = z_{ij} - h(x_i, x_j)\)
이 오차 벡터의 차원은 측정의 종류에 따라 달라진다. 예를 들어 2D 포즈 간의 오차는 $\Delta x, \Delta y, \Delta \theta$의 3차원 벡터가 될 수 있다. SLAM의 목표는 이 오차 벡터의 크기를 가능한 한 작게 만드는 것이다.
정보 행렬 (Information Matrix) $\Omega_{ij}$: 모든 측정값이 동일한 신뢰도를 갖지 않는다는 현실을 반영하는 매우 중요한 요소다. 정보 행렬 $\Omega_{ij}$는 측정 $z_{ij}$의 불확실성을 나타내는 공분산 행렬(covariance matrix) $\Sigma_{ij}$의 역행렬($\Omega_{ij} = \Sigma_{ij}^{-1}$)이다.39 이 행렬은 각 측정 오차에 대한 가중치 역할을 한다. 만약 어떤 측정이 매우 정밀하여 불확실성이 작다면(공분산이 작다면), 그 정보 행렬의 값은 커지게 된다. 반대로 노이즈가 많은 부정확한 측정은 정보 행렬의 값이 작아진다.37 최적화 과정에서 정보 행렬 값이 큰, 즉 신뢰도 높은 측정의 오차는 더 큰 페널티를 받아 우선적으로 줄어들게 된다.
위의 변수들을 바탕으로, 그래프 기반 SLAM의 전체 목표는 그래프에 존재하는 모든 제약 조건(엣지)에 대한 마할라노비스 거리(Mahalanobis distance)의 제곱 합, 즉 가중 제곱 오차의 총합을 최소화하는 최적의 상태 벡터 $x^*$를 찾는 것으로 공식화된다. 이 목표 함수 $F(x)$는 다음과 같다 31:
\(x^* = \underset{x}{\operatorname{argmin}} F(x) = \underset{x}{\operatorname{argmin}} \sum_{(i,j) \in \mathcal{C}} e_{ij}(x)^T \Omega_{ij} e_{ij}(x)\)
여기서 $\mathcal{C}$는 그래프의 모든 엣지(제약 조건)의 집합을 의미하며, 합산 기호 $\sum_{(i,j) \in \mathcal{C}}$는 모든 제약 조건에 대한 오차를 더하는 것을 나타낸다.
예측 함수 $h(x_i, x_j)$는 로봇의 기구학 모델이나 카메라 투영 모델 등 비선형 함수를 포함하는 경우가 대부분이므로, 오차 함수 $e_{ij}(x)$ 역시 비선형 함수가 된다. 따라서 위의 목표 함수 $F(x)$는 해석적으로(analytically) 한 번에 풀 수 없다. 대신, 가우스-뉴턴(Gauss-Newton) 또는 레벤버그-마쿼트(Levenberg-Marquardt)와 같은 반복적인 수치 최적화 기법을 사용하여 해를 구한다.31
이 과정은 다음과 같은 단계로 이루어진다:
$x_0$를 추정한다.$x_k$ 주변에서 오차 함수 $e_{ij}(x)$를 테일러 급수 전개를 통해 선형화한다.$ \Delta x $를 계산한다.$x_{k+1} = x_k + \Delta x$.이 과정에서 정보 행렬 $\Omega$의 역할은 매우 중요하다. 만약 모든 측정이 완벽하여 오차가 없다면, SLAM은 단순한 기하학적 연립방정식 문제가 될 것이다.35 그러나 현실의 모든 센서 측정에는 불확실성이 존재한다.8 오차 함수 $e_{ij}$가 예측과 실제 측정 간의 ‘기하학적’ 불일치를 나타낸다면, 정보 행렬 $\Omega_{ij}$는 이 기하학적 오차에 ‘확률적’ 신뢰도를 부여하는 역할을 한다. 예를 들어, 고가의 정밀 LiDAR로 측정한 거리 제약은 높은 정보 값을 가지게 되어 최적화에 큰 영향을 미치지만, 저가 웹캠의 흔들리는 이미지로 추정한 부정확한 제약은 낮은 정보 값을 가져 그 영향력이 줄어든다.37
결과적으로, 정보 행렬 $\Omega$는 SLAM을 ‘모든 제약을 동등하게 만족시키려는’ 순수한 기하학적 문제에서, ‘각 제약의 신뢰도를 고려하여 통계적으로 가장 가능성이 높은 상태를 추론하려는’ 확률적 추정(probabilistic estimation) 문제로 격상시키는 핵심 요소다. 이는 사전 믿음(이전 상태)과 새로운 증거(측정값)를 각각의 신뢰도에 따라 가중하여 사후 믿음(최적화된 현재 상태)을 추론하는 베이즈 정리의 원리와도 맥을 같이 한다. 바로 이 확률적 접근법 덕분에 SLAM은 불확실성으로 가득한 실제 환경 속에서도 강건한 추론을 수행할 수 있게 되는 것이다.
C-SLAM은 단일 로봇 SLAM의 많은 한계를 극복하지만, 여러 로봇이 협력하는 과정에서 새롭고 더 복잡한 기술적 과제들을 마주하게 된다. 이러한 과제들은 데이터의 일관성, 시스템의 강건성, 확장성, 그리고 통신 효율성과 밀접하게 연관되어 있다.
과제: 데이터 연관(Data Association) 또는 대응 문제(Correspondence Problem)는 SLAM의 고전적인 난제 중 하나로, C-SLAM에서는 그 복잡성이 더욱 증대된다. 이 문제는 센서로 관측한 현재의 측정값이 이전에 지도에 등록된 어떤 랜드마크에 해당하는지, 또는 더 나아가 다른 로봇이 관측했던 어떤 특징점과 동일한지를 정확히 판단하는 것이다.11 잘못된 데이터 연관은 치명적인 결과를 초래한다. 예를 들어, 서로 다른 두 랜드마크를 동일한 것으로 착각하면 지도가 심각하게 왜곡되며, 새로운 랜드마크를 이전에 본 것으로 오인하면 궤적 추정에 큰 오류가 발생한다. 특히, 움직이는 사람이나 차량이 많은 동적 환경에서는 정적인 배경과 동적인 객체를 구별하는 것이 어려워 데이터 연관 문제가 더욱 심각해진다.10
해결 방안:
과제: 루프 폐쇄는 누적 오차를 보정하는 핵심 과정이지만, 이 과정에서 발생하는 오류는 시스템 전체를 붕괴시킬 수 있다. 특히 ‘지각적 중복(Perceptual Aliasing)’ 문제는 심각한 도전 과제다. 이는 사무실의 복도나 주차장의 기둥처럼, 서로 다른 장소임에도 불구하고 시각적으로 매우 유사하게 보이는 경우를 말한다. 시스템이 이러한 장소들을 동일한 곳으로 잘못 인식하여 ‘가짜 양성(false positive)’ 루프 폐쇄를 생성하면, 백엔드 최적화 과정에서 이 잘못된 제약 조건이 전체 지도를 치명적으로 왜곡시키게 된다.6 C-SLAM에서는 서로 다른 로봇이 유사한 환경을 탐사할 때 로봇 간 루프 폐쇄(inter-robot loop closure)에서 이 문제가 더욱 빈번하고 심각하게 발생할 수 있다.
해결 방안:
과제: C-SLAM 시스템의 규모, 즉 로봇의 수와 탐사 환경의 크기가 증가함에 따라, 시스템이 관리해야 할 상태 변수(모든 로봇의 모든 포즈, 모든 랜드마크)와 제약 조건의 수가 기하급수적으로 증가한다. 이는 SLAM 문제의 계산 복잡도를 폭발적으로 증가시키는 원인이 된다.7 중앙집중형 시스템에서는 중앙 서버의 계산 부하가 한계에 도달하게 되고, 분산형 시스템에서는 개별 로봇의 제한된 온보드 컴퓨팅 자원이 고갈될 위험에 처한다.
해결 방안:
과제: 대부분의 전통적인 SLAM 알고리즘은 환경이 근본적으로 정적(static)이라는 강한 가정을 기반으로 한다. 그러나 실제 환경은 움직이는 사람들, 차량, 그리고 기타 동적 객체들로 가득 차 있다. 이러한 동적 객체들은 SLAM 시스템에 의해 정적인 랜드마크로 오인될 수 있으며, 이는 지도 오염과 위치 추정 실패의 주된 원인이 된다.8
해결 방안:
과제: C-SLAM은 본질적으로 로봇 간의 정보 교환에 의존하기 때문에, 통신 네트워크의 제약에 매우 민감하다. 제한된 통신 대역폭, 높은 지연 시간(latency), 그리고 간헐적인 통신 단절은 협력적 지도 작성을 방해하는 주요 요인이다.15 특히 고해상도 이미지나 LiDAR 스캔과 같은 대용량 원시 데이터를 로봇 간에 직접 교환하는 것은 대부분의 실제 무선 네트워크 환경에서 비현실적이다.7
해결 방안:
이러한 C-SLAM의 기술적 과제들은 서로 독립적이지 않고 복잡하게 얽혀 있다. 예를 들어, 동적 환경 문제를 해결하기 위해 고성능 시맨틱 분할 네트워크를 도입하면, 이는 필연적으로 개별 로봇의 계산 복잡도 문제를 악화시킨다. 이 계산 문제를 해결하기 위해 중앙집중형 아키텍처를 채택하여 연산을 서버로 오프로드하면, 이번에는 통신 병목 문제가 심화된다. 이 통신 문제를 해결하기 위해 교환되는 데이터를 경량화하면, 정보 손실로 인해 데이터 연관이나 루프 폐쇄의 정확도가 저하될 위험이 생긴다. 이처럼 특정 문제에 대한 해결책이 다른 차원에서 새로운 트레이드오프를 발생시키는 ‘풍선 효과’가 나타난다. 따라서 진정으로 강건하고 효율적인 C-SLAM 시스템을 설계하는 것은, 이러한 상호 의존적인 문제들 사이에서 주어진 애플리케이션의 특정 요구사항에 맞춰 각 요소 기술들을 신중하게 조합하고 절충하여 최적의 균형점을 찾는, 고차원적인 시스템 엔지니어링의 과정이라 할 수 있다.
C-SLAM의 이론적 개념과 아키텍처는 여러 연구 그룹에 의해 실제 시스템으로 구현되었다. 이들 중 대표적인 시스템인 CCM-SLAM, Kimera-Multi, 그리고 Swarm-SLAM을 비교 분석함으로써, 각 시스템이 어떤 설계 철학을 바탕으로 어떤 기술적 문제에 집중했는지, 그리고 어떤 장단점을 갖는지 심층적으로 이해할 수 있다.
CCM-SLAM(Centralized Collaborative Monocular SLAM)은 이름에서 알 수 있듯이 중앙집중형 아키텍처를 기반으로 하는 대표적인 C-SLAM 프레임워크다.18 이 시스템은 특히 컴퓨팅 자원이 극도로 제한된 소형 로봇(예: 드론)들의 협력을 염두에 두고 설계되었다.
아키텍처 및 작동 방식: CCM-SLAM은 전형적인 중앙집중형 구조를 따른다. 각 에이전트 로봇은 온보드에서 상대적으로 계산 비용이 저렴한 시각 주행 거리계(Visual Odometry)만을 실행하여 자신의 지역적인 움직임을 추적하고, 제한된 수의 키프레임과 맵포인트(MapPoints)를 유지한다.18 이렇게 생성된 데이터(키프레임, 3D 맵포인트, 특징 기술자 등)는 통신 모듈을 통해 중앙 서버(지상국)로 지속적으로 전송된다. 중앙 서버는 강력한 계산 자원을 바탕으로, 모든 에이전트로부터 수집된 데이터를 통합하여 맵 관리, 장소 인식(루프 폐쇄), 맵 병합, 그리고 전역 번들 조정(Global BA)과 같은 무거운 백엔드 작업을 전담하여 수행한다.18
센서: 시스템의 기본 센서는 단안 카메라(Monocular Camera)이다. 단안 카메라는 저렴하고 가벼우며 전력 소모가 적어 소형 UAV에 탑재하기에 이상적이다.20 CCM-SLAM은 서로 다른 종류의 카메라를 탑재한 이기종(heterogeneous) 에이전트들도 지원하는 유연성을 갖추고 있다.18
주요 특징 및 장단점: CCM-SLAM의 가장 큰 장점은 자원 효율적인 아키텍처에 있다. 계산 부하를 서버로 오프로드함으로써, 각 로봇은 항법에 필수적인 최소한의 작업만 수행하면 되므로 온보드 자원을 크게 절약할 수 있다.20 또한,
강건한 통신 전략을 갖추고 있어 제한된 대역폭이나 통신 지연 및 손실이 발생하는 실제 환경에서도 작동하도록 설계되었다. 만약 서버와의 통신이 완전히 두절되더라도, 협력 기능은 중단되지만 개별 에이전트는 독립적으로 VO를 계속 수행하며 자율성을 잃지 않는다.18 서버 측에서는 수신된 데이터의 중복성을 효율적으로 감지하고 제거하여 전체 맵의 크기를 관리함으로써 시스템의 확장성을 확보하려 노력한다.20
반면, 중앙집중형의 고질적인 문제인 서버 의존성과 통신 병목이라는 단점을 그대로 가지고 있다. 서버가 고장나면 협력이 불가능해지고, 로봇 수가 많아지면 서버로 향하는 통신량이 시스템의 한계로 작용한다.
Kimera-Multi는 MIT에서 개발한 완전 분산형 C-SLAM 시스템으로, 강건성과 고수준의 환경 이해 능력을 목표로 한다.32
아키텍처 및 작동 방식: Kimera-Multi는 중앙 서버 없이 오직 로봇 간 P2P(Peer-to-Peer) 통신에만 의존하는 완전 분산형 아키텍처를 채택했다.32 각 로봇은 자신의 온보드 센서(카메라+IMU) 데이터를 처리하여 지역 궤적과 3D 메시 지도를 독립적으로 생성한다. 통신이 가능한 다른 로봇을 만나면, 분산된 장소 인식 프로토콜을 시작하여 로봇 간 루프 폐쇄를 찾는다. 이때, 잘못된 루프 폐쇄(outlier)를 강건하게 식별하고 제거하기 위해 분산 GNC(Graduated Non-Convexity) 알고리즘 기반의 포즈 그래프 최적화(PGO)를 수행한다.13 최적화된 궤적 정보는 다시 각 로봇의 지역 3D 메시 지도를 수정하여 전역적인 일관성을 높이는 데 사용된다.
센서: 기본적으로 시각-관성 센서(Visual-Inertial Sensors), 즉 카메라와 IMU의 조합을 사용한다. VIO(Visual-Inertial Odometry)는 단일 카메라만 사용할 때 발생하는 스케일 모호성 문제를 해결하고, 빠른 움직임이나 텍스처가 부족한 환경에서도 더 강건한 궤적 추정을 가능하게 한다. 최근에는 다중 카메라와 외부 주행기록계(예: 바퀴 엔코더) 센서까지 지원하도록 확장되어 자율주행차와 같은 복잡한 시스템에도 적용되고 있다.50
주요 특징 및 장단점: Kimera-Multi의 가장 두드러진 특징은 강건한 분산 최적화와 메트릭-시맨틱 매핑(Metric-Semantic Mapping) 능력이다. 분산 GNC 알고리즘은 지각적 중복으로 인해 발생하는 잘못된 루프 폐쇄에 대해 매우 강건한 성능을 보여주며, 이는 분산 시스템의 신뢰도를 크게 높인다.42 더 나아가, Kimera-Multi는 단순히 기하학적 정보(metric)만을 담은 지도를 넘어, ‘건물’, ‘도로’, ‘차량’과 같은 의미론적(semantic) 레이블이 포함된 3D 메시(mesh) 지도를 실시간으로 생성한다.14 이는 로봇이 환경을 더 높은 수준에서 이해하고 지능적인 의사결정을 내리는, 소위 ‘공간 AI(Spatial AI)’를 위한 기반을 제공한다.51
분산형 구조 덕분에 확장성과 강건성이 뛰어나며, 중앙집중형 시스템에 필적하는 높은 정확도를 달성하는 것으로 보고되었다.42 단점으로는, 각 로봇이 PGO와 메시 생성 등 상대적으로 무거운 작업을 온보드에서 수행해야 하므로 CCM-SLAM에 비해 높은 계산 자원을 요구한다는 점과, 분산 합의 알고리즘의 내재적 복잡성을 들 수 있다.
Swarm-SLAM은 스웜 로보틱스(Swarm Robotics)의 핵심 원칙을 C-SLAM에 접목하려는 시도로, 대규모 로봇 군집 운용을 목표로 한다.15
아키텍처 및 작동 방식: Swarm-SLAM은 분산형 아키텍처를 기반으로 하되, 스웜 로보틱스의 철학인 확장성(scalability), 유연성(flexibility), 분산성(decentralization), 희소성(sparsity)을 극대화하는 데 초점을 맞춘다.15 시스템은 중앙 권한이나 전역 지식(global knowledge)에 의존하지 않고, 각 로봇이 자신의 이웃 로봇과의 지역적인 감지 및 통신에만 의존하여 작동하도록 설계되었다.15
센서: Swarm-SLAM의 주요 강점 중 하나는 센서 유연성이다. LiDAR, 스테레오 카메라, RGB-D 카메라 등 다양한 종류의 센서를 지원하는 통합 프레임워크를 제공하여, 이기종 센서로 구성된 로봇 스웜을 운용할 수 있다.15 장소 인식을 위해 LiDAR 데이터에는 Scan Context를, 이미지 데이터에는 CosPlace와 같은 최신 기술자를 적용하는 등 센서 종류에 맞는 다양한 기술을 지원한다.13
주요 특징 및 장단점: Swarm-SLAM의 핵심 혁신은 통신 부하를 줄이기 위한 로봇 간 루프 폐쇄 우선순위 기법에 있다. 모든 로봇이 모든 루프 폐쇄 후보를 교환하는 대신, 대수적 연결성 최대화(algebraic connectivity maximization)라는 그래프 이론 기반의 기준을 사용하여 전체 포즈 그래프의 수렴을 가장 가속화할 수 있는 중요한 루프 폐쇄 정보만을 선별적으로 교환한다.13 이는 제한된 통신 환경에서 대규모 스웜의 성능을 유지하는 데 결정적인 역할을 한다. 또한, 로봇 운영체제인 ROS 2를 기반으로 하고 ad-hoc 네트워크를 지원하여, 연구자들이 쉽게 접근하고 실제 로봇에 적용할 수 있도록 접근성과 실용성을 높였다.15
Swarm-SLAM은 스웜 로보틱스의 이상을 추구하지만, 아직 연구 초기 단계에 있으며, 복잡한 3D 메시 지도보다는 위상 맵이나 단순한 의미론적 맵과 같은 추상적인 지도를 생성하는 데 더 적합할 수 있다는 한계도 지적된다.22
이 세 시스템은 C-SLAM의 스펙트럼을 잘 보여준다. CCM-SLAM이 자원 제약과 중앙 통제의 실용성에 초점을 맞췄다면, Kimera-Multi는 강건성과 고수준의 시맨틱 이해라는 성능의 극한을 추구한다. 그리고 Swarm-SLAM은 대규모 군집 운용이라는 미래 비전을 향해 확장성과 유연성의 원칙을 탐구한다. 어떤 시스템이 ‘더 좋은가’는 절대적인 질문이 아니며, 애플리케이션의 구체적인 요구사항-로봇의 사양, 팀의 규모, 임무의 목표, 통신 환경-에 따라 최적의 선택이 달라질 것이다.
다음 표는 세 가지 대표적인 C-SLAM 시스템의 특징을 요약하여 비교한다.
| 구분 (Category) | CCM-SLAM | Kimera-Multi | Swarm-SLAM |
|---|---|---|---|
| 아키텍처 | 중앙집중형 18 | 완전 분산형 32 | 분산형 (스웜 지향) 15 |
| 주요 센서 | 단안 카메라 20 | 시각-관성 (카메라+IMU) 32 | 다중 센서 지원 (LiDAR, Stereo, RGB-D) 15 |
| 핵심 특징 | 계산 오프로딩, 통신 손실에 대한 강건성 20 | 강건한 분산 PGO (GNC), 메트릭-시맨틱 매핑 42 | 루프 폐쇄 우선순위 기법, 스웜 원칙 준수, 센서 유연성 13 |
| 장점 | 저사양 로봇에 적합, 단순화된 전역 최적화 20 | Outlier에 대한 높은 강건성, 고수준의 의미론적 지도 생성 42 | 뛰어난 확장성, 이기종 센서 지원, 통신 효율성 15 |
| 단점 | 중앙 서버 의존성, 통신 병목, 확장성 한계 15 | 높은 온보드 계산 요구량, 분산 조정 알고리즘의 복잡성 15 | 아직 상대적으로 초기 연구 단계, 복잡한 맵 표현보다는 추상적 맵에 더 적합할 수 있음 22 |
| 지도 형태 | 희소 특징점 기반 맵 (Sparse Feature Map) 29 | 3D 시맨틱 메시 (3D Semantic Mesh) 42 | 포즈 그래프 및 포인트 클라우드 53 |
C-SLAM 기술은 지속적으로 발전하고 있으며, 특히 딥러닝(Deep Learning) 기술의 통합은 이 분야에 혁신적인 변화를 가져오고 있다. 딥러닝은 전통적인 SLAM 파이프라인의 여러 구성 요소, 특히 장소 인식과 환경 이해 능력을 근본적으로 향상시키고 있으며, 이는 ‘시맨틱 SLAM’이라는 새로운 패러다임으로 이어지고 있다.
배경: 전통적인 루프 폐쇄 기법은 주로 Bag-of-Words(BoW) 모델에 의존해왔다. 이 방법은 이미지에서 추출한 지역 특징점(local features)들을 미리 정의된 ‘시각적 단어(visual words)’ 사전에 매핑하여 이미지를 히스토그램 벡터로 표현하고, 이 벡터들의 유사도를 비교하여 같은 장소를 찾아낸다.40 그러나 이 접근법은 조명 변화, 계절 변화, 시점의 급격한 변화 등 외형(appearance)이 크게 달라지는 상황에 매우 취약하다. 또한, 시각적으로 유사하지만 실제로는 다른 장소(perceptual aliasing)를 잘못 인식하는 문제가 빈번하게 발생한다.43
딥러닝의 역할: 딥러닝, 특히 CNN(Convolutional Neural Networks)은 이러한 문제에 대한 강력한 해결책을 제시한다. CNN은 대규모 이미지 데이터셋을 통해 학습하면서, 이미지의 저수준 픽셀 정보로부터 점차 추상적이고 의미론적인 고수준 특징을 추출하는 능력을 갖게 된다.40 SLAM의 장소 인식에 이 능력을 활용하면, 이미지의 표면적인 외형 변화에는 덜 민감하면서도 장소의 본질적인 구조나 ‘의미’를 포착하는 강건한 표현(representation)을 얻을 수 있다.43
주요 기법: NetVLAD, CosPlace, Region-VLAD와 같은 딥러닝 기반 장소 인식 기법들은 사전 훈련된 CNN을 기반으로, 전체 이미지를 고차원의 간결한 벡터, 즉 전역 기술자(global descriptor)로 변환한다.13 이 벡터들은 장소의 고유한 ‘지문’처럼 작용하여, 벡터 공간에서의 거리 계산만으로 매우 효율적이고 정확한 장소 간 유사도 검색을 가능하게 한다.43 이러한 딥러닝 기반 기술자들은 전통적인 BoW 방법에 비해 월등히 높은 정확도와 강건성을 보여주며, C-SLAM 시스템에서 로봇 간 루프 폐쇄의 성공률을 극적으로 향상시키고 있다.
효과: 딥러닝 모델을 장소 인식에 사용하면, 애초에 백엔드로 전달되는 잘못된 루프 폐쇄 후보의 수를 크게 줄일 수 있다. 이는 백엔드의 강건한 최적화 알고리즘(예: GNC)이 처리해야 할 outlier의 수를 줄여주므로, 전체 시스템의 계산 부담을 덜고 신뢰성을 높이는 선순환 구조를 만든다.41
개념: 전통적인 SLAM의 결과물은 점, 선, 면으로 구성된 순수한 기하학적 지도였다. 이 지도는 로봇에게 ‘어디에 장애물이 있는지’를 알려줄 수는 있지만, ‘그 장애물이 무엇인지’는 알려주지 못한다. 시맨틱 SLAM(Semantic SLAM)은 이러한 한계를 넘어, 지도에 ‘의미(semantics)’를 부여하는 것을 목표로 한다.55 즉, 지도상의 객체가 단순한 3D 점들의 집합이 아니라 ‘의자’, ‘문’, ‘도로’, ‘사람’과 같은 의미론적 레이블을 갖게 하는 것이다.
필요성: 로봇이 인간과 자연스럽게 상호작용하고 복잡한 작업을 수행하기 위해서는 환경에 대한 의미론적 이해가 필수적이다. 예를 들어, “부엌으로 가서 테이블 위에 있는 사과를 가져와”와 같은 고수준의 인간 명령을 로봇이 이해하고 수행하려면, ‘부엌’, ‘테이블’, ‘사과’라는 객체의 의미와 그들 간의 공간적 관계를 파악할 수 있어야 한다.56 이는 기하학적 정보만으로는 불가능한 영역이다.
구현: 시맨틱 SLAM은 일반적으로 딥러닝 기반의 컴퓨터 비전 기술을 SLAM 파이프라인에 통합하여 구현된다. YOLO, SSD와 같은 객체 탐지(Object Detection) 네트워크나, U-Net, SegNet과 같은 시맨틱 분할(Semantic Segmentation) 네트워크를 사용하여, 카메라 이미지로부터 실시간으로 객체의 종류와 위치, 또는 픽셀 단위의 의미론적 레이블을 추출한다.45 이렇게 얻어진 시맨틱 정보는 SLAM을 통해 생성된 기하학적 지도 위에 투영되어, 각 3D 랜드마크나 메시 표면에 의미론적 속성을 부여하게 된다.
이점:
과제: 시맨틱 SLAM의 가장 큰 과제는 계산 비용이다. 객체 탐지나 시맨틱 분할을 위한 딥러닝 네트워크는 상당한 계산 자원을 소모하므로, 이를 SLAM의 실시간 요구사항과 제한된 온보드 컴퓨팅 자원 내에서 어떻게 효율적으로 통합할 것인지가 핵심적인 연구 주제다.45
이러한 발전은 C-SLAM의 궁극적인 목표를 재정의하고 있다. 전통적인 C-SLAM의 목표가 모든 로봇이 동일한 좌표계 상에서 일관된 ‘공유된 기하학적 모델’을 갖는 것이었다면, 시맨틱 C-SLAM(예: Kimera-Multi)은 이를 넘어 ‘공유된 세계 이해(Shared World Understanding)’를 구축하는 것으로 나아가고 있다. 이제 로봇들은 단순히 3D 점들의 위치를 교환하는 것이 아니라, “저기에 ‘문’이 있다” 또는 “이 구역은 ‘도로’이다”와 같은 ‘공유된 의미’를 구축하고 교환하기 시작한다.14
이는 엄청난 파급 효과를 가진다. 로봇 A가 ‘문’을 발견하고 이 정보를 공유하면, 로봇 B는 그 정보를 바탕으로 “나는 저 ‘문’을 통해 다른 방으로 진입할 수 있다”는, 기하학적 정보만으로는 불가능했던 고수준의 행동 계획을 세울 수 있게 된다. 더 나아가, 이는 여러 로봇이 의미론적 지도를 일관되게 병합하고 유지하기 위한 ‘공유된 온톨로지(shared ontology)’의 문제를 제기한다. 즉, 로봇 A가 ‘의자’라고 인식하는 객체를 로봇 B도 동일하게 ‘의자’로 인식하고 이해할 수 있도록 보장하는 기술이 필요해진다.
결론적으로, 시맨틱 C-SLAM의 등장은 C-SLAM의 최종 목표를 단순한 ‘공동 매핑’에서 ‘공동의 상황 인식 및 이해’로 격상시키고 있다. 지도는 더 이상 탐색을 위한 정적인 배경이 아니라, 로봇 팀이 상호작용하고, 추론하며, 공동의 작업을 수행하는 동적인 ‘지식 베이스(knowledge base)’로 진화하고 있다. 이는 진정한 의미의 협력적 지능(collaborative intelligence)으로 나아가는 중요한 이정표이며, 자율 로봇 기술의 미래를 밝히는 핵심 동력이 될 것이다.
C-SLAM 기술은 그 이론적 정교함을 넘어, 실제 세계의 다양한 분야에서 단일 로봇으로는 해결하기 어려웠던 문제들을 해결하며 그 가치를 입증하고 있다. 특히 광범위한 영역을 신속하게 탐사하고, 위험한 환경에서 강건하게 작동해야 하는 응용 분야에서 C-SLAM의 중요성은 더욱 부각된다.
요약: 본 고찰을 통해 살펴본 바와 같이, C-SLAM은 단일 로봇 SLAM이 직면했던 누적 오차, 탐사 효율성, 강건성의 한계를 극복하기 위한 핵심적인 기술 패러다임으로 자리 잡았다. 여러 로봇의 협력을 통해 시스템 전체의 정확도와 신뢰성을 비약적으로 향상시키는 C-SLAM은 중앙집중형과 분산형이라는 두 가지 주요 아키텍처를 축으로 발전해왔다. 중앙집중형은 자원 효율성과 최적화의 용이성을, 분산형은 강건성과 확장성을 장점으로 가지며, 실제 시스템들은 특정 응용 분야의 요구사항과 제약 조건에 맞춰 이 두 아키터처의 요소를 전략적으로 절충하고 융합하는 방향으로 진화하고 있다.
미래 연구 방향: C-SLAM 기술은 여전히 해결해야 할 과제와 무한한 잠재력을 동시에 안고 있으며, 다음과 같은 방향으로 연구가 활발히 진행될 것으로 전망된다.
최종 결론: C-SLAM 기술은 딥러닝과 시맨틱 기술의 융합을 통해, 단순한 ‘위치 추정 및 지도 작성’ 도구를 넘어서고 있다. 이는 로봇 팀이 복잡하고 동적인 실제 환경을 공동으로 ‘이해’하고, 그 이해를 바탕으로 ‘상호작용’하며, ‘공동의 목표’를 달성하게 하는 협력적 공간 지능(Collaborative Spatial AI)의 근간 기술로 발전하고 있다. 이 기술의 지속적인 성숙과 발전은, 자율 로봇이 재난 현장에서부터 우주 공간, 그리고 우리 일상생활에 이르기까지 사회의 다양한 영역에서 핵심적인 역할을 수행하는 미래를 앞당기는 가장 강력한 동력이 될 것이다.
| Overview of SLAM. What is SLAM? What is Simultaneous… | by Luis Bermudez | machinevision | Medium, accessed July 31, 2025, https://medium.com/machinevision/overview-of-slam-50b7f49903b7 |
| C-SLAM Problem Major Milestones. | Download Scientific Diagram - ResearchGate, accessed July 31, 2025, https://www.researchgate.net/figure/C-SLAM-Problem-Major-Milestones_fig1_361157522 |
| Kimera-Multi: a System for Distributed Multi-Robot Metric-Semantic Simultaneous Localization and Mapping | Request PDF - ResearchGate, accessed July 31, 2025, https://www.researchgate.net/publication/355432213_Kimera-Multi_a_System_for_Distributed_Multi-Robot_Metric-Semantic_Simultaneous_Localization_and_Mapping |
| CCM‐SLAM: Robust and efficient centralized collaborative monocular simultaneous localization and mapping for robotic teams | Request PDF - ResearchGate, accessed July 31, 2025, https://www.researchgate.net/publication/329925889_CCM-SLAM_Robust_and_efficient_centralized_collaborative_monocular_simultaneous_localization_and_mapping_for_robotic_teams |