AI 기반 시각-관성 항법(VINS) 기술

AI 기반 시각-관성 항법(VINS) 기술

1. 자율 시스템의 눈과 귀, VINS의 현재와 미래

1.1 개요

시각-관성 항법 시스템(Visual-Inertial Navigation System, VINS)은 카메라의 시각 정보와 관성 측정 장치(Inertial Measurement Unit, IMU)의 관성 정보를 실시간으로 융합하여 이동체의 6자유도(6-DOF) 자세(위치 및 방향)를 추정하고, 주변 환경의 3차원 지도를 생성하는 기술이다.1 VINS는 위성 항법 시스템(GNSS/GPS) 신호가 약하거나 수신이 불가능한 실내, 도심 협곡, 수중, 지하와 같은 환경에서 자율 시스템의 핵심적인 위치 결정 기술로 부상하였다.2 저렴한 비용으로 높은 정확도를 달성할 수 있는 잠재력 덕분에, VINS는 자율 비행 드론, 자율주행 자동차, 증강현실(AR) 및 가상현실(VR) 기기, 로보틱스 등 광범위한 분야에서 핵심 기술로 자리매김하고 있다.1

1.2 AI 융합의 필요성

그러나 전통적인 VINS 기술은 강건성 측면에서 명백한 한계에 직면한다. 순수 시각 기반 접근법은 질감이 부족한(texture-less) 환경, 빠른 움직임으로 인한 모션 블러(motion blur), 급격한 조명 변화와 같은 악조건에서 특징점 추적에 실패하여 성능이 급격히 저하된다.7 IMU를 통합하여 이러한 단점을 일부 보완하지만, 움직이는 객체가 많은 동적 환경이나 센서의 비선형성이 두드러지는 극한의 움직임 상황에서는 여전히 추정 오차가 누적되어 시스템의 안정성을 보장하기 어렵다.3 이러한 전통적 VINS의 한계를 극복하기 위한 대안으로 인공지능(AI), 특히 심층 신경망(Deep Neural Network, DNN)을 활용하는 접근법이 활발히 연구되고 있다. AI 기술은 방대한 데이터로부터 복잡하고 비선형적인 패턴을 학습하는 능력을 통해, 기존의 물리적 또는 수학적 모델만으로는 대처하기 어려웠던 문제들을 해결할 잠재력을 지닌다.8 AI는 VINS의 강건성과 정확성을 한 차원 높은 수준으로 끌어올릴 새로운 패러다임을 제시하고 있다.10

1.3 보고서의 구성

본 보고서는 AI 기반 VINS 기술을 체계적이고 심층적으로 분석하는 것을 목표로 한다. 먼저, VINS를 구성하는 기본 원리와 핵심 센서들의 상호 보완적 관계를 설명한다. 이어서, 전통적인 VINS의 대표적인 접근법인 필터 기반 방식과 최적화 기반 방식의 수학적 모델을 상세히 분석한다. 보고서의 핵심인 4장에서는, 전통적인 프레임워크의 특정 모듈을 AI로 대체하는 ’하이브리드 접근법’과 전체 시스템을 단일 신경망으로 구성하는 ’종단간 학습 접근법’을 심도 있게 다룬다. 마지막으로, AI 기반 VINS가 직면한 기술적 과제들을 진단하고, 온라인 연속 학습, 다중 모드 센서 융합 등 최신 연구 동향을 바탕으로 미래 기술 발전 방향을 전망한다.

2. 시각-관성 항법(VINS)의 기본 원리

2.1 개요

VINS의 핵심은 서로 다른 물리적 원리를 기반으로 동작하는 이종(heterogeneous) 센서인 카메라와 IMU의 데이터를 상호 보완적으로 융합하는 데 있다. 카메라는 외부 세계에 대한 절대적인 기하학적 정보를 제공하지만 특정 조건에 취약하고, IMU는 외부와 무관하게 자신의 운동 상태를 측정하지만 시간에 따라 오차가 누적된다. 이 두 센서의 장단점을 결합함으로써, 각 센서가 가진 고유의 한계를 극복하고 강건하며 정확한 6-DOF 자세 추정을 달성한다.

2.2 핵심 구성 요소: 카메라와 관성 측정 장치(IMU)

2.2.1 카메라(Visual Sensor)

카메라는 렌즈를 통해 들어온 빛을 이미지 센서에 투영하여 주변 환경에 대한 풍부하고 밀도 높은 외부 정보를 획득한다.11 VINS에서 카메라는 컴퓨터 비전 알고리즘을 통해 이미지로부터 특징점(feature points)이라 불리는 식별 가능한 지점들(예: 코너)을 추출하고, 연속된 이미지 프레임 간에 이 특징점들의 움직임을 추적한다.3 이러한 특징점들의 2D 움직임 정보를 기하학적으로 분석하여 카메라의 상대적인 위치 변화와 방향(회전)을 추정할 수 있다. 그러나 단일 카메라(monocular camera)를 사용하는 경우, 3차원 공간을 2차원 이미지 평면으로 투영하는 과정에서 깊이(depth) 정보가 소실되어 실제 움직임의 크기, 즉 스케일(scale)을 알 수 없는 ‘스케일 모호성(scale ambiguity)’ 문제가 발생한다. 또한, 물체가 빠르게 움직일 때 이미지가 흐려지는 모션 블러 현상이나, 벽과 같이 질감이 없는 환경, 조명이 급격하게 변하는 환경에서는 안정적인 특징점 추출 및 추적이 어려워 성능이 저하된다.7

2.2.2 관성 측정 장치(IMU; Inertial Measurement Unit)

IMU는 가속도계(accelerometer)와 자이로스코프(gyroscope)를 내장하여 뉴턴의 운동 법칙에 기반한 관성력을 측정하는 센서이다.13 자이로스코프는 물체의 3축 회전 각속도(

ω)를 측정하고, 가속도계는 중력 가속도를 포함한 3축 선형 가속도(a)를 측정한다. VINS는 IMU로부터 높은 주파수(예: 200-500 Hz)로 출력되는 이 측정값들을 이용한다. 각속도를 시간에 대해 적분하면 자세 변화를, 가속도를 시간에 대해 두 번 적분하면 위치 변화를 계산할 수 있다. 이를 ’추측 항법(Dead Reckoning)’이라 하며, 외부 정보 없이 자신의 운동 상태를 추정할 수 있다는 강력한 장점을 가진다.14 덕분에 시각 정보가 불안정해지는 순간에도 단기적인 움직임 정보를 안정적으로 제공하여 시스템의 강건성을 높인다.3 하지만 IMU 센서 자체의 불완전성으로 인해 측정값에는 항상 미세한 바이어스(bias)와 노이즈가 포함된다. 이 오차는 적분 과정을 거치면서 시간에 따라 제곱, 세제곱 형태로 빠르게 누적되어, 시간이 지날수록 실제 위치와의 오차가 무한정 커지는 ‘드리프트(drift)’ 문제를 야기한다.14

2.3 센서 융합의 상보성 원리: 빛과 관성의 시너지

VINS의 진정한 가치는 단순히 두 센서의 정보를 합치는 것이 아니라, 한 센서의 본질적인 약점이 다른 센서의 강점에 의해 수학적으로 제약되는 ’구조적 상보성’에 있다. 카메라는 장기적으로 드리프트가 없는 정확한 기하학적 정보를 제공하지만, 스케일이 불분명하고 저주파수이며 환경에 민감하다. 반면, IMU는 고주파수로 스케일을 포함한 단기 모션을 매우 정확하게 측정하지만, 장기적으로는 드리프트에서 자유롭지 못하다.1

  • 스케일 모호성 해결: IMU의 가속도계는 항상 지구의 중력 가속도 벡터(g)를 측정한다. 이 중력 벡터는 월드 좌표계에서 그 크기(≈9.8m/s2)와 방향이 일정하므로, 절대적인 스케일과 수직 방향에 대한 강력한 물리적 기준(anchor)을 제공한다. 따라서 시각 정보만으로는 알 수 없었던 상대적인 움직임 궤적(up-to-scale trajectory)을 IMU가 제공하는 중력 벡터 정보와 정렬(alignment)함으로써, 모노 VINS는 실제 미터(meter) 단위의 스케일을 복원할 수 있다.7

  • 드리프트 보정: 카메라는 주변 환경의 정적인 특징점들을 반복적으로 관찰함으로써 드리프트 없는 위치 정보를 제공한다. 이 시각적 관측값은 IMU의 적분 과정에서 누적된 위치 및 자세 오차를 지속적으로 보정하는 역할을 한다. 즉, 시각 정보가 IMU 드리프트의 상한선을 설정하는 제약 조건으로 작용하는 것이다.18

  • 강건성 확보: 반대로, 카메라가 모션 블러나 텍스처 부족으로 인해 특징점 추적에 실패하는 짧은 순간에도, IMU는 고주파수 측정값을 통해 시스템이 자세를 잃지 않고 항법을 계속할 수 있도록 한다. 이처럼 두 센서는 서로의 실패 지점을 보완하며 시스템 전체의 강건성을 극대화한다.7

이러한 상호작용은 단순한 데이터의 가중 평균이 아니라, 각 센서의 물리적 모델(IMU 운동 방정식)과 기하학적 모델(카메라 투영 모델)이 서로를 구속하는 강력한 피드백 루프를 형성함을 의미한다.

특성 (Characteristic)카메라 (Camera)관성 측정 장치 (IMU)
측정 원리 (Principle)광학적 투영 (Optical Projection)뉴턴 역학 (Newtonian Mechanics)
측정 대상 (Measures)주변 환경의 외형 (External environment)기기의 고유 운동 (Ego-motion)
데이터 종류 (Data Type)2D 이미지 (픽셀 강도)3축 각속도, 3축 선형 가속도
데이터 속도 (Rate)저주파 (e.g., 20-30 Hz)고주파 (e.g., 200-500 Hz)
장점 (Strengths)드리프트 없음 (Drift-free), 풍부한 환경 정보고주파수, 스케일 정보 제공, 외부 환경 독립
단점 (Weaknesses)스케일 모호성(모노), 모션 블러, 텍스처/조명 의존시간에 따른 오차 누적 (Drift), 바이어스 존재
VINS 내 역할 (Role in VINS)드리프트 보정, 맵 생성고속 움직임 추적, 스케일 결정, 모션 제약

2.4 6-DOF 상태 추정 문제의 수학적 정립

VINS의 궁극적인 목표는 고정된 월드 좌표계 {W}에 대한 IMU(또는 Body) 좌표계 {B}의 6자유도 상태 벡터 \mathbf{x}를 실시간으로 추정하는 것이다. 이 상태 벡터는 시스템의 모든 동적 정보를 포함하며, 일반적으로 다음과 같이 정의된다.

코드 스니펫

\mathbf{x}_k =^T

여기서 각 항목은 다음과 같다:

  • pwbk: 시간 k에서 월드 좌표계 {W}에 대한 IMU 좌표계 {B_k}의 위치 벡터 (3x1)

  • vwbk: 시간 k에서 월드 좌표계 {W}에 대한 IMU 좌표계 {B_k}의 속도 벡터 (3x1)

  • qwbk: 시간 k에서 월드 좌표계 {W}에 대한 IMU 좌표계 {B_k}의 방향을 나타내는 쿼터니언 (4x1)

  • ba,k: 시간 k에서의 가속도계 바이어스 벡터 (3x1)

  • bg,k: 시간 k에서의 자이로스코프 바이어스 벡터 (3x1)

VINS 알고리즘은 IMU 측정값과 카메라 이미지 입력을 받아 이 16차원(또는 회전 행렬 사용 시 15차원) 상태 벡터 xk​를 가장 가능성 높은 값으로 추정하는 확률적 추정 문제로 귀결된다.

3. 전통적 VINS의 결정론적 및 확률론적 접근법

3.1 개요

AI 기술이 도입되기 이전, VINS의 상태 추정 문제는 주로 확률론적 필터링과 비선형 최적화라는 두 가지 수학적 프레임워크를 통해 해결되어 왔다. 필터 기반 접근법은 실시간성에 중점을 두는 반면, 최적화 기반 접근법은 높은 정확도를 목표로 한다. 이 두 방법론은 VINS 기술 발전의 근간을 이루었으며, 현재의 AI 기반 VINS 역시 이들의 철학과 구조에 깊이 뿌리내리고 있다.

3.2 필터 기반 접근법: 확장 칼만 필터(EKF) 중심의 상태 추정

필터 기반 VINS는 이전 시간의 상태 추정치와 현재 시간의 측정값을 이용해 현재 상태를 재귀적으로(recursively) 추정하는 베이즈 필터링(Bayesian filtering) 기법에 기반한다.20 VINS 시스템의 동역학 모델과 측정 모델이 비선형(non-linear)이기 때문에, 주로 확장 칼만 필터(Extended Kalman Filter, EKF)가 사용된다.3 EKF는 예측(Prediction)과 보정(Update)의 두 단계로 구성된다.

  • 예측 단계 (Prediction): 이전 상태 추정치 \mathbf{x}*{k-1}와 두 프레임 사이의 IMU 측정값 \mathbf{u}*{k-1}을 비선형 동역학 모델 f(\cdot)에 입력하여 현재 상태의 사전 추정치(a priori estimate) \hat{\mathbf{x}}_k^-를 계산한다. 이 과정에서 상태의 불확실성을 나타내는 공분산 행렬 \mathbf{P}도 함께 전파된다.21

코드 스니펫

\hat{\mathbf{x}}_k^- = f(\mathbf{x}_{k-1}, \mathbf{u}_{k-1})
$$   $$
\mathbf{P}_k^- = \mathbf{F}_{k-1} \mathbf{P}_{k-1} \mathbf{F}_{k-1}^T + \mathbf{Q}_{k-1}

여기서 \mathbf{F}는 상태 전이 모델을 선형화한 자코비안 행렬이며, \mathbf{Q}는 프로세스 노이즈의 공분산 행렬이다.

  • 보정 단계 (Update): 새로운 카메라 측정값(특징점의 이미지 좌표) zk​가 들어오면, 사전 추정치 \hat{\mathbf{x}}_k^-를 이용해 계산한 예상 측정값 h(\hat{\mathbf{x}}_k^-)과의 차이, 즉 이노베이션(innovation)을 계산한다. 이 이노베이션에 칼만 이득(Kalman Gain) Kk​를 곱하여 사전 추정치를 보정하고, 최종 사후 추정치(a posteriori estimate) xk​를 얻는다.22

코드 스니펫

\mathbf{K}_k = \mathbf{P}_k^- \mathbf{H}_k^T (\mathbf{H}_k \mathbf{P}_k^- \mathbf{H}_k^T + \mathbf{R}_k)^{-1}
$$   $$
\mathbf{x}_k = \hat{\mathbf{x}}_k^- + \mathbf{K}_k (\mathbf{z}_k - h(\hat{\mathbf{x}}_k^-))
$$   $$
\mathbf{P}_k = (\mathbf{I} - \mathbf{K}_k \mathbf{H}_k) \mathbf{P}_k^-

여기서 \mathbf{H}는 측정 모델을 선형화한 자코비안 행렬이며, \mathbf{R}은 측정 노이즈의 공분산 행렬이다.

EKF의 가장 큰 특징은 재귀적 구조로 인해 매 시간 단계마다 고정된 계산량만을 필요로 하여 실시간성에 매우 유리하다는 점이다. 하지만 비선형 모델을 현재 추정치 주변에서 단 한 번만 선형화하기 때문에, 선형화 오차가 누적되어 필터의 추정치가 실제 값에서 멀어지는 불일치(inconsistency) 문제가 발생할 수 있다.7 이러한 문제를 완화하기 위해, 특징점의 3D 위치를 상태 벡터에 직접 포함하지 않고 여러 카메라 자세 간의 기하학적 제약 조건으로 활용하는 다중 상태 제약 칼만 필터(Multi-State Constraint Kalman Filter, MSCKF)가 제안되어 널리 사용되고 있다.18

3.2. 최적화 기반 접근법: 팩터 그래프 최적화(Factor Graph Optimization)

최적화 기반 VINS는 일정 기간 동안의 센서 측정값과 상태 변수들을 하나의 큰 비선형 최소제곱(Non-linear Least Squares) 문제로 구성하여 해를 구하는 방식이다.26 이 접근법은 모든 관련 정보를 동시에 고려하여 최적의 해를 찾기 때문에 필터 기반 방식보다 일반적으로 더 높은 정확도를 제공한다. 이 문제 구조는 팩터 그래프(Factor Graph)로 효과적으로 표현될 수 있다.27

  • 팩터 그래프 모델링: 상태 변수(카메라 자세, 속도, 바이어스, 특징점 위치 등)를 변수 노드(variable node)로, 센서 측정값으로부터 파생된 제약 조건(IMU 운동 모델, 카메라 투영 모델 등)을 팩터 노드(factor node)로 표현하는 그래프 모델이다. VINS 문제는 이 팩터 그래프가 나타내는 전체 확률 분포의 최대 사후 확률(Maximum a Posteriori, MAP)을 찾는 문제와 동일하다.26

  • 전체 비용 함수 (Full Cost Function): MAP 추정은 결국 모든 팩터에 해당하는 오차(잔차, residual)의 제곱합을 최소화하는 비용 함수를 푸는 것과 같다. VINS-Mono와 같은 최신 최적화 기반 VINS의 비용 함수는 일반적으로 다음과 같은 형태로 구성된다.28

코드 스니펫

\min_{\mathcal{X}} \left\{ \left\| \mathbf{r}_p - \mathbf{H}_p \mathcal{X} \right\|^2 + \sum_{k \in \mathcal{B}} \left\| \mathbf{r}_{\mathcal{B}}(\hat{\mathbf{z}}_{b_k}^{b_{k+1}}, \mathcal{X}) \right\|_{\mathbf{P}_{b_k}^{b_{k+1}}}^2 + \sum_{(l,j) \in \mathcal{C}} \rho \left( \left\| \mathbf{r}_{\mathcal{C}}(\hat{\mathbf{z}}_l^{c_j}, \mathcal{X}) \right\|_{\mathbf{P}_l^{c_j}}^2 \right) \right\}

이 식은 세 가지 주요 항으로 구성된다:

  1. 사전 확률 항 (Prior Factor): ∥rp​−Hp​X∥2는 한계화(marginalization)를 통해 얻어진 과거 상태에 대한 정보를 담고 있는 사전 확률 항이다. 이는 슬라이딩 윈도우에서 오래된 상태를 제거할 때 정보 손실을 최소화하는 역할을 한다.

  2. IMU 측정 오차 항 (IMU Factor): ∑k∈B​∥rB​(z^bk​bk+1​​,X)∥2는 두 키프레임 k와 k+1 사이의 IMU 측정 오차를 나타낸다. 여기서 \hat{\mathbf{z}}*{b_k}^{b*{k+1}}는 두 프레임 간의 IMU 측정값을 사전에 적분한 ‘IMU 사전적분(IMU Preintegration)’ 값이다. 이 기법은 최적화 과정에서 상태 변수가 업데이트될 때마다 IMU 측정값을 반복적으로 재적분하는 계산 비효율성을 제거한다.7 잔차 \mathbf{r}_{\mathcal{B}}는 사전적분된 측정값과 최적화 변수인 두 프레임의 자세, 속도, 바이어스로부터 계산된 상대 움직임 간의 차이로 정의된다.

  3. 시각적 재투영 오차 항 (Visual Reprojection Factor): \sum_{(l,j) \in \mathcal{C}} \rho(|\mathbf{r}_{\mathcal{C}}(\hat{\mathbf{z}}_l^{c_j}, \mathcal{X})|^2)는 l번째 3D 특징점을 j번째 카메라 프레임으로 투영했을 때의 예상 픽셀 좌표와 실제 관측된 픽셀 좌표 간의 차이, 즉 재투영 오차를 나타낸다.27 \rho(\cdot)는 이상치(outlier)의 영향을 줄이기 위한 강건 비용 함수(robust cost function)이다.

  • 슬라이딩 윈도우 및 한계화: 전체 궤적에 대한 최적화는 계산량이 무한히 증가하므로, VINS-Mono와 같은 시스템은 최근의 키프레임 몇 개로 구성된 ‘슬라이딩 윈도우(sliding window)’ 내에서만 최적화를 수행한다.27 윈도우에서 가장 오래된 상태를 제거할 때, 관련된 팩터들의 정보를 확률적으로 압축하여 다음 최적화 단계의 사전 확률(prior)로 전달하는 ‘한계화(marginalization)’ 기법을 사용하여 정보 손실을 최소화하고 계산 복잡도를 일정하게 유지한다.25

최적화 기반 접근법은 슬라이딩 윈도우 내에서 모든 측정값을 반복적으로 재선형화하며 최적의 해를 찾기 때문에 EKF보다 훨씬 정확하고 지역적으로 일관된(locally consistent) 해를 제공한다. 하지만 계산 비용이 높고, 루프 클로저(loop closure) 제약이 없으면 장기적으로 전역 드리프트(global drift)를 막을 수 없다는 단점이 있다.4

3.3. 센서 융합 방식 비교: 강결합(Tightly-coupled) vs. 약결합(Loosely-coupled)

VINS에서 센서 데이터를 융합하는 방식은 크게 약결합과 강결합으로 나뉜다.4

  • 약결합 (Loosely-coupled): 시각 센서(카메라)와 관성 센서(IMU)가 각각 독립적으로 자신의 자세(위치, 방향)를 추정한 뒤, 이 두 추정 결과를 외부의 또 다른 필터(예: 칼만 필터)를 통해 융합하는 방식이다. 각 서브시스템이 모듈화되어 있어 구현이 비교적 간단하고 계산 효율이 높다. 하지만 각 센서의 원시 측정 데이터(raw measurement)가 가진 풍부한 정보가 각 서브시스템의 추정 과정에서 손실된 후 융합되므로, 최종적인 정확도는 강결합 방식에 비해 낮다.4

  • 강결합 (Tightly-coupled): 카메라의 원시 측정값(예: 특징점의 픽셀 좌표)과 IMU의 원시 측정값(각속도, 가속도)을 하나의 통합된 상태 추정기(필터 또는 최적화) 내에서 직접 융합하는 방식이다. 이 방식은 두 센서 간의 상호 상관관계와 모든 정보를 최대한 활용하여 상태 변수들을 동시에 추정하므로, 훨씬 높은 정확도를 달성할 수 있다. VINS-Mono, OKVIS 등 대부분의 고성능 VINS 시스템들은 강결합 방식을 채택하고 있다.4 그러나 시스템 모델이 복잡해지고 추정해야 할 상태 변수의 차원이 커져 계산량이 많다는 단점이 있다.4

구분 (Category)약결합 (Loosely-coupled)강결합 (Tightly-coupled)
방법론 (Methodology)각 센서 모듈이 독립적으로 상태 추정 후 결과 융합원시 측정 데이터를 단일 상태 추정기에서 직접 융합
정보 활용도 (Information Usage)제한적 (각 모듈의 출력만 사용)최대 (원시 데이터의 통계적 특성 모두 활용)
정확도 (Accuracy)낮음높음
계산 복잡도 (Complexity)낮음높음
센서 고장 시 강건성한 센서 고장이 다른 센서에 미치는 영향 적음한 센서의 불량 데이터가 전체 시스템에 영향 가능
대표 시스템 (Example Systems)초기 VINS, GPS/INS 융합 일부VINS-Mono, OKVIS, OpenVINS

필터 기반과 최적화 기반 접근법의 선택은 ’실시간성’과 ‘정확성 및 일관성’ 사이의 근본적인 트레이드오프를 반영한다. EKF는 재귀적 구조 덕분에 실시간성에 유리하지만, 과거 상태를 다시 고려하지 않고 한 번의 선형화로 넘어가기 때문에 초기의 작은 오차가 시스템 전체에 영구적인 영향을 미칠 수 있다. 반면 최적화 기반 방법은 슬라이딩 윈도우 내에서 여러 측정값을 반복적으로 재선형화하며 최적의 해를 찾으므로 훨씬 정확하지만 계산 비용이 높다. AI 기술은 이러한 전통적인 방법론들의 본질적인 약점(EKF의 선형화 오차, 최적화의 특징점 품질 및 계산량)을 데이터 기반으로 보완하여, 이 트레이드오프 곡선 자체를 개선하는 방향으로 진화하고 있다.

4. AI 기반 VINS 기술: 데이터가 이끄는 항법의 혁신

개요

AI 기술, 특히 딥러닝의 발전은 VINS 분야에 새로운 혁신의 바람을 불어넣고 있다. 데이터로부터 복잡한 패턴을 학습하는 딥러닝의 능력은 전통적인 VINS가 직면했던 여러 난제에 대한 강력한 해결책을 제시한다. AI 기반 VINS는 크게 두 가지 방향으로 발전하고 있다. 첫째는 전통적인 VINS 파이프라인의 특정 모듈을 딥러닝으로 대체하여 성능을 극대화하는 ’하이브리드 접근법’이며, 둘째는 전체 시스템을 하나의 거대한 신경망으로 구성하여 원시 데이터로부터 직접 자세를 추정하는 ’종단간 학습 접근법’이다.

4.1. 하이브리드 접근법: 전통적 VINS 파이프라인의 지능화

하이브리드 접근법은 수십 년간 검증된 전통적인 VINS의 기하학적, 물리적 모델의 안정적인 골격은 그대로 유지하면서, 성능 병목 현상이 발생하는 특정 모듈을 딥러닝 모델로 대체하거나 보강하는 방식이다. 이는 전통적 방식의 해석 가능성과 안정성, 그리고 딥러닝의 강력한 패턴 인식 능력을 결합한 실용적인 접근법으로, 현재 AI-VINS 연구의 주류를 형성하고 있다.31

4.1.1. 딥러닝 기반 특징점 추출 및 매칭: SuperPoint와 그 너머

전통적인 VINS의 프론트엔드(front-end) 성능은 특징점의 품질에 크게 좌우된다. SIFT, ORB와 같은 고전적인 특징점 추출기는 조명 변화가 심하거나, 텍스처가 부족하거나, 시점 변화가 큰 도전적인 환경에서는 안정적인 특징점을 충분히 추출하지 못하는 한계를 보인다.32

이 문제를 해결하기 위해 SuperPoint와 같은 합성곱 신경망(CNN) 기반의 특징점 추출 및 기술(description) 모델이 제안되었다.34 SuperPoint는 대규모 이미지 데이터셋을 통해 어떤 종류의 패턴이 좋은 특징점인지를 스스로 학습한다. 그 결과, 다양한 환경 변화에 매우 강건하고 반복적으로 검출 가능한(repeatable) 특징점을 추출하며, 매칭 성능이 뛰어난 고차원의 디스크립터를 생성한다.32 SuperPoint의 아키텍처는 VGG 스타일의 공유 인코더(shared encoder)를 통해 이미지의 깊은 특징 맵(feature map)을 추출한 후, 이를 두 개의 분리된 디코더 헤드(decoder head)로 전달하는 구조를 가진다. 하나는 각 픽셀이 특징점일 확률(point-ness)을 계산하는 ’디텍터 헤드’이고, 다른 하나는 각 특징점 주변의 지역적 외형을 표현하는 256차원의 ’디스크립터 헤드’이다.34 SuperVINS와 같은 최신 연구에서는 VINS-Fusion 프레임워크의 프론트엔드를 SuperPoint와 LightGlue(딥러닝 기반 특징점 매칭 네트워크)로 대체하여, 열악한 조명 조건과 같은 도전적인 환경에서 VINS의 성능을 획기적으로 개선하였음을 보여주었다.37

4.1.2. 순환 신경망(RNN/LSTM)을 이용한 IMU 동작 모델링 및 오차 보정

IMU 센서의 바이어스와 노이즈는 시간에 따라 변하는 복잡한 시계열(time-series) 특성을 가진다. 전통적인 VINS에서는 이를 주로 가우시안 랜덤 워크(Gaussian random walk)와 같은 단순한 확률 모델로 근사하는데, 이는 실제 센서 오차의 복잡한 동역학을 정확히 반영하지 못하는 경우가 많다.38

시계열 데이터 처리에 특화된 순환 신경망(RNN), 특히 Long Short-Term Memory(LSTM) 네트워크는 이러한 문제에 효과적인 해결책을 제공한다. LSTM은 내장된 메모리 셀(memory cell)을 통해 과거의 정보를 선택적으로 기억하고 현재 입력과 결합하여, IMU 측정값의 시간적 상관관계를 학습할 수 있다.39 이를 활용하여 IMU 측정값에 포함된 노이즈를 효과적으로 제거하거나 38, 시간에 따라 변하는 바이어스를 더 정확하게 예측하여 보상할 수 있다.31 더 나아가, IMU 시계열 데이터만으로 단기간의 속도나 자세 변화를 직접 회귀(regression)하도록 LSTM을 학습시키는 연구도 진행되었다.40 이러한 모델들은 일반적으로 방대한 양의 IMU 시계열 데이터를 입력으로 하고, GPS나 모션 캡처 시스템으로 측정한 실제 궤적(ground truth)을 정답 레이블로 사용하여 지도 학습(supervised learning) 방식으로 훈련된다.39

4.1.3. 동적 환경 대응을 위한 의미론적 정보 활용 (Semantic VINS)

전통적인 VINS는 주변 환경의 모든 요소가 정적(static)이라는 강한 가정 하에 동작한다. 따라서 사람, 자동차 등 움직이는 객체를 정적인 랜드마크로 착각하고 특징점으로 사용하게 되면, 시스템의 자세 추정에 심각한 오차를 유발한다.6

이 문제를 해결하기 위해, 의미론적 VINS(Semantic VINS)는 딥러닝 기반의 객체 탐지(object detection)나 의미론적 분할(semantic segmentation) 모델을 VINS 파이프라인에 통합한다. YOLO, SegNet과 같은 모델을 사용하여 이미지 내에서 동적일 가능성이 높은 객체(예: 사람, 자동차, 동물)의 영역을 식별한다. 그 후, 해당 영역에 위치한 특징점들을 VINS의 상태 추정 과정에서 아예 제거하거나, 최적화 시 해당 특징점의 재투영 오차에 낮은 가중치를 부여하는 방식으로 동적 객체의 악영향을 최소화한다.29 D-VINS와 같은 연구는 의미론적 정보와 기하학적 제약을 결합하여 동적 환경에서의 VINS 강건성을 크게 향상시키는 성과를 보였다.29

4.1.4. 딥러닝을 이용한 칼만 필터 파라미터 최적화 (e.g., DeepUKF-VIN)

칼만 필터 기반 VINS의 성능은 시스템의 불확실성을 모델링하는 프로세스 노이즈 공분산(Q)과 측정 노이즈 공분산(R) 행렬의 설정에 매우 민감하다. 이 파라미터들은 일반적으로 경험에 기반하여 수동으로 튜닝되거나, 시스템 운용 내내 고정된 값을 사용한다. 하지만 실제 환경에서는 센서의 상태나 주변 환경의 변화에 따라 노이즈의 특성이 동적으로 변하기 때문에, 고정된 파라미터는 최적의 성능을 보장하지 못한다.

DeepUKF-VIN과 같은 연구는 이 문제를 해결하기 위해 딥러닝을 활용한다.43 IMU-Vision-Net과 같은 신경망을 설계하여, 현재 입력되는 센서 데이터 스트림(이미지와 IMU 측정값)을 분석하고, 이를 바탕으로 현재 상황에 가장 적합한 \mathbf{Q}

R 행렬 값을 실시간으로 예측한다. 이렇게 동적으로 조정된(adaptively tuned) 노이즈 공분산 행렬을 칼만 필터의 업데이트 과정에 사용함으로써, 시스템이 스스로 자신의 불확실성을 학습하고 다양한 운용 조건에 맞춰 필터의 성능을 최적화할 수 있게 된다. 이는 VINS의 정확도와 강건성을 한 단계 끌어올리는 지능적인 접근법이다.

4.2. 종단간 학습(End-to-End Learning) 접근법

종단간 학습 접근법은 VINS를 바라보는 관점을 완전히 전환한다. 특징 추출, 데이터 연관, 상태 추정, 최적화 등 전통적인 VINS의 복잡하고 세분화된 파이프라인 전체를 하나의 거대한 심층 신경망으로 대체하는 과감한 시도이다. 이 방식의 목표는 원시 센서 데이터(raw images and IMU readings)를 네트워크의 입력으로 받아, 최종 출력인 6-DOF 자세(pose)를 직접적으로 얻어내는 것이다.40

4.2.1. 원시 센서 데이터로부터 직접적인 자세 추정 아키텍처

종단간 VINS 네트워크는 일반적으로 두 개의 브랜치(branch)를 가진다. 하나는 CNN 기반의 시각적 인코더(visual encoder)로, 연속된 이미지 프레임으로부터 공간적, 외형적 특징을 추출한다. 다른 하나는 LSTM 기반의 관성 인코더(inertial encoder)로, IMU 측정값의 시계열로부터 동적, 시간적 특징을 추출한다. 이 두 인코더에서 추출된 특징 벡터들은 융합 레이어(fusion layer)에서 결합(concatenation 또는 다른 방식)된 후, 하나 이상의 완전 연결 레이어(fully connected layer)를 통과한다. 마지막 출력 레이어는 6-DOF 자세(예: 3차원 위치 벡터와 4차원 회전 쿼터니언)를 회귀(regression) 문제로 예측한다.40 전체 네트워크는 입력(센서 데이터 시퀀스)과 출력(참값 자세 시퀀스) 쌍으로 구성된 대규모 데이터셋을 사용하여 종단간(end-to-end) 방식으로 한 번에 학습된다.

4.2.2. 전통 방식 대비 성능, 강건성 및 일반화 능력 분석

  • 장점: 종단간 학습의 가장 큰 매력은 개발 과정의 단순화에 있다. 복잡한 수학적 모델링, 수동 특징 공학(feature engineering), 다단계 파이프라인 튜닝 없이, 데이터만으로 시스템을 학습시킬 수 있다. 또한, 네트워크는 데이터로부터 암시적으로 센서의 바이어스, 노이즈 특성, 캘리브레이션 오류 등 복잡한 요소들을 스스로 학습할 수 있는 잠재력을 가진다.40

  • 단점: 그러나 현재 기술 수준에서 종단간 VINS는 여러 심각한 단점을 안고 있다. 첫째, 정확도 측면에서 전통적인 기하학 기반 방법이나 하이브리드 접근법에 비해 현저히 낮은 성능을 보인다.31 둘째, 학습 데이터에 과적합(overfitting)되기 쉬워, 학습 데이터셋에 포함되지 않은 새로운 환경(unseen environment)에 대한 일반화(generalization) 성능이 매우 취약하다.46 셋째, 전체 시스템이 ’블랙박스(black box)’처럼 작동하여, 왜 특정 예측을 했는지, 실패했을 때 원인이 무엇인지 분석하고 디버깅하기가 극도로 어렵다. 이는 안전이 최우선인 자율 시스템에서는 치명적인 약점이다.47

평가 지표 (Metric)전통적 VINS (Traditional)하이브리드 AI-VINS (Hybrid)종단간 AI-VINS (End-to-End)
정확도 (Accuracy)높음 (모델이 정확할 시)매우 높음 (모델 단점 보완)중간 ~ 낮음 (현재 기술 수준)
강건성 (Robustness)중간 (동적/열악 환경에 취약)높음 (AI로 예외 상황 처리)낮음 (학습 데이터 의존)
일반화 성능 (Generalization)높음 (물리/기하 모델 기반)높음 (AI 모듈의 일반화에 의존)낮음 (Domain shift에 매우 취약)
데이터 의존성 (Data Dependency)낮음 (모델 기반)중간 (AI 모듈 학습 데이터 필요)매우 높음 (대규모 데이터 필수)
해석 가능성 (Interpretability)높음 (물리 모델 기반)중간 (실패 지점 분석 가능)매우 낮음 (블랙박스)
개발 복잡도 (Dev. Complexity)높음 (수학적 모델링)매우 높음 (두 분야 전문성 요구)중간 (모델 설계, 데이터 수집)

AI 기반 VINS의 발전은 ’일반화’와 ’해석 가능성’이라는 두 가지 중요한 축을 중심으로 평가될 수 있다. 종단간 모델은 이론적으로는 데이터만으로 모든 것을 해결할 수 있는 이상적인 형태이지만, 현실 세계의 무한한 다양성을 데이터셋에 모두 담는 것은 불가능하기에 일반화에 근본적인 한계를 가진다.46 반면, 하이브리드 모델은 수백 년간 발전해 온 물리학과 기하학이라는 강력하고 보편적인 ’사전 지식(prior)’을 기반으로 한다. 재투영 오차나 IMU 운동 모델은 특정 환경에 종속되지 않는 보편적 원리이다. AI는 이 보편적 모델의 입력(특징점)을 개선하거나, 모델의 파라미터(노이즈)를 지능적으로 튜닝하는 역할을 수행한다. 이 구조 덕분에 하이브리드 모델은 훨씬 뛰어난 일반화 성능과 해석 가능성을 확보할 수 있다. 따라서 현재 AI-VINS 연구의 주류가 하이브리드 방식인 것은, 이것이 현실 세계의 다양성과 자율 시스템의 안전 요구사항에 대한 더 실용적이고 강건한 해답이기 때문이다.

5. AI 기반 VINS의 주요 과제 및 미래 전망

개요

AI 기반 VINS는 전통적인 방식의 한계를 넘어서는 놀라운 잠재력을 보여주었지만, 상용화되고 더 넓은 분야로 확장되기까지는 아직 해결해야 할 중요한 기술적 과제들이 남아있다. 데이터 문제부터 알고리즘의 신뢰성, 계산 효율성에 이르기까지 다양한 난제들이 존재한다. 본 섹션에서는 이러한 과제들을 심층적으로 분석하고, 이를 극복하기 위한 최신 연구 동향과 미래 발전 가능성을 조망한다.

5.1. 기술적 난제: 데이터 의존성, 일반화 성능, 그리고 ‘블랙박스’ 문제

  • 데이터 의존성 (Data Dependency): 딥러닝 모델의 성능은 학습 데이터의 양과 질에 절대적으로 의존한다. 고품질의 VINS 학습 데이터셋을 구축하기 위해서는 다양한 환경(실내, 실외, 낮, 밤 등)과 다양한 움직임 시나리오에서 동기화된 카메라 이미지와 IMU 데이터를 수집해야 한다. 또한, 정확한 정답(ground truth) 궤적을 얻기 위해 고가의 모션 캡처 시스템이나 LiDAR-SLAM과 같은 외부 장비를 사용해야 하므로, 데이터 수집 및 레이블링에 막대한 비용과 시간이 소요된다.47

  • 일반화 성능 (Generalization Performance): 특정 데이터셋으로 학습된 모델이 한 번도 경험하지 못한 새로운 환경(unseen environment)에 노출되었을 때 성능이 급격히 저하되는 일반화 문제는 AI 기반 VINS의 가장 큰 걸림돌 중 하나이다. 예를 들어, 맑은 날의 도시 환경 데이터로 학습된 모델은 비 오는 날의 시골 길에서는 제대로 작동하지 않을 수 있다. 이 문제는 특히 모든 것을 데이터에만 의존하는 종단간 학습 모델에서 더욱 심각하게 나타난다.31

  • 해석 가능성 (Interpretability): 딥러닝 모델, 특히 복잡한 구조를 가진 종단간 모델은 입력과 출력 사이의 관계가 명확하지 않은 ‘블랙박스’ 특성을 가진다. 시스템이 왜 특정 자세를 추정했는지, 또는 왜 추정에 실패했는지 그 원인을 논리적으로 설명하기 어렵다. 자율주행차나 수술 로봇과 같이 인간의 안전과 직결되는 시스템에서, 예측의 근거를 알 수 없다는 것은 시스템의 신뢰성을 확보하는 데 치명적인 단점으로 작용한다.47

  • 계산 복잡도 (Computational Complexity): SuperPoint나 의미론적 분할 모델과 같은 고성능 딥러닝 네트워크는 상당한 계산 자원을 필요로 한다. 이는 배터리, 연산 능력, 메모리가 제한된 소형 드론이나 모바일 AR/VR 기기에 VINS 시스템을 탑재하는 데 큰 제약이 된다. 모델 경량화, 양자화, 하드웨어 가속 등의 기술이 필요하지만, 이는 종종 정확도와의 트레이드오프를 수반한다.47

5.2. 연구 동향 및 발전 방향

이러한 난제들을 극복하기 위해 VINS 연구 커뮤니티는 다음과 같은 혁신적인 방향으로 나아가고 있다.

  • 온라인 연속 학습 (Online Continual Learning): 사전에 대규모 데이터셋으로 학습된 모델을 실제 운용 환경에 배포한 후, 실시간으로 들어오는 새로운 데이터를 이용해 모델을 지속적으로 미세 조정(fine-tuning)하고 환경에 적응시키는 기술이다.31 이는 VINS 시스템이 고정된 모델이 아니라, 운용되면서 스스로 학습하고 진화하는 ’학습자’가 되도록 만든다. 이를 통해 새로운 환경에 대한 적응력을 높이고 일반화 성능을 점진적으로 개선할 수 있다.

  • 다중 모드 센서 융합 (Multi-modal Sensor Fusion): VINS의 강건성을 극대화하기 위해 카메라와 IMU 외에 다른 종류의 센서를 추가로 융합하는 연구가 활발히 진행되고 있다. 3D 구조 정보를 직접 측정하는 LiDAR, 절대 위치 정보를 제공하는 GNSS, 기존 카메라의 한계를 극복하는 이벤트 카메라(Event Camera) 등을 VINS와 결합하는 것이다.5 AI는 이렇게 서로 다른 특성을 가진 다중 센서 데이터를 효과적으로 융합하고, 상황에 따라 각 센서 정보의 신뢰도를 판단하여 가중치를 동적으로 조절하는 데 핵심적인 역할을 할 수 있다.

  • 이벤트 기반 VIO (Event-based VIO): 이벤트 카메라는 기존 프레임 기반 카메라와 달리, 각 픽셀이 밝기 변화를 감지할 때만 비동기적으로 신호를 발생시키는 새로운 방식의 센서이다.52 이 덕분에 마이크로초 단위의 매우 높은 시간 해상도를 가지며, 모션 블러가 없고 높은 동적 범위(High Dynamic Range, HDR)를 지원한다.51 따라서 매우 빠른 움직임이나 조명 변화가 극심한 환경에서도 안정적인 시각 정보를 제공할 수 있다. AI 기술은 이벤트 데이터의 희소하고 비동기적인 특성을 처리하고, 이를 IMU와 효과적으로 융합하여 차세대 VINS의 기반을 마련하는 데 중요한 역할을 할 것으로 기대된다.50

  • 양자 센서 (Quantum Sensors): 장기적인 관점에서, 양자 기술을 이용한 초고정밀 IMU의 등장은 VINS 기술에 혁명적인 변화를 가져올 수 있다. 양자 센서는 이론적으로 현재의 MEMS 기반 IMU보다 수십만 배 이상 낮은 드리프트 특성을 가질 수 있어, IMU의 누적 오차 문제를 근본적으로 해결할 가능성을 제시한다.55 이것이 실현된다면, VINS는 시각 정보에 대한 의존도를 줄이면서도 장시간 동안 매우 정확한 항법을 수행할 수 있게 될 것이다.

5.3. 응용 분야 확장

AI 기반 VINS 기술의 발전은 기존 응용 분야의 성능을 향상시키는 것을 넘어, 새로운 시장과 서비스를 창출할 것이다.

  • 현재 주요 응용 분야: 현재 VINS는 무인 항공기(드론)의 자율 비행, 자율주행차의 정밀 측위, AR/VR 기기의 헤드 트래킹 등에서 핵심 기술로 사용되고 있다.1

  • 미래 확장 분야: 기술이 더욱 성숙해짐에 따라, VINS의 적용 범위는 더욱 넓어질 것이다. 복잡한 실내 환경을 자율적으로 주행하는 서비스 로봇, 대규모 물류 창고의 자동화된 재고 관리 시스템, GPS 신호가 닿지 않는 화성과 같은 행성을 탐사하는 로버, 그리고 사용자의 일상 활동을 정밀하게 추적하는 웨어러블 건강 관리 기기에 이르기까지, VINS 기술은 미래 사회의 다양한 지능형 시스템을 뒷받침하는 필수 인프라 기술이 될 것이다.17

결론적으로, AI-VINS의 미래는 단순히 위치를 정확하게 추정하는 ’상태 추정기’의 역할을 넘어, 스스로 학습하고(Online Learning), 환경의 의미를 이해하며(Semantic VINS), 자신의 불확실성을 인지하고(Adaptive Filters), 다른 센서와 지능적으로 협력하는(Multi-modal Fusion) ’자율 항법 에이전트’로 진화하는 방향으로 나아가고 있다. 이는 진정한 의미의 자율 이동체를 구현하기 위한 필수적인 진화 과정이라 할 수 있다.

6. 결론: 지능형 VINS가 열어갈 자율 이동체의 미래

핵심 통찰 요약

본 보고서는 AI 기반 시각-관성 항법(VINS) 기술을 기본 원리부터 최신 연구 동향까지 다각도로 심층 분석하였다. VINS의 핵심은 드리프트 없는 시각 정보와 스케일을 제공하는 관성 정보의 ’구조적 상보성’에 있으며, 이를 통해 저비용 센서로 강건하고 정확한 6-DOF 자세 추정을 가능하게 한다. 전통적인 VINS는 실시간성에 강점을 둔 필터 기반 접근법과 정확성에 중점을 둔 최적화 기반 접근법으로 양분되어 발전해왔으나, 동적 환경, 조명 변화, 센서 노이즈 모델링의 부정확성 등 본질적인 한계에 직면해 있었다.

AI 기술, 특히 딥러닝은 이러한 한계를 극복할 강력한 도구를 제공한다. 현재 기술의 주류를 이루는 ’하이브리드 접근법’은 전통적인 기하학/물리 모델의 안정적인 골격 위에 딥러닝을 접목하여 특징점 추출, IMU 오차 모델링, 동적 객체 처리 등의 성능을 극대화한다. 이는 전통적 방식의 해석 가능성과 딥러닝의 강력한 패턴 인식 능력을 결합한 가장 실용적이고 균형 잡힌 접근법이다. 반면, 전체 파이프라인을 단일 신경망으로 대체하는 ’종단간 학습 접근법’은 개발의 단순성과 이론적 잠재력에도 불구하고, 낮은 정확도, 열악한 일반화 성능, 그리고 해석 불가능한 ‘블랙박스’ 문제로 인해 아직 연구 단계를 벗어나지 못하고 있다.

기술적 기여 정리

AI 기술은 VINS의 정확성, 강건성, 그리고 자율성을 전례 없는 수준으로 향상시키고 있다.

  • 정확성(Accuracy): 딥러닝 기반 특징점 추출기(예: SuperPoint)는 더 많은 양질의 시각적 제약을 제공하며, LSTM 기반 IMU 오차 모델은 더 정밀한 동역학 모델을 가능하게 하여 상태 추정의 전반적인 정확도를 높인다.

  • 강건성(Robustness): 의미론적 분할(Semantic Segmentation)을 통해 동적 환경의 간섭을 효과적으로 제거하고, 딥러닝 기반 노이즈 적응형 필터는 예기치 않은 센서 변화에도 안정적인 성능을 유지하게 함으로써 시스템의 강건성을 크게 향상시킨다.

  • 자율성(Autonomy): 온라인 연속 학습 기술은 VINS가 배치된 환경에 스스로 적응하고 성능을 개선하도록 만들어, 수동 튜닝과 재학습의 필요성을 줄인다. 이는 VINS를 단순한 ’상태 추정 도구’에서 환경을 이해하고 스스로 진화하는 ’지능형 항법 에이전트’로 격상시킨다.

미래 기술 생태계에 미칠 영향 및 제언

AI 기반 VINS 기술의 성숙은 자율주행, 로보틱스, AR/VR 산업 생태계 전반에 막대한 파급 효과를 가져올 것이다. GPS에 대한 의존도를 낮춤으로써 모든 공간에서 끊김 없는 자율 이동성을 보장하고, 이는 새로운 서비스와 비즈니스 모델의 탄생을 촉진할 것이다. 그러나 이러한 미래를 실현하기 위해서는 몇 가지 중요한 과제가 남아있다.

첫째, 데이터 표준화와 공유가 시급하다. 다양한 센서와 환경에서 수집된 고품질의 대규모 데이터셋을 구축하고 공유하는 생태계는 AI-VINS 기술의 발전을 가속화할 것이다. 둘째, 알고리즘의 신뢰성 및 안전성 검증 체계가 확립되어야 한다. 특히, AI 모듈의 예측 불가능성과 ‘블랙박스’ 문제를 해결하고, 어떤 조건에서도 시스템의 안전을 보장할 수 있는 검증 및 타당성 확인(Verification and Validation) 방법론에 대한 깊이 있는 연구가 필요하다. 마지막으로, 위치 정보의 수집과 활용에 따른 프라이버시 및 윤리적 문제에 대한 사회적 합의와 제도적 장치 마련이 기술 발전과 병행되어야 할 것이다.

결론적으로, AI와 VINS의 융합은 자율 시스템의 ’눈과 귀’를 더욱 총명하고 강인하게 만드는 핵심 동력이다. 앞으로 남은 기술적, 사회적 과제들을 성공적으로 해결해 나간다면, 지능형 VINS 기술은 인류의 활동 영역을 모든 공간으로 확장하는 진정한 자율 이동체 시대를 열어갈 것이다.

참고 자료

  1. Visual Inertial Navigation Short Tutorial - UMN - MARS Lab, 9월 17, 2025에 액세스, https://mars.cs.umn.edu/tr/Stergios_VINS_Tutorial_IROS19.pdf
  2. VISION-AIDED INERTIAL NAVIGATION SYSTEM, 9월 17, 2025에 액세스, https://inertiallabs.com/vins-datasheet/
  3. Visual-inertial navigation system, 9월 17, 2025에 액세스, https://www.uavnavigation.com/company/blog/visual-inertial-navigation-system
  4. (PDF) Visual-Inertial Navigation: A Concise Review - ResearchGate, 9월 17, 2025에 액세스, https://www.researchgate.net/publication/333650320_Visual-Inertial_Navigation_A_Concise_Review
  5. HKUST-Aerial-Robotics/VINS-Fusion: An optimization-based multi-sensor state estimator, 9월 17, 2025에 액세스, https://github.com/HKUST-Aerial-Robotics/VINS-Fusion
  6. VINS-Dimc: A Visual-Inertial Navigation System for Dynamic Environment Integrating Multiple Constraints - MDPI, 9월 17, 2025에 액세스, https://www.mdpi.com/2220-9964/11/2/95
  7. A Vision/Inertial Navigation/Global Navigation Satellite Integrated System for Relative and Absolute Localization in Land Vehicles - MDPI, 9월 17, 2025에 액세스, https://www.mdpi.com/1424-8220/24/10/3079
  8. Deep Learning for Inertial Positioning: A Survey - arXiv, 9월 17, 2025에 액세스, https://arxiv.org/html/2303.03757v3
  9. Deep Learning for Inertial Positioning: A Survey - ResearchGate, 9월 17, 2025에 액세스, https://www.researchgate.net/publication/369063706_Deep_Learning_for_Inertial_Positioning_A_Survey
  10. Inertial Navigation Meets Deep Learning: A Survey of Current Trends and Future Directions, 9월 17, 2025에 액세스, https://www.researchgate.net/publication/372074465_Inertial_Navigation_Meets_Deep_Learning_A_Survey_of_Current_Trends_and_Future_Directions
  11. Getting Started » Sensor Calibration - OpenVINS, 9월 17, 2025에 액세스, https://docs.openvins.com/gs-calibration.html
  12. DC-VINS: Dynamic Camera Visual Inertial Navigation System With Online Calibration - CVF Open Access, 9월 17, 2025에 액세스, https://openaccess.thecvf.com/content/ICCV2021W/TradiCV/papers/Rebello_DC-VINS_Dynamic_Camera_Visual_Inertial_Navigation_System_With_Online_Calibration_ICCVW_2021_paper.pdf
  13. 관성 항법 시스템 소개 - 뉴스, 9월 17, 2025에 액세스, http://ko.liocrebifx.com/news/inertial-navigation-system-introduction-68260514.html
  14. 관성항법장치(INS: Inertial Navigation System) - 클라우드의 데일리 리포트 - 티스토리, 9월 17, 2025에 액세스, https://clouds-daily.tistory.com/219
  15. 마이크로 관성 센서의 기술현황과 전망, 9월 17, 2025에 액세스, https://koreascience.kr/article/JAKO200011920693097.pdf
  16. ELI5: 관성 항법은 어떻게 작동해? : r/explainlikeimfive - Reddit, 9월 17, 2025에 액세스, https://www.reddit.com/r/explainlikeimfive/comments/24wbuj/eli5_how_does_inertial_navigation_work/?tl=ko
  17. 관성 항법 시스템(INS) 정의 - SBG Systems, 9월 17, 2025에 액세스, https://www.sbg-systems.com/ko/glossary/ins-inertial-navigation-systems/
  18. How to do IMU and camera “sensor fusion” tracking? : r/computervision - Reddit, 9월 17, 2025에 액세스, https://www.reddit.com/r/computervision/comments/9bi2gq/how_to_do_imu_and_camera_sensor_fusion_tracking/
  19. MIMC-VINS: A Versatile and Resilient Multi-IMU Multi-Camera Visual-Inertial Navigation System - Patrick Geneva, 9월 17, 2025에 액세스, https://pgeneva.com/downloads/preprints/Eckenhoff2021TRO.pdf
  20. Kalman filter - Wikipedia, 9월 17, 2025에 액세스, https://en.wikipedia.org/wiki/Kalman_filter
  21. Extended Kalman Filters - MATLAB & Simulink - MathWorks, 9월 17, 2025에 액세스, https://www.mathworks.com/help/fusion/ug/extended-kalman-filters.html
  22. Extended Kalman Filter — AHRS 0.4.0 documentation, 9월 17, 2025에 액세스, https://ahrs.readthedocs.io/en/latest/filters/ekf.html
  23. The math behind Extended Kalman Filtering | by Sasha Przybylski - Medium, 9월 17, 2025에 액세스, https://medium.com/@sasha_przybylski/the-math-behind-extended-kalman-filtering-0df981a87453
  24. An Introduction to the Invariant Extended Kalman Filter [Lecture Notes] - ResearchGate, 9월 17, 2025에 액세스, https://www.researchgate.net/publication/386311158_An_Introduction_to_the_Invariant_Extended_Kalman_Filter_Lecture_Notes
  25. Visual-Inertial Navigation Systems: An Introduction - University of Delaware, 9월 17, 2025에 액세스, https://udel.edu/~ghuang/icra21-vins-workshop/slides/01-vins_tutorial.pdf
  26. Factor graph optimization for GNSS/INS integration: A comparison with the extended Kalman filter - The Institute of Navigation, 9월 17, 2025에 액세스, https://navi.ion.org/content/68/2/315
  27. Monocular Visual-Inertial Odometry (VIO) Using Factor Graph …, 9월 17, 2025에 액세스, https://www.mathworks.com/help/vision/ug/monocular-visual-inertial-odometry-using-factor-graph.html
  28. Technical Report: VINS-Mono: A Robust and Versatile … - GitHub, 9월 17, 2025에 액세스, https://raw.githubusercontent.com/HKUST-Aerial-Robotics/VINS-Mono/master/support_files/paper/tro_technical_report.pdf
  29. D-VINS: Dynamic Adaptive Visual–Inertial SLAM with IMU Prior and Semantic Constraints in Dynamic Scenes - MDPI, 9월 17, 2025에 액세스, https://www.mdpi.com/2072-4292/15/15/3881
  30. VINS-Mono: A Robust and Versatile Monocular Visual- Inertial State Estimator, 9월 17, 2025에 액세스, http://www.cad.zju.edu.cn/home/gfzhang/dataset/ISMAR2019-SLAM-Challenge/ismar-system-description/VINS-Mono.pdf
  31. Adaptive VIO: Deep Visual-Inertial Odometry with Online Continual Learning - arXiv, 9월 17, 2025에 액세스, https://arxiv.org/html/2405.16754v1
  32. Practical Deep Feature-Based Visual-Inertial Odometry - SciTePress, 9월 17, 2025에 액세스, https://www.scitepress.org/Papers/2024/123202/123202.pdf
  33. DAN-SuperPoint: Self-Supervised Feature Point Detection Algorithm with Dual Attention Network - Semantic Scholar, 9월 17, 2025에 액세스, https://pdfs.semanticscholar.org/4e52/63a371115dffbeade3ab48fe3f95e35eba4a.pdf
  34. SuperPoint: Self-Supervised Interest Point … - CVF Open Access, 9월 17, 2025에 액세스, https://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w9/DeTone_SuperPoint_Self-Supervised_Interest_CVPR_2018_paper.pdf
  35. FPSNET: An Architecture for Neural-Network-Based Feature Point Extraction for SLAM, 9월 17, 2025에 액세스, https://www.mdpi.com/2079-9292/11/24/4168
  36. Feature Extraction Model: SuperPoint - Intel® Edge Controls for Industrial, 9월 17, 2025에 액세스, https://eci.intel.com/embodied-sdk-docs/content/developer_tools_tutorials/model_tutorials/model_superpoint.html
  37. [IEEE Sensors Journal (JSEN) ] SuperVINS: A Real-Time Visual-Inertial SLAM Framework for Challenging Imaging Conditions (integrated deep learning features) - GitHub, 9월 17, 2025에 액세스, https://github.com/luohongk/SuperVINS
  38. Deep Learning for Inertial Navigation | by Dr Barak Or | TDS Archive - Medium, 9월 17, 2025에 액세스, https://medium.com/data-science/deep-learning-for-inertial-navigation-441b7628a326
  39. IMU Data and GPS Position Information Direct Fusion Based on LSTM - PMC, 9월 17, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC8038325/
  40. End-to-End Learning Framework for IMU-Based 6-DOF Odometry - MDPI, 9월 17, 2025에 액세스, https://www.mdpi.com/1424-8220/19/17/3777
  41. The IMU-LSTM sub-model’s results on the sequence V1_01 of EuRoC dataset, 9월 17, 2025에 액세스, https://www.researchgate.net/figure/The-IMU-LSTM-sub-models-results-on-the-sequence-V1-01-of-EuRoC-dataset_fig8_348361703
  42. 1월 1, 1970에 액세스, https://www.ncbi.nlm.nih.gov/articles/PMC8038325/
  43. [2502.00575] DeepUKF-VIN: Adaptively-tuned Deep Unscented Kalman Filter for 3D Visual-Inertial Navigation based on IMU-Vision-Net - arXiv, 9월 17, 2025에 액세스, https://arxiv.org/abs/2502.00575
  44. What is end-to-end learning in AI? - TEDAI San Francisco, 9월 17, 2025에 액세스, https://tedai-sanfrancisco.ted.com/glossary/end-to-end-learning/
  45. how to understand ‘end to end’ in deep learning? - Cross Validated, 9월 17, 2025에 액세스, https://stats.stackexchange.com/questions/218961/how-to-understand-end-to-end-in-deep-learning
  46. Limitations of Deep Learning for Vision, and How We Might Fix Them - The Gradient, 9월 17, 2025에 액세스, https://thegradient.pub/the-limitations-of-visual-deep-learning-and-how-we-might-fix-them/
  47. What are the limitations of deep learning algorithms? - ResearchGate, 9월 17, 2025에 액세스, https://www.researchgate.net/post/What_are_the_limitations_of_deep_learning_algorithms
  48. Deep learning for healthcare: review, opportunities and challenges - PMC - PubMed Central, 9월 17, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC6455466/
  49. Challenges in Deep Learning, 9월 17, 2025에 액세스, https://www.esann.org/sites/default/files/proceedings/legacy/es2016-23.pdf
  50. ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras - arXiv, 9월 17, 2025에 액세스, https://arxiv.org/html/2410.09374v1
  51. Event-based Sensor Fusion and Application on Odometry: A Survey - arXiv, 9월 17, 2025에 액세스, https://arxiv.org/html/2410.15480v1
  52. Event-based Vision, Event Cameras, Event Camera SLAM - Robotics and Perception Group - UZH, 9월 17, 2025에 액세스, https://rpg.ifi.uzh.ch/research_dvs.html
  53. Event-based feature tracking in a visual inertial odometry framework - PMC, 9월 17, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC9971716/
  54. Stereo Event-Based Visual–Inertial Odometry - MDPI, 9월 17, 2025에 액세스, https://www.mdpi.com/1424-8220/25/3/887
  55. GPS-Aided Inertial Navigation System Market Growth Analysis, Dynamics, Key Players and Innovations, Outlook and Forecast 2025-2032, 9월 17, 2025에 액세스, https://www.intelmarketresearch.com/gps-aided-inertial-navigation-system-market-7462
  56. The Future of Inertial Navigation is Classical-Quantum Sensor Fusion, 9월 17, 2025에 액세스, https://www.advancednavigation.com/tech-articles/the-future-of-inertial-navigation-is-classical-quantum-sensor-fusion/
  57. VINS on wheels - ResearchGate, 9월 17, 2025에 액세스, https://www.researchgate.net/publication/318700078_VINS_on_wheels
  58. Inertial Navigation Sensor 2025-2033 Analysis: Trends, Competitor Dynamics, and Growth Opportunities, 9월 17, 2025에 액세스, https://www.archivemarketresearch.com/reports/inertial-navigation-sensor-434260