Booil Jung

SegVLAD / Revisit Anything (ECCV 2024)

시각적 장소 인식(Visual Place Recognition, VPR)은 자율 시스템(autonomous systems)이 이전에 방문했던 장소를 오직 시각 정보만을 사용하여 재인식하는 능력이다. 이는 로봇 공학 분야에서 두 가지 핵심적인 문제, 즉 위치 파악(localization)과 동시적 위치 추정 및 지도 작성(Simultaneous Localization and Mapping, SLAM)의 해결에 필수적인 기술로 간주된다.1 로봇이 자신의 현재 위치를 지도상에서 정확히 파악하거나, 장기간에 걸쳐 지도를 작성하며 발생하는 누적 오차를 보정하기 위해서는 과거에 방문했던 위치를 정확하게 다시 인식하는 과정, 즉 루프 클로저(loop closure detection)가 반드시 필요하다.1 이러한 중요성 때문에 지난 10여 년간 컴퓨터 비전 및 로보틱스 연구 커뮤니티는 VPR 성능 향상에 막대한 노력을 기울여왔다. 연구의 주된 흐름은 이미지 인코더(image encoder)를 학습하거나 미세조정하여, 조명 변화, 계절 변화와 같은 외관(appearance)의 차이, 카메라의 촬영 각도 변화로 인한 시점(viewpoint)의 차이, 그리고 불필요한 객체로 인한 클러터(clutter)에 강건한 불변성(invariance)을 갖는 전역 이미지 디스크립터(global image descriptor)를 개발하는 데 집중되어 왔다.2

NetVLAD를 필두로 한 성공적인 딥러닝 기반 방법론들을 포함하여, 현재까지 제안된 대다수의 최첨단(State-of-the-Art, SOTA) VPR 모델들은 이미지를 고차원의 단일 전역 벡터(single global vector)로 압축하는 아키텍처를 채택하고 있다.2 이 접근법은 전체 이미지의 시각적 정보를 하나의 간결한 표현으로 요약하여 데이터베이스 내에서 빠르고 효율적인 유사도 검색을 가능하게 한다는 장점이 있다. 그러나 이러한 전역 디스크립터 기반 방식은 근본적인 딜레마를 내포하고 있다. 바로 극심한 시점 변화에 취약하다는 점이다.

예를 들어, 같은 장소를 서로 다른 각도에서 촬영한 두 이미지가 있다고 가정해보자. 두 이미지 간에는 공통적으로 보이는 영역(overlapping region)과 한쪽 이미지에만 보이는 영역(non-overlapping region)이 존재한다. 이상적으로 VPR 시스템은 공통 영역의 높은 시각적 유사성을 기반으로 두 이미지가 같은 장소임을 판단해야 한다. 하지만 전역 디스크립터는 이미지 전체의 정보를 무차별적으로 집계하기 때문에, 공통 영역의 높은 유사성 신호가 비공통 영역에서 발생하는 막대한 비유사성 ‘노이즈’에 의해 희석되거나 심지어 압도당하는 문제가 발생한다.2 이 문제는 VPR 파이프라인의 가장 첫 단계인 후보 검색(coarse retrieval) 성능의 이론적 상한선을 결정짓는다. 아무리 정교한 기하학적 재순위화(re-ranking) 단계를 후속으로 적용하더라도, 첫 단계에서 올바른 후보를 충분히 높은 순위로 가져오지 못하면 최종적인 장소 인식은 실패할 수밖에 없다. 따라서 이는 전체 VPR 시스템의 성능을 저해하는 근본적인 병목 현상으로 작용한다.2

이러한 기존 접근법의 한계를 극복하기 위해, Kartik Garg 등이 ECCV 2024에서 발표한 “Revisit Anything: Visual Place Recognition via Image Segment Retrieval” 논문은 SegVLAD라는 혁신적인 프레임워크를 제안한다.4 SegVLAD의 핵심 철학은 VPR 문제 자체를 재정의하는 데 있다. 즉, “장소를 재방문하는(revisiting places)” 문제를 “장소를 구성하는 개별적인 ‘사물’을 재방문하는(revisiting things)” 문제로 전환하는 것이다.2 이는 전체 이미지의 평균적인 모습이 아닌, 장소를 구별 짓는 핵심적인 구성 요소들의 존재와 공간적 배치에 집중하는 방식이다.

이러한 패러다임 전환은 최근 컴퓨터 비전 분야의 괄목할 만한 기술적 발전이 있었기에 가능했다. 특히, 특정 데이터셋에 대한 학습 없이도 어떤 이미지든 의미 있는 단위로 분할할 수 있는 Segment Anything Model (SAM)과 같은 강력한 제로샷(zero-shot) 오픈셋 분할 모델의 등장은 결정적이었다.2 또한, DINOv2와 같이 픽셀 수준에서 매우 풍부하고 변별력 있는 시각적 특징을 추출하는 비전 트랜스포머(Vision Transformer, ViT) 기반의 기반 모델(foundation model)은 분할된 각 영역에 고품질의 의미론적 정보를 부여하는 역할을 한다. SegVLAD는 VPR이라는 특정 작업에 특화된 모델을 처음부터 학습하는 대신, 이러한 강력한 범용 기반 모델들을 효과적으로 활용하여 장소 인식 문제를 해결한다. 논문의 부제인 ‘Revisit Anything’은 바로 이러한 기반 모델의 힘을 빌려, 이전에 마주치지 않았던 새로운 환경이나 객체에 대해서도 분할하고 인식함으로써 장소 인식 능력의 일반성(generality)을 극대화하려는 연구의 목표를 명확하게 함축하고 있다.2

SegVLAD의 등장은 VPR 연구 분야가 중요한 변곡점을 맞이하고 있음을 시사한다. 과거의 연구가 주로 ‘표현 학습(representation learning)’의 관점에서 이미지 전체를 가장 잘 대표하는 ‘좋은’ 벡터 표현을 어떻게 학습할 것인가에 초점을 맞추었다면, SegVLAD는 ‘구성적 장면 이해(compositional scene understanding)’라는 새로운 관점을 제시한다. 이미지를 더 이상 단일 개체로 취급하지 않고, SAM을 통해 의미론적 구성요소(‘things’ and ‘stuff’)의 집합으로 분해하는 것에서부터 출발한다.3 그 후, 이 구성요소들과 그들의 공간적 관계(SuperSegments)를 분석하여 장소를 인식한다. 이는 “전체는 부분의 합”이라는 아이디어에 기반을 둔다. 두 이미지의 전체적인 유사성을 직접 비교하는 대신, 두 이미지가 공통된 ‘부분(사물)’을 얼마나 많이, 그리고 얼마나 유사하게 포함하고 있는지를 측정하는 방식으로 문제를 해결하는 것이다. 이러한 패러다임의 전환은 VPR을 단순한 이미지 검색 문제에서, 마치 그래프 매칭(graph matching)과 같이 더 구조화되고 해석 가능한 문제로 격상시킨다. 이는 미래의 로보틱스 시스템이 단순히 위치 ID를 반환하는 것을 넘어, “두 장소가 왜 동일한가?”라는 질문에 대해 “동일한 분수대와 벤치를 포함하고 있기 때문”과 같이 설명 가능한(explainable) 결과를 제공할 수 있는 가능성을 열어준다. 로봇이 자신의 판단 근거를 인간에게 설명해야 하는 복잡한 상호작용 시나리오에서 이는 매우 중요한 기능이 될 것이다.

SegVLAD 파이프라인은 이미지를 의미 있는 부분으로 나누고, 각 부분의 컨텍스트를 고려하여 표현을 생성한 뒤, 이를 기반으로 장소를 검색하는 총 4단계의 체계적인 과정으로 구성된다. 이는 기존의 전역 디스크립터 생성 방식을 완전히 해체하고 재구성한 새로운 접근법이다.

파이프라인의 첫 단계는 입력 이미지를 의미론적으로 분해하는 것이다. 이를 위해 SegVLAD는 사전 학습된 Segment Anything Model (SAM)을 활용한다.2 SAM의 가장 큰 특징은 ‘오픈셋(open-set)’ 분할 능력이다. 즉, 특정 VPR 데이터셋이나 특정 객체 클래스에 대해 추가적인 미세조정(fine-tuning) 없이도, 이미지 내에 존재하는 다양한 객체와 배경 영역(‘things’ and ‘stuff’)을 정확하게 분할해낼 수 있다.2 이 과정을 통해 하나의 이미지는 $S$개의 개별적인 이진 세그먼트 마스크 $M$의 집합으로 변환된다. 이러한 오픈셋 접근 방식은 SegVLAD가 이전에 경험하지 못한 새로운 환경이나 객체에 마주쳤을 때에도 강건하게 대응할 수 있는 일반화 성능의 기초를 마련한다.

이미지를 개별 세그먼트로 분해한 후, SegVLAD는 이 세그먼트들 간의 공간적 관계를 정의한다. 인간이 장면을 인식할 때 개별 객체뿐만 아니라 그 객체들의 공간적 배치와 구성을 함께 고려하는 방식에 착안한 것이다. 이를 위해 각 세그먼트 마스크의 무게 중심(centroid)을 계산하고, 이 점들을 꼭짓점(vertex)으로 하는 딜로네 삼각분할(Delaunay Triangulation)을 수행한다.2 딜로네 삼각분할은 주어진 점 집합에 대해 삼각형의 내각 중 최소 각을 최대화하는 방식으로 점들을 연결하여 삼각형 망을 생성하는 방법이다. 이 결과 생성된 그래프에서 두 세그먼트의 중심점이 간선(edge)으로 연결되어 있다면, 두 세그먼트는 공간적으로 인접한 ‘이웃’ 관계로 간주된다. 이 이웃 관계는 $S \times S$ 크기의 이진 인접 행렬(binary adjacency matrix) $A$로 표현된다. $A_{ij} = 1$은 세그먼트 $i$와 $j$가 이웃임을 의미하며, $A_{ij} = 0$은 그렇지 않음을 의미한다. 이 인접 행렬은 이미지 내 ‘사물’들의 기하학적 배치를 포착하는 구조적 정보의 역할을 수행한다.

SegVLAD 방법론의 핵심적인 혁신은 ‘SuperSegment’라는 새로운 표현 단위를 도입한 데 있다.3 이는 단일 세그먼트가 아니라, 특정 세그먼트와 그 주변의 공간적 이웃들을 함께 묶어 하나의 의미 있는 단위로 취급하는 개념이다. 예를 들어, ‘자동차’라는 단일 세그먼트 대신 ‘도로 위의 자동차와 그 주변 가로등’을 하나의 SuperSegment로 표현할 수 있다. 이러한 접근은 개별 객체를 넘어서 ‘건물 전체’, ‘교차로 풍경’과 같이 더 크고 복합적인 의미 단위를 효과적으로 표현하게 해준다.3 이는 인간이 시각 정보를 처리할 때 주변 맥락을 적극적으로 활용하여 객체를 인식하고 장면을 이해하는 인지 과정에서 영감을 얻은 것이다.2

SuperSegment는 1단계에서 생성된 인접 행렬 $A$를 이용하여 수학적으로 정의된다. 특정 세그먼트의 SuperSegment는 해당 세그먼트 자신과 그 이웃 세그먼트들의 합집합으로 구성된다. 이웃의 범위를 조절하기 위해 ‘이웃 확장 차수(order of neighborhood expansion)’라는 하이퍼파라미터 $o$를 도입한다. $o=0$이면 이웃을 포함하지 않고 세그먼트 자신만을 의미하며, $o=1$이면 직접 연결된 이웃(1-hop neighbors)까지, $o=2$이면 이웃의 이웃(2-hop neighbors)까지 포함하는 방식이다. 이는 인접 행렬 $A$의 거듭제곱, 즉 $A^o$를 계산함으로써 효율적으로 구현될 수 있다. 최종적인 SuperSegment 마스크는 다음 수식으로 생성된다.2 \(M_{S \times N} = \mathbf{1}(A^o_{S \times S} \cdot M_{S \times N})\) 여기서 $M_{S \times N}$은 $S$개의 세그먼트와 $N$개의 픽셀(이미지의 너비 $W \times H$)로 구성된 원래의 세그먼트 마스크 행렬이다. $A^o_{S \times S}$는 인접 행렬을 $o$번 거듭제곱한 행렬이며, $\cdot$는 행렬 곱셈을 의미한다. $\mathbf{1}(\cdot)$는 행렬의 각 원소가 0보다 크면 1로, 그렇지 않으면 0으로 만드는 요소별 이진화(element-wise binarization) 함수이다. 이 수식은 각 세그먼트가 자신의 $o$차 이웃까지의 모든 세그먼트를 포함하는 새로운 확장된 마스크, 즉 SuperSegment를 어떻게 형성하는지를 명확하게 보여준다.2

‘SuperSegments’ 개념은 VPR 분야에서 오랫동안 문제 되어 온 스케일 문제(scale problem)에 대한 실용적이고 우아한 해결책을 제시한다. VPR에서 매칭의 대상이 되는 객체나 구조물은 ‘가로등’처럼 작을 수도 있고, ‘건물 정면’처럼 매우 클 수도 있다. 과거의 패치 기반 방법론(예: Patch-NetVLAD)은 이미지를 고정된 크기의 격자로 나누었기 때문에 이러한 다양한 스케일 변화에 유연하게 대처하기 어려웠다.2 작은 패치는 큰 구조물의 전체적인 형태를 놓치고, 큰 패치는 작은 객체의 세부적인 특징을 잃어버리는 딜레마가 있었다. 반면 SegVLAD는 먼저 SAM을 통해 이미지 내의 의미론적 객체들을 크기에 상관없이 데이터 기반(data-driven) 방식으로 분할한다. 그 후, 이웃 확장 차수

$o$를 조절함으로써, 작은 개별 객체($o=0$)부터 시작하여 주변의 공간적 맥락을 점차 포함하는 더 큰 구조물($o=3$)에 이르기까지, 다양한 스케일의 표현을 동적으로 생성할 수 있다.2 이처럼 데이터 기반 분할과 그래프 기반 확장의 결합은 고정된 그리드나 이미지 피라미드 방식의 한계를 극복하고, 장면의 자연스러운 스케일 계층을 포착하는 새로운 길을 열어준다. 이는 VPR을 넘어 객체 검출, 이미지 매칭 등 다양한 컴퓨터 비전 분야에서 멀티스케일 분석을 위한 새로운 접근법으로 활용될 수 있는 잠재력을 지닌다.

각 SuperSegment에 대한 간결하면서도 변별력 있는 벡터 표현, 즉 디스크립터를 생성하기 위해 SegVLAD는 DINOv2와 VLAD(Vector of Locally Aggregated Descriptors)를 결합한다. 먼저, 사전 학습된 DINOv2 모델을 사용하여 이미지 전체에 대해 픽셀 수준의 고밀도 특징(dense feature) $f_p$를 추출한다.4 그 후, 각 SuperSegment 마스크 내에 포함되는 픽셀들의 특징 벡터들을 집계하여 해당 SuperSegment의 디스크립터를 생성한다. 집계 방식으로는 Hard-assignment VLAD를 사용한다. 이는 AnyLoc과 같은 기존 연구가 이미지 전체 픽셀에 대해 VLAD를 적용하여 단일 전역 디스크립터를 생성했던 것과 근본적인 차이를 보인다. SegVLAD는 VLAD를 ‘전역’이 아닌 ‘준-로컬(quasi-local)’ 단위인 SuperSegment에 적용함으로써, 이미지 내의 다양한 부분 표현들을 생성한다.2

Hard-VLAD 집계 과정은 다음과 같다. 먼저, 데이터베이스 이미지들의 픽셀 특징들을 K-means와 같은 알고리즘으로 클러스터링하여 $K$개의 클러스터 중심(시각적 단어 사전) ${c_1, c_2,…, c_K}$를 미리 계산해 둔다. 그 후, 특정 SuperSegment 내의 각 픽셀 특징 $f_p$에 대해, 가장 가까운 클러스터 중심 $c_k$를 찾고, 그 차이 벡터인 잔차(residual) $(f_p - c_k)$를 계산한다. 해당 SuperSegment에 대한 최종 VLAD 디스크립터는 각 클러스터에 대해 할당된 픽셀들의 잔차를 모두 합산한 벡터들을 이어 붙여(concatenate) 만들어진다. SuperSegment $s$와 클러스터 $k$에 대한 부분 VLAD 벡터 $F_{s,k}$는 다음과 같이 표현될 수 있다.2 \(F_{s,k} = \sum_{p \in \text{SuperSegment}_s, \ \text{NN}(f_p) = c_k} (f_p - c_k)\) 여기서 $\text{NN}(f_p)$는 $f_p$에 가장 가까운 클러스터 중심을 의미한다. 이 과정을 모든 $K$개의 클러스터에 대해 수행하고, 결과 벡터 $F_{s,1}, F_{s,2},…, F_{s,K}$를 모두 연결하면 SuperSegment $s$에 대한 최종 디스크립터 $F_s$가 완성된다. 이 과정을 통해 하나의 이미지는 $S$개의 고차원 SuperSegment 디스크립터들의 집합으로 표현된다. 이는 기존의 단일 전역 디스크립터와는 질적으로 다른, 풍부한 정보를 담은 다중 디스크립터 표현(multi-descriptor representation)이다.

쿼리 이미지로부터 $S$개의 SuperSegment 디스크립터 집합이 생성되면, 이를 데이터베이스에 저장된 모든 참조 이미지들의 SuperSegment 디스크립터들과 비교하여 가장 유사한 장소를 찾는다. 검색은 2단계로 이루어진다. 첫 번째 단계는 세그먼트 수준 검색이다. 쿼리 이미지의 각 SuperSegment 디스크립터에 대해, 데이터베이스 내의 모든 SuperSegment 디스크립터들과의 코사인 유사도(cosine similarity)를 계산하고, 가장 유사도가 높은 상위 $K’$개의 참조 세그먼트를 검색한다.

세그먼트 수준 검색이 완료되면, 각 쿼리 세그먼트는 $K’$개의 가장 유사한 참조 세그먼트 목록을 갖게 된다. 이제 이 정보를 통합하여 최종적으로 어떤 ‘이미지’가 쿼리와 가장 유사한지 순위를 매겨야 한다. SegVLAD는 단순히 많이 검색된 이미지를 선택하는 투표(voting) 방식 대신, 더 정교한 ‘유사도 가중 빈도(similarity-weighted frequency)’ 방식을 사용한다.2 참조 이미지 $r_j$가 얻게 되는 최종 점수 $\hat{\theta}(r_j)$는, 쿼리의 모든 세그먼트들이 검색한 결과 중에서 $r_j$에 속한 세그먼트가 등장할 때마다, 해당 매칭의 유사도 $\theta_{sk}$를 가중치로 하여 누적 합산하는 방식으로 계산된다. 이는 다음 수식으로 표현된다.2 \(\hat{\theta}(r_j) = \sum_{s=1}^{S} \sum_{k=1}^{K'} \theta_{sk} \cdot \mathbf{1}\{r_{sk} = r_j\}\) 여기서 $s$는 쿼리 이미지의 SuperSegment 인덱스, $k$는 검색된 상위 $K’$개 중의 순위, $\theta_{sk}$는 쿼리 세그먼트 $s$와 그것이 $k$번째로 검색한 참조 세그먼트 간의 유사도이다. $r_{sk}$는 해당 참조 세그먼트가 속한 이미지의 인덱스를 의미하며, $\mathbf{1}{\cdot}$는 조건이 참일 때 1, 거짓일 때 0을 반환하는 지시 함수(indicator function)이다. 이 방식은 우연히 여러 번 검색된 약한 유사도의 매칭보다, 단 한 번이라도 매우 강한 유사도로 매칭된 세그먼트에 더 높은 가중치를 부여함으로써 전체 검색 과정의 신뢰도와 정확도를 크게 향상시킨다.2 최종적으로, 누적 점수 $\hat{\theta}(r_j)$가 가장 높은 이미지 순으로 최종 순위가 결정된다.

SegVLAD 방법론의 효과를 객관적으로 입증하기 위해, 논문은 광범위한 벤치마크 데이터셋을 대상으로 기존 최첨단(SOTA) 모델들과의 정량적 성능 비교를 수행했다. 평가는 VPR 모델의 전통적인 성능 테스트베드인 표준 실외 데이터셋과, 모델의 일반화 능력을 극한까지 시험하는 ‘비분포(Out-of-Distribution)’ 데이터셋 두 가지 범주로 나누어 진행되었다.

SegVLAD의 성능 평가는 VPR 연구 분야에서 널리 인정받는 다양한 데이터셋을 포괄하여 이루어졌다.2

성능 평가는 이미지 검색 작업의 표준 지표인 Recall@K를 사용하여 이루어졌다. Recall@K는 쿼리 이미지에 대한 검색 결과 상위 $K$개 내에 올바른 정답 이미지가 포함될 확률을 의미한다. 논문에서는 주로 $K=1$과 $K=5$일 때의 성능, 즉 Recall@1과 Recall@5를 보고하여 모델의 정확도와 검색 능력을 종합적으로 평가했다.2

표준 실외 데이터셋에서의 성능 비교 결과는 아래 표 1과 같다. 이 표는 SegVLAD가 기존의 강력한 SOTA 모델들(CosPlace, MixVPR, EigenPlaces, AnyLoc, SALAD)과 대등하거나 그 이상의 성능을 보임을 명확히 보여준다.2

방법 Pitts-30K MSLS-SF MSLS-CPH SF-XL-Val RO5k-Med RO5k-Hard RP6k-Med RP6k-Hard
CosPlace 90.4/95.7 93.4/97.5 84.9/92.0 94.6/97.6 85.7/87.1 27.1/45.7 94.3/95.7 7.1/15.7
MixVPR 91.5/95.5 91.3/95.9 87.1/92.4 87.8/93.8 68.6/80.0 32.9/54.3 94.3/100 10.0/32.9
EigenPlaces 92.6/96.7 92.6/97.1 87.1/92.8 96.4/98.2 85.7/88.6 42.8/57.1 95.7/98.6 4.3/11.4
AnyLoc 87.7/94.7 83.4/94.6 79.9/89.1 84.4/91.9 88.6/92.9 40.0/58.6 97.1/100 11.4/44.3
SALAD 92.6/96.5 91.7/97.1 92.3/96.1 93.6/97.3 82.9/90.0 37.1/54.3 95.7/98.6 14.3/58.6
SegVLAD-PreT 86.7/94.2 88.4/94.2 81.7/90.7 90.9/96.4 91.4/95.7 60.0/81.4 94.3/100 8.6/48.6
SegVLAD-FineT 93.2/96.8 94.6/97.1 90.9/95.7 94.9/98.1 87.1/95.7 51.4/70.0 95.7/100 10.0/48.6

표 1: 실외 스트리트 뷰 데이터셋에 대한 Recall@1/5 벤치마크 비교. SegVLAD-PreT는 사전 학습된 DINOv2를, SegVLAD-FineT는 VPR용으로 미세조정된 DINOv2를 사용한 모델이다. 2 기반으로 재구성됨.

특히 주목할 점은 시점 변화가 극심하여 난이도가 높은 것으로 알려진 RO5k-Hard 데이터셋에서, 사전 학습된 DINOv2를 사용한 SegVLAD-PreT가 Recall@1에서 60.0%를 달성하며, 동일한 DINOv2 백본을 사용하지만 전역 디스크립터 방식인 AnyLoc(40.0%)을 무려 20%p 차이로 압도했다는 사실이다.2 이는 SegVLAD의 세그먼트 기반 접근법이 극심한 시점 변화에 대한 강건성이라는 핵심 가설을 정량적으로 명확히 입증하는 결과이다. VPR용으로 미세조정된 백본을 사용한 SegVLAD-FineT는 Pitts30k, MSLS 등 대부분의 표준 벤치마크에서 기존 SOTA 모델들과 대등하거나 더 우수한 성능을 보이며, SegVLAD의 아키텍처가 특정 백본에 국한되지 않고 다양한 특징 추출기와 결합될 수 있는 범용성을 가졌음을 보여준다.

SegVLAD의 진정한 가치는 ‘비분포(OOD)’ 데이터셋 평가에서 드러난다. 이 데이터셋들은 기존 VPR 모델들이 학습 데이터의 분포와 달라 성능이 급격히 저하되는 경향을 보이는, 모델의 일반화 능력을 측정하는 리트머스 시험지와 같다. 표 2는 SegVLAD가 이러한 도전적인 환경에서 기존의 모든 모델을 압도하며 새로운 SOTA를 달성했음을 보여준다.2

방법 Baidu Mall AmsterTime InsideOut 17Places VPAir
CosPlace 50.0/62.3 29.8/43.0 1.0/1.0 66.7/75.6 45.4/59.7
MixVPR 48.3/61.3 28.1/43.0 0.0/0.0 67.8/77.8 49.6/64.7
EigenPlaces 51.0/64.5 30.7/44.7 1.0/1.0 70.0/81.1 55.5/68.9
AnyLoc 54.0/67.0 33.3/49.1 0.0/1.0 71.1/81.1 66.7/79.2
SALAD 52.0/65.5 31.6/45.6 0.0/0.0 70.0/81.1 58.0/72.3
SegVLAD-PreT 57.0/73.0 40.4/57.9 2.0/3.0 74.4/84.4 69.8/83.7
SegVLAD-FineT 56.0/71.0 38.6/57.9 1.0/3.0 73.3/83.3 68.9/82.4

표 2: ‘비분포(Out-of-distribution)’ 데이터셋에 대한 Recall@1/5 벤치마크 비교. 2 기반으로 재구성됨.

예를 들어, 구조가 반복적이고 혼잡한 실내 환경인 Baidu Mall 데이터셋에서 SegVLAD-PreT는 AnyLoc 대비 Recall@1에서 3%p, Recall@5에서 6%p의 절대적인 성능 향상을 보였다.2 또한, 실내에서 촬영한 쿼리로 실외 데이터베이스 이미지를 매칭해야 하는 극도로 어려운 InsideOut 데이터셋에서는 다른 모델들이 사실상 성능을 내지 못하는(Recall@1이 0~1%) 반면, SegVLAD는 유의미한 Recall(2.0%)을 달성하며 부분적 시각 정보 매칭의 가능성을 열었다.2 항공 이미지와 지상 이미지를 매칭하는 VPAir 데이터셋에서도 AnyLoc을 능가하는 성능을 기록했다.

이러한 OOD 데이터셋에서의 압도적인 성능은 VPR 연구에 중요한 시사점을 던진다. 이는 VPR이 특정 ‘데이터셋 의존성’의 굴레에서 벗어나, 진정한 의미의 ‘범용 시각 능력(general-purpose visual capability)’으로 발전할 수 있는 구체적인 경로를 제시한 것이다. 많은 VPR 모델들은 특정 종류의 데이터(주로 도시 주행 데이터)에 과적합되어, 학습 데이터와 분포가 다른 환경에서는 성능이 급격히 저하되는 한계를 보여왔다. SegVLAD는 특정 VPR 데이터셋에 미세조정되지 않은 범용 기반 모델(SAM, DINOv2)을 사용하고, 이미지 전체의 통계적 특성(전역 디스크립터)이 아닌 이미지 내에 보편적으로 존재하는 구성요소인 ‘사물’에 집중한다. ‘자동차’, ‘창문’, ‘나무’와 같은 ‘사물’은 실외, 실내, 심지어 항공 이미지에서도 관점은 다를지언정 존재할 수 있는 보편적인 시각적 개념이다. 이미지 전체의 ‘스타일’이나 ‘분포’에 의존하는 대신 이러한 보편적 ‘사물’의 조합을 기반으로 장소를 인식하기 때문에, 데이터셋의 분포가 바뀌어도 성능 저하가 상대적으로 적은 것이다. 이는 향후 로봇이 단일 환경을 넘어 공장, 사무실, 가정 등 다양한 환경을 넘나들며 작업을 수행해야 하는 미래 시나리오에 필수적인 기술이다. SegVLAD의 접근 방식은 VPR을 특정 SLAM 시스템의 부품에서, 로봇의 핵심 지능을 구성하는 범용 모듈로 격상시킬 수 있는 잠재력을 보여준다.

SegVLAD의 우수한 성능이 어떤 설계 요소에서 비롯되었는지 명확히 파악하기 위해, 논문은 여러 Ablation study(제거 연구)를 수행했다. 이 연구들은 SuperSegment의 이웃 확장 차수, 특징 집계 방식, 최종 순위 결정 방법, 그리고 세그먼트와 패치의 비교 등 핵심적인 설계 결정들의 유효성을 체계적으로 검증한다.

SuperSegment의 핵심 아이디어는 개별 세그먼트에 공간적 맥락을 부여하는 것이다. 이 맥락의 범위를 결정하는 하이퍼파라미터가 바로 이웃 확장 차수 $o$이다. 실험 결과, $o=0$일 때, 즉 공간적 이웃을 전혀 고려하지 않고 개별 세그먼트만을 사용했을 때보다 $o=1$ 이상으로 이웃을 확장했을 때 성능이 크게 향상되었다.2 Baidu Mall 데이터셋을 기준으로, 성능은 $o=3$에서 정점을 찍고 그 이후로는 소폭 감소하거나 유지되는 경향을 보였다. 이는 장소 인식을 위해 너무 작은 지역 정보(개별 객체)만 사용하는 것도, 너무 넓은 지역 정보(전체 이미지에 가까워짐)를 사용하는 것도 최적이 아님을 시사한다. 즉, ‘객체와 그 주변의 직접적인 공간적 맥락’에 해당하는 적절한 수준의 정보를 활용하는 것이 가장 효과적이라는 결론을 내릴 수 있다.

SuperSegment 내의 픽셀 특징들을 어떻게 하나의 벡터로 집계할 것인지 역시 중요한 설계 결정이다. 논문은 제안하는 Hard-VLAD 방식(SegVLAD)과, 가장 직관적인 방법인 단순 평균 풀링(Segment Average Pooling, SAP)을 비교했다. 실험 결과, 모든 이웃 확장 차수 $o$ 값에 대해 SegVLAD가 SAP보다 월등한 성능을 보였다.2 특히 흥미로운 점은, $o$가 증가함에 따라, 즉 더 많은 이웃 픽셀 정보가 포함될수록 SAP의 성능은 오히려 감소하는 경향을 보였다는 것이다. 이는 너무 많은 특징 벡터들을 단순히 평균 내는 과정에서 각 특징이 가진 고유의 변별력(discriminative power)이 서로 상쇄되고 희석되어 ‘평범한’ 특징 벡터가 되기 때문으로 분석된다. 반면, VLAD는 각 특징의 잔차(residual)를 기반으로 집계하므로, 정보가 추가되더라도 개별 특징의 변별력을 상대적으로 잘 보존하면서 성능이 지속적으로 향상되었다. 이는 다수의 지역 특징을 하나의 표현으로 집계하는 작업에 VLAD가 SAP보다 훨씬 적합한 방식임을 정량적으로 증명하는 결과이다.2

세그먼트 수준의 검색 결과를 최종적인 이미지 순위로 변환하는 과정의 효과도 검증되었다. 논문은 제안된 ‘유사도 가중 빈도’ 방식과 두 가지 대안을 비교했다.2

  1. MaxSeg: 각 쿼리 세그먼트에 대해 가장 유사한 참조 세그먼트를 하나씩만 찾고, 이들이 속한 참조 이미지들의 빈도수를 세어 순위를 매기는 방식.
  2. MaxSim: 가장 유사도가 높은 단일 세그먼트 매칭 쌍을 찾아, 해당 참조 이미지에 가장 높은 순위를 부여하는 방식.

실험 결과(Table 5), 제안된 ‘유사도 가중 빈도’ 방식이 모든 데이터셋에서 일관되게 가장 우수하고 안정적인 성능을 보였다.2 MaxSeg는 빈도수만 고려하므로 매칭의 ‘질’을 반영하지 못하고, MaxSim은 단 하나의 강력한 매칭에만 의존하므로 다른 유용한 정보들을 버리는 문제가 있다. 제안 방식은 매칭의 ‘양’(빈도)과 ‘질’(유사도)을 모두 고려함으로써, 소수의 매우 확실한 매칭이 다수의 불확실한 매칭보다 더 신뢰할 수 있다는 직관을 정량적으로 뒷받침하며 최적의 성능을 이끌어냈다.

SegVLAD의 성능 향상이 단순히 이미지를 여러 조각으로 나누었기 때문인지, 아니면 ‘의미론적’으로 나누었기 때문인지를 확인하기 위해 추가 실험이 진행되었다. SAM을 통해 얻은 의미론적 세그먼트 대신, 이미지를 다양한 크기의 규칙적인 정사각형 패치(patch)로 분할하고 동일한 SegVLAD 파이프라인을 실행했다. 실험 결과(Table 6), 모든 패치 크기에서 SAM 세그먼트를 사용했을 때보다 성능이 현저히 낮았다.2 작은 패치는 맥락 정보를 담지 못해 성능이 가장 나빴고, 패치 크기가 커질수록 성능이 향상되다가 특정 크기를 넘어서면 다시 감소하는 경향을 보였다. 이는 임의의 기하학적 분할(패치)보다, 이미지의 실제 내용과 객체의 경계를 반영하는 의미론적 분할이 장소 인식에 훨씬 더 유용하고 효과적인 정보를 제공함을 명확하게 보여주는 결과이다.2

이러한 Ablation 연구 결과들은 SegVLAD의 뛰어난 성능이 어느 하나의 ‘마법 총알’ 같은 기술 덕분이 아니라, 각 설계 요소들이 서로 유기적으로 맞물려 만들어내는 체계적인 ‘시너지’의 결과임을 명확히 보여준다. 각 구성요소(의미론적 분할, 이웃 확장, VLAD 집계, 가중 순위)의 개별적인 기여도를 측정하고 그 상호 의존성을 분석해 보면, 이 요소들이 독립적으로 작동하는 것이 아님을 알 수 있다. 예를 들어, 이웃 확장($o>0$)은 변별력을 보존하는 VLAD 집계 방식과 결합되었을 때 비로소 그 효과가 극대화된다 (SAP에서는 오히려 성능 저하를 유발했다). 또한, SAM 기반의 의미론적 분할은 후속 집계 및 매칭 단계에 고품질의 ‘입력 재료’를 제공함으로써 전체 파이프라인의 성능 기반을 단단히 다진다. 종합하면, SAM이 ‘무엇’을 볼지 알려주고, SuperSegment가 ‘어디까지’를 컨텍스트로 볼지 정의하며, VLAD가 이 정보를 변별력 있게 ‘요약’하고, 마지막으로 유사도 가중 순위가 가장 ‘신뢰할 만한’ 결정을 내리는, 잘 짜인 시스템 아키텍처가 구축된 것이다. 이는 복잡한 AI 시스템 설계에 중요한 교훈을 준다. 최첨단 부품(SAM, DINOv2)을 단순히 가져다 붙이는 것만으로는 최적의 성능을 보장할 수 없다. 각 부품의 특성을 깊이 이해하고, 그들이 상호작용하며 시너지를 낼 수 있도록 전체 파이프라인을 세심하게 설계하는 ‘시스템 엔지니어링’ 관점이 필수적이며, SegVLAD는 이러한 시스템 설계의 매우 성공적인 사례 연구(case study)로 평가될 수 있다.

정량적 수치는 모델의 전반적인 성능을 보여주지만, 모델이 ‘어떻게’ 작동하고 ‘무엇을 보고’ 결정을 내리는지에 대한 직관적인 이해를 제공하지는 못한다. 논문은 SegVLAD가 기존 전역 디스크립터 방식인 AnyLoc을 능가하는 사례들에 대한 정성적 분석을 통해, SegVLAD의 작동 원리와 강점을 시각적으로 명확하게 보여준다.2

논문의 그림 4는 SegVLAD는 올바른 장소를 찾았지만 AnyLoc은 실패한 대표적인 세 가지 사례를 보여준다. 각 사례는 쿼리 이미지, SegVLAD가 찾은 정답 이미지, 그리고 AnyLoc이 찾은 오답 이미지로 구성된다. 특히 SegVLAD의 정답 이미지에는 매칭의 결정적인 단서가 된 SuperSegment가 흰색 오버레이로 표시되어 있어, 모델이 이미지의 어떤 부분에 집중했는지를 직관적으로 파악할 수 있다.2

시각화 자료에서 성공적인 매칭의 기반이 된 SuperSegment들은 공통적인 특징을 보인다. 이들은 대부분 이미지 내에서 의미론적으로 중요하고, 시간이 지나도 변하지 않을 가능성이 높은 영구적인 구조물(permanent structures)이나 객체에 해당했다. 예를 들어, 건물의 독특한 창문 배열, 실내의 피아노, 교차로의 교통 표지판 등이 그것이다.2 이는 SegVLAD가 실제로 ‘장소’의 전반적인 외관이나 색감 분포가 아닌, 그 장소를 정의하고 구별 짓는 핵심적인 ‘사물’들의 집합과 그 공간적 배치를 인식하고 있음을 직관적으로 증명한다. 이는 논문이 처음부터 주장해 온 ‘사물 재방문(revisiting things)’이라는 철학이 단순한 수사적 표현이 아니라, 모델의 실제 작동 방식임을 보여주는 강력한 증거이다.

이러한 정성적 분석은 SegVLAD가 VPR에 ‘주의 집중(Attention)’ 메커니즘을 암시적으로, 그러나 기존의 학습 기반 어텐션보다 더 강건한 방식으로 구현하고 있음을 시사한다. 일반적인 어텐션 메커니즘은 모델이 입력의 특정 부분에 더 집중하도록 학습된 가중치를 부여하는 방식이다. 하지만 이는 데이터셋의 편향에 영향을 받을 수 있다는 단점이 있다. SegVLAD는 명시적인 어텐션 레이어를 사용하는 대신, ‘분할 후 집계’라는 아키텍처 자체가 강력한 어텐션의 역할을 수행한다. SAM에 의해 분할된 세그먼트들은 자연스럽게 이미지 내에서 ‘관심 영역(Regions of Interest)’이 된다. 이후 검색 과정에서 다른 이미지의 세그먼트와 강하게 매칭되는 SuperSegment가 최종 결정에 높은 가중치(유사도)를 받게 되므로, 자연스럽게 중요 정보에 집중하는 효과가 나타난다. 이 방식은 사전 학습된 범용 분할 모델에 기반하므로 특정 데이터셋의 편향에 덜 민감하며, 무엇보다 모델의 결정 과정을 매우 투명하게 만들어준다. 어떤 SuperSegment가 매칭의 근거가 되었는지 직접 시각화할 수 있기 때문에, 모델이 ‘왜’ 그런 결정을 내렸는지 매우 직관적으로 이해할 수 있다.2 이는 자율주행차나 로봇이 치명적인 오작동을 했을 때, 그 원인을 분석하는 데 결정적인 단서를 제공할 수 있다. 예를 들어, “로봇이 위치를 잘못 판단한 이유는, 유사하게 생긴 다른 가게의 간판(SuperSegment)을 현재 위치의 간판과 혼동했기 때문이다”와 같이 구체적이고 설명 가능한 사후 분석이 가능해진다. 이는 단순한 성능 향상을 넘어, AI 시스템의 안전성과 신뢰성을 확보하는 데 중요한 기여를 할 수 있다.

SegVLAD는 시각적 장소 인식 분야에 중요한 이정표를 제시한 연구로 평가된다. 이는 단순히 기존 모델의 성능을 소폭 개선한 것을 넘어, VPR 문제를 바라보는 근본적인 관점을 전환하고, 최신 기반 모델들을 효과적으로 활용하는 새로운 방법론적 틀을 제시했다는 점에서 그 의의가 크다.

SegVLAD가 제시한 새로운 패러다임은 VPR 분야의 풍부한 후속 연구를 촉발할 것으로 기대된다.

궁극적으로 SegVLAD의 ‘사물 재방문’ 철학은 로봇이 단순히 기하학적인 지도를 넘어, 객체와 그 관계가 풍부하게 담긴 ‘의미론적 지도(semantic map)’를 구축하고 활용하는 미래로 나아가는 중요한 첫걸음이다. “분수대를 지나 첫 번째 갈림길에서 좌회전”과 같이 인간이 사용하는 자연어 지시를 로봇이 이해하고 실행하기 위해서는, SegVLAD가 제공하는 것과 같은 객체 중심의, 구성적인 장소 인식이 필수적인 기반 기술이 될 것이다. SegVLAD는 VPR을 단순한 위치 ID 검색 문제를 넘어, 진정한 로봇 지능의 한 축으로 발전시킬 잠재력을 품고 있다.

  1. Revisit Anything: Visual Place Recognition via Image Segment Retrieval - ResearchGate, 8월 23, 2025에 액세스, https://www.researchgate.net/publication/386017141_Revisit_Anything_Visual_Place_Recognition_via_Image_Segment_Retrieval
  2. Revisit Anything: Visual Place Recognition via Image Segment …, 8월 23, 2025에 액세스, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08592.pdf
  3. [Literature Review] Revisit Anything: Visual Place Recognition via Image Segment Retrieval, 8월 23, 2025에 액세스, https://www.themoonlight.io/en/review/revisit-anything-visual-place-recognition-via-image-segment-retrieval
  4. Code release for Revisit Anything: Visual Place Recognition via Image Segment Retrieval (ECCV 2024) - GitHub, 8월 23, 2025에 액세스, https://github.com/AnyLoc/Revisit-Anything
  5. ECCV Conference Papers - European Computer Vision Association, 8월 23, 2025에 액세스, https://www.ecva.net/papers.php
  6. Revisit Anything, 8월 23, 2025에 액세스, https://revisit-anything.github.io/
  7. [ECCV 2024] ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Medical Image - GitHub, 8월 23, 2025에 액세스, https://github.com/halleewong/ScribblePrompt
  8. Better Call SAL: Towards Learning to Segment Anything in Lidar - GitHub, 8월 23, 2025에 액세스, https://github.com/nv-dvl/segment-anything-lidar