Booil Jung

MixVPR (2023)

시각적 장소 인식(Visual Place Recognition, VPR)은 주어진 쿼리 이미지(Query Image)에 묘사된 장소를, 이전에 구축된 지리적 위치 정보가 태깅된 이미지 데이터베이스와 비교하여 인식하는 핵심 기술이다.1 이 기술은 자율주행차, 모바일 로봇의 실시간 위치 추정(Localization), 그리고 동시적 위치 추정 및 지도 작성(SLAM) 시스템에서의 루프 클로저(Loop Closure) 등 다양한 자율 항법 시스템의 근간을 이룬다.1 현대의 VPR 접근법은 대부분 이를 이미지 검색(Image Retrieval) 문제로 간주한다. 즉, 각 이미지를 고유한 저차원의 전역 디스크립터(Global Descriptor) 벡터로 변환하고, 쿼리 이미지의 디스크립터와 데이터베이스 내 모든 이미지의 디스크립터 간의 유사도를 측정하여 가장 일치하는 장소를 찾아낸다.2

그러나 VPR 기술이 실제 환경에서 안정적으로 작동하기 위해서는 여러 본질적인 난제를 극복해야 한다. 가장 큰 도전 과제는 동일한 장소임에도 불구하고 발생하는 극심한 외형 변화(Drastic Appearance Changes)이다.1 조명의 변화, 낮과 밤의 차이, 날씨의 변덕, 그리고 계절의 전환은 이미지의 색상, 질감, 그림자 등을 완전히 바꾸어 놓아 인간조차도 장소를 인식하기 어렵게 만든다.1 또한, 쿼리 이미지와 데이터베이스 이미지가 서로 다른 시점(Viewpoint)에서 촬영되었을 때 발생하는 기하학적 왜곡 역시 특징점 정합(Matching)을 방해하는 주요 요인이다.1 이러한 문제들을 해결하기 위해 개발된 기존의 고성능 모델들은 종종 정교한 아키텍처를 채택하지만, 이는 계산 복잡성의 증가로 이어진다. 특히, 검색 정확도를 높이기 위해 재순위화(Re-ranking) 단계를 추가하는 2단계(Two-stage) 방식은 상당한 지연 시간(Latency)을 유발하여 실시간성이 생명인 실제 시나리오에 적용하기 어렵다는 한계를 지닌다.4

이러한 배경 속에서, WACV 2023에서 발표된 MixVPR은 기존의 패러다임에 도전하는 새로운 해법을 제시한다.4 MixVPR는 사전 훈련된 백본(Backbone) 네트워크에서 추출된 특징 맵(Feature Map)을 입력으로 받아, 이를 전역적(Holistic)으로 집계하는 혁신적인 접근법을 제안한다.1 MixVPR의 가장 큰 특징은 TransVPR의 자기-어텐션(Self-Attention)이나 NetVLAD의 지역적 특징 풀링(Regional Feature Pooling)과 같은 복잡한 메커니즘을 완전히 배제하고, 오직 다층 퍼셉트론(Multi-Layer Perceptron, MLP)으로만 구성된 ‘Feature-Mixer’라는 단순한 모듈을 통해 특징을 융합한다는 점이다.6 이는 MLP-Mixer와 같은 동형(Isotropic) MLP 아키텍처 연구의 최신 흐름에서 영감을 받은 것이다.6

MixVPR의 등장은 VPR 아키텍처 설계에 있어 중요한 패러다임의 전환 가능성을 시사한다. 그동안 VPR 분야의 주류 연구는 성능 향상을 위해 NetVLAD의 지역 특징 집계나 트랜스포머 기반 모델의 자기-어텐션처럼 점점 더 정교하고 복잡한 메커니즘을 도입하는 방향으로 발전해왔다. 그러나 이러한 복잡성은 필연적으로 계산량 증가와 효율성 저하라는 트레이드오프를 수반했다. MixVPR는 이러한 흐름에 역행하여, 극도로 단순한 MLP 구조만으로 기존의 복잡한 모델들을 압도하는 성능을 달성함으로써 ‘복잡성’이 항상 ‘성능’과 비례하지 않음을 입증했다. 이는 VPR의 핵심이 개별 지역 특징의 정교한 매칭이 아니라, 이미지 전체의 공간적 구조와 관계를 강건하게(Robust) 표현하는 것일 수 있다는 가설을 뒷받침한다. MixVPR의 성공은 향후 VPR 연구가 ‘어떻게 더 정교하게 집계할 것인가’라는 질문에서 ‘어떻게 더 효율적으로 전역적 관계를 학습할 것인가’라는 질문으로 전환되는 중요한 계기를 마련했다.

MixVPR의 아키텍처는 그 단순함 속에 강력한 성능의 비결을 담고 있다. 전체 파이프라인은 크게 세 단계, 즉 1) 백본 네트워크를 통한 특징 추출, 2) 핵심 모듈인 Feature-Mixer 블록을 통한 특징 믹싱, 3) 전역 디스크립터 생성을 위한 차원 축소로 구성된다.6

파이프라인의 시작은 사전 훈련된 합성곱 신경망(CNN) 백본을 사용하여 입력 이미지로부터 의미 있는 시각적 특징을 추출하는 것이다. 입력 이미지 $I$는 ResNet이나 VGG와 같은 표준 백본 네트워크를 통과하며, MixVPR는 네트워크의 마지막 레이어가 아닌 중간 레이어에서 특징 맵 $F$를 추출한다 ($F = \text{CNN}(I)$).6 이 특징 맵 $F$는 $c \times h \times w$ (채널 x 높이 x 너비)의 3차원 텐서 형태를 가진다. 기존의 많은 방법들이 이를 $h \times w$개의 $c$차원 공간적 디스크립터(Spatial Descriptor)의 집합으로 간주하는 반면, MixVPR는 이를 $c$개의 $h \times w$ 크기를 갖는 2차원 특징들의 집합으로 해석한다.6 이는 각 채널이 특정 시각적 패턴(예: 수직선, 모서리, 특정 질감)에 대한 공간적 활성화 맵(Activation Map)이라는 관점을 채택한 것으로, 이후 Feature-Mixer의 작동 방식에 중요한 전제가 된다.

MixVPR의 심장은 바로 Feature-Mixer 블록이다. 이 모듈은 어텐션이나 컨볼루션 없이 오직 MLP만을 사용하여 특징 맵 내의 전역적인 공간 관계를 학습한다. Feature-Mixer는 $L$개의 동일한 MLP 블록이 직렬로 연결된(Cascaded) 구조를 가지며, 각 블록은 두 개의 완전 연결 계층(Fully-Connected Layer), 비선형 활성화 함수(ReLU), 그리고 잔차 연결(Skip Connection)로 구성되어 있다.6

Feature-Mixer의 작동 원리는 다음과 같다. 먼저, 입력으로 받은 특징 맵 $F$의 각 채널별 2차원 특징 맵 $X_i$ (크기: $h \times w$)는 1차원 벡터로 펼쳐진다(Flatten). 이 과정을 통해 $c$개의 $n$차원 벡터($n = h \times w$) 집합이 생성된다.6 그 후, 각 펼쳐진 벡터 $X_i$는 독립적으로 MLP 블록을 통과한다. 이 연산은 특정 채널의 특징 맵 내에 있는 모든 공간적 위치(픽셀) 간의 정보를 효과적으로 혼합(Mixing)하는 역할을 수행한다. 이 과정을 수학적으로 정의하면 다음과 같다.6 \(X_i \leftarrow W_2(\sigma(W_1 X_i)) + X_i\) 여기서 $X_i$는 $i$번째 채널의 펼쳐진 1차원 특징 벡터, $W_1$과 $W_2$는 두 완전 연결 계층의 학습 가능한 가중치 행렬, $\sigma$는 ReLU와 같은 비선형 활성화 함수를 의미한다. 마지막의 $+ X_i$ 항은 잔차 연결을 나타내며, 이는 깊은 네트워크에서 그래디언트가 원활하게 전파되도록 돕고 학습 안정성을 높이는 데 결정적인 역할을 한다. 이 블록을 $L$번 반복하여 통과시키면서, 각 특징 맵은 점진적으로 내부의 전역적인 공간 관계를 통합하게 된다.

이러한 ‘채널 독립적 공간 믹싱(Channel-Independent Spatial Mixing)’ 방식은 MixVPR의 효율성과 성능의 핵심이다. 표준 컨볼루션 연산이 커널을 통해 공간적 정보와 채널 간 정보를 동시에 믹싱하는 것과 달리, MixVPR는 이 두 가지 믹싱 과정을 분리(Decouple)한다. Feature-Mixer는 오직 ‘공간적 관계’ 학습에만 집중하고, 채널 간의 정보 교환은 이후의 차원 축소 단계에서 처리한다. 이러한 ‘관심사의 분리(Separation of Concerns)’ 전략은 두 가지 중요한 이점을 제공한다. 첫째, 각 채널이 독립적으로 처리되므로 연산이 병렬화되기 쉽고 모델의 파라미터 수가 현저히 줄어들어 매우 가벼운 아키텍처를 구현할 수 있다.6 둘째, 모델이 특정 채널(예: ‘건물의 창문’을 감지하는 채널) 내에서 공간적 패턴(예: ‘창문들의 규칙적인 배열’)을 더 명확하고 집중적으로 학습하도록 유도할 수 있다. 이는 변화무쌍한 외부 환경 속에서도 변하지 않는 장면의 구조적 불변성(Structural Invariance)을 포착하는 데 더 효과적일 수 있다.

$L$개의 Feature-Mixer 블록을 통과한 결과물 $Z$는 입력 특징 맵 $F$와 동일한 $c \times n$ 형태를 유지한다. 마지막으로, 이 고차원 특징은 두 개의 완전 연결 계층을 통해 최종적인 저차원 전역 디스크립터로 압축된다.6 이 과정은 학습된 가중치를 통해 특징 맵 전체를 가중 풀링(Weighted Pooling)하는 것과 유사한 효과를 내며, 최종 디스크립터의 차원을 사용자가 원하는 크기로 유연하게 조절할 수 있게 해준다.6 이렇게 생성된 컴팩트한 벡터가 바로 이미지를 대표하는 최종 디스크립터로서, 데이터베이스 검색에 사용된다.

우수한 아키텍처가 잠재력이라면, 이 잠재력을 실제 성능으로 이끌어내는 것은 정교한 학습 전략이다. MixVPR는 아키텍처의 단순함을 보완하고 VPR 작업의 본질을 효과적으로 학습하기 위해 강력한 메트릭 러닝(Metric Learning) 기법을 채택했다.

MixVPR는 모델 학습을 위해 Multi-Similarity Loss를 사용한다.2 이 손실 함수는 VPR과 같은 이미지 검색 작업에서 최고의 성능을 보이는 것으로 널리 알려져 있다.6 기존의 많은 손실 함수들이 단순히 positive 샘플(같은 장소의 다른 이미지)과 negative 샘플(다른 장소의 이미지) 쌍의 거리를 조절하는 데 초점을 맞추는 반면, Multi-Similarity Loss는 학습 배치 내 샘플들 간의 유사도 분포 전체를 고려하여 더 정교한 학습을 유도한다. 특히, 이 손실 함수는 어려운 negative 샘플(Hard Negatives, 쿼리 이미지와 시각적으로 매우 유사하지만 실제로는 다른 장소의 이미지)과 어려운 positive 샘플(Hard Positives, 같은 장소이지만 시점이나 촬영 조건이 매우 달라 시각적으로는 이질적인 이미지)을 효과적으로 마이닝(Mining)하여 임베딩 공간(Embedding Space)을 최적으로 구조화한다.

MixVPR의 성공은 단순히 경량 아키텍처 덕분만이 아니라, 이 단순한 아키텍처와 Multi-Similarity Loss라는 강력한 학습 기법의 시너지 효과에 기인한다. Feature-Mixer 아키텍처는 이미지의 전역적인 공간 구조를 효율적으로 인코딩할 수 있는 잠재력을 제공한다. Multi-Similarity Loss는 이 잠재력을 실제 성능으로 이끌어내는 ‘조련사’ 역할을 한다. 이 손실 함수는 임베딩 공간 내에서 시각적으로 유사하지만 다른 장소인 Hard Negatives는 서로 멀리 밀어내고, 외형이 크게 달라 보이는 같은 장소인 Hard Positives는 가깝게 당겨오도록 모델을 강하게 제약한다. 단순한 아키텍처는 자칫 표현력이 부족할 수 있지만, 이처럼 정교한 손실 함수가 학습 과정을 까다롭게 유도함으로써, 이 단순한 구조가 VPR에 가장 핵심적인 ‘외형 및 시점 변화에 대한 불변성’을 학습하도록 강제하는 것이다. 즉, 가벼운 모델이 어려운 문제를 풀 수 있도록 하는 핵심 열쇠는 바로 학습 목표를 정교하게 설정하는 손실 함수에 있다.

MixVPR의 진정한 가치는 실제 벤치마크에서의 압도적인 성능으로 입증된다. 논문은 다양한 조건의 대규모 데이터셋에서 기존 최첨단(State-of-the-Art, SOTA) 모델들과의 엄격한 비교를 통해 MixVPR의 우수성을 정량적으로 보여준다.

VPR 모델의 성능은 주로 Recall@N 지표를 통해 평가된다. Recall@N은 상위 N개의 검색 결과 중 정답 이미지가 하나 이상 포함된 쿼리의 비율을 의미하며, 특히 N=1, 5, 10일 때의 값(R@1, R@5, R@10)이 널리 사용된다.6 성능 평가는 다음과 같은 표준 벤치마크 데이터셋에서 수행되었다 6:

MixVPR은 모든 주요 벤치마크에서 기존 SOTA 모델들인 NetVLAD, CosPlace 등을 큰 격차로 능가하며 새로운 최고 기록을 수립했다.1 특히 주목할 만한 결과는 아래 표와 같다.

표 1: 주요 벤치마크 SOTA 성능 비교 (Recall@1)

모델 Pitts250k-test (R@1) MSLS-val (R@1) Nordland (R@1) SPED (R@1)
NetVLAD 90.5% 82.6% 32.6% 77.7%
CosPlace 91.5% 84.5% 34.4% -
MixVPR 94.6% 88.0% 58.4% 85.2%

데이터 출처: 6

표에서 볼 수 있듯이, MixVPR는 모든 데이터셋에서 일관되게 가장 높은 성능을 보였다. 특히 가장 어려운 벤치마크로 꼽히는 Nordland에서의 성능 향상은 경이로운 수준이다. 기존 SOTA 모델인 CosPlace 대비 R@1 점수가 34.4%에서 58.4%로 상승했는데, 이는 약 69%의 상대적 성능 향상에 해당한다.6

이 Nordland에서의 압도적인 성능은 MixVPR의 작동 원리에 대한 중요한 단서를 제공한다. Nordland 데이터셋은 눈 덮인 겨울과 푸른 여름의 풍경처럼, 이미지의 텍스처, 색상 등 저수준(Low-level) 시각 정보가 완전히 달라진다. NetVLAD와 같이 지역 특징의 집계에 크게 의존하는 모델들은 이러한 저수준 정보의 급격한 변화에 취약할 수밖에 없다. 특정 지역의 시각적 특징이 계절에 따라 사라지거나 완전히 변하기 때문이다. 반면, MixVPR의 Feature-Mixer는 이미지 전체의 공간적 픽셀 관계를 직접 학습한다. 이는 모델이 텍스처나 색상보다는 건물, 도로, 나무 등의 ‘공간적 배치’나 ‘구조적 레이아웃’과 같은 고수준(High-level)의 추상적 정보를 학습하도록 유도한다. 이러한 구조적 정보는 계절 변화에도 상대적으로 불변(Invariant)하는 경향이 있다. 따라서 Nordland에서의 비약적인 성능 향상은 MixVPR의 MLP 기반 전역 믹싱 방식이 저수준 외형 정보의 변화에 강건한, 장면의 근본적인 ‘구조’를 포착하는 데 매우 효과적임을 강력하게 시사한다.

MixVPR의 놀라움은 성능에서 그치지 않는다. SOTA 성능을 달성하면서도 기존 모델들보다 훨씬 가볍고 빠르다는 점에서 실용적 가치가 매우 높다.

표 2: 모델 효율성 비교

모델 파라미터 수 추론 시간 (ms) 방식
NetVLAD ~26.1M - Single-stage
CosPlace ~26.1M - Single-stage
TransVPR - 45ms Two-stage
Patch-NetVLAD - >3300ms Two-stage
MixVPR (ResNet-50) 10.9M 6ms Single-stage

데이터 출처: 6

ResNet-50 백본을 사용했을 때 MixVPR의 파라미터 수는 10.9M으로, NetVLAD나 CosPlace의 절반에도 미치지 않는다.4 또한, 단일 단계(Single-stage) 방식임에도 불구하고 재순위화 과정을 포함하는 2단계 방식(Patch-NetVLAD, TransVPR 등)보다 월등히 빠른 추론 속도를 자랑한다. 이미지 한 장을 디스크립터로 변환하는 데 단 6ms가 소요되어, TransVPR(45ms)보다 7배 이상 빠르며, Patch-NetVLAD와는 비교할 수 없을 정도로 신속하다.4 이러한 압도적인 효율성은 MixVPR이 학술적 성과를 넘어, 자원 제약이 심한 실제 로보틱스 및 자율주행 시스템에 즉시 적용될 수 있는 실용적인 솔루션임을 의미한다.

MixVPR 논문은 체계적인 애블레이션 스터디를 통해 제안된 아키텍처의 각 구성 요소가 성능에 미치는 영향을 면밀히 분석하고, 성공의 핵심 요인이 무엇인지 명확히 규명한다.

성능 향상의 핵심 원천이 Feature-Mixer 블록임을 증명하기 위해, 블록의 수($L$)를 변화시키며 성능을 측정했다. 그 결과, $L=0$ (즉, 믹서 없음)일 때와 비교하여 $L=1$, 즉 단 하나의 Feature-Mixer 블록만 추가해도 성능이 크게 향상되었다.6 Pitts30k-test에서는 R@1 점수가 1.8%p, MSLS에서는 4.0%p 상승했다. 성능은 $L$이 증가함에 따라 점진적으로 향상되다가 $L=4$에서 최적의 성능을 보였다.6 이는 Feature-Mixer 블록이 VPR에 필요한 전역적 관계를 학습하는 데 직접적이고 핵심적인 역할을 수행함을 명백히 보여주는 결과이다.

MixVPR의 뛰어난 성능이 단순히 강력한 백본 네트워크 덕분이 아님을 보이기 위해, 다양한 백본(ResNet-18, ResNet-34, ResNet-50 등)으로 교체하며 실험을 진행했다. 놀랍게도, 훨씬 가벼운 백본인 ResNet-18이나 ResNet-34를 사용했을 때조차도 여전히 기존 SOTA 모델들과 경쟁하거나 능가하는 성능을 달성했다.6 예를 들어, ResNet-18 기반 MixVPR은 CosPlace 파라미터 수의 15%에 불과한 3.5M의 파라미터만으로도 우수한 성능을 보였다. 이는 MixVPR의 성능이 강력한 백본에만 의존하는 것이 아니라, Feature-Mixer라는 효율적이면서도 표현력이 뛰어난 집계 모듈 자체의 우수성에서 비롯됨을 강력하게 시사한다.6

이러한 체계적인 애블레이션 스터디 결과들은 MixVPR의 성공이 우연한 하이퍼파라미터 튜닝이나 특정 백본의 성능에 기댄 것이 아님을 명확히 보여준다. 성능 향상의 대부분은 새로 제안된 Feature-Mixer 모듈이라는 아키텍처 혁신에서 기인한다. 이는 MixVPR가 단순한 점수 경쟁을 넘어 VPR 분야에 실질적인 ‘아키텍처적 기여’를 했음을 의미하며, 다른 연구자들이 MixVPR의 아이디어를 차용하여 새로운 모델을 개발할 수 있는 견고한 과학적 근거를 제공한다.

MixVPR은 VPR 분야의 기술적 지형도를 바꾸어 놓은 중요한 이정표로 평가될 수 있다. 그 의의를 이해하기 위해 기존 주요 모델들과의 개념적 비교를 통해 MixVPR의 독창성을 살펴볼 필요가 있다.

실용적 측면에서 MixVPR의 기여는 명확하다. 경량성, 빠른 속도, 높은 정확도를 동시에 달성함으로써, 그동안 고성능 VPR 기술 도입이 어려웠던 자원 제약이 심한 모바일 로봇이나 실시간 자율주행 시스템에 VPR을 탑재할 수 있는 현실적인 경로를 제시했다.1

더 나아가, MixVPR의 성공은 VPR이라는 특정 작업을 넘어 컴퓨터 비전 아키텍처 설계 전반에 대한 중요한 시사점을 제공한다. 이는 ‘어텐션만이 능사가 아니다’라는 강력한 메시지를 던진다. Vision Transformer(ViT)의 성공 이후, 많은 비전 분야에서 어텐션 메커니즘이 지배적인 패러다임으로 자리 잡았다. 그러나 MLP-Mixer와 같은 선행 연구들은 순수 MLP만으로도 어텐션과 유사한 수준의 성능을 낼 수 있음을 보여주었다. MixVPR는 이러한 MLP 기반 접근법이 이미지 분류와 같은 일반적인 작업을 넘어, VPR과 같은 고수준 인식 및 검색 작업에서도 매우 효과적임을 최초로 입증한 중요한 사례 중 하나이다. 이는 향후 객체 탐지, 이미지 분할 등 다른 비전 분야에서도 복잡하고 무거운 어텐션 모듈을 더 가볍고 효율적인 MLP 기반 믹싱 모듈로 대체하려는 연구 흐름을 촉발할 수 있다. 이런 관점에서 MixVPR는 VPR 분야의 SOTA를 경신한 것을 넘어, 비전 아키텍처의 새로운 가능성을 탐색하는 선구자적 역할을 수행한 것으로 평가될 수 있다.

MixVPR은 시각적 장소 인식 분야에 중요한 기술적 진보를 이룩한 연구이다. 본 보고서는 MixVPR의 핵심적인 기여를 다음과 같이 요약한다.

첫째, MixVPR는 순수 다층 퍼셉트론(MLP)에 기반한 새롭고 효율적인 전역 특징 집계 방식인 ‘Feature-Mixer’를 제안했다. 이는 복잡한 어텐션이나 지역적 풀링 메커니즘 없이도 이미지의 전역적인 공간 구조 정보를 효과적으로 인코딩할 수 있음을 증명했다.

둘째, 이 단순하면서도 강력한 아키텍처를 통해 기존의 복잡하고 무거운 SOTA 모델들을 모든 주요 벤치마크에서 압도하는 성능을 달성했다. 동시에 파라미터 수는 절반 이하로 줄이고, 추론 속도는 수십 배에서 수백 배까지 향상시켜 성능과 효율성이라는 두 마리 토끼를 모두 잡았다.

셋째, 특히 Nordland 데이터셋에서 보여준 경이적인 성능은 MixVPR가 계절 변화와 같은 극심한 외형 변화에 대해 놀라운 강건성을 지니고 있음을 입증했다. 이는 저수준 시각 정보가 아닌, 장면의 근본적인 구조적 불변성을 학습하는 아키텍처의 능력 덕분으로 분석된다.

MixVPR의 성공은 VPR 분야의 향후 연구 방향이 ‘효율적이면서도 강력한 전역 표현 학습’으로 더욱 집중될 것임을 예고한다. 단순함과 효율성의 미학을 증명한 MixVPR는, 향후 등장할 차세대 VPR 아키텍처들의 중요한 기준점이자 영감의 원천이 될 것이며, VPR 기술의 실용적 한계를 한 단계 끌어올린 기념비적인 연구로 기록될 것이다.

  1. MixVPR: Feature Mixing for Visual Place Recognition Request PDF - ResearchGate, 8월 21, 2025에 액세스, https://www.researchgate.net/publication/369035921_MixVPR_Feature_Mixing_for_Visual_Place_Recognition
  2. Collaborative Visual Place Recognition through Federated Learning - CVF Open Access, 8월 21, 2025에 액세스, https://openaccess.thecvf.com/content/CVPR2024W/FedVision-2024/papers/Dutto_Collaborative_Visual_Place_Recognition_through_Federated_Learning_CVPRW_2024_paper.pdf
  3. Visual Place Recognition: Building an Evaluation Framework for Model Robustness - University of Twente, 8월 21, 2025에 액세스, http://essay.utwente.nl/100860/1/Gosa_BA_EEMCS.pdf
  4. [2303.02190] MixVPR: Feature Mixing for Visual Place Recognition - arXiv, 8월 21, 2025에 액세스, https://arxiv.org/abs/2303.02190
  5. MixVPR: Feature Mixing for Visual Place Recognition (2303.02190v1) - Emergent Mind, 8월 21, 2025에 액세스, https://www.emergentmind.com/articles/2303.02190
  6. MixVPR: Feature Mixing for Visual Place … - CVF Open Access, 8월 21, 2025에 액세스, https://openaccess.thecvf.com/content/WACV2023/papers/Ali-bey_MixVPR_Feature_Mixing_for_Visual_Place_Recognition_WACV_2023_paper.pdf