현대 딥러닝 모델은 대규모 레이블 데이터를 통해 전례 없는 성공을 거두었으나, 이러한 데이터 의존성은 모델의 적용 범위를 제한하는 주요한 한계로 작용한다.1 방대한 데이터 수집 및 레이블링 비용이 막대한 분야나 희귀 사례를 다루어야 하는 응용에서는 기존의 학습 패러다임이 비효율적이거나 불가능하다. 이러한 배경에서 데이터 효율적 학습(Data-Efficient Learning)의 중요성이 대두되었으며, 이는 두 가지 주요 연구 흐름으로 구체화되었다. 첫째는 소수의 샘플만으로 새로운 개념을 학습하는 퓨샷 학습(Few-Shot Learning, FSL)이다.3 FSL은 인간이 단 몇 개의 예시만으로 새로운 사물을 인지하는 능력에 착안하여, 제한된 데이터 환경에서도 높은 일반화 성능을 달성하는 것을 목표로 한다. 둘째는 비디오와 같은 연속적 데이터에서 시공간적 맥락을 이해하고 객체를 지속적으로 추적 및 분할하는 다중 객체 추적 및 분할(Multiple Object Tracking and Segmentation, MOTS)이다.9 MOTS는 시시각각 변화하는 객체의 외형과 위치를 정확히 파악하기 위해 과거의 정보를 효과적으로 활용해야 하는 도전 과제를 안고 있다.
이러한 데이터 효율적 학습의 문제를 해결하기 위해 다양한 방법론이 제안되었으며, 그중에서도 프로토타입 기반 거리 학습(Prototype-based Metric Learning)과 어텐션 메커니즘(Attention Mechanism)은 가장 중요한 두 축을 형성한다. 프로토타입 네트워크(Prototypical Networks)는 FSL 분야에서 거리 기반 학습의 새로운 패러다임을 제시한 대표적인 모델이다.10 이 모델은 각 클래스를 대표하는 하나의 ‘프로토타입’을 임베딩 공간상에 정의하고, 새로운 데이터(쿼리)를 가장 가까운 프로토타입에 할당하는 직관적이고 효과적인 방식을 제안했다. 한편, 어텐션 메커니즘, 특히 크로스 어텐션(Cross-Attention)은 두 개 이상의 서로 다른 데이터 소스 간의 관계를 모델링하는 데 강력한 성능을 보인다.11 FSL에서는 주어진 소수의 샘플(서포트 셋)을 기준으로 새로운 샘플(쿼리 셋)의 어느 부분에 집중해야 할지를 동적으로 결정하는 데 활용된다.
본 보고서는 사용자의 질의에 명시된 Prototypical Cross-Attention Network (PCAN)를 심층적으로 분석하는 것을 목표로 한다. PCAN은 공식적으로 MOTS 태스크를 해결하기 위해 제안된 모델이지만 9, 그 이름에서 알 수 있듯이 프로토타입과 크로스 어텐션이라는 FSL의 핵심 개념을 깊이 내재하고 있다. 이러한 개념적 연결고리는 MOTS와 FSL이 근본적으로 유사한 문제를 다루고 있음을 시사한다. FSL은 소수의 정적 이미지 집합(서포트 셋)에서 강인한 표현을 학습해야 하는 반면, MOTS는 변화하는 시계열 프레임 집합(과거 프레임)에서 일관된 표현을 학습해야 한다. 즉, 두 문제 모두 ‘관련 있지만 다양한 데이터 포인트 집합으로부터 일반화 가능한 표현을 어떻게 추출할 것인가’라는 공통된 질문에 답해야 한다.
따라서 본 보고서는 PCAN의 원리와 구조를 단순히 설명하는 것을 넘어, 이를 FSL 분야의 주요 모델들과의 비교 분석을 통해 그 구조적 독창성과 한계를 규명한다. 이를 통해 MOTS를 위해 고안된 계산 효율적 시공간 정보 압축 기법이 FSL 문제에 어떻게 적용될 수 있는지 탐구하고, 최종적으로 PCAN의 핵심 아이디어를 FSL 태스크로 확장하는 구체적인 방안을 제시하며 미래 연구 방향을 조망한다.
Snell 등이 2017년에 제안한 프로토타입 네트워크는 데이터가 극히 제한적인 FSL 환경에서는 복잡한 메타러닝 구조보다 단순한 귀납적 편향이 더 효과적이라는 가정에서 출발한다.10 이 모델의 핵심 아이디어는 임베딩 공간 내에 각 클래스를 대표하는 단일 ‘프로토타입’이 존재하며, 분류는 이 프로토타입과의 거리를 측정함으로써 수행될 수 있다는 것이다. 이는 데이터가 부족할수록 모델이 가정하는 구조가 단순해야 과적합을 피하고 일반화 성능을 높일 수 있다는 철학에 기반한다.
프로토타입 네트워크에서 클래스 $k$의 프로토타입 $c_k$는 해당 클래스에 속한 서포트 샘플들의 임베딩 벡터 평균으로 계산된다.10 임베딩 함수를 $f_\phi$라 하고, 클래스 $k$의 서포트 셋을 $S_k$라고 할 때, 프로토타입은 다음과 같이 정의된다.
\(c_k = \frac{1}{|S_k|} \sum_{(x_i, y_i) \in S_k} f_\phi(x_i)\) 이 계산 방식은 매우 직관적이며, 임베딩 공간상에서 해당 클래스 샘플들의 중심점을 찾는 것과 같다. 이 프로토타입은 해당 클래스의 가장 대표적인 특징을 압축적으로 담고 있는 벡터로 기능한다.
새로운 쿼리 샘플 $x$가 주어지면, 먼저 임베딩 함수 $f_\phi$를 통해 쿼리 샘플을 임베딩 공간으로 매핑한다. 그 후, 임베딩된 쿼리 벡터 $f_\phi(x)$와 각 클래스의 프로토타입 $c_k$ 간의 거리(distance)를 계산한다. 프로토타입 네트워크는 일반적으로 제곱 유클리드 거리(squared Euclidean distance)를 사용하며, 이 거리에 기반한 소프트맥스 함수를 통해 쿼리 샘플이 각 클래스에 속할 확률 분포를 계산한다.10
\(p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}\) 학습은 실제 레이블에 대한 음의 로그 확률(negative log-probability)을 최소화하는 방향으로 진행되며, 이를 통해 동일 클래스 내 샘플들은 임베딩 공간에서 해당 클래스의 프로토타입 주변으로 모이고, 다른 클래스의 프로토타입과는 멀어지도록 임베딩 함수 $f_\phi$가 학습된다.
프로토타입 네트워크의 성공에 기여한 또 다른 핵심 요소는 에피소딕 학습 방식이다. 이는 학습 과정에서 실제 테스트 환경(N-way K-shot)을 모방하는 작은 단위의 ‘에피소드’를 무작위로 구성하여 모델을 훈련시키는 방식이다.10 각 에피소드는 N개의 클래스와 각 클래스당 K개의 서포트 샘플, 그리고 별도의 쿼리 샘플들로 구성된다. 이러한 방식은 학습과 테스트 환경의 불일치를 줄여 모델의 일반화 성능을 크게 향상시킨다.
크로스 어텐션은 두 개의 다른 입력 시퀀스(또는 특징 맵) 간의 상호작용을 모델링하기 위한 메커니즘이다. 트랜스포머 아키텍처에서 처음 제안된 스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)을 기반으로 하며, 일반적으로 하나의 입력에서 Query(Q) 벡터를, 다른 입력에서 Key(K)와 Value(V) 벡터를 생성한다. 그 후, 모든 Q 벡터와 모든 K 벡터 간의 내적(dot product)을 계산하여 유사도 점수(similarity score)를 얻고, 이를 스케일링한 후 소프트맥스 함수를 적용하여 어텐션 가중치(attention weights)를 구한다. 최종적으로 이 가중치를 V 벡터에 곱하여 가중합을 계산함으로써, Q의 관점에서 K/V 입력의 중요한 정보를 선택적으로 추출한 결과 벡터를 얻는다.
PCAN 논문에서 지적하는 표준 어텐션 연산은 고해상도 이미지나 긴 비디오 시퀀스와 같은 밀집된(dense) 데이터에 적용될 때 심각한 계산적 한계를 드러낸다.9 예를 들어, 현재 프레임의 픽셀(쿼리)이 과거 모든 프레임의 모든 픽셀(메모리)과 상호작용해야 하는 경우, 그 연산은 다음과 같이 표현될 수 있다.
\(y_i = \frac{1}{Z_i} \sum_{j=1}^{H \times W \times T} \exp(k_Q(i) \cdot k_M(j)) v_M(j)\) 여기서 $i$는 쿼리 위치의 인덱스이고, $j$는 $H \times W \times T$ 크기의 시공간 메모리 내 위치의 인덱스이다. 이 연산은 모든 쿼리-키 쌍에 대해 유사도를 계산해야 하므로, 특징 맵의 공간적 크기($HW$)에 대해 $O((HW)^2)$의 계산 및 메모리 복잡도를 가진다. 이러한 이차적 복잡도(quadratic complexity)는 고해상도 비디오 처리를 현실적으로 불가능하게 만드는 근본적인 병목 현상으로 작용한다.9 PCAN은 바로 이 문제를 해결하기 위한 대안적 구조를 제안한다.
PCAN은 비디오 내 다중 객체를 온라인으로 추적하고 동시에 분할하는 MOTS 태스크를 위해 특별히 설계되었다. 기존 MOTS 접근법들은 주로 시간적 차원을 객체 간의 연관 문제(association problem)를 해결하는 데 국한하여 사용하고, 객체의 분할 마스크 자체는 단일 프레임의 정보에만 의존하는 경향이 있었다.9 이는 과거 프레임에 존재하는 풍부한 시공간적 정보(spatio-temporal information)를 충분히 활용하지 못하는 한계를 낳는다. PCAN의 핵심 설계 목표는 이러한 시공간적 정보를 효율적으로 압축하고 검색하여, 객체의 외형 변화나 가려짐(occlusion)에 강인한 추적 및 분할 성능을 달성하는 것이다.
PCAN의 핵심은 프로토타입 크로스 어텐션 모듈(Prototypical Cross-Attention Module, PCAM)에 있다. PCAM은 표준 크로스 어텐션의 계산적 한계를 극복하고 시공간 정보의 강인한 표현을 학습하기 위한 독창적인 해결책을 제시한다.
PCAM은 과거 프레임들로부터 추출된 방대한 고해상도 특징 벡터 집합(space-time memory)을 직접 사용하는 대신, 이를 먼저 소수의 ‘프로토타입’으로 압축(distill)한다.9 이는 표준 어텐션의 근본적인 문제, 즉 모든 쿼리가 모든 키와 상호작용해야 하는 데서 발생하는 이차적 복잡도를 해결하기 위한 전략이다. 프로토타입 네트워크가 클래스 내 샘플들을 하나의 대표 벡터로 요약하는 것처럼, PCAM은 방대한 시공간 메모리를 몇 개의 대표적인 특징 벡터로 요약한다. 이 접근법은 프로토타입 생성이 어텐션 메커니즘을 고차원 데이터에 적용 가능하게 만드는 강력한 전처리 단계로 기능할 수 있음을 보여준다. 즉, 프로토타입화는 단순히 분류를 위한 요약이 아니라, 어텐션을 위한 효율적인 키-밸류 메모리를 생성하는 구조적 장치로 활용된다.
메모리 압축 과정은 기댓값 최대화(Expectation-Maximization, EM) 알고리즘 기반의 클러스터링을 통해 수행된다. EM 알고리즘은 데이터의 분포를 여러 개의 가우시안 혼합 모델(Gaussian Mixture Model)로 근사하는데, PCAM에서는 각 가우시안 구성요소(Gaussian Component)가 하나의 프로토타입에 해당한다.9 이 과정은 두 가지 중요한 이점을 제공한다. 첫째, 비디오 스트림에 존재하는 노이즈와 중복성을 효과적으로 제거한다. 조명 변화, 모션 블러, 일시적인 가려짐 등 개별 프레임에 나타나는 불안정한 특징들은 클러스터링 과정을 통해 평균화되어 걸러진다. 결과적으로 생성된 프로토타입은 시간에 따라 안정적이고 일관된 객체의 핵심 외형을 나타내는, 노이즈가 제거된(denoised) 강인한 표현이 된다.9 둘째, 이렇게 생성된 프로토타입은 과거 시각적 특징들에 대한 풍부하면서도 일반화 가능하고 컴팩트한 표현을 제공한다.
표준 어텐션이 $H \times W \times T$ 크기의 전체 시공간 메모리에 대해 어텐션을 적용해야 했던 것과 달리, PCAN은 압축된 $N$개의 프로토타입($N \ll HWT$)에 대해서만 어텐션을 수행한다.9 이로 인해 어텐션 연산의 복잡도는 기존의 $O((HW)^2)$에서 $O(HWN)$ 수준으로 크게 감소하여, 고해상도 비디오 처리에 현실적으로 적용 가능한 수준의 계산 효율성을 확보하게 된다.
PCAN은 PCAM을 단순히 한 번만 사용하는 것이 아니라, 네트워크의 서로 다른 두 단계에 계층적으로 통합한다. 첫째는 프레임 레벨(frame-level)에서 전역적인 장면의 맥락을 이해하기 위해, 둘째는 인스턴스 레벨(instance-level)에서 특정 객체의 세부적인 특징을 포착하기 위해서다.9 이러한 계층적 구조는 모델이 전역적 및 지역적 시공간 정보를 모두 효과적으로 활용할 수 있도록 돕는다.
객체의 외형이 시간에 따라 변하거나 배경과 유사해지는 문제에 대응하기 위해, PCAN은 각 객체 인스턴스를 단일 프로토타입이 아닌, 대조적인 ‘전경(foreground)’ 프로토타입 집합과 ‘배경(background)’ 프로토타입 집합으로 나누어 표현한다.9 이는 학습 과정에서 모델이 객체 자체의 고유한 특징과 주변 배경의 특징을 명시적으로 구분하도록 강제하는 역할을 한다. 이 프로토타입들은 고정되어 있지 않고, 비디오가 진행됨에 따라 온라인 방식으로 계속해서 전파되고 갱신되어 변화하는 객체의 외형에 적응한다. 이처럼 명시적으로 전경과 배경을 분리하는 표현 학습 전략은 어텐션 메커니즘이 배경의 방해 요소에 현혹되지 않고 목표 객체에 집중하도록 유도하는 강력한 장치로 기능한다.
Hou 등이 2019년에 제안한 Cross Attention Network (CAN)는 FSL에서 서포트 셋과 쿼리 셋의 특징을 독립적으로 추출하는 기존 방식의 한계를 극복하고자 했다.11 CAN의 핵심 아이디어는 서포트 셋 정보(클래스 특징)를 이용해 쿼리 이미지 내에서 해당 클래스와 의미론적으로 관련된 영역을 동적으로 찾아내고, 그 영역의 특징을 강조하여 보다 판별력 있는 표현을 학습하는 것이다. 이를 위해 클래스 특징과 쿼리 특징 간의 상호작용을 모델링하는 ‘크로스 어텐션 모듈(Cross Attention Module)’을 도입했다.12
CAN의 전체 아키텍처 및 데이터 흐름은 다음과 같은 단계로 구성된다 13:
CAN과 PCAN은 ‘프로토타입’과 ‘크로스 어텐션’이라는 키워드를 공유하지만, 그 철학과 구현 방식에는 근본적인 차이가 존재한다.
Xu 등이 2023년에 FSS(Few-Shot Segmentation) 분야에서 제안한 SCCAN은 CAN과 같은 기존 크로스 어텐션 방식이 가진 두 가지 고질적인 문제를 명확히 지적했다.14
SCCAN은 이러한 문제를 해결하기 위해 어텐션 연산 시 Key(K)와 Value(V)를 구성하는 방식을 변경하는 구조적(architectural) 해결책을 제시한다. 즉, K와 V를 서포트 특징만으로 구성하는 대신, ‘쿼리 자신의 특징’과 ‘서포트의 특징’을 함께 그룹화한다.14 이로써 어텐션 모듈은 셀프 어텐션(Self-Attention, 쿼리-쿼리 상호작용)과 크로스 어텐션(Cross-Attention, 쿼리-서포트 상호작용)을 동시에 수행하게 된다.
이러한 SCCAN의 구조적 접근법은 PCAN이 제시하는 표현적(representational) 해결책과 흥미로운 대조를 이룬다. PCAN은 어텐션 메커니즘 자체를 수정하는 대신, 학습을 통해 명시적으로 분리된 전경과 배경 프로토타입을 생성하여 어텐션 모듈에 더 정제된 입력을 제공한다. SCCAN의 방식은 추론 시에 동적으로 자신을 보정하는 유연성을 가지는 반면, PCAN의 방식은 학습 데이터로부터 전경과 배경에 대한 일반화된 모델을 안정적으로 학습할 수 있다면 더욱 강인한 성능을 보일 수 있다. 특히 객체의 배경이 계속해서 변하는 MOTS 환경에서는 특정 배경에 의존하지 않는, 객체 자체의 안정적인 표현을 학습하는 PCAN의 방식이 더 효과적일 수 있다.
프로토타입과 어텐션을 결합하려는 시도는 FSL 분야에서 다양하게 이루어지고 있다.
제안된 모델들의 성능을 객관적으로 평가하기 위해, 각 태스크에 맞는 표준 벤치마크 데이터셋과 평가 지표가 사용된다.
다음 표는 FSL 벤치마크에서 주요 모델들의 성능을 종합적으로 비교한 것이다. 이를 통해 각 아키텍처의 장단점과 특정 조건 하에서의 성능을 실증적으로 분석할 수 있다.
Table 1: 주요 모델 성능 비교 (Performance Comparison of Key Models)
| 모델 (Model) | 백본 (Backbone) | 데이터셋 (Dataset) | 5-way 1-shot | 5-way 5-shot | 주요 특징 (Key Feature) | 출처 (Source) | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| Prototypical Net | ResNet-12 | miniImageNet | 66.09 ± 0.92% | 82.50 ± 0.58% | 평균 기반 프로토타입 | 20 | ||||
| Prototypical Net | - | tieredImageNet | 66.25 ± 0.34% | 80.11 ± 0.91% | 평균 기반 프로토타입 | 16 | ||||
| CAN | ResNet-12 | miniImageNet | 63.85 ± 0.48% | 79.44 ± 0.34% | 직접 공간 크로스 어텐션 | 19 | ||||
| CAN+T | ResNet-12 | miniImageNet | 67.19 ± 0.55% | 80.64 ± 0.35% | Transductive Inference 추가 | 19 | ||||
| CAN | ResNet-12 | tieredImageNet | 69.89 ± 0.51% | 84.23 ± 0.37% | 직접 공간 크로스 어텐션 | 19 | ||||
| CAN+T | ResNet-12 | tieredImageNet | 73.21 ± 0.58% | 84.93 ± 0.38% | Transductive Inference 추가 | 19 | ||||
| PCAN | - | Youtube-VIS | - | - | 프로토타입 기반 시공간 어텐션 | 9 | ||||
| PCAN | - | BDD100K | - | - | 프로토타입 기반 시공간 어텐션 | 9 | ||||
| 기타 SOTA 모델 | 다양함 | 다양함 | 16 | 16 | 다양함 | 16 |
표 분석에 따르면, 몇 가지 중요한 경향을 확인할 수 있다. 첫째, 단순한 프로토타입 네트워크는 여전히 강력한 베이스라인 성능을 보여준다. 둘째, CAN은 기본적으로 프로토타입 네트워크보다 다소 낮은 성능을 보이지만, 레이블 없는 쿼리 셋을 활용하는 전이 추론(Transductive Inference)을 추가했을 때(CAN+T) 성능이 크게 향상된다. 이는 서포트-쿼리 간 상호작용이 추가적인 데이터 활용 전략과 결합될 때 시너지를 낼 수 있음을 시사한다.19 셋째, 데이터셋의 난이도(tieredImageNet > miniImageNet)에 따라 모델 간 성능 격차가 달라지며, 더 복잡한 데이터셋에서 크로스 어텐션의 효과가 더 두드러지는 경향을 보인다.
정량적 수치 외에도 모델의 작동 방식을 이해하기 위한 정성적 분석이 중요하다. CAN과 같은 공간적 어텐션 모델은 어텐션 맵을 시각화함으로써 모델이 쿼리 이미지의 어느 부분에 집중하여 결정을 내리는지 직관적으로 파악할 수 있다.22 이는 모델의 해석 가능성을 높여주지만, 동시에 한계점을 드러내기도 한다. 예를 들어, 크로스 어텐션 기반 방법론들은 목표 객체와 유사한 질감이나 색상을 가진 배경 영역에 의해 쉽게 혼동될 수 있다.18 즉, 의미론적 이해 없이 저수준의 시각적 유사성에만 의존할 경우 잘못된 영역에 집중할 위험이 있다.
PCAN의 대조적 전경/배경 프로토타입이나 SCCAN의 자가 보정 메커니즘은 이러한 문제를 완화하려는 시도이지만, 완벽한 해결책은 아니다. 특히 전경과 배경의 구분이 모호하거나, 서포트 셋에 표현되지 않은 극단적인 시점이나 조명 변화가 쿼리 셋에 나타날 경우 여전히 성능 저하가 발생할 수 있다.
PCAN의 가장 중요한 학술적 기여는 표준 크로스 어텐션이 가진 계산적 병목 현상을 ‘프로토타입 기반 메모리 압축’이라는 독창적인 아이디어로 해결한 점에 있다. 이는 비디오와 같이 밀집되고 고차원적인 데이터 스트림에 어텐션 메커니즘을 확장 가능하게 적용할 수 있는 새로운 경로를 제시했다. 방대한 시공간 정보를 EM 클러스터링을 통해 소수의 의미론적 프로토타입으로 요약하고, 이 요약된 정보에 대해 어텐션을 수행하는 방식은 효율성과 성능을 동시에 달성하는 효과적인 전략임을 입증했다. 또한, EM 클러스터링을 통한 암묵적인 노이즈 제거 효과와 대조적 전경/배경 프로토타입을 통한 명시적인 표현 분리 학습은 MOTS 분야에서 객체 추적의 강인성을 높이는 중요한 진전으로 평가할 수 있다.9
본 보고서의 분석을 통해 드러난 PCAN의 핵심 원리는 FSL 태스크에 직접적으로 적용되어 기존 방법론을 개선할 잠재력을 가진다. 특히, 서포트 셋의 표현 방식을 고도화하는 데 중요한 단초를 제공한다.
기존 프로토타입 네트워크는 서포트 셋의 단순 평균을 프로토타입으로 사용한다.10 이 방식은 서포트 셋 내의 모든 샘플이 동등하게 중요하며 단일 군집을 형성한다고 가정하기 때문에, 클래스 내 분산(intra-class variance)이 크거나 아웃라이어가 포함된 경우 취약하다. 예를 들어, ‘개’ 클래스의 서포트 셋에 ‘리트리버’, ‘치와와’, ‘불독’ 이미지가 섞여 있을 때, 이들의 단순 평균은 어떤 품종도 제대로 대표하지 못하는 모호한 프로토타입을 생성할 수 있다.
이 문제를 해결하기 위해, PCAN의 PCAM 모듈을 FSL에 적용하는 ‘프로토-클러스터 네트워크(Proto-Cluster Network)’를 다음과 같이 구상할 수 있다.
이러한 접근법은 서포트 셋 내에 존재하는 다양한 하위 군집이나 스타일을 명시적으로 모델링함으로써, 클래스 내 분산이 큰 현실적인 FSL 문제에서 표준 프로토타입 네트워크보다 훨씬 강인하고 정교한 분류 성능을 달성할 것으로 기대된다. 이는 PCAN의 핵심 기여인 ‘강인한 압축 표현 학습’을 시계열 영역에서 집합 기반 영역으로 성공적으로 이식하는 것이다.
PCAN과 관련 연구들의 분석을 바탕으로 다음과 같은 미래 연구 방향을 제시할 수 있다.
| Focus Your Attention when Few-Shot Classification | OpenReview, 8월 16, 2025에 액세스, https://openreview.net/forum?id=uFlE0qgtRO |