Mask2Former 범용 이미지 분할을 위한 마스크 어텐션 트랜스포머 (2021-12-02)

1. 범용 이미지 분할 패러다임의 대두

1.1 Mask2Former 이전 분할 연구의 파편화

Mask2Former의 등장 이전, 컴퓨터 비전 분야의 이미지 분할 연구는 각기 다른 의미론적 목표를 가진 개별 과업에 맞춰 파편화되어 있었다. 이미지 분할의 주요 세 가지 갈래인 시맨틱 분할(semantic segmentation), 인스턴스 분할(instance segmentation), 그리고 파노라마 분할(panoptic segmentation)은 본질적으로 픽셀을 그룹화하는 방식의 차이일 뿐임에도 불구하고, 연구 커뮤니티는 각 과업을 해결하기 위해 고도로 특화된 별도의 아키텍처를 설계하는 데 집중했다.1

시맨틱 분할은 이미지 내 모든 픽셀을 미리 정의된 클래스(예: ‘자동차’, ‘하늘’, ‘도로’)로 분류하는 픽셀 단위 분류(per-pixel classification) 문제로 접근되었다.2 반면, 인스턴스 분할은 동일한 클래스에 속하는 개별 객체들(예: ‘자동차_1’, ‘자동차_2’)을 탐지하고 각각의 정확한 경계를 구분해내는 것을 목표로 했다.2 파노라마 분할은 이 두 가지를 통합하여, 이미지의 모든 픽셀에 시맨틱 레이블을 할당하면서 동시에 개별 객체 인스턴스를 식별하는 가장 포괄적인 형태의 분할 과업이었다.2

이러한 과업별 특화 접근법은 심각한 비효율을 초래했다. 연구자들은 본질적으로 유사한 문제에 대해 세 가지 다른 모델을 개발, 학습, 최적화해야 했으며, 이는 연구 및 엔지니어링 노력을 최소 세 배로 증가시키는 결과를 낳았다.1

1.2 범용 아키텍처의 출현과 마스크 분류 접근법

이러한 파편화된 연구 환경에 대한 근본적인 반성은 DETR(DEtection TRansformer)과 같은 모델의 등장으로 시작되었고, MaskFormer에 의해 구체화되었다.6 이들 모델은 이미지 분할을 픽셀 단위 분류 문제가 아닌, 고정된 개수의 (마스크, 클래스) 쌍을 예측하는 집합 예측(set prediction) 문제로 재정의했다. 이 “마스크 분류(mask classification)” 패러다임은 분할 과업에 대한 새로운 접근법을 제시하며 범용 아키텍처의 가능성을 열었다.6

그러나 MaskFormer와 같은 초기 범용 모델들은 완벽한 해결책이 되지 못했다. MaskFormer는 시맨틱 및 파노라마 분할에서 최고 수준의 성능을 달성했지만, 인스턴스 분할에서는 기존의 특화된 아키텍처를 능가하지 못하는 한계를 보였다.1 이는 진정한 의미의 ‘범용’ 아키텍처가 아직 실현되지 않았음을 의미했다.

이러한 배경 속에서 Mask2Former는 결정적인 돌파구를 마련했다. Mask2Former는 단일 아키텍처를 사용하여 세 가지 분할 과업 모두를 해결했을 뿐만 아니라, 모든 과업에서 기존의 최고 성능 특화 모델들을 압도하는 최초의 모델이 되었다.1 이로써 이미지 분할 연구는 새로운 국면을 맞이하게 되었다.

이 패러다임의 전환은 단순히 더 나은 모델을 제시한 것 이상의 의미를 지닌다. 픽셀 단위 분류 방식은 본질적으로 지역적인(local) 접근법으로, 전역적인 문맥 파악이나 인스턴스 구분에 어려움을 겪을 수 있다. 반면, 마스크 분류는 동적인 수의 출력을 자연스럽게 처리하고 모델이 분할 영역 단위의 의미를 추론하도록 강제함으로써 인스턴스 및 파노라마 분할에 더 적합한 프레임워크를 제공한다. Mask2Former의 압도적인 성공은 마스크 분류 패러다임이 분할 연구의 나아갈 길임을 명확히 입증한 사건이었다. 이는 픽셀 단위 분류 접근법의 지배력을 약화시키고, 이후의 연구들이 거의 보편적으로 집합 예측 프레임워크를 채택하도록 만들었다.6 이제 연구의 질문은 “어떤 패러다임을 사용할 것인가?“가 아니라 “Mask2Former가 확립한 마스크 분류 패러다임을 어떻게 개선할 것인가?“로 바뀌었다.

2. Mask2Former 아키텍처 프레임워크

2.1 전체 구조: 3요소 메타 아키텍처

Mask2Former는 MaskFormer의 메타 아키텍처를 계승하여 세 가지 주요 구성 요소로 이루어진다: 백본(backbone), 픽셀 디코더(pixel decoder), 그리고 트랜스포머 디코더(Transformer decoder)이다.1 이 구조는 이미지로부터 특징을 추출하고, 이를 정제하여 고해상도 픽셀 임베딩을 생성한 뒤, 최종적으로 쿼리 기반의 트랜스포머 디코더를 통해 분할 마스크를 예측하는 논리적인 데이터 흐름을 따른다.13

2.2 백본 네트워크: 계층적 특징 추출

아키텍처의 첫 번째 단계인 백본 네트워크는 입력 이미지를 처리하여 계층적인 특징 맵(feature map)을 추출하는 역할을 한다. ResNet이나 Swin Transformer와 같은 표준적인 비전 백본이 사용되며, 네트워크의 깊은 층으로 갈수록 공간 해상도는 낮아지고 의미론적 정보는 풍부해지는 다중 스케일 특징들을 생성한다.1

2.3 픽셀 디코더: 고해상도 픽셀 단위 임베딩

픽셀 디코더는 백본에서 추출된 저해상도의 의미론적으로 풍부한 특징 맵을 입력받아, 이를 점진적으로 업샘플링하여 고해상도의 픽셀 단위 임베딩(per-pixel embedding)을 생성한다.1 Mask2Former에서는 Feature Pyramid Network (FPN)을 개선한 다중 스케일 변형 어텐션 트랜스포머(multi-scale deformable attention Transformer) 인코더를 사용하여 원본 이미지의 1/32, 1/16, 1/8과 같은 다양한 해상도의 특징 피라미드를 생성한다.1 최종적으로 트랜스포머 디코더가 마스크를 생성하는 데 사용할 고해상도 특징 맵(예: 1/4 스케일)을 출력한다.

2.4 트랜스포머 디코더: 쿼리에서 예측까지

트랜스포머 디코더는 Mask2Former 아키텍처의 핵심으로, 두 가지 주요 입력을 받는다: 픽셀 디코더가 생성한 이미지 특징과 $N$ 개의 학습 가능한 “객체 쿼리(object queries)“이다.1 이 객체 쿼리들은 이미지 내 잠재적인 분할 영역을 위한 ‘슬롯’ 또는 ‘프로토타입’ 역할을 하는 학습 가능한 임베딩 벡터이다. 여러 어텐션 레이어를 거치면서 각 쿼리는 특정 객체나 영역을 식별하는 데 특화되도록 학습된다.8

디코더는 $N$ 개의 각 쿼리에 대해 클래스 예측과 마스크 임베딩을 출력한다. 최종적인 이진 마스크는 이 마스크 임베딩과 픽셀 디코더의 픽셀 단위 임베딩 간의 내적(dot product)을 통해 생성된다.4

이 아키텍처는 명확한 역할 분담을 보여준다. 백본과 픽셀 디코더는 이미지 콘텐츠에 대한 풍부한 다중 스케일 표현(픽셀 수준에서의 ’무엇’과 ‘어디’)을 생성하는 데 집중한다. 반면, 트랜스포머 디코더는 객체 수준의 추론을 담당하며, 쿼리를 사용하여 이 풍부한 특징 맵을 해석하고 픽셀들을 의미 있는 분할 영역으로 그룹화(‘어느 것’)한다. 이러한 모듈식 설계는 Mask2Former의 유연성과 강력함의 핵심 원천이다. 백본을 교체하여 속도와 정확도를 조절할 수 있으며 1, 픽셀 디코더를 개선하여 다중 스케일 객체 처리 능력을 향상시킬 수 있다. Mask2Former가 MaskFormer에 비해 이룬 혁신은 주로 트랜스포머 디코더에 집중되었으며, 이 모듈식 구조는 Mask DINO와 같은 후속 연구들이 디코더와 학습 방식을 중심으로 혁신을 이룰 수 있는 명확한 청사진을 제공했다.15

3. 핵심 기술 혁신

3.1 마스크 어텐션: 전경 영역에 대한 집중

Mask2Former의 가장 핵심적인 혁신은 ‘마스크 어텐션(masked attention)’ 메커니즘이다.1 표준 트랜스포머 디코더의 교차 어텐션(cross-attention)은 쿼리가 이미지 특징 맵의 모든 위치에 주의를 기울이는 반면, 마스크 어텐션은 이전 디코더 레이어에서 예측된 마스크의 전경(foreground) 영역 내로 어텐션 범위를 제한한다.2

이 메커니즘은 수학적으로 다음과 같이 공식화된다.1 표준 교차 어텐션이 아래와 같이 계산된다면,

$X_l = \text{softmax}(Q_l K_l^T)V_l + X_{l-1}$
마스크 어텐션은 어텐션 마스크 $M_{l-1}$ 을 추가하여 변조한다.

$X_l = \text{softmax}(M_{l-1} + Q_l K_l^T)V_l + X_{l-1}$
여기서 어텐션 마스크 $M_{l-1}$ 은 이전 레이어 $l-1$ 의 예측 마스크 $\hat{M}_{l-1}$ 을 이진화하여 생성되며, 다음과 같이 정의된다.

$M_{l-1}(x, y) = \begin{cases} 0 & \text{if } \hat{M}_{l-1}(x, y)=1 \\ -\infty & \text{otherwise} \end{cases}$
이 공식에서 $X_l$ 은 $l$ 번째 레이어의 쿼리 특징, $Q_l$ , $K_l$ , $V_l$ 은 각각 쿼리, 키, 값 벡터를 나타낸다. $\hat{M}_{l-1}(x, y)=1$ 인 전경 영역에서는 어텐션 스코어에 0이 더해져 변화가 없지만, 배경 영역에서는 $-\infin$ 가 더해져 소프트맥스 함수를 통과한 후 어텐션 가중치가 사실상 0이 된다. 이로써 어텐션은 예측된 전경 영역에만 집중하게 된다.

이러한 방식은 모델에 강력한 귀납적 편향(inductive bias)을 제공하여, 지역화된 특징(localized features)을 효율적으로 추출하도록 유도한다. 이는 모델이 배경 노이즈에 의해 방해받는 것을 방지하고, 결과적으로 더 빠른 수렴 속도와 높은 정확도를 달성하게 한다.1

3.2 효율적인 다중 스케일 특징 전략

작은 객체를 효과적으로 분할하기 위해, Mask2Former는 픽셀 디코더의 다중 스케일 특징을 효율적으로 활용하는 전략을 채택했다.1 모든 디코더 레이어에 최고 해상도 특징 맵만을 공급하는 대신, “라운드 로빈(round-robin)” 방식으로 각기 다른 해상도의 특징 맵(예: 1/32, 1/16, 1/8)을 순차적인 디코더 레이어에 번갈아 가며 공급한다.1 이 전략은 모델이 고해상도 특징으로부터는 미세한 디테일을, 저해상도 특징으로부터는 넓은 문맥을 동시에 포착할 수 있게 하면서도, 과도한 계산 비용 증가를 억제한다.

3.3 트랜스포머 디코더 최적화

Mask2Former는 마스크 어텐션 외에도 트랜스포머 디코더에 몇 가지 중요한 최적화를 도입했다.1

어텐션 순서 변경: 디코더 레이어 내의 연산 순서를 기존의 (셀프 어텐션 → 교차 어텐션 → FFN)에서 (교차 어텐션 → 셀프 어텐션 → FFN)으로 변경했다. 이는 이미지 정보와 무관한 초기 쿼리들이 먼저 교차 어텐션을 통해 지역화된 이미지 특징으로 보강된 후, 셀프 어텐션을 통해 서로 상호작용하는 것이 더 효과적이라는 논리에 기반한다.1
학습 가능한 쿼리 특징: 초기 객체 쿼리를 0으로 초기화하는 대신 학습 가능한 파라미터로 설정하여, 일종의 학습된 영역 제안 메커니즘처럼 기능하도록 했다.1
드롭아웃 제거: 디코더에서 드롭아웃을 완전히 제거하여 아키텍처를 단순화하고 성능을 소폭 개선했다.1

3.4 학습 효율성: 포인트 기반 손실 계산

실용적인 측면에서 가장 중요한 혁신 중 하나는 마스크 손실을 전체 해상도 마스크가 아닌, 무작위로 샘플링된 소수의 고정된 포인트( $K=112x112=12544$ )에 대해서만 계산하는 것이다.1 이 기법은 고해상도 마스크 예측으로 인한 막대한 GPU 메모리 소비 문제를 해결했다. 결과적으로 학습에 필요한 메모리 양을 약 3배(이미지당 18GB에서 6GB로) 감소시켜, 제한된 하드웨어 자원을 가진 더 넓은 범위의 연구자들이 고성능 범용 모델을 학습시킬 수 있게 만들었다.1

이러한 혁신들은 개별적인 기법의 집합이 아니라, 서로 시너지를 내는 하나의 시스템을 구성한다. 마스크 어텐션은 지역 영역에 집중하여 학습 문제를 단순화하고, 다중 스케일 전략은 이 지역 영역에 필요한 고해상도 특징을 제공한다. 변경된 어텐션 순서는 쿼리가 상호작용하기 전에 이미지 정보로 보강되도록 하여 전체 프로세스의 효율을 높인다. 그리고 포인트 기반 손실은 이 모든 계산 집약적인 아키텍처를 현실적으로 학습 가능하게 만든다.

그러나 마스크 어텐션의 반복적인 정제 과정은 잠재적인 취약점을 내포한다. 즉, 성능이 이전 레이어의 마스크 예측 품질에 의존하게 된다는 점이다. 만약 초기 레이어가 부정확한 마스크를 생성하면, 후속 레이어의 어텐션이 잘못된 영역으로 유도되어 오류가 증폭될 수 있다. 이 본질적인 의존성은 MP-Former와 같은 후속 연구가 “마스크 유도(mask-piloted)” 학습을 도입하게 된 배경을 설명한다.21 이 기법은 학습 중에 노이즈가 섞인 정답 마스크를 어텐션 가이드로 활용하여 이러한 오류 전파의 위험을 완화하고 학습 과정을 안정화시킨다. 이는 강력한 새 메커니즘이 도입되고(마스크 어텐션), 그 한계가 식별된 후(이전 예측에 대한 의존성), 다음 세대의 모델이 그 한계를 해결하기 위해 설계되는 자연스러운 연구의 진화 과정을 보여준다.

4. 학습 및 최적화: 손실 함수와 이분 매칭

4.1 집합 예측과 이분 매칭

Mask2Former는 DETR 및 MaskFormer와 마찬가지로 집합 예측 목적 함수를 사용하여 학습된다. 모델은 고정된 크기 $N$ 의 예측 집합을 출력하며, 이는 이미지 내에 가변적인 수로 존재하는 실제 객체(ground-truth) 집합과 매칭되어야 한다.7 이 매칭을 위해, 총 매칭 비용을 최소화하는 최적의 일대일 대응을 찾는 헝가리안 알고리즘(Hungarian algorithm)이 사용된다.1 이 방식은 전통적인 객체 탐지기에서 사용되는 IoU 기반 할당과 같은 휴리스틱을 필요로 하지 않는다.

4.2 매칭 비용 함수

하나의 예측 $i$ 와 실제 객체 $j$ 간의 매칭 비용은 클래스 예측 확률과 마스크 예측의 유사도를 결합하여 계산된다. MaskFormer 논문에 기반한 비용 함수는 다음과 같다.22

$\mathcal{C}_{\text{match}}(i, j) = -\hat{p}_i(c_j) + \lambda_{\text{mask}}\mathcal{L}_{\text{mask}}(\hat{m}_i, m_j)$
여기서 $\hat{p}_i(c_j)$ 는 예측 $i$ 가 실제 클래스 $c_j$ 일 확률을, $\mathcal{L}_{\text{mask}}$ 는 예측 마스크 $\hat{m}_i$ 와 실제 마스크 $m_j$ 간의 마스크 손실을 의미한다. 이 비용 함수는 올바른 클래스에 대한 확신이 높고 마스크 유사도가 높은 예측이 매칭되도록 유도한다.

4.3 전체 손실 함수

최적의 매칭 $\sigma$ 가 결정되면, 전체 손실은 모든 매칭된 쌍에 대한 손실의 합으로 계산된다.1

$\mathcal{L}_{\text{Hungarian}} = \sum_{i=1}^{N} \left[ -\log \hat{p}_{\sigma(i)}(c_i) + \mathbf{1}_{c_i \neq \emptyset} \mathcal{L}_{\text{mask}}(\hat{m}_{\sigma(i)}, m_i) \right]$
이 손실 함수는 분류 손실(교차 엔트로피)과 마스크 손실의 조합으로 구성된다. 마스크 손실은 실제 객체( $c_i \neq \emptyset$ )에 대해서만 적용된다. 또한, 각 디코더 레이어마다 보조 손실(auxiliary loss)을 적용하여 점진적인 예측 정제를 유도한다.1

4.4 마스크 손실 구성 요소: Focal, Dice, BCE

전체 손실 함수 내의 마스크 손실 항 $\mathcal{L}_{\text{mask}}$ 는 일반적으로 초점 손실(Focal Loss)과 다이스 손실(Dice Loss)의 선형 결합으로 구성된다.22 이러한 손실 함수들은 분할 과업에 내재된 극심한 클래스 불균형 문제를 해결하는 데 효과적이다.

초점 손실 (Focal Loss): 이진 교차 엔트로피(BCE) 손실을 개선한 형태로, 분류가 쉬운 픽셀(예: 배경)의 손실 가중치를 낮추고, 분류가 어려운 픽셀에 집중하도록 모델을 유도한다.23 공식은 다음과 같다.

$\mathcal{L}_{\text{focal}}(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$
여기서 $p_t$ 는 정답 클래스에 대한 예측 확률이며, $\gamma$ 는 조절 인자이다.

다이스 손실 (Dice Loss): 다이스 계수(Dice coefficient)에 기반한 손실 함수로, 예측 마스크와 실제 마스크 간의 중첩 영역을 측정한다.26 특히 전경 영역이 매우 작은 경우에도 안정적으로 작동하여 클래스 불균형에 강건하다. 다이스 손실은

$1 - Dice Coefficient$ 로 정의된다.

$\mathcal{L}_{\text{dice}}(p, g) = 1 - \frac{2 \sum_i p_i g_i + \epsilon}{\sum_i p_i + \sum_i g_i + \epsilon}$
여기서 $p$ 와 $g$ 는 각각 예측과 실제 마스크를 나타낸다.

이러한 손실 함수의 선택은 마스크 분류 패러다임의 본질적인 도전에 직접적으로 대응한다. 집합 예측 문제는 헝가리안 손실을, 마스크 내의 클래스 불균형 문제는 초점 및 다이스 손실을 통해 해결한다. 그러나 이 학습 과정, 특히 이분 매칭은 학습 초기에 불안정할 수 있다. 가중치의 작은 변화가 예측과 실제 객체 간의 할당을 급격하게 바꿀 수 있기 때문이다. 이 불안정성은 DETR 계열 모델의 잘 알려진 문제점으로, DINO와 Mask DINO 같은 후속 모델들이 “노이즈 제거 학습(denoising training)“을 핵심 요소로 도입한 배경이 된다.15 노이즈 제거 학습은 노이즈가 섞인 실제 객체로부터 원본을 복원하는 보조 과업을 제공함으로써, 매칭 과정을 안정화시키고 수렴을 가속화한다. 이는 Mask2Former가 계승한 이분 매칭 프레임워크의 약점을 직접적으로 해결하려는 시도였다.

5. 실증적 검증 및 SOTA 성능 분석

Mask2Former의 우수성은 다양한 표준 벤치마크 데이터셋에서의 정량적 평가를 통해 입증되었다. 주요 성능 지표로는 파노라마 품질(Panoptic Quality, PQ), 평균 정밀도(Average Precision, AP), 그리고 평균 IoU(mean Intersection-over-Union, mIoU)가 사용된다.1

5.1 파노라마 분할 (COCO & Cityscapes)

COCO panoptic val2017 데이터셋에 대한 파노라마 분할 성능 비교는 Mask2Former의 압도적인 우위를 보여준다. 아래 표 1은 Mask2Former가 이전 SOTA 모델들을 큰 차이로 능가함을 명확히 나타낸다.1

Table 1: COCO val2017 파노라마 분할 성능 비교

Method	Backbone	Query Type	Epochs	PQ	PQTh	PQSt	APTh pan	mIoUpan
MaskFormer	R50	100 queries	300	46.5	51.0	39.8	33.0	57.8
Mask2Former	R50	100 queries	50	51.9	57.7	43.0	41.7	61.7
MaskFormer	Swin-L†	100 queries	300	52.7	58.5	44.0	40.1	64.8
K-Net	Swin-L†	100 queries	36	54.6	60.2	46.0	-	-
Mask2Former	Swin-L†	200 queries	100	57.8	64.2	48.1	48.6	67.4

Swin-L 백본을 사용했을 때, Mask2Former는 57.8 PQ를 달성하여 이전 SOTA였던 K-Net(54.6 PQ)과 MaskFormer(52.7 PQ)를 각각 3.2 PQ, 5.1 PQ 차이로 뛰어넘었다. 특히 주목할 점은 MaskFormer가 300 에포크 학습이 필요했던 반면, Mask2Former는 100 에포크 만에 더 높은 성능에 도달하여 학습 효율성 또한 크게 개선되었음을 보여준다. Cityscapes 데이터셋에서도 66.6 PQ를 기록하며 특화 모델들과 대등하거나 우월한 성능을 보였다.1

5.2 인스턴스 분할 (COCO)

인스턴스 분할은 MaskFormer의 명백한 약점이었으나, Mask2Former는 이 분야에서도 새로운 SOTA를 달성하며 진정한 범용 아키텍처임을 증명했다. COCO val2017 데이터셋에서의 성능은 아래 표 2와 같다.1

Table 2: COCO val2017 인스턴스 분할 성능 비교

Method	Backbone	Query Type	Epochs	AP	APboundary
Mask R-CNN	R50	dense anchors	400	42.5	28.0
Mask2Former	R50	100 queries	50	43.7	30.6
Swin-HTC++	Swin-L†	dense anchors	72	49.5	34.1
Mask2Former	Swin-L†	200 queries	100	50.1	36.2

Swin-L 백본을 사용한 Mask2Former는 50.1 AP를 기록하여, 강력한 특화 모델인 HTC++(49.5 AP)를 능가했다. 특히 마스크 경계의 정확도를 나타내는 $APboundary$ 지표에서 36.2를 달성하여 HTC++의 34.1보다 월등히 높은 수치를 보였다. 이는 고해상도 특징과 마스크 기반 접근법이 기존의 바운딩 박스 기반 방법들보다 질적으로 더 우수한, 정교한 분할 결과를 생성함을 시사한다.1

5.3 시맨틱 분할 (ADE20K & Cityscapes)

MaskFormer가 이미 강력한 성능을 보였던 시맨틱 분할 분야에서도 Mask2Former는 개선을 이루어냈다. ADE20K 데이터셋에서의 성능은 아래 표 3과 같다.1

Table 3: ADE20K val 시맨틱 분할 성능 비교

Method	Backbone	Crop Size	mIoU (m.s.)
MaskFormer	Swin-L†	640	55.6
BEiT-UperNet	BEiT-L†	640	57.0
Mask2Former	Swin-L†	640	57.3
Mask2Former	Swin-L-FaPN†	640	57.7

FaPN 픽셀 디코더와 Swin-L 백본을 결합한 Mask2Former는 다중 스케일 추론에서 57.7 mIoU를 달성하며 새로운 SOTA를 기록했다. 이는 Mask2Former의 구조적 개선이 특정 과업에 국한되지 않고 범용적으로 성능 향상에 기여함을 보여준다. Cityscapes 데이터셋에서도 84.5 mIoU라는 최고 수준의 성능을 달성했다.1

6. 진화적 도약: Mask2Former 대 MaskFormer

Mask2Former는 단순히 MaskFormer의 점진적 개선을 넘어, 패러다임의 잠재력을 완전히 실현한 진화적 도약이라 할 수 있다. 두 모델 간의 차이는 아키텍처, 학습 효율성, 그리고 성능 전반에 걸쳐 명확하게 드러난다.

아키텍처 차이: MaskFormer가 표준 교차 어텐션을 사용하고 단일 고해상도 특징 맵에 의존한 반면, Mask2Former는 마스크 어텐션, 다중 스케일 특징 전략, 그리고 재정렬된 어텐션, 학습 가능한 쿼리, 드롭아웃 제거 등 최적화된 디코더를 도입했다.1
학습 효율성: 가장 극적인 차이는 학습 효율성이다. 포인트 기반 손실 계산 덕분에 Mask2Former는 MaskFormer 대비 GPU 메모리 사용량을 3배 줄였으며, 마스크 어텐션은 COCO 파노라마 분할에서 수렴 속도를 최대 6배까지 단축시켰다.1
성능 격차: 성능 면에서 Mask2Former는 모든 과업에서 MaskFormer를 압도했다. COCO 파노라마 분할에서 +5.1 PQ의 향상을 보였고, 특히 MaskFormer가 약했던 인스턴스 분할에서 SOTA를 달성하며 그 격차를 증명했다.1

MaskFormer에서 Mask2Former로의 발전은 전형적인 연구 개발 주기를 보여준다. 좋은 아이디어(마스크 분류)가 제안되었지만, 명확한 한계(인스턴스 분할 성능 저하, 높은 메모리 요구량)를 가지고 있었다. 후속 연구인 Mask2Former는 이러한 병목 지점들을 체계적으로 식별하고, 각각에 대한 표적화된 혁신(마스크 어텐션, 포인트 기반 손실 등)을 통해 문제를 해결했다. 이는 Mask2Former가 근본적으로 새로운 설계가 아니라, 기존 패러다임을 지능적으로 정제하고 완성한 결과물임을 시사한다.

이러한 정제를 통해 얻어진 성능과 효율성의 막대한 향상은 트랜스포머 기반 비전 모델의 성능이 아키텍처의 세부 사항과 학습 전략에 매우 민감하다는 점을 암시한다. 어텐션 순서 변경과 같은 비교적 작은 변화가 상당한 성능 향상을 가져올 수 있다는 사실은, 이 분야에서 빠른 혁신이 가능한 이유를 설명해준다. 이는 단순히 새로운 패러다임을 제안하는 것뿐만 아니라, 기존 프레임워크를 세심하게 분석하고 개선하는 과정의 중요성을 강조한다.

7. 영향, 유산 및 미래 방향

7.1 마스크 분류 패러다임의 확립

Mask2Former의 압도적인 성공은 이미지 분할 연구의 방향을 결정적으로 바꾸어 놓았다. 이 모델은 마스크 분류가 시맨틱, 인스턴스, 파노라마 분할 모두를 아우를 수 있는 지배적인 패러다임임을 확고히 했다.6 이로써 각기 다른 과업을 위해 별도의 특화된 아키텍처를 설계하던 시대는 사실상 막을 내렸고, 연구의 초점은 범용 아키텍처를 어떻게 더 발전시킬 것인가로 옮겨갔다.

7.2 비디오 분할로의 지평 확장

Mask2Former의 영향력은 정지 이미지를 넘어 비디오 영역으로까지 확장되었다. 놀랍게도, 아키텍처에 거의 수정을 가하지 않고 비디오 클립을 3D 시공간 볼륨으로 취급하는 것만으로도 비디오 인스턴스 분할(VIS) 과업에서 최고 수준의 성능을 달성할 수 있었다.31 YouTubeVIS와 같은 주요 벤치마크에서 SOTA를 기록한 이 결과는 Mask2Former 아키텍처의 강력한 일반화 능력을 입증했으며, 이미지와 비디오 이해 연구 간의 경계를 허무는 계기가 되었다.32

7.3 차세대 모델에 대한 영감: OneFormer와 Mask DINO

Mask2Former는 그 자체의 성능을 넘어, 차세대 모델들의 탄생을 위한 핵심적인 기반 플랫폼 역할을 했다.

OneFormer: Mask2Former를 기반으로, “한 번의 학습(train-once)“이라는 개념을 실현한 모델이다. 텍스트 프롬프트를 통해 동적으로 과업(파노라마, 인스턴스, 시맨틱)을 전환할 수 있게 함으로써, 각 과업에 대해 별도의 모델을 학습시킬 필요성을 제거했다.36
Mask DINO: 분할 과업뿐만 아니라 객체 탐지까지 단일 프레임워크로 통합한 모델이다. 강력한 객체 탐지기인 DINO의 학습 기법(예: 노이즈 제거 학습)과 Mask2Former와 유사한 마스크 예측 헤드를 결합하여, 탐지와 분할 모두에서 새로운 SOTA를 달성했다.15

7.4 한계점 해결과 아키텍처의 진화

Mask2Former의 성공은 동시에 새로운 연구 과제를 제시했다. 주된 한계점으로는 마스크 어텐션의 반복적인 마스크 정제 과정에서 발생할 수 있는 불안정성이 지적되었다.21 이에 따라 MP-Former와 같은 후속 연구들은 노이즈가 섞인 정답 마스크를 통해 어텐션 메커니즘을 유도하는 “마스크 유도 학습“을 제안하여 학습의 안정성을 높였다.21 이 외에도 쿼리 설계를 개선하거나 38 인코더의 효율성을 높이려는 40 연구들이 이어지며, 성공적인 모델이 어떻게 추가적인 혁신을 위한 플랫폼이 되는지를 보여주었다.

결론적으로 Mask2Former의 유산은 단지 SOTA 성능 기록에 그치지 않는다. 이 모델은 차세대 연구가 구축될 수 있는 견고한 “플랫폼“을 제공했다. OneFormer와 Mask DINO 같은 모델들은 백지상태에서 시작한 것이 아니라, “Mask2Former를 어떻게 더 일반화하거나 강력하게 만들 수 있을까?“라는 질문에서 출발했다. Mask2Former에서 Mask DINO로 이어지는 발전 경로는 컴퓨터 비전 분야의 중요한 흐름, 즉 핵심 인식 과업들의 융합을 보여준다. 수년간 객체 탐지와 분할은 서로 다른 아키텍처를 가진 별개의 분야로 다루어졌다. Mask DINO가 이 둘을 성공적으로 통합한 것은, 근본적으로 두 과업이 시각적 장면을 해석하는 단일한 쿼리 기반 메커니즘으로 해결될 수 있음을 시사한다. Mask2Former는 이 거대한 통합 방정식에서 분할 부분을 완벽하게 풀어낸 결정적인 디딤돌이었으며, 개별 과업을 위한 도구의 집합이 아닌, 진정으로 총체적인 “장면 해석(scene parsing)” 모델의 미래를 향한 길을 열었다.

8. 참고 자료

Masked-Attention Mask Transformer for Universal Image Segmentation - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022/papers/Cheng_Masked-Attention_Mask_Transformer_for_Universal_Image_Segmentation_CVPR_2022_paper.pdf
Mask2Former: Hands-on Tutorial Guide, https://www.labellerr.com/blog/mask2former-hands-on-tutorial-guide/
Mask2Former for Semantic, Instance, and Panoptic Segmentation - DebuggerCafe, https://debuggercafe.com/mask2former/
What is Mask2Former? The Ultimate Guide. - Roboflow Blog, https://blog.roboflow.com/what-is-mask2former/
www.mdpi.com, https://www.mdpi.com/2227-7390/12/5/765#:~:text=In%20this%20way%2C%20the%20research,%2C%20instance%2C%20or%20semantic%20ones.
Code Panoptic Image Segmentation w/ Vision Transformer & Mask2Former - A PyTorch tutorial - YouTube, https://www.youtube.com/watch?v=KSdPYtWlIMA
MaskFormer - Bowen Cheng, https://bowenc0221.github.io/maskformer/
Mask2Former - Medium, https://medium.com/@ashu1069/mask2former-a652edb55f8b
MaskFormer2 : Masked-attention Mask Transformer for Universal Image Segmentation | by HannaMergui | Medium, https://medium.com/@HannaMergui/maskformer2-masked-attention-mask-transformer-for-universal-image-segmentation-c3d14c546d6b
Paper page - Masked-attention Mask Transformer for Universal Image Segmentation, https://huggingface.co/papers/2112.01527
The Missing Point in Vision Transformers for Universal Image Segmentation - arXiv, https://arxiv.org/html/2505.19795v1
Masked-attention Mask Transformer for Universal Image Segmentation CVPR 2022 - Bowen Cheng, https://bowenc0221.github.io/mask2former/
Mask2Former - Hugging Face, https://huggingface.co/docs/transformers/model_doc/mask2former
The architecture of the Masked-Attention Mask Transformer… | Download Scientific Diagram - ResearchGate, https://www.researchgate.net/figure/The-architecture-of-the-Masked-Attention-Mask-Transformer-Mask2Former-Reproduced-from_fig8_389191113
Mask DINO: Towards a Unified Transformer-Based Framework for Object Detection and Segmentation - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Mask_DINO_Towards_a_Unified_Transformer-Based_Framework_for_Object_Detection_CVPR_2023_paper.pdf
IDEA-Research/MaskDINO: [CVPR 2023] Official implementation of the paper “Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation” - GitHub, https://github.com/IDEA-Research/MaskDINO
Masked-attention Mask Transformer for Universal Image Segmentation | Request PDF - ResearchGate, https://www.researchgate.net/publication/356746541_Masked-attention_Mask_Transformer_for_Universal_Image_Segmentation
[2112.01527] Masked-attention Mask Transformer for Universal Image Segmentation - ar5iv, https://ar5iv.labs.arxiv.org/html/2112.01527
Cross Attention in Transformer - Medium, https://medium.com/@sachinsoni600517/cross-attention-in-transformer-f37ce7129d78
Mask2former Swin Tiny Coco Instance · Models - Dataloop, https://dataloop.ai/library/model/facebook_mask2former-swin-tiny-coco-instance/
MP-Former: Mask-Piloted Transformer for Image Segmentation - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_MP-Former_Mask-Piloted_Transformer_for_Image_Segmentation_CVPR_2023_paper.pdf
Per-Pixel Classification is Not All You Need for Semantic …, http://arxiv.org/abs/2107.06278
Focal Loss in Medical Image Segmentation: Enhancing Small Structure Detection | by Sahika Betul Yayli, MD | CodeX | Medium, https://medium.com/codex/focal-loss-in-medical-image-segmentation-enhancing-small-structure-detection-4ded164caa89
Instance segmentation loss functions - SoftwareMill, https://softwaremill.com/instance-segmentation-loss-functions/
My own implementation for some sort of loss functions that have been used for segmentation task. - GitHub, https://github.com/Nacriema/Loss-Functions-For-Semantic-Segmentation
Loss Function Library - Keras & PyTorch - Kaggle, https://www.kaggle.com/code/bigironsphere/loss-function-library-keras-pytorch
Understanding DICE COEFFICIENT - Kaggle, https://www.kaggle.com/code/yerramvarun/understanding-dice-coefficient
Calculating the Sørensen–Dice Coefficient: A Simplified Guide | by Armaanjeet Singh Sandhu | The Research Nest | Medium, https://medium.com/the-research-nest/calculating-the-s%C3%B8rensen-dice-coefficient-a-simplified-guide-3b59a1829a82
CVPR Poster Mask DINO: Towards a Unified Transformer-Based Framework for Object Detection and Segmentation, https://cvpr.thecvf.com/virtual/2023/poster/22154
Significant Performance Gap Between MaskFormer and Mask2Former Despite Identical Training Code · Issue #35738 · huggingface/transformers - GitHub, https://github.com/huggingface/transformers/issues/35738
[2112.10764] Mask2Former for Video Instance Segmentation - arXiv, https://arxiv.org/abs/2112.10764
[2112.10764] Mask2Former for Video Instance Segmentation - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/2112.10764
Mask2Former for Video Instance Segmentation | Request PDF - ResearchGate, https://www.researchgate.net/publication/357201745_Mask2Former_for_Video_Instance_Segmentation
[PDF] Mask2Former for Video Instance Segmentation - Semantic Scholar, https://www.semanticscholar.org/paper/Mask2Former-for-Video-Instance-Segmentation-Cheng-Choudhuri/f427ccb1d97cee3fde8abf0f5442f859531f5bf1
Cluster2Former: Semisupervised Clustering Transformers for Video Instance Segmentation - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10857389/
Masked-attention Mask Transformer for Universal Image Segmentation - Semantic Scholar, https://www.semanticscholar.org/paper/Masked-attention-Mask-Transformer-for-Universal-Cheng-Misra/658a017302d29e4acf4ca789cb5d9f27983717ff
Universal Image Segmentation with Mask2Former and OneFormer - Hugging Face, https://huggingface.co/blog/mask2former
Mask2Former with Improved Query for Semantic Segmentation in Remote-Sensing Images, https://www.mdpi.com/2227-7390/12/5/765
Mask2Former with Improved Query for Semantic Segmentation in Remote-Sensing Images - PDXScholar, https://pdxscholar.library.pdx.edu/cgi/viewcontent.cgi?params=/context/compsci_fac/article/1354/&path_info=wang_mathematics_12_00765.pdf
Efficient Transformer Encoders for Mask2Former-style models - arXiv, https://arxiv.org/html/2404.15244v1