Booil Jung

MVTec-AD 벤치마크

2019년 MVTec-AD (Anomaly Detection) 벤치마크가 등장하기 이전, 산업 비전 기반의 이상 탐지 연구 분야는 표준의 부재로 인해 파편화된 상태에 놓여 있었다. 연구자들은 각자의 필요에 따라 자체적으로 구축한 비공개 데이터셋에 의존했으며, 이는 알고리즘 간의 객관적이고 공정한 성능 비교를 거의 불가능하게 만들었다. 이러한 환경은 연구의 재현성을 심각하게 저해하고, 분야 전체의 기술적 진보를 정량적으로 측정하는 것을 어렵게 만드는 근본적인 원인이었다. 공통된 잣대가 없었기에, 새로운 방법론의 우수성을 입증하는 과정은 종종 제한적이고 불투명하게 이루어졌다.

이러한 상황 속에서 MVTec Software GmbH가 발표한 MVTec-AD 데이터셋은 산업 이상 탐지 연구의 패러다임을 바꾸는 결정적 계기가 되었다. MVTec-AD는 실제 산업 현장의 시각 검사 시나리오를 정밀하게 모사하여 설계된 고품질의 공개 벤치마크로서, 연구 커뮤니티에 통일된 과제 정의와 평가 프로토콜을 제공했다. 그 결과, MVTec-AD는 단기간에 해당 분야의 사실상 표준(de facto standard)으로 자리 잡았으며, 수많은 후속 연구들이 이를 기준으로 알고리즘을 개발하고 성능을 비교하기 시작했다. 이 표준화된 플랫폼의 등장은 연구자들로 하여금 공정한 경쟁의 장에서 혁신을 가속화하도록 만들었다.

본 보고서는 MVTec-AD 벤치마크에 대한 심층적이고 비판적인 고찰을 목표로 한다. 단순한 데이터셋의 설명을 넘어, 그 설계 철학과 구조를 분석하고, 이를 통해 파생된 주요 이상 탐지 방법론의 발전 계보를 추적할 것이다. 나아가 벤치마크의 본질적 한계를 비판적으로 검토하고, 차세대 산업 인공지능 연구의 미래를 조망하는 데 MVTec-AD가 어떤 역할을 하고 있는지 논의하고자 한다.

이러한 분석 과정에서 드러나는 MVTec-AD의 가장 중요한 기여는 단순히 양질의 데이터를 제공했다는 점을 넘어선다. MVTec-AD는 ‘산업 이상 탐지’라는 문제 자체를 정의하는 하나의 연구 패러다임을 구축했다. 즉, 정상 샘플만으로 학습하는 ‘단일 클래스 분류(One-Class Classification)’ 문제로 연구의 틀을 잡고, 이미지 레벨의 탐지(detection)와 픽셀 레벨의 분할(segmentation)을 동시에 평가하는 기준으로 연구 방향을 제시했다. 이처럼 명확한 규칙을 가진 ‘샌드박스’를 제공함으로써 초기 연구 발전을 폭발적으로 견인했지만, 역설적으로는 이 틀 안에 연구의 범위를 가두는 역할도 하게 되었다. 이는 보고서의 후반부에서 심도 있게 다룰 주제이다.

MVTec-AD 데이터셋은 총 15개의 하위 카테고리로 구성되며, 이는 의도적으로 ‘객체(object)’ 10종과 ‘텍스처(texture)’ 5종이라는 두 개의 상위 클래스로 구분된다.

이러한 이원적 구성은 MVTec-AD의 핵심적인 설계 의도를 보여준다. 알고리즘이 정형화된 구조를 가진 객체와 비정형의 확률적 패턴을 가진 텍스처 모두에서 효과적으로 작동함을 증명하도록 요구함으로써, 실제 산업 현장에서 마주할 수 있는 광범위한 시각 검사 과제에 대한 강건성을 평가하고자 한 것이다.

MVTec-AD의 가장 큰 특징 중 하나는 매우 통제된 환경에서 데이터가 수집되었다는 점이다. 모든 이미지는 700x700에서 1024x1024 픽셀에 이르는 고해상도로 촬영되었으며, 조명과 카메라 위치가 일정하게 고정된 환경에서 수집되었다.

각 카테고리의 학습 데이터셋은 오직 결함이 없는 ‘정상(normal)’ 이미지로만 구성된다. 이는 실제 산업 현장에서 불량 샘플이 극히 드물고, 발생 가능한 모든 유형의 불량을 수집하는 것이 현실적으로 불가능한 상황을 정밀하게 시뮬레이션한 것이다. 반면, 테스트 데이터셋에는 정상 이미지와 더불어 긁힘, 눌림, 오염, 구조적 파손 등 70가지가 넘는 다양한 유형의 결함을 포함한 이미지가 포함되어 있다. 특히, 모든 결함 영역에 대해 픽셀 단위의 완벽한 정답 마스크(ground truth mask)를 제공함으로써, 이상 영역을 분할하는 성능을 정량적으로 평가할 수 있도록 설계되었다.

MVTec-AD의 핵심 설계 철학은 ‘이상적인(idealized)’ 산업 환경을 시뮬레이션하는 것이다. 조명 변화, 카메라 흔들림, 배경의 복잡성 등 외부 변수를 의도적으로 제거함으로써, 연구자들이 오롯이 검사 대상 객체 자체의 결함을 탐지하는 핵심 문제에만 집중할 수 있도록 만들었다. 이러한 의도적인 단순화는 벤치마크 초기 성공의 핵심 요인이었다. 복잡한 외부 요인에 대한 고민 없이 순수한 패턴 인식 문제에 집중할 수 있게 함으로써, 수많은 연구자들의 참여를 유도하고 분야의 빠른 발전을 이끌었다.

그러나 이러한 통제된 환경의 이면에는 명확한 한계가 존재한다. MVTec-AD의 깔끔하고 통제된 특성은 성능 포화와 ‘단순성 편향(simplicity bias)’을 야기한 양날의 검과 같다. 첫째, 이 단순성은 문제를 ‘해결 가능한(solvable)’ 수준으로 만들어, 연구자들의 빠른 성과 도출을 도왔고, 최신 모델들이 거의 완벽에 가까운 점수를 기록하게 만들었다. 둘째, 이는 알고리즘 개발 방향에 편향을 가져왔다. 조명이나 자세 변화 같은 변수가 데이터에 존재하지 않기 때문에, 이를 고려한 강건한 알고리즘보다는 정밀한 픽셀 매칭과 복원에 특화된 방법론들이 더 높은 점수를 받게 되었다. 셋째, 그리고 가장 중요하게, 실험실에서의 완벽에 가까운 성능은 ‘산업 이상 탐지 문제가 거의 해결되었다’는 위험한 착각을 불러일으켰다. 이는 실험실의 성과가 실제 공장 환경(lab-to-fab)으로 이전될 때 발생하는 거대한 간극을 가리는 역할을 했다. 이 ‘단순성 편향’은 후술할 ‘MVTec-AD에 대한 과적합’ 문제의 근본적인 원인이 된다.

MVTec-AD 벤치마크의 등장은 이상 탐지 알고리즘의 급격한 발전을 촉진했다. 그 발전 과정은 크게 ‘재구성(Reconstruction)’ 기반 접근법에서 ‘임베딩(Embedding)’ 기반 접근법으로의 패러다임 전환으로 요약할 수 있다.

MVTec-AD에 대한 초기 연구들은 주로 재구성 모델에 의존했다. 오토인코더(Autoencoder), VAE(Variational Autoencoder), GAN(Generative Adversarial Network)과 같은 모델을 정상 이미지로만 학습시켜, 정상 이미지를 정확하게 복원하도록 훈련시키는 방식이다. 추론 단계에서 결함이 포함된 이미지가 입력되면, 모델은 이를 제대로 복원하지 못하며, 입력과 출력 간의 차이, 즉 ‘재구성 오류(reconstruction error)’를 이상 점수로 활용하여 결함을 탐지한다.

그러나 이 접근법은 모델이 ‘지나치게 강력하다(too powerful)’는 한계를 드러냈다. 특히 오토인코더와 같은 모델들은 정상 데이터의 분포를 너무 잘 학습한 나머지, 단순하거나 작은 결함까지도 정상 패턴의 일부로 간주하여 완벽하게 복원해버리는 경향이 있었다. 이로 인해 미세한 텍스처 결함이나 작은 긁힘 등을 탐지하지 못하는 문제가 발생했다.

결정적인 돌파구는 ImageNet과 같은 대규모 데이터셋으로 사전 학습된 심층 신경망(Deep Neural Network)에서 추출한 특징(feature)이 이상 탐지 과제에 매우 강력하다는 발견에서 비롯되었다. 이는 처음부터 모든 것을 학습하는 재구성 방식에서 벗어나, 사전 지식을 활용하는 방향으로의 패러다임 전환을 의미했다.

이 방법론들의 핵심 원리는 이미지를 픽셀 단위로 복원하는 대신, 고차원의 특징 공간(feature space)으로 매핑하는 것이다. 정상 샘플들이 이 특징 공간 내에서 형성하는 조밀한 분포를 모델링한 후, 이 분포에서 벗어나는 샘플을 이상으로 간주한다.

이러한 임베딩 기반 모델들의 성공은 단순히 기술적 진보를 넘어, ‘이상’이라는 개념이 통계적 차이를 넘어 의미론적(semantic) 차원에서 이해될 수 있음을 시사한다. 재구성 모델은 픽셀 값의 통계적 차이에 기반하여 작동하기에, 통계적으로 미미한 결함은 놓치기 쉽다. 반면, 임베딩 모델들은 고양이, 개, 자동차와 같은 수많은 ‘의미론적 개념’을 학습한 ImageNet 사전 학습 모델을 기반으로 한다. 따라서 이 모델들이 추출하는 특징은 단순히 색상이나 질감 정보가 아니라 ‘부품’, ‘모서리’, ‘표면의 무결성’과 같은 더 높은 수준의 개념을 포함한다. 결국 이 모델들이 뛰어난 성능을 보이는 이유는 ‘의미론적 이상’을 탐지하기 때문이다. 예를 들어, 트랜지스터 표면의 긁힘은 단순히 픽셀 값의 집합이 아니라, 모델이 학습한 ‘매끄러운 트랜지스터 표면’이라는 개념에 대한 위반으로 인식되는 것이다. 이것이 재구성에서 임베딩으로의 패러다임 전환이 그토록 효과적이었던 근본적인 이유이다.

모델 (Model) 계열 (Family) 백본 네트워크 (Backbone) 이미지 AUROC 픽셀 AUROC PRO Score
AE (Autoencoder) Reconstruction Custom CNN 85.3% 91.5% -
GANomaly Reconstruction Custom CNN 76.5% 87.9% -
SPADE Embedding Wide-ResNet-50 95.7% 97.2% -
PaDiM Embedding Wide-ResNet-50 97.8% 98.1% 93.6%
CFLOW Normalizing Flow Wide-ResNet-50 98.6% 98.4% 93.9%
PatchCore Embedding Wide-ResNet-50 99.6% 98.8% 96.8%
UniAD Knowledge Distillation Wide-ResNet-50 99.4% 98.6% 96.5%

주: 성능 수치는 각 논문에서 보고된 평균값을 기반으로 하며, 구현에 따라 다소 차이가 있을 수 있음. AUROC와 PRO Score는 높을수록 우수함.

MVTec-AD 벤치마크에서 성능을 평가하는 표준 지표는 AUROC (Area Under the Receiver Operating Characteristic curve)이다. 이 지표는 이미지 전체가 정상인지 비정상인지를 판단하는 이미지 레벨 분류와, 이미지 내 어느 픽셀이 비정상인지를 판단하는 픽셀 레벨 분할 모두에 사용된다. AUROC는 모델이 모든 가능한 결정 임계값(decision threshold)에 대해 정상과 이상 클래스를 얼마나 잘 구별하는지를 종합적으로 측정하며, 1.0에 가까울수록 완벽한 분류기를 의미한다.

픽셀 레벨 AUROC는 표준 지표임에도 불구하고 이상 탐지라는 특수한 맥락에서 명백한 약점을 가진다. 바로 극심한 클래스 불균형 문제이다. 일반적인 결함 이미지에서 이상에 해당하는 픽셀은 전체 픽셀 수의 극히 일부에 불과하다. 이 때문에 모델이 작은 결함 영역의 위치를 정확하게 특정하지 못하더라도, 압도적으로 많은 정상 픽셀들만 올바르게 분류하면 매우 높은 AUROC 점수를 획득할 수 있다. 즉, 이 지표는 분할 결과의 ‘질(quality)’을 민감하게 반영하지 못한다.

이러한 한계를 극복하기 위해 PRO (Per-Region Overlap) Score라는 새로운 평가 지표가 제안되었고, MVTec-AD 벤치마크 평가에 통합되었다. PRO Score는 모든 픽셀을 한 번에 집계하는 대신, 먼저 정답 마스크에서 연결된 각각의 결함 영역(connected anomalous components)을 식별한다. 그 후, 각 결함 영역에 대해 해당 영역의 크기 대비 모델이 올바르게 예측한 이상 픽셀의 비율을 계산한다. 최종 PRO Score는 이렇게 계산된 모든 개별 영역 점수들의 평균값이다.

이 방식이 더 우수한 이유는, 모델이 크기에 상관없이 단 하나의 결함 영역이라도 완전히 놓치면 직접적인 페널티를 받기 때문이다. 이는 단순히 전체적인 픽셀 정확도를 높이는 것을 넘어, ‘모든 개별 결함을 하나도 빠짐없이 정확하게 찾아내는 것’이라는 산업 현장의 실질적인 목표와 훨씬 더 잘 부합한다.

이러한 평가 지표의 발전 과정은 연구 분야의 성숙도를 반영하는 중요한 단서이다. 초창기 연구는 “모델이 이상을 탐지할 수 있는가?”라는 이론적 가능성을 증명하는 데 초점을 맞췄고, 이미지 레벨 AUROC는 이에 대한 답을 주었다. 모델 성능이 향상되면서 질문은 “모델이 대략적으로 결함의 위치를 찾을 수 있는가?”로 구체화되었고, 픽셀 레벨 AUROC가 사용되었다. 그러나 실제 공장 적용을 고민하는 단계에 이르자 픽셀 레벨 AUROC의 한계가 드러났다. 공장에서는 99.9%의 픽셀 정확도보다, 작지만 치명적인 결함 하나를 놓치지 않는 것이 훨씬 중요하다. PRO Score의 등장은 이러한 실용적 요구에 대한 직접적인 응답이며, 평가의 목표가 추상적인 패턴 인식에서 실제 산업 문제 해결로 이동하고 있음을 보여주는 명백한 신호이다.

MVTec-AD에 대한 가장 본질적인 비판은 그 이상적인 환경이 실제 공장(fabrication 또는 fab)의 복잡성을 제대로 반영하지 못한다는 점에서 출발한다. 실제 공장 환경은 끊임없이 변하는 동적인 조명, 장비 진동으로 인한 카메라 흔들림, 검사 대상의 미세한 자세 변화, 그리고 복잡하고 지저분한 배경 등 예측 불가능한 변수들로 가득하다. MVTec-AD는 이러한 모든 변수를 통제했기 때문에, 여기에 최적화된 알고리즘들은 실제 환경에 배포되었을 때 예상치 못한 변수에 취약하여 성능이 급격히 저하되는 ‘취약성(brittleness)’을 보이는 경우가 많다.

PatchCore와 같은 최상위 모델들은 MVTec-AD에서 이미지 레벨 AUROC 99.6%와 같은 거의 완벽에 가까운 성능을 기록하고 있다. 이러한 성능 포화 현상은 MVTec-AD가 더 이상 최신 알고리즘들을 변별력 있게 평가하거나 의미 있는 혁신을 이끌어내기에 충분히 도전적이지 않다는 것을 시사한다.

이로 인해 연구 커뮤니티가 ‘MVTec-AD의 특성에 과적합(overfitting)’되고 있다는 우려가 커지고 있다. 연구자들이 진정으로 강건하고 일반화 성능이 뛰어난 솔루션을 개발하기보다는, MVTec-AD 데이터셋의 특정 조건(예: 고정된 배경, 단순한 결함 유형)을 암묵적으로 이용하여 점수를 높이는 방향으로 알고리즘을 설계할 수 있다는 것이다.

이러한 MVTec-AD의 한계에 대한 응답으로, 더 현실적이고 도전적인 차세대 벤치마크들이 개발되었다.

이러한 상황은 MVTec-AD의 역할 변화를 의미한다. 초기에 MVTec-AD는 연구자들이 도달해야 할 ‘개발 목표(development target)’였다. 높은 점수를 받는 것 자체가 혁신의 증거였다. 하지만 성능이 포화된 지금, MVTec-AD에서의 높은 점수는 더 이상 혁신을 보장하지 않으며, 새로운 방법론이 최소한의 신뢰성을 갖추었음을 보이는 ‘기본 자격’이 되었다. 즉, MVTec-AD는 이제 최종 시험이 아니라, 일종의 ‘진단용 베이스라인(diagnostic baseline)’으로 전환되고 있다. 진정한 혁신은 VisA나 BTAD와 같은 더 어려운 벤치마크에서의 성능으로 측정된다. 이제 한 모델의 진짜 강건성은 MVTec-AD에서 VisA로 넘어갔을 때 ‘성능 하락 폭’이 얼마나 적은가로 평가된다. MVTec-AD는 더 이상 최종 목적지가 아니라, 더 험난한 여정을 시작하기 위한 출발점이 된 것이다.

벤치마크 출시 연도 카테고리 수 총 이미지 수 배경 복잡도 자세/조명 변화 결함 유형 다중 객체
MVTec-AD 2019 15 5,354 단순 없음 미세/구조적 아니요
VisA 2022 12 10,821 복잡 낮음 구조적/의미론적
BTAD 2021 3 2,830 중간 높음 구조적 아니요
MPDD 2020 6 1,386 중간 낮음 구조적 아니요

본 보고서에서 분석한 바와 같이, MVTec-AD는 산업 이상 탐지 연구를 표준화하고 가속화한 기념비적인 기여를 했다. 그러나 그 성공을 이끈 단순성과 통제된 환경이라는 특성은 이제 오히려 기술 발전의 잠재적 병목이 되어 ‘실험실과 공장의 간극’ 및 ‘벤치마크 과적합’ 문제를 낳고 있다. MVTec-AD가 혁명적인 도구에서 기본적인 베이스라인으로 전환되는 과정은 과학적 진보의 전형적인 경로를 보여준다. 현재 MVTec-AD가 제기하는 도전 과제들은 그것의 실패가 아니라, 그것으로 인해 이 분야가 얼마나 성장했는지를 보여주는 증거이다.

이제 연구 커뮤니티는 MVTec-AD라는 거인의 어깨 위에 서서, 진정으로 강건하고, 적응력 있으며, 지능적인 차세대 산업 검사 시스템을 구축해야 할 과제를 안고 있다.

  1. 정적 이미지를 넘어: 동적 및 다중모드 벤치마크: 다음 단계는 비디오 스트림이나 3D 스캔, 열화상 이미지와 같은 다중모드(multi-modal) 데이터에서의 이상 탐지이다. 미래의 벤치마크는 시간적 일관성, 움직임, 공정 변화와 같은 동적인 요소를 반드시 포함해야 한다.
  2. 소수샷 및 연속 학습의 도입: 실제 공장에서는 새로운 제품과 결함 유형이 끊임없이 도입된다. 따라서 연구는 극소수의 정상 샘플만으로 학습하는 ‘소수샷 이상 탐지(few-shot anomaly detection)’와, 기존 지식을 잊지 않으면서 새로운 제품에 적응하는 ‘연속 학습(continual learning)’으로 나아가야 한다.
  3. 파운데이션 모델의 역할: 사전 학습된 백본 네트워크의 성공은 시작에 불과하다. 차세대 혁신은 Vision Transformer나 CLIP과 같이 거대한 데이터로 자기지도학습(self-supervised learning)된 파운데이션 모델(foundation model)을 활용하는 데서 나올 수 있다. 이러한 모델들은 세상에 대한 훨씬 풍부한 이해를 내재하고 있어, 학습 샘플이 거의 없거나 전무한 상태에서도 복잡하고 의미론적인 이상을 탐지할 수 있는 강력한 특징 표현을 제공할 것이다. UniAD의 통합적 접근법은 이러한 방향으로의 첫걸음이다.
  4. 문제의 재정의: 탐지를 넘어 원인 분석으로: 궁극적인 목표는 단순히 결함을 찾는 것을 넘어, 그 결함이 ‘왜’ 발생했는지 이해하는 것이다. 미래의 시스템은 시각적 이상을 상위 공정의 특정 결함과 연결하여, 단순 탐지(detection)에서 진단(diagnostics)으로 나아가야 한다.

MVTec-AD가 남긴 교훈을 바탕으로, 연구 커뮤니티는 이제 실험실의 이상적인 환경을 넘어 실제 산업 현장의 복잡성과 역동성을 포용하는 새로운 도전을 시작해야 할 때이다.