산업 현장에서의 품질 검사, 특히 이상 탐지(anomaly detection), 위치 파악(localization), 그리고 분류(classification) 작업은 근본적으로 결함이 있는, 즉 비정상(non-nominal) 이미지 데이터의 심각한 불균형과 절대적인 부족 문제에 직면해 있다.1 이는 이상 생성(anomaly synthesis)이라는 연구 분야 전체를 견인하는 핵심적인 동기이다. 이러한 데이터 부족 현상은 강건한 딥러닝 모델의 훈련을 저해하는 주된 요인으로 작용하며, 특히 제조 공정에서 불량의 근본 원인 분석에 필수적인 이상 분류와 같은 지도 학습(supervised learning) 기반의 과제를 거의 불가능하게 만든다.1 비지도 학습(unsupervised learning) 기반의 방법론들이 이상 탐지 자체에는 유용하게 사용될 수 있으나, 본질적으로 어떤 유형의 결함인지를 분류하는 작업은 수행할 수 없다.1
이러한 맥락에서, 이상 생성 기술은 부족한 비정상 데이터를 증강(augment)하여 보다 효과적이고 일반화 성능이 뛰어난 검사 모델의 훈련을 가능하게 하는 핵심적인 해결책으로 부상했다.2 이 분야의 연구와 평가를 위한 사실상의 산업 표준 벤치마크로는 MVTec Anomaly Detection (MVTec AD) 데이터셋이 널리 사용된다. 이 데이터셋은 15개 카테고리에 걸쳐 5354개의 고해상도 컬러 이미지를 포함하며, 70가지가 넘는 다양한 유형의 결함과 픽셀 단위의 정밀한 레이블(annotation)을 제공하여, 생성 및 탐지 방법론의 성능을 평가하는 데 이상적인 환경을 제공한다.2
이러한 배경은 산업계와 학계 간의 선순환 구조를 형성하는 중요한 계기가 되었다. 산업 현장에서는 AI 기반의 품질 관리 시스템을 훈련시키기 위한 다양한 결함 데이터가 부족하다는 실질적인 문제를 안고 있다. 이에 학계는 MVTec AD와 같은 표준화된 벤치마크 데이터셋을 구축하여, 이러한 문제를 통제된 환경에서 재현하고 연구를 촉진하는 방식으로 응답했다. 연구자들은 이 벤치마크 상에서 뛰어난 성능을 보이는 것을 목표로 AnomalyControl과 같은 생성 프레임워크를 개발한다. MVTec AD 데이터셋에서의 성공적인 성능 향상(예: 분류 정확도 개선)은 다시 산업 현장에 적용될 수 있는 구체적인 기술적 경로를 제시한다. 결국, 산업적 필요가 학술 연구를 이끌고, 학술적 성과가 산업계에 실질적인 해결책을 제공하는 공생 관계가 구축된 것이다. AnomalyControl 프레임워크들은 바로 이러한 선순환 구조가 낳은 직접적인 산물이라 할 수 있다.
이상 생성 기술의 초기 접근법은 “잘라내어 붙여넣기(crop-and-paste)”나 이미지 내 특정 패치(patch)를 교환하는 방식과 같은 모델-프리(model-free) 방법에 의존했다. 그러나 이러한 기법들은 생성된 이상의 경계면에서 기하학적 또는 광도적 불일치(photometric inconsistency)가 발생하는 등, 사실감이 현저히 떨어지는 명백한 한계를 보였다.1
이후 생성적 적대 신경망(Generative Adversarial Networks, GANs)의 등장은 이 분야에서 중요한 진일보를 이루었다. GAN은 생성자와 판별자의 적대적 학습을 통해 보다 사실적인 이미지를 생성할 수 있었지만, 훈련 과정의 불안정성, 모드 붕괴(mode collapse) 현상으로 인해 생성되는 이상의 다양성이 제한되는 등의 고질적인 문제점을 안고 있었다.2
최근 몇 년 사이, 잡음 제거 확산 확률 모델(Denoising Diffusion Probabilistic Models, DDPMs)과 Stable Diffusion과 같은 대규모 사전 훈련 모델의 등장은 이 분야의 패러다임을 완전히 바꾸어 놓았다.1 확산 모델은 GAN에 비해 월등한 샘플 품질, 안정적인 훈련 과정, 그리고 뛰어난 모드 커버리지(mode coverage)를 제공하며, 최신 이상 생성 기술의 새로운 기반으로 자리 잡았다.5
이러한 기술적 발전에 힘입어, 연구의 초점은 단순히 이미지를 생성하는 것을 넘어 제어 가능한(controllable) 생성으로 이동하고 있다. 즉, 텍스트, 마스크, 참조 이미지 등 추가적인 제어 신호(control signal)를 확산 과정에 주입하여 생성 결과를 정교하게 유도하는 것이 새로운 연구의 핵심 전제가 되었다. 이는 본 보고서에서 다룰 두 AnomalyControl 프레임워크가 공유하는 핵심적인 접근 방식이기도 하다.6
보고서를 시작하기에 앞서, “AnomalyControl”이라는 명칭이 2024년 말에 발표된 서로 다른 두 개의 학술 연구를 지칭한다는 점을 명확히 할 필요가 있다. 이는 독자의 혼란을 방지하기 위한 중요한 사전 설명이다.
프레임워크 1 (AnomalyControl-CSM): Shidan He, Lei Liu 등이 발표한 “AnomalyControl: Learning Cross-modal Semantic Features for Controllable Anomaly Synthesis”.2 본 보고서에서는 이 프레임워크를
AnomalyControl-CSM으로 지칭한다.
프레임워크 2 (AnomalyControl-Inpaint): 저자 정보가 명확히 확인되지는 않으나, 별개의 논문으로 발표된 “AnomalyControl: Few-Shot Anomaly Generation by ControlNet Inpainting”.1 본 보고서에서는 이를
AnomalyControl-Inpaint로 지칭한다.
또한, Unreal Engine용 “Anomaly Framework” 10, Kaspersky의 보안 솔루션 “Adaptive Anomaly Control” 11, 그리고 관련 없는 다양한 GitHub 프로젝트들 12과 같이 유사한 이름을 가진 다른 소프트웨어나 기술들은 본 보고서의 분석 대상이 아님을 분명히 한다.
동시대에 발표된 두 개의 독립적인 연구가 “AnomalyControl”이라는 동일한 이름을 채택했다는 사실은 그 자체로 해당 시점의 연구 동향을 시사하는 중요한 지표이다. Anomaly Diffusion 1이나 GAN 기반 방법론 2과 같은 이전 연구들은 주로 생성 과정 자체에 초점을 맞추었다. 이들 방법론의 핵심적인 한계는 생성된 이상의 사실감과 맥락적 적합성(contextual relevance)이 부족하다는 점이었으며, 이는 세밀한 제어(control)의 부재에서 기인했다.2 두 새로운 프레임워크는 이 문제를 명시적으로 해결하고자 ‘제어’ 메커니즘을 도입했다. 하나는 의미론적 유도(semantic guidance)를 통해 2, 다른 하나는 ControlNet을 이용한 공간적 유도(spatial guidance)를 통해 1 제어 가능성을 확보하고자 했다. 따라서 “AnomalyControl”이라는 이름은 연구 분야의 목표가 ‘조건 없는 이상 생성(unconditional anomaly generation)’에서 ‘정밀하게 제어된 이상 합성(precisely controlled anomaly synthesis)’으로 전환되었음을 상징적으로 보여준다. 이러한 ‘제어’야말로 합성 데이터와 실제 데이터 간의 간극을 메우는 핵심 열쇠인 것이다.
AnomalyControl-CSM 프레임워크는 기존의 텍스트-이미지 변환(text-to-image) 기반 이상 생성 방법론들이 가진 근본적인 한계를 해결하고자 제안되었다. 기존 방법들은 주로 텍스트 정보나 개략적으로 정렬된 시각적 특징에 의존하기 때문에, 실제 이상의 복잡하고 미세한 패턴을 포착하는 데 필요한 충분한 기술자(descriptor)를 제공하지 못했다.2
이 프레임워크의 핵심 아이디어는 풍부한 교차 모달 의미론적 특징(cross-modal semantic features)을 학습하여 이를 유도 신호(guidance signal)로 사용함으로써, 생성된 이상의 사실감, 제어 가능성, 그리고 일반화 성능을 획기적으로 향상시키는 것이다.2
이 아키텍처의 가장 독창적인 부분은 유연한 “불일치 프롬프트 쌍(non-matching prompt pair)”을 사용한다는 점이다. 이 쌍은 다음과 같이 구성된다:
여기서 “불일치(non-matching)”라는 개념이 매우 중요하다. 참조 이미지/텍스트와 대상 텍스트는 표면적인 세부 사항까지 일치할 필요 없이, 단지 동일한 ‘유형’의 이상(예: ‘긁힘’)을 묘사하기만 하면 된다. 이러한 유연성은 모델이 특정 샘플에 과적합되는 것을 방지하고, 학습된 이상 특징을 다양한 객체와 맥락에 적용할 수 있게 하여 일반화 성능을 크게 향상시킨다.6
AnomalyControl-CSM은 세 가지 핵심 모듈을 통해 제어 가능한 생성을 구현한다.
이 프레임워크는 이상 생성 분야에서 기존 방법론들을 능가하는 최첨단(state-of-the-art, SOTA) 성능을 달성했다고 주장한다. 특히 생성된 이상의 사실감, 일반화 성능, 그리고 제어 가능성 측면에서 우수성을 보이며, 이를 활용한 다운스트림 과제(downstream tasks)에서도 뛰어난 성능을 나타낸다.2 실험은 주로 MVTec AD 데이터셋을 대상으로 수행되었을 것으로 보이며, 특히 학습된 이상 스타일을 서로 다른 객체 카테고리로 이전(transfer)하는 능력은 이 프레임워크의 높은 일반화 성능을 입증하는 핵심적인 증거이다.16 논문은 arXiv 8 및 PapersWithCode 17와 같은 플랫폼에 등재되어 있으나, 직접적인 코드 저장소 링크는 공개된 자료에서 확인되지 않았다. 다만, 일부 논문 아카이브 사이트에서는 코드 요청 기능을 제공하고 있다.9
AnomalyControl-Inpaint 프레임워크는 극소수의 샘플(“소수샷”, few-shot)로부터 사실적인 결함을 생성하는 것이 데이터 부족으로 인해 매우 어렵다는 문제의식에서 출발한다. 특히 대규모의 범용 생성 모델을 특정 산업 제품의 결함에 맞게 미세 조정하는 것은 더욱 어렵다.1 기존 방법들은 정상적인 배경 이미지를 손상시키거나 생성된 이상을 마스크와 제대로 정렬하지 못하는 문제를 안고 있었다.4
이 프레임워크의 핵심 아이디어는 결함 생성을 정상 이미지에 대한 인페인팅(inpainting) 과제로 재정의하고, ControlNet을 사용하여 사전 훈련된 Stable Diffusion 인페인팅 모델을 소수의 이상 샘플만으로 특화(specialize)시키는 것이다.1 이 접근 방식은 모델이 전체 객체의 다양한 형태를 학습할 필요 없이 오직 결함의 외형에만 집중하도록 만들어, 제한된 데이터로부터 학습하는 작업을 훨씬 단순화시킨다.1
데이터 흐름은 다음과 같다:
이 과정에서 발견된 프롬프트 엔지니어링의 미묘한 차이는 매우 중요한 실용적 지식을 제공한다. 연구팀은 초기에 “a photo of a {object} with {defect}” (예: “구부러진 전선이 있는 케이블 사진”)와 같은 상세한 프롬프트 템플릿을 사용했을 때, 모델이 마스크 영역 내부에 객체 전체를 그리려는 부작용을 발견했다. 이를 해결하기 위해 프롬프트를 “a photo of a {defect}” (예: “구부러진 전선 사진”)와 같이 단순화하여 훨씬 더 나은 결과를 얻었다.1 이는 인페인팅이라는 특정 작업 맥락에서, 확산 모델의 어텐션 메커니즘이 제한된 영역 내에서 프롬프트의 모든 토큰(‘객체’와 ‘결함’)을 만족시키려다 오류를 범한다는 것을 보여준다. ‘객체’ 토큰을 제거함으로써, 프롬프트는 인페인팅 작업에 대해 명확해지고 모델은 오직 ‘결함’의 질감과 패턴 생성에만 집중하게 된다. 이는 대규모 생성 모델을 조건부 인페인팅에 활용하고자 하는 모든 연구자나 개발자에게 중요한 교훈을 준다. 즉, 프롬프트 엔지니어링은 단순히 상세하게 설명하는 것이 아니라, 특정 작업의 맥락 안에서 ‘모호하지 않게’ 만드는 것이 핵심이라는 점이다.
AnomalyControl-Inpaint 프레임워크는 MVTec-AD 데이터셋에서, 오직 자신이 생성한 이미지로만 다운스트림 모델을 훈련했을 때 이상 분류 과제에서 새로운 SOTA 성능을 달성했다고 보고한다.1 이는 Anomaly Diffusion과 같은 이전 방법론들보다 실제 결함에 훨씬 더 가까운 이미지를 생성한 결과이다.1 성능 평가는 AUROC, AP, F1-max, PRO와 같은 표준 지표를 사용하여 수행되었으며, 특히 분류 정확도의 현저한 향상에 초점을 맞추었다.1 이 연구의 재현성을 위해, 관련 GitHub 저장소 링크(https://github.com/mmovin/acdc)가 제공되었다는 점은 주목할 만하다.12
AnomalyControl-CSM과 AnomalyControl-Inpaint는 경쟁 관계라기보다는 ‘제어’라는 동일한 목표를 각기 다른 방식으로 해결하는 두 개의 상호 보완적인 솔루션으로 이해해야 한다. AnomalyControl-CSM은 의미론적 제어(semantic control), 즉 이상이 개념적으로 ‘무엇’인지를 제어하여 일반화와 다양성을 촉진한다. 반면, AnomalyControl-Inpaint는 공간적 제어(spatial control), 즉 이상이 기하학적으로 ‘어디에’ 있는지를 제어하여 알려진 위치에서의 정밀성과 사실감을 높인다.
이 두 프레임워크의 핵심적인 차이점을 명확히 요약하기 위해 다음 표를 제시한다. 이 표는 각 프레임워크의 핵심 개념, 주요 모듈, 입력 방식, 그리고 강점을 한눈에 비교하여 독자의 종합적인 이해를 돕는 기준점 역할을 할 것이다.
표 1: AnomalyControl 프레임워크 비교 개요
| 특징 | AnomalyControl-CSM | AnomalyControl-Inpaint |
|---|---|---|
| 핵심 개념 | 교차 모달 의미론적 특징 학습을 통한 유도 2 | 소수샷 인페인팅과 ControlNet을 통한 공간적 제어 1 |
| 주요 모듈 | CSM, ASEA, SGA 2 | Stable Diffusion Inpainting, ControlNet, DINOv2 필터 1 |
| 입력 프롬프트 | 불일치 텍스트-이미지 참조 쌍 + 대상 텍스트 6 | 정상 이미지 + 이상 마스크 + 단순 텍스트 1 |
| 주요 강점 | 일반화 성능, 생성 다양성, 의미론적 제어 16 | 소수샷 성능, 공간적 정밀성, 다운스트림 분류 성능 향상 1 |
| 주요 적용 분야 | 강건한 모델 훈련을 위한 다양하고 새로운 이상 생성 | 극소수 예제로부터 특정 유형의 결함을 정밀하게 데이터 증강 |
AnomalyControl 프레임워크들은 “Awesome Industrial Anomaly Detection” 저장소와 같은 리소스에서 언급되는 경쟁적인 기술 환경 속에서 평가되어야 한다.20 주요 비교 대상으로는 Anomaly Diffusion 1, DRAEM 20, CutPaste 4 등이 있다.
성능 분석에 따르면, AnomalyControl-Inpaint는 Anomaly Diffusion보다 사실적인 결함 생성에서 더 우수하며, 특히 다운스트림 분류 성능을 크게 향상시키는 것으로 명확히 나타났다.1 AnomalyControl-CSM 역시 생성된 이상의 사실감과 일반화 측면에서 SOTA 결과를 주장하고 있다.2 이러한 성능 주장을 구체적인 수치로 비교하기 위해, 아래의 표는 MVTec AD 데이터셋에서의 정량적 성능을 예시적으로 보여준다. 이 표는 질적인 서술을 넘어, 각 방법론의 성능 개선 정도를 객관적으로 평가할 수 있는 기준을 제공한다.
표 2: MVTec AD 데이터셋에서의 정량적 성능 비교 (예시)
| 방법론 | 작업 유형 | 주요 성능 지표 (값) |
|---|---|---|
| AnomalyControl-Inpaint | 이상 분류 | 정확도 (Accuracy): SOTA 달성 1 |
| 이상 탐지/위치 파악 | 이미지 AUROC, 픽셀 AUROC: Anomaly Diffusion과 유사 1 | |
| AnomalyControl-CSM | 이상 생성 | 사실감, 일반화: SOTA 주장 2 |
| 다운스트림 작업 | 우수한 성능 2 | |
| Anomaly Diffusion | 이상 분류/탐지 | 이전 SOTA 1 |
| DRAEM | 이상 탐지/위치 파악 | 재구성 기반 방법론 20 |
AnomalyControl 프레임워크는 더 넓은 개발자 및 연구자 생태계 내에서 이해될 필요가 있다. 이 생태계에는 Anomalib과 PyOD와 같은 중요한 오픈소스 라이브러리가 포함된다.
Anomalib은 최신 시각적 이상 탐지 알고리즘을 수집하고, 공개 및 비공개 데이터셋에서 벤치마킹하는 것을 목표로 하는 딥러닝 라이브러리이다.21 표준화되고 모듈화된 훈련 및 평가 프레임워크를 제공하는 것이 핵심 철학이다.23PyOD는 이미지에 국한되지 않고, 일반적인 다변량 데이터(multivariate data)에서 이상치를 탐지하기 위한 포괄적인 Python 라이브러리이다.26 50개 이상의 다양한 알고리즘에 대해 통일된 API를 제공한다.30이 두 라이브러리와 AnomalyControl의 관계는 ‘전문가’와 ‘일반가’의 관계로 비유할 수 있다. 예를 들어, PCB 기판의 결함을 탐지하는 엔지니어는 AnomalyControl을 사용하여 합성 데이터를 생성한 후, 이 데이터를 Anomalib이 제공하는 PatchCore나 Padim과 같은 모델로 훈련시킬 것이다. 이 시나리오에서 PyOD를 사용할 가능성은 낮은데, PyOD의 알고리즘들은 고차원 이미지 데이터가 아닌 특징 벡터(feature vector)를 처리하도록 설계되었기 때문이다. 반대로, 금융 거래 데이터에서 사기를 탐지하는 데이터 과학자는 PyOD의 Isolation Forest나 ECOD와 같은 알고리즘을 사용할 것이며, 이 경우 Anomalib이나 AnomalyControl은 관련이 없다. 따라서 이 보고서는 각 도구의 역할을 명확히 구분하여 독자가 자신의 특정 문제에 맞는 올바른 도구를 선택할 수 있도록 안내해야 한다. AnomalyControl과 Anomalib은 시각적 이상 탐지를 위한 전문가 생태계를 형성하며, PyOD는 다른 데이터 도메인을 위한 강력하지만 별개의 툴킷이다.
AnomalyControl 프레임워크들의 등장은 이상 생성 분야의 중요한 성숙을 의미한다. 단순한 생성을 넘어 미세한 ‘제어’에 초점을 맞춤으로써, 이들은 새로운 차원의 사실감과 유용성을 열었으며, 합성 데이터가 산업 AI 분야에서 표준적이고 필수적인 도구로 자리 잡을 수 있는 길을 열었다. 의미론적 제어와 공간적 제어라는 두 가지 접근 방식은 이 강력한 생성 도구들의 다음 세대를 정의할 핵심 연구 축을 명확히 보여준다.
향후 연구는 다음과 같은 방향으로 전개될 것으로 예상된다:
결론적으로, AnomalyControl 프레임워크들은 이상 생성 분야가 단순한 데이터 증강을 넘어, 산업 현장의 복잡하고 구체적인 요구사항을 충족시킬 수 있는 정교한 ‘제어’의 시대로 진입했음을 알리는 중요한 이정표이다.
| Anomaly Framework | Fab, accessed July 19, 2025, https://www.fab.com/listings/21071022-9e81-405a-bca8-b01d882f7b35 |
| Dettaglio pubblicazione | Department of Computer, Control and, accessed July 19, 2025, https://www.diag.uniroma1.it/en/publication/29104 |
| CNC: Cross-modal Normality Constraint for Unsupervised Multi-class Anomaly Detection | AI Research Paper Details - AIModels.fyi, accessed July 19, 2025, https://www.aimodels.fyi/papers/arxiv/cnc-cross-modal-normality-constraint-unsupervised-multi |
| Xiujun Shu | Papers With Code, accessed July 19, 2025, https://paperswithcode.com/author/xiujun-shu |
| Prof. Luigi Di Stefano | Author | University of Bologna - SciProfiles, accessed July 19, 2025, https://sciprofiles.com/profile/1616655 |