14.7 피드백 루프와 오라클의 진화(Active Learning)

이전 절에서 다룬 실시간 모니터링 체계가 운영 환경(Production)에서 발생하는 시스템의 혈압과 심박수를 측정하는 ’모니터(Monitor)’라면, 본 절에서 논의할 피드백 루프(Feedback Loop)와 능동 학습(Active Learning) 모델은 수집된 생체 데이터를 기반으로 오라클 자체의 면역력을 지속적으로 강화하는 ‘진화(Evolution)’ 파이프라인이다.

단순명료하게 짜였던 초기의 결정론적 오라클은 한계가 명확하다. 정규표현식은 새로운 비즈니스 언어 패턴을 포착하지 못하며, 초기 스키마 필터는 예외적인 엣지 케이스(Edge Case)를 과도하게 필터링하는 오탐(False Positive)을 양산할 위험성을 띤다. 따라서 CI/CD 파이프라인 내의 오라클은 고정된 잣대(Static Metric)로 머물러서는 안 되며, 새롭게 수집되는 운영 데이터 위에서 스스로의 판정 기준을 **능동적(Active)**으로 갱신하는 자정 로직을 갖추어야만 한다.

1. 불확실성(Uncertainty) 수집과 Active Learning

능동 학습(Active Learning)은 머신러닝의 고전적 기법으로, ‘가장 기계가 판별하기 어려워하는(가장 불확실성이 큰) 데이터를 선별하여 인간에게 정답을 묻는’ 전략을 뜻한다. 이를 AI 소프트웨어 오라클 아키텍처에 적용하면 다음과 같은 사이클이 형성된다.

불확실성 임계값(Threshold) 기반 로깅: LLM-as-a-Judge나 휴리스틱(Heuristic) 룰 오라클이 타겟 AI의 생성물을 검증할 때, 통과(1.0)나 실패(0.0)와 같은 확정적 점수가 아닌 0.4 ~ 0.6 사이의 애매한 확신도(Confidence Score)를 반환하는 로그가 발생하면 이를 별도의 Active Learning Queue 저장 공간으로 라우팅한다.
동적 엣지 케이스 샘플링: 시스템은 매주 배치(Batch) 스크립트를 통해 이 대기열에 쌓인 쿼리와 응답 쌍 중, 임베딩 벡터 공간상에서 가장 이질적이고 드문(Outlier) 패턴들만을 클러스터링 기반으로 우선 추출(Priority Extraction)한다.

2. 인간 오라클(Human Oracle)과 판별 로직의 재동기화

기계가 스스로 확신하지 못해 포집해온 데이터 셋은 이제 최종 재판관인 인간 전문가(Domain Expert)의 데스크로 넘어간다. 이 과정은 곧 ’오라클 기준선의 재설정’을 의미한다.

인간 검열관은 해당 엣지 케이스 로그를 검증한 후, Pass 또는 Fail에 대한 확정적 라벨(Label)과 함께, “왜 통과시켜야 하는지/왜 막아야 하는지“에 대한 새로운 규칙(New Rule) 가이드라인을 시스템에 입력한다.
이 입력 행위는 오라클 파이프라인의 Git 저장소에 풀 리퀘스트(Pull Request, PR)를 트리거한다.

graph LR
    A[Production Output] --> B{Oracle Validation}
    B -->|High Confidence| C[Deploy/Reject]
    B -->|Low Confidence (0.4-0.6)| D[(Active Learning Queue)]
    D --> E[Human-in-the-Loop Review]
    E -->|Add New Regex/Schema| F[Update Oracle Ruleset]
    F -->|Trigger CI/CD| G[Redeploy Evolved Oracle]
    G --> A

3. 오라클 규칙 엔진(Rule Engine)의 자율적 팽창

인간의 피드백이 주입됨에 따라, 초기의 단순했던 오라클은 다음과 같은 방식으로 진화한다.

1. 결정론적 규칙(Regex/AST)의 확장:
인간이 승인한 예외 케이스를 반영하여 정규표현식에 OR 조건을 새롭게 추가하거나, 파서(Parser)가 무시하고 넘어가도 안전한 새로운 형태의 오타 패턴(Allowlist)을 스키마에 동적으로 릴리스한다.

2. LLM 심판관의 메타 프롬프트(Meta-Prompt) 진화:
심층 모호성을 분석하는 LLM-as-a-Judge 모델의 경우, 인간이 부여한 사유(Reasoning)와 정답 시나리오 케이스 전체가 심판관의 **퓨샷(Few-shot) 예제 데크(Deck)**에 즉시 반영된다. 다음 CI/CD 검증 단계에서부터 LLM 심판은 과거에 갈팡질팡했던 동일한 맥락의 로직에서 더 이상 흔들리지 않고 확정적인 판정을 내릴 수 있게 된다.

피드백 루프는 단순한 사후 유지보수가 아니며, 그 자체가 오라클을 시간이 지날수록 전례 없이 단단하게 벼려내는 담금질 아키텍처다. 파이프라인은 한 번 실패하거나 모호했던 판정을 두 번 다시 반복하지 않는 ’학습하는 검증망’으로 탈바꿈한다.