5.10.2 Promptfoo를 활용한 수백 개의 엣지 케이스 동시 실행 및 메트릭 산출

Promptfoo는 언어 모델(LLM)의 출력 품질을 결정론적으로 평가하기 위해 특별히 고안된 CLI(Command Line Interface) 기반의 오픈소스 테스트 프레임워크다. 전통적인 PyTest나 JUnit이 단일 함수 단위의 로직 검증에 집중한다면, Promptfoo는 “프롬프트, 모델, 테스트 케이스(데이터셋)“라는 3차원의 조합 매트릭스를 거대한 병렬 파이프라인으로 엮어내어 단숨에 실행하고 평가하는 데 특화되어 있다.

1. 선언적(Declarative) 테스트 스위트 구성

Promptfoo의 가장 큰 강점은 YAML 포맷을 사용한 선언적인 오라클(Oracle) 및 테스트 케이스 정의다. 코드를 길게 작성할 필요 없이, 어떠한 모델에 어떤 프롬프트를 넣었을 때 기대하는 출력값(정답지)이 무엇인지 명시하기만 하면 된다.

프롬프트와 모델 매트릭스: 개발자는 테스트 파일에 여러 개의 프롬프트 템플릿(예: 간결한 버전 vs 구체적인 버전)과 여러 개의 모델(예: gpt-4-turbo, claude-3-opus)을 동시에 명시할 수 있다.
수백 개의 엣지 케이스(Edge Cases) 주입: 결정론적 오라클의 성패는 얼마나 촘촘한 코너 케이스(Corner Case)를 커버하는지에 달려있다. Promptfoo는 별도의 CSV/JSON 파일에서 수백 단위의 입력 데이터를 읽어 들여 위에서 정의한 프롬프트-모델 매트릭스에 십자 포화(Cross-fire) 방식으로 주입한다.

2. 결정론적 어설션(Assertion)과 동시 실행

Promptfoo 시스템 내에서 오라클의 채점 기준은 전통적인 소프트웨어 공학의 어설션 규칙을 충실히 따른다.

equals, contains, regex와 같은 결정론적 검증(Deterministic Validation) 방법론을 타겟 출력에 직접 매핑할 수 있다.
자바스크립트나 파이썬 코드를 삽입하여, 응답된 JSON 문자열을 파싱하고 비즈니스 룰에 부합하는지 검증하는 **실행 기반 검증(Execution-based Validation)**도 지원한다.
중요한 점은, 수백 단위의 엣지 케이스와 다기종 LLM API 호출이 초고속 병렬(Concurrent) 처리로 이루어지므로, 로컬 환경이나 CI 환경에서 수 분 내에 거대한 회귀 테스트(Regression Test)가 완료된다는 것이다.

3. 웹 기반 대시보드를 통한 메트릭 산출 및 결과 시각화

텍스트 기반의 터미널 로그만으로는 수만 건의 평가 결과를 직관적으로 해석하기 어렵다. Promptfoo는 자체 내장된 웹 UI를 통해 프롬프트와 모델의 조합별 성능을 매트릭스(Matrix) 형태로 시각화한다.

승률(Win Rate) 및 통과율(Pass Rate) 분석: A/B 테스트 방식으로 두 프롬프트를 경쟁시키거나, 오라클 통과율이 가장 높은 모델-프롬프트 조합을 하이라이팅한다.
비용(Cost) 대비 성능 메트릭: 단순히 성공/실패 여부를 넘어, API 호출에 소모된 토큰 비용과 지연 시간(Latency)을 집계하여, 성능 과잉(Over-engineering) 없이 가장 경제적인 조합을 도출할 수 있도록 지원한다.
실패 케이스의 격리: 실패(Fail) 판정을 받은 엣지 케이스들만 별도로 추출하여, 프롬프트의 취약점을 보완하는 피드백 루프(Feedback Loop)의 재료(Seed)로 즉각 활용할 수 있다.

Promptfoo는 AI 엔지니어의 막연한 예감(Intuition)에 의존하던 프롬프트 수정을, 수백 개의 결정론적 잣대(Golden Dataset)로 실시간 측정(Telemetry)하고 교정하는 현대적이고 정량적인 공학의 영역으로 이끌었다.