5.10.1 LLM 전용 테스트 프레임워크 개요 (Promptfoo, DeepEval 비교)

순수 소프트웨어 공학의 산물인 Pytest나 Jest가 ’코드의 논리’를 검증하는 데 탁월하다면, LLM 전용 평가 프레임워크들은 ’언어의 의미와 확률’을 통제하기 위해 탄생했다. AI 평가 시장이 폭발적으로 성장하면서 수많은 도구가 등장했지만, 현재 오픈소스 생태계에서 양대 산맥으로 군림하며 실무 표준(De facto standard)으로 자리 잡은 두 프레임워크는 단연 Promptfoo와 DeepEval이다.

이 두 도구는 LLM을 테스트한다는 목적은 같지만, 접근 철학과 타겟(Target) 유스케이스가 명확히 다르다. 각 도구의 아키텍처와 결정론적 오라클 구축 관점의 강점을 비교해 보자.

1. Promptfoo: 프롬프트 엔지니어링의 신속한 병렬 서치 (Grid Search)

Promptfoo는 TypeScript/Node.js 생태계에서 출발한 CLI 중심의 초고속 평가 도구다. 개발자나 프롬프트 엔지니어가 코드를 한 줄도 짤 필요 없이, 선언적인 YAML 설정 파일 하나만으로 거대한 테스트 매트릭스를 구동할 수 있다는 것이 최대 강점이다.

주요 특징: 10개의 프롬프트 후보군과 5개의 모델(OpenAI, Anthropic, 로컬 Llama 등), 그리고 100개의 픽스처(Fixture) 데이터를 YAML로 매핑하면, Promptfoo가 이를 $10 \times 5 \times 100 = 5000$ 개의 조합으로 병렬 실행하고 결과를 비교해 준다.
결정론적 오라클 지원: 자바스크립트 함수(Custom Eval), 정규식(Regex), 외부 웹훅(Webhook) 등을 통한 하드 제약 조건 검증을 기본 스펙으로 지원한다.
어울리는 도메인: 프롬프트 문구를 하루에도 수십 번씩 튜닝하며 “가장 가성비가 좋고 속도가 빠른 템플릿-모델 조합“을 시각적으로 빠르게 찾아내야 하는 프론트엔드/기획 팀 주도의 프로젝트에 완벽하게 부합한다.

2. DeepEval: 통계적 RAG 평가와 파이썬(Python) 유닛 테스트의 통합

DeepEval은 파이썬(Python) 네이티브 생태계 위에서 설계되었으며, Pytest와 깊숙이 통합되어 작동한다. 프롬프트의 텍스트 비교보다는 RAG 파이프라인이나 다단계 AI 에이전트의 내부 구조를 평가하는 데 훨씬 더 학술적이고 무거운 무기들을 제공한다.

주요 특징: 논문 “RAGAS” 등에서 제안된 최신 AI 평가 지표들(Answer Relevancy, Faithfulness, Contextual Precision 등)을 내장 지표(Metric) 객체로 제공한다. Promptfoo가 단순 문자열 매칭에 강하다면, DeepEval은 다른 초거대 AI(LLM-as-a-Judge)를 동원하여 테스트 대상 AI의 환각을 학술적인 점수(0.0~1.0)로 산출하는 데 특화되어 있다.
결정론적 오라클 지원: Pytest 위에서 동작하므로, 파이썬 기반의 데이터베이스 검증 스크립트나 AST 파서 등을 기존 코드 그대로 오라클로 활용할 수 있다.
어울리는 도메인: 거대한 문서 기반의 RAG 시스템을 구축하는 과정에서, “Vector DB의 검색 품질“과 “LLM의 답변 생성 품질“의 상관관계를 통계적으로 추적하고 자동화된 CI 워크플로우를 구성하려는 백엔드 AI 엔지니어링 팀에 적합하다.

3. 핵심 비교 요약 (Table)

이 두 프레임워크의 특성을 결정론적 오라클 구축의 관점에서 요약하면 다음과 같다.

비교 항목	Promptfoo	DeepEval
기반 언어 & 생태계	Node.js (YAML 파일 중심)	Python (Pytest 통합 코드 중심)
가장 강력한 유스케이스	다중 모델간의 프롬프트 A/B/C 벤치마킹	RAG 응답의 환각 검출 및 통계적 평가
테스트 작성 방식	선언적 (No-code / Low-code)	프로그래머틱 (Programmatic Python)
시각화 리포트	내장된 로컬 Web UI (비교/대조 압도적)	Confident AI (클라우드 대시보드 연동 강점)
결정론적 오라클 결합성	단순 스키마/정규식/길이 제한에 유리	복잡한 외부 DB 연동이나 다단계 파이썬 로직에 허용력이 높음

도구를 선택할 때 절대적인 정답은 없다. 하지만 “프롬프트의 단어 조사 하나를 바꿨을 때 결과가 어떻게 달라지는가?“를 알고 싶다면 Promptfoo를, “우리 시스템이 문서의 맥락을 얼마나 충실히 훔쳐다 쓰는지 점수화하고 싶다면” DeepEval을 선택하는 것이 정석이다. 이어지는 절들에서는 이 두 선봉장 도스들을 이용해 실제 회귀 테스트를 어떻게 자동화하는지 더욱 깊숙이 파고들 것이다.