5.3.1 테스트 용이성(Testability)의 딥러닝 이식: 거대 프롬프트 분해(Decomposition)와 단위 기능별 오라클 격리(Isolation) 아키텍처

“너는 친절한 고객 센터 상담원이다. 사용자가 불만을 표출하면 사과하고, 환불을 원하면 DB 규정을 검색해서 안내한 뒤, 최종적으로 전체 대화 내용을 반드시 JSON으로 요약해서 출력하라.”

위 텍스트는 주니어 프롬프트 엔지니어들이 흔히 작성하는 전형적인 **‘거대 프롬프트(Mega-prompt)’**이자 최악의 안티 패턴(Anti-pattern) 예시이다.
이 끔찍한 모놀리식(Monolithic) 프롬프트 구조는 1) 감정적 어조 페르소나 적용(Persona), 2) 조건부 분기 처리에 따른 검색 비즈니스 로직(Routing & RAG), 3) 구조적 데이터 포매팅(Formatting)이라는 완전히 생판 다른 3가지 시스템 책임을 억지로 단일 LLM API 호출 텍스트 창 하나에 구겨 넣은 것이다.

이러한 모놀리식 프롬프트 파이프라인은 소프트웨어 공학 관점에서 단연코 유닛 테스트 불가능(100% Untestable) 판정을 받는다.
만약 CI/CD 파이프라인 러너에서 *“환불 규정 문구가 틀렸다”*는 붉은색 테스트 실패 에러 로그가 떨어지면, 개발자는 1) JSON 포맷 강제 지시어와 어텐션(Attention) 자원이 충돌하여 로직이 붕괴한 것인지, 2) 감정 분석 텍스트가 환불 의도를 가려버린 것인지, 아니면 3) RAG 검색 자체가 실패한 것인지 즉각적으로 추적(Traceability)하고 디버깅할 길이 원천적으로 차단되기 때문이다.

결정론적 오라클 테스트 용이성(Testability)을 확보하기 위한 가장 훌륭하고 유일한 출발점은, 전통적인 아키텍처의 핵심인 **단일 책임 원칙(Single Responsibility Principle, SRP)**을 프롬프트 엔지니어링에 강제 이식하여 템플릿의 결합도(Coupling)를 잔혹하게 끊어내는 것이다.

1. 프롬프트 파이프라인의 3단계 물리적 분해(Decomposition) 전략

단일 API 호출의 확률적 블랙박스를 타파하고 마찰 없는 결정론적 백엔드 유닛 테스트 환경을 얻기 위해, 하나의 거대한 프롬프트는 최소한 다음 3개의 독립적인 프롬프트 파이프라인 노드 계층으로 쪼개져 체인화(Chained, e.g. LangChain/LlamaIndex)되어야만 한다.

1.1 단계 노드: 의도 추출 및 분기 라우팅 (Intent Routing Output)

[아키텍처 책임]: 사용자의 가변적인 입력 텍스트에서 오직 뼈대가 되는 핵심 의도(Intent)만을 판별하여 가장 가벼운 구조화된 열거형(Enum) 변수 값으로 반환한다.
[격리된 최소 프롬프트]: “다른 말은 텍스트 체인에 섞지 마라. 다음 고객 텍스트를 읽고 사용자의 메인 의도를 정확히 [환불, 불만, 단순문의] 세 가지 문자열 변수 중 단 하나로만 추출하라.”
[결정론적 오라클 매핑]: Exact Match(완전 일치) 또는 엄격한 Enum 생성 객체 검증. (예: assert llm_response in ["환불", "불만", "단순문의"])
[테스트 격리 목표]: 이 1단계 최전방 유닛 테스트에서는 봇의 친절한 어조나 사과 부가 문구를 절대 검사하지 않는다. 오직 Pydantic 스키마 기반의 ‘의도 파악 백엔드 라우팅 분류 정확도’ 구문만 고립시켜 냉혹하게 이진 평가한다.

1.2 단계 노드: 코어 비즈니스 로직 및 팩트 합성 (Core RAG Logic)

[아키텍처 책임]: 1단계 파이프라인 판단 통과 후 분기된 안전한 결과 변수(예: intent='환불')를 바탕으로, 서버 VectorDB 등에서 가져온 사내 정책 문서를 시스템적으로 덧붙여 실제 챗봇 답변의 ’건조한 팩트 뼈대(Fact Skeleton)’를 기계적으로 합성 작성한다.
[격리된 최소 프롬프트]: “다음 [환불 정책 컨텍스트]를 최우선 바탕으로, 사용자의 질문 트랜잭션에 대한 조치 결과를 건조하게 요약 1줄 작성하라. 감정 표현이나 친절한 인사말 헛소리 문장은 절대 배제하라.”
[결정론적 오라클 매핑]: 비즈니스 핵심 키워드 포함/배제 로직 검사. (예: assert "영업일 기준 3일 이내" in llm_response)
[테스트 격리 목표]: 최종 사용자가 볼 텍스트 UI적인 구조 포맷이나 JSON 괄호 파싱 트러블 에러 검증을 하드하게 시야에서 배제시키고, 오프라인 RAG 문서와 결합된 오직 ‘팩트(Fact)의 정합성 유무’ 로직만 격리하여 수학적 단위 테스트(Unit Test)로 증명한다.

1.3 단계 노드: 포매팅 패키징 및 페르소나 렌더링 (Formatting & Persona)

[아키텍처 책임]: 2단계의 하드코어 로직 테스트를 무사 필과한 안전하고 건조한 텍스트 결과물을, 최종 End-User가 프론트엔드 UI 브라우저에서 마주할 친절한 문장으로 부드럽게 윤색(Render)하거나, 다음 마이크로서비스 API가 파라미터로 요구하는 엄격한 JSON 스키마 규격 트리로 포장(Packaging)한다.
[격리된 최소 프롬프트]: “이전에 넘겨받은 팩트 중심 문장을 극도로 친절한 사내 고객센터 챗봇의 어조 페르소나로 변환 개서하고, 반드시 백엔드 시스템 지정된 { "message": str } JSON schema 포맷 규격에 정교하게 맞춰 렌더링 출력하라.”
[결정론적 오라클 매핑]: 순수 JSON/XML 구문 파서(Parser) 역직렬화 유효성 검사, 텍스트 문자열 길이 바운더리 및 특수문자 익셉션 제약 검사, 금지어 블랙리스트 정규표현식(Regex) 스캔 블로킹.
[테스트 격리 목표]: 이 렌더링 테스트 단계에서는 2단계에서 이미 무결성 오라클 검증이 완벽히 끝난 팩트 비즈니스 정합성 텍스트를 무의미하게 두 번 따지지 않는다. 오직 백엔드 서버가 파싱 가능한 **구조 구문(Syntax) 유효성(Valid)**과 컴파일 통과 여부 안전성만 기계적으로 가혹하게 테스트한다.

이처럼 통제 불능의 끔찍한 빅 볼 오브 머드(Big Ball of Mud) 거대 프롬프트를 단위 기능별로 무자비하게 찢어 3단 분리(Decomposition) 체인으로 아키텍처화하면, CI/CD 러너 테스트 런타임에 각 노드 단계(Task)에 맞는 최적화된 결정론적 하드 오라클(Ground-Truth Oracle)을 1:1 대응으로 정확하게 매핑 결합할 수 있게 된다.
파이프라인 운영 중 런타임 에러가 발생했을 때, 그 지점이 3단계의 구문 장애(Syntax Breakdown)인지, 아니면 2단계의 논리적 환각(Logical Hallucination)인지 콜스택(Call Stack)처럼 명확하게 즉시 화면에 특정(Pinpoint)되는 분산형 파이프라인. 이것이 진정한 엔터프라이즈 급 메탈 소프트웨어 공학이 깊게 이식/적용된 **‘유닛 테스트와 자동화 보수가 완벽히 가능한 모듈형 AI 아키텍처(Testable AI Architecture)’**의 거대한 정수다.