13.2 예제 시나리오 정의: 이종(Heterogeneous) 재무 문서 처리 시스템
환각의 방사능을 뿜어내는 거대 언어 모델(LLM)을 사슬로 묶어 완전히 통제하고, 데이터의 미세한 오염조차 감지하는 즉시 파이프라인을 멈춰 세우는 **‘결정론적 오라클(Deterministic Oracle)’**의 압도적인 방어력을 증명하기 위해서는, 우리는 소프트웨어 공학에서 가장 가혹하고 변수가 많은 지옥의 무대를 실험대로 설정해야만 한다.
따라서 본 13장 전반에 걸쳐 우리가 설계하고 MLOps 백엔드 시스템에 이식할 궁극의 실전 타겟 아키텍처는 바로 **‘이종(Heterogeneous) 재무 문서 자동 파싱 및 검증 시스템’**이다.
글로벌 엔터프라이즈의 백오피스(Back-office) 중에서도 재무 및 회계(Finance & Accounting) 도메인은, 단 1달러의 부동소수점 오차나 단 1명의 거래처 식별자(Vendor ID) 매핑 오류도 절대적으로 허용되지 않는 철저한 무결성(Integrity)의 성역이다. 만약 이 시스템에서 오류가 나면 그것은 버그가 아니라 즉각적인 ’탈세 프레임’이나 ’금융 사고’로 직결된다.
그러나 이토록 융통성 없는 성역임에도 역설적이게도 이 부서의 엔드포인트(Endpoint)로 유입되는 데이터의 형태는 전사의 그 어떤 도메인보다도 더럽고 무질서하다. 수백, 수천 개의 각기 다른 외부 하청 벤더(Vendor) 업체들이 저마다 고집하는 엑셀 템플릿, 워터마크가 찍힌 PDF, 심지어 인간의 손글씨로 휘갈겨 스캔된 영수증과 규격 없는 발주서(PO)를 이메일과 팩스 쓰레드에 마구잡이로 비동기적으로 던져대기 때문이다.
이 절망적이고 적대적인 이종(Heterogeneous) 데이터의 스웜(Swarm) 폭격 속에서, 우리의 추출 파이프라인 아키텍처는 1차적으로 비전(Vision) OCR 엔진을 통과해 이미 노이즈(Noise)가 잔뜩 끼어버린 거친 텍스트 덤프(Text Dump) 스트림을 LLM 에이전트의 프롬프트 컨텍스트에 쑤셔 넣는다.
하지만 가장 중요한 것은 그 이후다. 우리는 LLM 에이전트가 그럴싸하게 추론하여 추출해 낸 마법 같은 JSON 결과를 절대 무조건적으로 신뢰하지 않는다. 대신, 파이프라인의 데이터베이스 커밋(Commit) 종단 계층에 3단계로 치밀하게 엮인 **‘무자비한 소프트웨어 파이썬 오라클’**을 세워, AI의 모든 환각 결함과 타입 붕괴를 데이터 저장 이전에 완벽하게 요격(Intercept)하고 재시도(Retry)시키는 철벽의 방어 구조를 설계할 것이다.
본 13.2 통합 절에서는 이 거대한 실전 예제 시나리오 컴포넌트를 코드로 구현하기 앞서, 아키텍처의 뼈대를 구체적으로 명세한다.
이어지는 하위 세부 절들을 통해, 먼저 우리 시스템 코어 파이프라인으로 밀려 들어오는 입력 데이터(인보이스, 영수증, 발주서 등)의 난해한 종류와 그들이 품고 있는 각양각색의 악의적 구조 가변성을 정의한다.
이어서 LLM 특유의 어설픈 길라잡이 자연어 텍스트 응답을 원천적으로 차단하고, 오직 데이터베이스 스키마와 1:1로 매핑되는 기계적인 데이터만 받아내기 위한 **‘목표 출력 스키마(Target Output Schema)’**를 JSON 기반 강제 구조화(Structured) 패러다임으로 확립해 낼 것이다.
아울러 이 닫힌 스키마에 반드시 담겨야 할 필수 추출 필드(공급자 명, 날짜 포맷, 통화 금액 등)들의 엄격한 데이터 타입을 규명하고, 단순한 Type Casting 검사를 넘어서서 [각 품목 공급가액의 총합 = 총청구금액] 과 같이 대수학적으로 절대 단 1원도 어긋나서는 안 되는 하드코어 **‘비즈니스 제약 조건(Business Constraints)’**들을 수치적으로 정의한다.
마지막으로, 기존의 낡은 정규 표현식(Regex) 기반 RPA / OCR 솔루션이 왜 이 혼돈의 문서들 앞에서 결국 백기를 들고 셧다운 될 수밖에 없었는지 그 한계를 짚어본다. 그리고 왜 현대의 시스템은 불확실하지만 강력한 **LLM의 ‘확률적 트랜스포머 인지 능력’**과 한 치의 예외도 허용하지 않는 **파이썬 오라클의 ‘결정론적 방어 로직’**을 하이브리드(Hybrid)로 결합할 수밖에 없는지, 그 숙명적인 아키텍처의 당위성을 논증하며 13.3절의 본격적인 파이프라인 코드 구현의 세계로 진입할 준비를 완벽히 마칠 것이다.