3.2.1.1 사실 관계 오류(Factual Error)와 논리적 오류(Logical Fallacy)의 식별
AI 모델의 환각(Hallucination)은 깊이에 따라 크게 두 가지 유형으로 분류될 수 있다. 단순한 데이터의 불일치인 **사실 관계 오류(Factual Error)**와, 여러 전제들을 조합하는 과정에서 발생하는 인지적 붕괴인 **논리적 오류(Logical Fallacy)**이다.
시스템의 신뢰성을 보장하기 위해서는 결정론적 정답지가 이 두 가지 유형의 오류를 어떻게 기계적으로 식별하고 차단하는지 그 메커니즘의 차이를 명확히 이해해야 한다.
1. 사실 관계 오류 (Factual Error): 정적 데이터의 위반
사실 관계 오류란, 사용자 시스템의 데이터베이스나 사전 정의된 문서(Knowledge Base)에 기록되어 있는 물리적, 객관적 수치나 텍스트를 AI가 다르게 출력하는 현상이다.
이는 보통 모델에 내재된 과거 학습 데이터(Parametric Knowledge)가 시스템의 최신 RAG(Retrieval-Augmented Generation) 텍스트를 덮어쓰거나(Overwrite), 단순히 수치 토큰 예측에서 노이즈가 발생할 때 나타난다.
- 오류 예시: RAG 시스템에 제공된 고객 정보에는 “잔금 50만 원“이 명시되어 있으나, 답변은 “잔금 500만 원을 결제해 주십시오“라고 출력.
- 정답지의 식별 메커니즘: 사실 관계 오류는 가장 식별하기 쉽고 결정론적인 통제가 가능한 영역이다. 정답지(Ground Truth)는
{"balance_due": 500000}이라는 Key-Value 쌍으로 선언된다. 오라클은 모델의 텍스트 답변 내역에서 정규화된 숫자500000의 존재 유무를 확인하거나, 혹은 모델이 출력한 JSON의balance_due필드가 정답지와==(Exact Match)를 만족하는지만 검사하여 이 오류를 100% 식별해 낼 수 있다.
2. 논리적 오류 (Logical Fallacy): 연산 규칙과 도메인 지식의 위반
논리적 오류는 모델이 제시된 개별 사실(Fact)들을 정확하게 파악했음에도 불구하고, 비즈니스 규칙(Business Rule)을 적용하여 사칙 연산을 수행하거나 제약 조건을 추론하는 과정에서 논리가 파탄 나는 현상이다.
언어 모델은 수학적 프로세서(Processor)가 아니라 확률적 문자열 조립기이므로, “A이면 B이고, C는 제외한다“와 같은 다단 논리 연산에서 잦은 붕괴를 일으킨다.
- 오류 예시: 사용자가 “저는 A 등급 회원이자 11월 가입자입니다. 혜택이 무엇인가요?“라고 질문.
- 규칙 1: A 등급 회원은 무료 배송.
- 규칙 2: 11월 가입자는 10% 추가 할인 (단, A 등급 혜택과 중복 불가).
- LLM의 결론: “고객님은 A 등급이시므로 무료 배송 혜택과 함께, 11월 가입자에 해당하여 10% 추가 할인을 중복으로 받으실 수 있습니다.” (사실 관계 A, 11월은 맞췄으나, ’중복 불가’라는 논리적 제약을 무시함).
- 정답지의 식별 메커니즘: 논리적 오류를 식별하는 정답지는 단순한 텍스트 매칭만으로는 부족하다. 정답지는 추론의 ’최종 결과 상태(End State)’를 다차원으로 정의해야 한다. 위 예시에서는 정답지 자체가
{"shipping_cost": 0, "discount_rate": 0, "benefit_reason": "등급 혜택 적용 및 중복 조건 제한"}으로 구성되어야 한다. 평가 시 오라클은 모델의 추론 과정 자체가 아니라(과정은 언어적으로 다양하게 표현될 수 있으므로), 비즈니스 로직 연산이 완료된 최종 스키마의 무결성을 정답지와 대조하여 논리적 환각을 차단한다.
3. 시스템적 제어의 결론
사실 관계 오류가 “데이터 딕셔너리의 파괴“라면, 논리적 오류는 “비즈니스 워크플로우의 파괴“이다. 이 두 가지를 실시간으로 탐지하고 제어하지 못하는 AI 시스템은 본질적으로 통제 불능 상태이다.
생성형 AI의 진정한 위험은, 이러한 오류들을 문법적으로 매우 유려하고 논리정연한 ’척’하며 포장하여 사용자에게 전달한다는 데 있다. 결정론적 정답지와 이를 검사하는 구조화된 오라클만이 이 유창한 껍데기를 뚫고, 내부에 숨은 단 하나의 잘못된 숫자(Factual)나 위배된 비즈니스 룰(Logical)을 적발해 낼 수 있는 유일한 거짓말 탐지기 역할을 수행한다.