1.8.1. 사례 1: 항공사 챗봇의 약관 무시 및 환불 판례 (Air Canada 사례)

인공지능의 비결정성(Nondeterminism)이 야기하는 환각(Hallucination) 현상이 기업의 명시적인 규칙(Rule) 및 비즈니스 약관과 충돌했을 때, 그 법적, 경제적 책임이 전적으로 시스템 제공자에게 귀속됨을 보여준 가장 대표적이고 치명적인 판례가 바로 에어 캐나다(Air Canada) 챗봇 사건이다. 이 사례는 거대 언어 모델(LLM) 기반의 에이전트를 고객 대면 서비스(B2C)에 적용할 때, 결정론적 오라클(Deterministic Oracle) 방어망 없이 시스템을 배포하는 것이 얼마나 무모한 공학적 결단인지를 극명하게 입증한다.

1. 사건의 개요 및 발단

2022년 말, 한 승객이 가족의 장례식에 참석하기 위해 에어 캐나다의 고객 지원 챗봇(Chatbot)에게 조위금 운임(Bereavement Fare) 및 환불 정책에 대해 질의하였다. 에어 캐나다의 공식 웹사이트 약관에는 “조위금 운임 할인은 비행 이전에만 신청 가능하며, 이미 완료된 여행에 대해서는 사후 환불을 제공하지 않는다“라고 명시되어 정적인 데이터베이스에 저장되어 있었다.

그러나 확률론적 언어 생성 엔진으로 구동되던 챗봇은 이 명시적인 규칙을 무시하고, “티켓 발권 후 90일 이내에 양식을 제출하면 사후에도 요금의 차액을 환불받을 수 있다“는 환각(Hallucination)에 기반한 허위 정보를 생성하여 승객에게 응답했다. 승객은 AI 챗봇이 생성한 이 답변을 신뢰하여 정가로 항공권을 구매한 뒤 사후 환불을 청구하였으나, 항공사 측은 공식 약관 위배를 이유로 환불을 거절하였다.

2. 법적 공방과 시스템 귀속성의 선고

이 사건은 캐나다 브리티시컬럼비아주 민사해결재판소(Civil Resolution Tribunal, CRT)로 회부되었다. 재판 과정에서 에어 캐나다 측은 소프트웨어 공학적으로 매우 흥미로우면서도 무책임한 주장을 전개했다. 그들은 “챗봇은 원래 스스로의 행동에 책임을 지는 별개의 법적 주체(Separate Legal Entity)이며, 챗봇이 웹사이트의 정적 링크와 다른 잘못된 정보를 생성한 것은 회사의 책임이 아니다“라고 주장했다.

그러나 재판소는 이러한 주장을 일축하고 승객의 승소를 판결했다. 재판소는 “챗봇은 단순히 웹사이트의 상호작용 가능한 구성 요소(Interactive Component)일 뿐이며, 항공사는 챗봇이 생성하여 출력한 모든 정보적 결과물(Output)의 정확성에 대해 전적인 책임을 져야 한다“고 명시했다. 이는 AI가 확률적으로 뱉어낸 비결정적 출력물이라 하더라도, 그것이 프로덕션 환경을 통해 고객에게 전달된 순간 기업의 ’결정론적 약관(Contractual Commitment)’으로 법적 효력을 발휘함을 천명한 기념비적인 판결이다.

3. 공학적 원인 분석: 결정론적 팩트 체커(Oracle)의 부재

이 비즈니스 실패 사례를 소프트웨어 아키텍처 관점에서 해부하면, AI 모듈의 단순한 성능 부족이 아니라 ‘검증 파이프라인의 아키텍처 설계 결함’ 으로 귀결됨을 알 수 있다.

지식의 경계(Boundary of Knowledge) 붕괴: 챗봇 모델은 내부의 확률적 가중치망 속에서 생성 로직을 처리했을 뿐, 생성된 답변이 회사의 확정된 약관(Ground Truth)과 일치하는지 대조하는 후처리 검증 메커니즘을 거치지 않았다.
오라클 계층(Oracle Layer)의 부재: “환불은 사전 신청만 가능“이라는 절대 불변의 비즈니스 룰을 강제하는 정책 엔진(Policy Engine)이나 RAG(Retrieval-Augmented Generation) 시스템 내의 팩트 크로스체킹(Cross-checking) 오라클이 구현되어 있지 않았다. 그 결과 언어 모델의 유려한 ’소설 쓰기’가 그대로 사용자 인터페이스(UI)로 유출되는, 전형적인 통제 불능 아키텍처(Uncontrolled Architecture)가 배포된 것이다.

graph TD
    subgraph Air Canada Chatbot Failure System
        A[승객의 환불 절차 질의] --> B(LLM 엔진\n자연어 생성)
        B -->|확률론적 환각 발생| C[사후 환불 가능\n허위 규칙 생성]
        C -.->|No Verification Oracle| D((고객에게 전송))
        D --> E[소송 패소 및 브랜드\n신뢰도 하락, 배상 책임]
        class C,D,E fail;
    end

    subgraph Ideal Oracle-Driven Architecture
        F[승객의 환불 절차 질의] --> G(LLM 엔진\n자연어 생성)
        G --> H{Policy DB & Rule Oracle\n정답지 교차 검증}
        H -->|불일치 탐지: 환불 불가 규정 위배| I[생성 차단 및 Fallback\n안전 응답 출력]
        H -->|일치: 검증 완료| J((고객에게 전송))
        class I,J success;
    end

    classDef fail fill:#fbb,stroke:#f00,stroke-width:2px;
    classDef success fill:#bfb,stroke:#090,stroke-width:2px;

4. 소결: 무제한적 텍스트 생성의 위험성

Air Canada 사례는 기업이 B2C 환경에서 AI를 도입할 때 명심해야 할 잔혹한 진리를 보여준다. 고객 대면 시스템에서 AI가 매번 다른 단어나 문장 구조로 친절하게 대답하는 것(비결정성)은 ’사용자 경험(UX) 최적화’로 포장될 수 있으나, 그 이면에서 비즈니스의 핵심 제약 조건(Constraints) 을 위반하는 순간 단순한 버그(Bug)를 넘어선 재무적 재난으로 직결된다.

따라서 텍스트 생성 시스템을 설계할 때는, 무제한적인 자유로운 문장 생성을 허용하는 대신, 출력의 결과물이 무결성을 통과했는지 최종 검토하는 룰루 엔진(Rule Engine) 형태의 결정론적 오라클을 모델과 클라이언트의 물리적 통신망 사이에 덧대어야만 한다.