3.6.2.2 금지어(Blacklist) 및 필수 포함어(Whitelist) 기반 제어

3.6.2.2 금지어(Blacklist) 및 필수 포함어(Whitelist) 기반 제어

AI의 텍스트 생성에 ’창의성’이라는 요소가 부여될 때, 그 창의성은 종종 통제 불가능한 자유도로 변질된다. 엔터프라이즈 환경에서는 AI가 아무리 매끄러운 문장을 생성하더라도, 기업의 법적 책임(Liability)을 회피하거나 기밀(Confidentiality)을 유지하기 위해 반드시 배제해야 할 단어와 반드시 포함해야 할 단어가 존재한다.

결정론적 오라클(Oracle)은 AI의 창의성을 존중하기 이전에, 블랙리스트(Blacklist)와 화이트리스트(Whitelist)라는 기계적이고 자비 없는 필터망을 선행 배치하여 모델의 어휘 풀(Vocabulary Pool)을 통제해야 한다.

1. 금지어(Blacklist) 기반의 절대 차단(Absolute Blocking) 전략

금지어 정책은 “이 단어들을 쓰면 조금 어색해진다“는 권고의 수준이 아니라, “이 단어가 단 한 번이라도 출력되면 시스템을 일시 정지(Halt)한다“는 수준의 강력한 제약이다.

  • 오라클 적용 사례: 금융 챗봇이 주식 종목을 추천할 때 "보장합니다", "무조건", "상승할 것입니다"와 같은 확정적 수익 보장 단어들은 자본시장법 위반을 초래할 수 있다.
  • 구현 방식: 오라클 정답지에 정규표현식(Regex)의 형태로 금지어 목록을 하드코딩(Hard-coding)한다.
    {
      "blacklist_patterns": ["보장", "무조건", "절대적", "수익 보장"]
    }
    
- **채점 로직:** 오라클은 생성된 텍스트에 이 배열의 원소가 부분 일치(Substring Match)로 감지되는 즉시, 다른 어떠한 문맥적 훌륭함도 무시하고 상태를 `Fail` 및 `Critical Warning`으로 격발한다. 이 검사는 $O(N)$의 단순 문자열 탐색이므로, 모든 AI 결과값 파이프라인의 최전선(Front-line)에서 가장 저렴하고 빠르게 실행되어야 한다.

## 2.  필수 포함어(Whitelist) 기반의 무결성(Integrity) 강제


반대로 화이트리스트는 AI가 반드시 내뱉어야만 하는 최소한의 법적/논리적 방어선을 의미한다. 언어 모델은 내용을 요약하거나 친절하게 말하려는 경향성 때문에, 오히려 핵심적인 경고 문구나 필수 공지를 누락하는 경우가 잦다.

- **오라클 적용 사례:** 의학적 조언을 제공할 때, AI의 요약본이 얼마나 훌륭하든 간에 `"이 답변은 전문의의 진료를 대체할 수 없습니다"`라는 면책 조항(Disclaimer) 내지는 핵심 키워드(`"전문의 상담"`)가 빠져 있다면 실패한 응답이다.
- **구현 방식 및 채점:** 오라클은 `required_keywords`라는 화이트리스트 배열을 바탕으로, 생성된 텍스트에 이 단어 집합이 **모두 교집합(`AND` 조건)**으로 존재하는지를 검사한다.

## 3.  동의어(Synonym)의 함정과 의미론적 화이트리스트


하지만 단순한 키워드 화이트리스트는 "부작용"이라는 필수 단어 대신 AI가 "이상 반응"이라고 유창하게 동의어를 구사했을 때 이를 오답으로 처리하는 거짓 음성(False Negative)을 유발할 수 있다.

이를 해결하기 위해 오라클은 단어 수준의 일치를 넘어선 하이브리드(Hybrid) 접근을 취해야 한다.
1. **정규화된 동의어 사전(Synonym Dictionary):** 오라클 측에 `["부작용", "이상 반응", "부수 효과"]`를 묶어 동일한 화이트리스트 토큰 검사로 통과시키는 맵핑(Mapping) 사전을 구축한다.
2. **LLM-as-a-Judge 병행:** 법적 고지문처럼 문구의 원형 보존이 중요한 경우는 엄격한 문자열 일치를 고수하되, 의미적 포함이 중요한 문장은 평가용 AI가 "해당 의미의 문구가 포함되었는가?"를 이진(True/False)으로 판단하도록 위임한다.

금지어와 필수 포함어 정책은 비결정적 산출물에 명확한 울타리(Bounding Box)를 쳐주는 가장 강력한 결정론적 제약이다. 오라클은 이 두 리스트를 통해 모델의 치명적인 자유도를 박탈하고, 기업이 책임질 수 있는 안전한 텍스트만이 고객에게 전달되도록 강제하는 무균실(Cleanroom) 역할을 수행해야 한다.