8.9.2 의료(Medical) 도메인에서의 가이드라인 준수 및 금기 사항 필터링

의료 보건(Medical & Healthcare) 도메인에서의 RAG 시스템은 단순히 정보를 전달하는 매체가 아니라, 환자의 생명과 직결되는 임상적 의사결정(Clinical Decision Support) 시스템의 연장선으로 취급받는다. 여기서 타겟 LLM이 저지르는 할루시네이션은 단순한 ’오답’이 아니라 ’의료 사고(Medical Malpractice)’로 분류된다.

의학 논문이나 임상 가이드라인(Clinical Guidelines)을 검색하여 답변을 생성할 때, 가장 치명적인 위험은 두 약물 간의 **상호작용(Drug Interaction)**을 무시하거나, 특정 환자군(예: 임산부, 신부전 환자)에게 적용해서는 안 되는 금기(Contraindication) 사항을 모델이 자의적으로 생략하는 것이다. 따라서 Medical 오라클 아키텍처는 유창한 의학 지식의 생성보다, ’절대 해서는 안 되는 행위’를 기계적으로 필터링하는 **안전장치(Safety Guardrail)**의 역할에 아키텍처의 90% 이상을 할당해야 한다.

1. 금기 사항(Contraindication)의 명시적 추출 및 블랙리스트 제어

의료 문서(RAG Context)에는 대개 특정 처치나 약물 적용 시의 부작용 및 금기 환자군이 명시되어 있다. Medical 오라클은 타겟 모델이 텍스트를 생성하기 전에, 원본 문서로부터 이 ’금기 데이터’를 별도의 JSON 배열로 최우선 추출(Extraction)하는 백그라운드 파이프라인을 가동한다.

금기 엔티티 추출 (Adverse Entity Extraction): 문서에서 ["주의", "금기", "부작용", "상호작용", "투여 금지"] 등의 헤딩(Heading) 아래에 있는 텍스트를 파싱하여, 환자 상태(Condition: 임부), 금기 약물(Drug: NSAIDs), 패널티(Risk: 기형 발생 우려)를 엔티티화한다.
생성 텍스트 대조 (Cross-validation): 타겟 모델이 작성한 최종 답변 초안에, 방금 추출된 금기 약물이나 처치가 마치 ’권장되는 치료법’인 뉘앙스(예: “NSAIDs를 처방할 수 있습니다”)로 섞여 들어갔는지 오라클(Judge)이 매의 눈으로 스캐닝한다.
Fatal Error 셧다운: 만약 금기 사항을 누락한 채 환자에게 약물을 권고하는 텍스트가 0.1%라도 감지되면, 오라클은 심각한 보안 위반(Fatal Medical Error)으로 간주하고 해당 답변을 사용자에게 반환하기 전 100% 폐기한다.

2. 진단(Diagnosis) 및 처방(Prescription) 행위의 원천 차단

AI 헬스케어 시스템이 가이드라인 문서 기반으로 환자의 질문에 답할 때, 각국 의료법이 가장 엄격하게 금지하는 병목 지점은 ’AI 스스로가 의사인 것처럼 진단명을 확정하거나 약물을 직접 처방하는 행위’이다. 아무리 정확한 RAG 검색 결과를 바탕으로 하더라도, 챗봇이 “귀하의 증상은 A 질환이 확실하므로 B 약을 드세요“라고 출력하는 순간 시스템은 불법(Illegal)의 영역으로 넘어간다.

Medical 오라클은 프롬프트 내부에서부터 철저한 책임 회피(Disclaimer) 및 톤 다운(Tone-down) 룰셋을 강제한다.

타겟 LLM 프롬프트 가드레일:

“당신은 의사가 아니며 오직 제공된 문서의 내용을 요약해 주는 AI 어시스턴트입니다. 어떠한 경우에도 환자의 증상에 대해 진단을 내리거나 특정 치료를 확정적으로 지시해서는 안 됩니다. 모든 답변의 끝에는 반드시 의사와의 상담을 권고하는 디스클레이머(Disclaimer)를 첨부해야 합니다.”

평가 오라클 스캐닝: 타겟 모델의 응답에 ["진단합니다", "처방합니다", "확실합니다", "반드시 ~약을 복용하세요"]와 같은 지시적/확정적 동사가 감지되면 오라클은 이를 ’톤앤매너 위반(Tone Violation)’으로 적발하여 출력을 차단한다.

3. 계층적 임상 가이드라인(Hierarchical Clinical Guidelines)의 가중치 강제

의료 도메인에서는 같은 질환이라 하더라도 출처에 따라 지침이 다를 수 있다. 블로그나 뉴스를 긁어모은 정보와, 세계보건기구(WHO) 혹은 대한의학회가 발표한 ’표준 진료 지침(Standard Clinical Guideline)’이 RAG DB 안에서 충돌할 가능성이 농후하다.

Medical 오라클은 앞서 다루었던 ’문서 권위도(Authority Weighting)’를 극한으로 수직화(Hierarchical)한다.

Rank 1: 국제/국가 공인 표준 임상 가이드라인
Rank 2: 상급 종합병원의 내부 프로토콜
Rank 3: 동료 평가(Peer-reviewed)가 완료된 임상 논문 (RCT 등)
Rank 4: 일반 의료 기사 및 잡학

검색기가 Rank 1 문서와 Rank 3 문서를 동시에 가져와 타겟 LLM에게 주입했을 때, 타겟 LLM이 최신 논문(Rank 3)의 내용을 더 흥미롭거나 유창하게 여겨 답변의 메인 논리로 삼는다면 코어 오라클은 이 답변을 즉각 기각한다. 의학적 보수성에 입각하여, 오라클은 어떠한 논리적 부드러움이나 최신 트렌드보다도 ’가장 보수적이고 안전이 보장된 최상위 랭크(Rank 1)의 지침’만을 유일한 정답으로 채택하도록 수학적 가중치 폭격을 가한다.

의료 RAG에서의 오라클은 가장 훌륭한 주치의를 모방하는 것이 아니라, 절대로 의료 사고를 용납하지 않는 가장 보수적이고 피도 눈물도 없는 ’원리원칙주의자형 감사관(Strict Auditor)’으로 행동해야 한다. 창의성은 의학에서 환상(Illusion)이 아니라 곧 독성(Toxicity)이기 때문이다.