8.8.4 인간 피드백(RLHF) 데이터를 활용한 오라클 임계값 미세 조정

오라클 시스템이 설정한 ‘Context Relevance $0.8$ 이상’, ’Faithfulness $1.0$ ’이라는 임계값(Threshold) 숫자들은 모세의 기적처럼 하늘에서 뚝 떨어진 절대적인 진리가 아니다. 이는 초기 시스템 설계자가 벤치마크 데이터셋에서 얻은 경험적(Heuristic) 감각으로 하드코딩한 초기값에 불과하다.

실제 서비스가 라이브러리에 릴리즈되고 진짜 사용자들의 날것(Raw) 트래픽이 쏟아져 들어오면, 이 고정된 임계값은 곧바로 딜레마를 낳게 된다.
임계값이 너무 높으면 완벽주의적 셧다운이 남발되어 시스템의 응답률(Fill Rate)이 떨어지고, 임계값이 너무 낮으면 Hallucination 방어망이 뚫리는 ’오탐/미탐(False Positive / False Negative)의 딜레마’에 빠지게 된다. 오라클의 임계값은 고정된 숫자가 아니라 시스템 가동 중 꾸준히 변화하고 적응해야 하는 모델링 대상이다. 이때 가장 확실한 그라운드 트루스는 최전방에서 AI와 대화하는 직접적인 사용자, 즉 **인간의 피드백(Human Feedback)**이다.

1. 명시적(Explicit) 및 암시적(Implicit) 피드백의 수집

오라클 임계값을 동적으로 조율하기 위해 파이프라인의 종단(Frontend)에는 강화학습을 위한 인간 피드백 수집 체계(RLHF; Reinforcement Learning from Human Feedback)가 보이지 않게 설계되어 있어야 한다.

명시적 피드백: 챗봇 답변 말단에 위치한 ‘좋아요(👍) / 싫어요(👎)’ 버튼이다. 사용자가 👎를 누르고 “엉뚱한 매뉴얼을 가져왔음“이라고 코멘트를 다는 순간, 이 평가는 오라클의 뼈아픈 오답 노트로 직결된다. (오라클은 통과시켰으나 인간이 기각한 사례)
암시적 피드백: 챗봇의 “모르겠습니다” (Refusal) 응답을 받은 후 사용자가 다른 단어로 5번 이상 재검색을 시도하다 이탈했다면, 이는 오라클의 임계값이 지나치게 엄격하여 유효한 검색을 차단했을(False Positive) 가능성을 시사하는 데이터다.

2. 오라클 임계값의 베이지안(Bayesian) 교정 로직

수집된 인간 피드백 메타데이터는 오라클 백엔드로 전송되어 각 평가 지표(Metric)별 임계값의 수학적 보정에 쓰인다. 이때 단순 평균이 아닌 베이지안 최적화(Bayesian Optimization)나 로지스틱 회귀(Logistic Regression)를 통해 임계값을 이동시킨다.

가설 설정 현상: 오라클이 Context Relevance 0.75를 준 답변들에 대해 사용자의 👎(싫어요, 동문서답) 비율이 80%를 넘겼다.
임계값 상향 트리거: 피드백 루프 컨트롤러는 “현재 도메인에서 Context Relevance 0.75 수준의 지식은 사용자에게 쓸모가 없다“라고 판단하고, 다음 날 새벽 파이프라인 배포 시 최소 임계값을 0.82로 기계적으로 상향 고정시킨다. 무능한 대답을 꾸역꾸역 하느니 차라리 Refusal(기각) 프로토콜을 태우는 것이 낫다는 데이터 주도(Data-Driven)적 의사결정이다.

3. 도메인 / 부서별 임계값(Threshold) 파편화 전략

RLHF 데이터가 축적되다 보면, 단일한 전역 임계값(Global Threshold)으로는 모든 사용자를 만족시킬 수 없다는 진실을 마주하게 된다. 예를 들어, 사내 법무팀의 계약서 관련 쿼리와 마케팅팀의 광고 문구 생성 쿼리는 본질적으로 요구하는 오라클의 엄격성이 전혀 다르다.

이 단계에서 오라클 시스템은 스스로의 임계값을 멀티-테넌트(Multi-tenant) 구조로 해체/파편화시킨다.

법무/재무 쿼리 라우팅: 사용자 메타데이터나 쿼리 의도를 파악하여 고위험(High-Risk) 도메인으로 분류 시, 자동 수정 횟수를 0회로 제한하고, 충실성(Faithfulness) 임계값을 1.0 (절대적 엄격)으로 할당한다.
크리에이티브/일반 Q&A 쿼리 라우팅: 저위험 도메인에서는 검색된 결과가 조금 빗나가거나(Context Relevance 0.6), 타겟 LLM이 파라메트릭 상식을 약간 섞더라도 유연한 창의성을 발휘할 수 있도록 충실성 임계값을 0.85 (유연함) 수준으로 대폭 낮추어 허용해 준다.

인간의 피드백은 딥러닝 모델의 파라미터를 튜닝하는 것을 넘어, 이제 오라클 미들웨어의 ’법봉’이 얼마나 세게 내리쳐져야 하는지를 결정론적으로 교정하는 마스터키로 작용한다. AI 피드백 루프는 이렇게 인간의 선호도라는 정답지 위를 구르며, 불확실성의 바다에서 가장 최적화된 방파제를 쌓아 올리게 된다.