14.7.4 사용자 피드백(User Feedback)과 오라클 판정 결과의 상관관계 분석
오라클의 채점 스크립트를 진화시키는 가장 방대하고 값싼 데이터 소스는 사내 도메인 전문가의 노동력이 아니라, 바로 프로덕션 환경에서 모델과 직접 호흡하고 있는 수백만 명의 ’최종 사용자(End-user)’다.
사용자가 모델의 답변에 누르는 좋아요/싫어요(Thumbs up/Thumbs down) 버튼, 혹은 “이 문장은 이해하기 너무 어렵습니다“라고 남긴 짧은 텍스트 피드백은 그 자체로 가장 거친 형태의 ‘야생 팩트 체크’ 결과물이다.
그러나 사용자 피드백은 매우 주관적이고 노이즈(Noise)가 심하다. 따라서 데이터 플라이휠(Data Flywheel)의 완성은 이 거친 사용자 피드백과 오라클의 차가운 시스템 판정 결과 사이의 **상관관계(Correlation)**를 데이터 파이프라인 안에서 교차 분석해 내는 것에 달려있다.
1. 노이즈 제거와 신호(Signal)의 교차 식별
사용자가 ’싫어요(Thumbs down)’를 눌렀다고 해서 무조건 AI 모델이 틀렸거나 오라클이 스키마를 잘못 채점한 것이 아니다. 단순히 기분이 나빴거나, 질문을 불친절하게 했기 때문일 수도 있다. 피드백 파이프라인은 이 노이즈 속에서 진정한 오라클의 실패를 다음과 같은 교차 검증 매트릭스를 통해 추출(Extraction)한다.
- [False Positive (오라클의 헛발질) 탐지]:
오라클은 해당 트랜잭션을 “100점(Pass), 매우 훌륭한 응답“으로 채점하고 파이프라인을 열어주었다. 그런데 사용자가 매우 분노하며 ’싫어요’와 함께 “답변이 완전히 틀렸음“이라는 텍스트 피드백을 연달아 남겼다. 이 불일치(Mismatch)는 오라클의 프롬프트나 지식 DB에 심각한 환각(Hallucination) 구멍이 뚫려있음을 암시하는 가장 강력한 알람이다. - [False Negative (오라클의 과잉 규제) 탐지]:
오라클이 해당 텐서를 “유해성이 의심된다(Fail)“고 차단하여 사용자에게 폴백 메시지(Fallback Message)를 보냈는데, 수많은 사용자들이 “정상적인 질문인데 왜 차단하느냐“며 고객센터에 항의(Feedback)를 넣었다. 이는 오라클의 차단 임계값(Threshold)이 너무 좁고 경직되어 있어 정상적인 비즈니스 트래픽을 파괴하고 있다는 증거가 된다.
2. DPO (Direct Preference Optimization) 모델 파인튜닝 연동
이렇게 오라클의 판정 결과와 사용자의 평가 사이의 상관관계가 분석되고 노이즈가 제거되면 정렬된 ’선호도 데이터셋(Preference Dataset)’이 탄생한다.
파이프라인은 이렇게 모인 “(사용자의 선호도) vs (오라클의 오진)” 데이터 쌍을 바탕으로 최근 각광받는 DPO (Direct Preference Optimization) 혹은 RLHF (Reinforcement Learning from Human Feedback) 형식의 학습 파이프라인으로 연결된다.
- 이 오차 데이터들은 단순히 오라클의 채점 스크립트만을 고치는 것을 넘어서, 궁극적으로 시스템의 척추인 메인 언어 모델(LLM) 자체의 **언어 생성 가중치(Generation Weights)**를 파인튜닝하여 모델이 인간이 진정으로 원하는 방향으로 답변을 생성하도록 본능을 수정한다.
3. 끝없는 반복, 완성형 데이터 플라이휠 (Data Flywheel)
수만 명의 사용자가 서비스를 사용할수록 오차 데이터가 수집되고, 이 수집된 엣지 케이스는 오라클의 잣대를 더욱 날카롭게 벼려내며(14.7.3), 동시에 메인 모델의 본능적 대답을 더 상식적으로 다듬어낸다(DPO 파인튜닝).
내일 배포될 모델은 오늘보다 덜 실수하고, 내일 배포될 오라클은 오늘보다 더 정교하게 환각을 잡아낸다.
14.7절에 걸쳐 설명된 이 **[라이브 트래픽 감지 -> 엣지케이스 포집 -> 신규 골든데이터 자동 생성 -> 오라클 파라미터 업데이트 -> 모델 재학습]**이라는 거대하고 아름다운 자동화의 고리(Loop). 기계가 스스로 자신의 에러를 파먹으며 무한히 똑똑해지는 이 엔터프라이즈 아키텍처야말로 우리가 도달하고자 했던 “AI 네이티브 소프트웨어 공학“의 가장 궁극적인 성배이자 이상적인 플라이휠(Flywheel)인 것이다.