10.9 사례 연구: 잘못된 골든 데이터셋으로 인한 회귀 테스트 실패 및 교훈 10.9.1 과적합(Overfitting)된 프롬프트 예제 데이터가 범용성을 해친 사례 10.9.2 모호한 평가 기준(Ambiguous Criteria)이 초래한 오라클의 신뢰도 하락 10.9.3 지식 베이스(Knowledge Base) 업데이트가 반영되지 않은 구형 골든 데이터의 오류