14.4 평가 지표(Evaluation Metrics)의 자동화 및 시각화 14.4.1 결정론적 지표: 정확도(Accuracy), 포맷 준수율, 스키마 유효성 14.4.2 의미론적 지표: 임베딩 유사도(Cosine Similarity), BLEU/ROUGE, LLM-as-a-Judge 점수 14.4.3 성능 지표: 토큰 당 지연 시간(Latency), 처리량(Throughput), 비용 추적 14.4.4 CI 대시보드 내 오라클 검증 리포트 통합 및 시각화 기법