2.4.2. ’정답’의 정의 모호성: 창의적 생성물에 대한 참/거짓 판별의 어려움
전통적 소프트웨어 공학이 그토록 견고할 수 있었던 이유는 취급하는 데이터가 결정론적일 뿐만 아니라, 그 데이터가 향하는 ’목적지(Expected Result)’의 정의가 수학적으로 명료했기 때문이다. 데이터베이스의 질의 결과는 일치(Match) 혹은 불일치(Mismatch)였고, 통신 프로토콜은 수신(ACK) 아니면 손실(Loss)이라는 이분법(Binary) 체계 안에 완벽히 수렴했다.
그러나 인공지능(AI), 특히 거대 언어 모델(LLM)이 인간의 ’언어’와 ’창의성’의 영역에 진입하면서 이 이분법적 수리 체계는 완전히 파괴되었다. 언어 모델의 반환값은 0과 1이 아닌, 문맥(Context)과 뉘앙스(Nuance), 그리고 가치 기준에 따라 ‘맞을 수도 있고 틀릴 수도 있는’ 지독한 회색 지대(Grey Zone)를 형성한다.
본 절에서는 “무엇이 기계의 올바른 정답인가?“에 대한 정의 자체가 붕괴되는 이 모호성의 심연을 분석하고, 창의적 생성물이 왜 전통적인 오라클 체계를 무력화시키는지에 특화하여 탐구한다.
1. 정답 공간의 붕괴: 객관적 명제에서 주관적 창작으로
기존의 소프트웨어 테스팅이 “이 계산이 맞는가?(Is this calculation correct?)“를 묻는 과정이었다면, 현대의 AI 테스팅은 “이 시(Poem)가 감동적인가?”, 혹은 **“이 마케팅 문구가 20대 소비자의 이목을 끌 수 있는가?”**를 묻는 과정으로 변질되었다.
이러한 도메인에서 오라클을 설계하려는 공학자는 곧바로 다음과 같은 철학적이고 치명적인 딜레마에 부딪히게 된다.
- 다원적 가치의 충돌: 창의적 텍스트 생성에서 ’정답’이란 평가자의 문화적 배경, 기분, 혹은 비즈니스 목표에 따라 시시각각 변한다.
- 참/거짓(True/False)의 증발: “자연스러운가?”, “예의 바른가?”, “창의적인가?“라는 기대치(Expected Output)는 부울(Boolean) 대수로 표현할 수 없다. 코드는 0과 1로 컴파일되지만, 언어의 질적(Qualitative) 평가는 결코 스칼라(Scalar) 값으로 치환되지 않기 때문이다.
2. 모호성을 구성하는 두 가지 핵심 난제
이처럼 정답의 정의 자체가 흔들리는 현상은 막연한 추상적 공포가 아니라, AI 파이프라인(CI/CD)을 구축하는 엔지니어들의 코드를 직접적으로 가로막는 실체적인 공학적 장벽이다. 이 장벽을 다음 하위 절들에서 상세히 타격하겠지만, 개괄적인 모호성의 메커니즘을 짚어보면 다음과 같다.
2.1 정답의 방향성이 무한대: 다중 정답(Multiple Valid Answers)의 딜레마
“서울의 날씨를 예보해 줘“라는 질문 하나에, 시스템은 다음과 같이 수백 가지의 완벽히 다른 문장 궤적을 만들어낼 수 있다.
- “오늘 서울은 비가 올 확률이 80%입니다.”
- “우산을 챙기시는 게 좋겠어요. 서울 지역에 강한 소나기가 예상됩니다.”
- “강수 확률 80%, 기온 23도입니다.”
이 세 가지 답변은 텍스트(String)의 해시(Hash)값도 다르고 길이도 다르지만, 비즈니스 관점에서는 모두 동등한 ’100점짜리 정답’들이다. 이처럼 무한히 분기되는 정답의 벡터를 모두 포용하는 허브(Hub) 검증기를 구축하는 것은 전통적 테스트 스크립트로는 근본적으로 불가능하다.
2.2 품질의 스펙트럼 화: 주관성의 객관화 난제
더 나아가, 문법적으로 완벽한 문장이라 할지라도 ’어조(Tone & Manner)’가 비즈니스의 기대에 미치지 못한다면 그것은 오답(Fail)이다. 금융권 고객 대응 챗봇이 “고객님, 잔고가 없네용 ㅠㅠ“라고 대답했다면, 이는 사실 관계는 참(True)이지만 비즈니스 오라클 관점에서는 치명적인 결함(Fatal Error)이다.
이처럼 ‘가독성’, ‘정중함’, ’브랜드 정체성(Identity)’이라는 형이상학적이고 주관적인 개념을 어떻게 기계가 0과 1로 판독하게 만들 것인가? 이는 소프트웨어 공학이 사회과학 및 언어학과 정면으로 충돌하는 최전선이다.
graph LR
subgraph Traditional Paradigm
T_Env(Deterministic Environment) -->|Function| O1[Output: '42']
O1 -->|Boolean Check: x == 42| Pass1((PASS/FAIL))
end
subgraph GenAI Paradigm
G_Env(Stochastic/Creative Environment) -->|LLM| O2A[Output: '정중한 거절']
G_Env -->|LLM| O2B[Output: '농담 섞인 거절']
G_Env -->|LLM| O2C[Output: '딱딱한 정보 전달']
O2A --> Amb{Is it 'Appropriate'?}
O2B --> Amb
O2C --> Amb
Amb -.->|Human Subjectivity| Pass2A(Pass-ish?)
Amb -.->|Brand Tone Policy| Pass2B(Fail-ish?)
end
style Pass1 fill:#efe,stroke:#3c3,stroke-width:2px;
style Amb fill:#fdd,stroke:#d00,stroke-width:2px;
3. 하위 절의 전개 흐름
결정론적 공학과 창의적 모호성이 충돌하는 이 딜레마를 세부적으로 타파하기 위해, 이어지는 하위 절에서는 위에서 제기된 문제들의 심연을 해부한다.
- 2.4.2.1. 다중 정답(Multiple Valid Answers)을 허용하는 테스트 케이스의 본질: 이분법적 기대 결과를 버리고, 무한한 동치성(Equivalence)을 품어야 하는 AI 테스트 구조의 변경을 수학적으로 조망한다.
- 2.4.2.2. 주관적 품질(가독성, 톤앤매너)에 대한 객관적(Objective) 지표화의 난제: “매끄럽다”, “정중하다“는 인간의 미학적 평가를 기계적 휴리스틱(BLEU, ROUGE 등)이나 프롬프트 채점표로 우겨넣으려는 공학계의 분투와 그 태생적 한계를 폭로할 것이다.
이 철학적 붕괴 현상에 대한 명확한 이해 없이는, 결코 이어지는 “그렇다면 이 불완전한 텍스트 덩어리를 가지고 대체 어떻게 결정론적 테스트 아키텍처를 세워야 하는가?(Chapter 3)” 에 대한 대답에 가닿을 수 없을 것이다.