2.4.2.2. 주관적 품질(가독성, 톤앤매너)에 대한 객관적(Objective) 지표화의 난제

다중 정답(Multiple Valid Answers)의 딜레마를 통해 ’내용적 사실성(Fact)’의 허용 공간을 확보했다 하더라도, 거대 언어 모델(LLM) 검증의 여정에서 더 깊고 극악한 심연이 엔지니어를 기다리고 있다. 바로 **‘주관적 품질(Subjective Quality)’**의 객관적 지표화 문제다.

전통적 엔터프라이즈(Enterprise) 시스템에서 품질(Quality)이란 ‘응답 속도 200ms 이하’, ’메모리 누수 없음’과 같이 하드웨어와 계측기로 측정 가능한 물리적 수치였다. 그러나 인간의 언어를 구사하는 AI가 프론트엔드(Frontend)의 목소리를 대신하게 됨으로써, 기업은 이제 AI의 출력물이 “우리 브랜드의 정체성(Brand Identity)을 대변하는가?”, “고객이 불쾌함을 느끼지 않을 만큼 정중(Polite)한가?”, “초등학생이 읽어도 이해할 만큼 매끄러운(Readable) 문장인가?“라는 철학적이고 미학적인 기준을 테스트 파이프라인 안에서 통과시켜야만 하는 절체절명의 과제를 안게 되었다.

본 절에서는 소프트웨어 공학이 언어학과 심리학의 영역인 주관적 품질을 0과 1의 결정론적 숫자로 강제 변환(Quantification)하려 시도했던 계량적 접근법들의 한계와 부작용을 해부한다.

1. 정성적 가치의 정량화(Quantification)가 초래한 왜곡

공학자들은 주관적인 언어의 품질을 객관화하기 위해 전통적인 자연어 처리(NLP) 분야의 통계적 휴리스틱 계측 도구들을 CI/CD 파이프라인의 오라클(Oracle)로 끌어들였다. 그러나 이 도구들은 문자적 일치성(Syntactic Overlap)을 측정할 뿐, 인간이 체감하는 형이상학적 ’가독성’이나 ’톤앤매너(Tone & Manner)’를 담아낼 수 없는 태생적 한계를 지니고 있었다.

1.1 N-gram 기반 텍스트 유사도 지표의 함정

기계 번역이나 텍스트 요약 분야에서 주관성을 배제하기 위해 오랫동안 의존해 온 지표는 **BLEU(Bilingual Evaluation Understudy)**와 ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 스코어(Score)였다.

이 지표들은 인간이 미리 작성해 둔 모범 답안(Reference)과 AI 모델의 생성 결과(Hypothesis) 사이에 똑같은 단어(N-gram)가 얼마나 많이 겹치는가를 확률식으로 계산한다.
한계: “비가 오니 우산을 챙기세요“라는 모범 답안에 대하여 모델이 “우산을 잊지 마세요. 비가 옵니다“라고 생성하면, N-gram 순서가 뒤섞였다는 이유만으로 BLEU 점수는 형편없이 추락한다. 더 훌륭한 문장 구조(가독성)를 창조하더라도 기존 데이터를 벗어나면 ’실패(Fail)’로 채점하는 치명적인 위음성(False Negative)을 발생시킨다.

1.2 기계적 가독성 공식의 한계

문장이 읽기 쉬운가를 수치화하기 위해 플레시-킨케이드 가독성 지수(Flesch-Kincaid Readability Tests) 등의 공식을 오라클로 편입시키는 시도도 존재한다.

이 공식은 오직 ’단어의 음절 수’와 ’문장당 단어의 개수’를 입력 파라미터로 받아 수학적으로 학년(Grade) 수준을 산출한다.
한계: “장미는 빨갛다(Roses are red)” 같은 초등학생 수준의 단어로 쓰여진 글이라 할지라도, 그 문맥이 칸트(Kant)의 순수이성비판을 다루는 난해한 철학적 내용이라면 실제 독자는 한 줄도 이해하지 못한다. 기계적인 식(Formula)은 맥락적 난해함을 결코 측정할 수 없다.

2. 톤앤매너(Tone & Manner): 기업 아이덴티티의 블랙박스

가독성보다 한 차원 더 높은 테스트 불가 영역은 바로 **톤앤매너(Tone & Manner)**다.
은행의 금융 AI 어시스턴트는 ’무겁고 신뢰감 있는 전문가의 어투’를 써야 하고, 뷰티 플랫폼의 AI 챗봇은 ’트렌디하고 발랄한 어투’를 써야 한다.

graph TD
    subgraph Subjective Quality Dimensions
        T[Text Output] --> Tone[Tone: Is it Polite or Trendy?]
        T --> Read[Readability: Is it Fluent or Clunky?]
        T --> Emp[Empathy: Does it sound empathetic?]
    end

    subgraph The Engineering Wall (Quantification Gap)
        Tone -.-> |Cannot convert to Math| Wall((Measurement \n Wall))
        Read -.-> |Formulas are blind to Context| Wall
        Emp -.-> |Requires Human Emotion| Wall
    end
    
    subgraph Fallback Mechanisms
        Wall --> H_Oracle[Human Labeling \n (Cost Explosion)]
        Wall --> Prompt_Check[Keyword Regex \n e.g. '환영합니다', '고객님' \n (Shallow Verification)]
    end
    
    style Wall fill:#fdd,stroke:#d00,stroke-width:2px;

이러한 브랜드 어투(Tone)를 0과 1 단위 테스트 트리에 넣기 위해서는 결국 **“정중함(Politeness)의 역치(Threshold)값을 몇 퍼센트(%)로 정의할 것인가?”**라는 황당한 공학적 질문에 부딪힌다.
결국 테스트 자동화 파이프라인에서 톤앤매너를 지표화하는 시도는 “해당 문장에 요, 습니다(존댓말)가 몇 개 포함되어 있는가?“를 세는 저급한 정규표현식(Regex) 체크로 퇴화(Regression)하거나, 결국 막대한 비용을 들여 인간 작업자(Human Rater)를 고용하는 ’인간 오라클(Human Oracle)’의 병목(2.3.5절)으로 직행할 수밖에 없다.

3. 소결: 주관성의 불가해함이 남긴 테스팅의 숙제

LLM이 산출한 결과물의 가독성과 톤앤매너는 본질적으로 ’연산(Computation)’의 대상이 아니라 ’해석(Interpretation)’과 ’감상(Appreciation)’의 대상이다. 데카르트적인 소프트웨어 품질 보증(QA) 파이프라인은 이 해석의 영역을 계량할 잣대를 가지고 있지 않다.

아무리 정교한 BLEU 점수 공식과 형태소 분석기를 덕지덕지 이어 붙이더라도, 최종 사용자가 그 문장을 보고 ’불쾌함(Bad Tone)’을 느낀다면 그 시스템의 QA 커버리지 100%는 아무 쓸모 없는 종이 쪼가리로 전락한다.

이처럼 창의적이고 주관적인 생성물에 대한 ‘참/거짓(정답)’ 판별 구조가 모두 붕괴된 폐허 속에서, 설상가상으로 LLM은 자신이 모르는 사실마저 마치 진실인 것처럼 매끄럽고 당당하게 위조해 내는 최악의 결함, 즉 **‘환각(Hallucination)’**마저 토해낸다. 다음 장(2.4.3절)에서는 가독성이나 어투와 같은 포장지의 문제가 아니라, 내용물의 뼈대 자체를 파괴하는 환각 현상과 그 진위를 검증해야 하는 끔찍한 복잡성에 대해 심층적으로 다룬다.