자연어 생성 모델 성능 평가 안내서

1. 자연어 생성(NLG) 모델 평가의 본질과 중요성

1.1 자연어 생성(NLG)의 정의와 발전

자연어 생성(Natural Language Generation, NLG)은 인공지능(AI) 프로그래밍을 활용하여 정형 또는 비정형 데이터로부터 인간이 이해할 수 있는 자연스러운 이야기, 즉 서사(narrative)를 텍스트나 음성 형태로 만들어내는 기술을 총칭한다.1 이는 단순히 데이터를 텍스트로 변환하는 수준을 넘어, 특정 키워드나 주제를 기반으로 인간과 유사한 대화형 텍스트를 생성하는 것을 궁극적인 목표로 한다.3 NLG는 자연어 처리(Natural Language Processing, NLP), 자연어 이해(Natural Language Understanding, NLU), 계산 언어학, 인간-기계 상호작용 등 다양한 분야와 밀접한 관련을 맺고 있다.1

NLG 기술은 지난 수십 년간 괄목할 만한 발전을 거듭해왔다. 초기 NLG 시스템은 미리 정의된 문장 템플릿에 변수를 채워 넣는 **템플릿 기반 시스템(Template-based System)**이나, “if-then“과 같은 논리 규칙에 따라 텍스트를 생성하는 **규칙 기반 시스템(Rule-based System)**에 의존했다.6 이러한 접근 방식은 결과물의 일관성을 보장하지만, 정해진 사용 사례를 벗어나는 유연성이 부족하다는 명백한 한계를 가졌다.6 이후 대규모 데이터셋에서 통계적 패턴을 학습하여 다음 단어를 예측하는 통계적 기계 학습(Statistical Machine Learning) 방법론이 등장했다. 은닉 마르코프 모델(Hidden Markov Models)과 같은 알고리즘은 이전 방식보다 유연성을 제공했지만, 방대한 양의 학습 데이터를 필요로 했다.6

딥러닝의 부상은 NLG 기술에 혁신을 가져왔다. 순환 신경망(Recurrent Neural Networks, RNN)과 같은 모델은 순차적인 데이터(문장의 단어 등)를 효과적으로 처리하며 기계 번역과 같은 복잡한 작업에서 뛰어난 성능을 보였다.6 그리고 현재, 트랜스포머(Transformer) 아키텍처의 등장은 NLG 분야에서 가장 효과적인 기술적 토대를 마련했다.5 GPT(Generative Pre-trained Transformer)나 BERT(Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머 기반 모델들은 셀프 어텐션(self-attention) 메커니즘을 통해 문장 내 단어들 간의 장거리 의존성을 포착하고, 이를 통해 문맥을 깊이 있게 이해한다.6 이러한 발전은 정형화되고 예측 가능한 구조에서 벗어나, 유동적이고 상황에 적응하는 모델로의 진화를 의미하며, 이는 NLG 기술 여정의 중요한 이정표로 평가된다.5

NLG, NLU, NLP의 관계를 명확히 이해하는 것은 필수적이다. NLP는 컴퓨터가 인간의 언어를 이해하고 생성하는 모든 기술을 포괄하는 상위 개념이다.2 그 하위에 NLU와 NLG가 존재한다.

NLU는 입력된 인간 언어의 의미, 의도, 개체 등을 파악하는 데 중점을 둔다.2 반면, NLG는 NLU를 통해 이해한 내용이나 주어진 데이터를 바탕으로 컴퓨터가 인간의 언어로 의미 있는 결과물을 생성하는 데 초점을 맞춘다.2 이 두 기술은 챗봇이나 기계 번역 시스템에서처럼 입력을 이해(NLU)하고 적절한 응답을 생성(NLG)하는 과정에서 상호 보완적으로 작동한다.2

1.2 NLG 평가의 핵심적 역할과 필요성

NLG 모델의 성능 평가는 단순히 학술적인 성과 측정을 넘어, 기술의 발전과 실제 적용에 있어 필수불가결한 과정이다. 평가는 여러 측면에서 핵심적인 역할을 수행한다.

첫째, 평가는 모델의 선택과 개선을 위한 객관적 기준을 제공한다. 수많은 기반 모델과 그 변형 모델 중에서 특정 과업에 가장 적합한 모델을 선택하기 위해서는 정량적이고 신뢰할 수 있는 평가가 선행되어야 한다.8 또한, 선택된 모델을 특정 데이터셋으로 미세조정(fine-tuning)하는 과정에서 이루어지는 성능 향상을 확신하고, 개선 방향을 설정하기 위해서도 정확한 평가는 필수적이다.8

둘째, 평가는 사용자 만족도 및 시스템 신뢰도와 직결된다. NLG 시스템의 최종 사용자는 인간이며, 생성된 텍스트의 품질이 사용자의 경험을 좌우한다. 모델이 생성한 응답의 관련성(relevance), 일관성(coherence), 유창성(fluency) 등을 체계적으로 평가함으로써, 시스템이 사용자의 기대를 충족시키고 있는지 확인할 수 있다.8 신뢰할 수 있는 고품질의 텍스트를 꾸준히 생성하는 모델만이 사용자의 신뢰를 얻고 지속적으로 사용될 수 있다.8

셋째, 평가는 모델의 안전성과 공정성을 확보하는 데 결정적인 역할을 한다. NLG 모델은 훈련 데이터에 내재된 편견을 학습하여 유해하거나 차별적인 콘텐츠를 생성할 위험이 있다.10 체계적인 평가를 통해 이러한 유해 반응을 사전에 식별하고 완화하는 것은 책임감 있는 AI 개발의 핵심 요소다.9 이는 잠재적인 사회적 피해를 예방하고 기술의 윤리적 사용을 보장하기 위한 안전장치 역할을 한다.

1.3 NLG 평가의 고유한 난제

NLG 모델을 평가하는 것은 다른 AI 분야의 평가와는 다른 고유한 난제들을 안고 있다. 이러한 어려움은 자연어 자체가 지닌 복잡성과 다의성에서 기인한다.

가장 근본적인 문제는 **정답의 부재(Absence of a Single Ground Truth)**다. 동일한 의미를 전달하더라도 문법적으로나 의미적으로 올바른 표현은 무수히 많을 수 있다.13 예를 들어, “The cat is on the mat.“이라는 문장은 “A cat rests upon the rug.“으로도 표현될 수 있다. 이처럼 단일 정답 문장에 기반하여 생성된 문장의 품질을 평가하는 것은 본질적인 한계를 가질 수밖에 없다.

또한, 텍스트의 품질은 단일 차원으로 측정될 수 없는 다면적(multi-faceted) 특성을 지닌다. 좋은 텍스트란 문법적으로 유창할 뿐만 아니라, 논리적으로 일관되고, 주어진 주제와 관련성이 높으며, 담고 있는 정보가 사실과 부합해야 한다.8 이처럼 유창성, 일관성, 관련성, 사실성 등 다양한 품질 기준이 존재하기 때문에, 단 하나의 평가 지표만으로는 모델의 전반적인 성능을 온전히 파악하기 매우 어렵다.14

이러한 난제는 NLG 모델이 발전함에 따라 더욱 심화되는 경향을 보인다. 초기 NLG 시스템은 문법적 오류나 부자연스러운 표현이 주된 평가 대상이었기에, 어휘의 표면적 일치도를 측정하는 지표들이 어느 정도 유효성을 가졌다.6 그러나 트랜스포머 기반의 최신 대규모 언어 모델(LLM)들은 인간과 구별하기 어려울 정도로 유창한 텍스트를 생성한다.5 이로 인해 평가의 초점은 ’문법적으로 옳은가?’라는 형식적 질문에서 ‘내용이 사실에 부합하는가?’, ‘논리적으로 일관적인가?’, ’미묘한 편향을 담고 있지는 않은가?’와 같은 내용적, 의미적 질문으로 이동하게 되었다.9 이러한 변화는 BLEU나 ROUGE와 같이 어휘 중첩에 기반한 전통적인 지표들의 유효성을 급격히 감소시켰다. 이들 지표는 유창하지만 내용이 틀린 문장과 유창하고 내용도 올바른 문장을 효과적으로 구분하지 못하기 때문이다.16 결과적으로, 모델의 성능이 향상될수록 전통적인 자동 평가 지표와 실제 인간이 인지하는 텍스트 품질 사이의 격차, 즉 **‘평가 격차(Evaluation Gap)’**는 더욱 벌어지게 된다. 이는 기존 평가 패러다임의 한계를 명확히 드러내며, 의미론적 유사도나 사실성 검증과 같은 새로운 평가 방법론의 필요성을 강력하게 시사한다.

2. 평가 패러다임: 자동 평가와 인간 평가의 역할과 한계

NLG 모델의 성능을 평가하는 방법은 크게 인간 평가(Human Evaluation)와 자동 평가(Automatic Evaluation)라는 두 가지 패러다임으로 나뉜다. 각각은 뚜렷한 장단점을 가지며, 상호 보완적인 관계 속에서 발전해왔다.

2.1 인간 평가: ’골드 스탠더드’의 위상과 현실적 제약

인간 평가는 NLG 평가 분야에서 오랫동안 ‘골드 스탠더드(gold standard)’ 또는 사실상의 표준(de-facto standard)으로 여겨져 왔다.14 그 이유는 인간 평가자만이 생성된 텍스트에 담긴 미묘한 언어적 뉘앙스, 문맥적 적절성, 논리적 흐름, 창의성, 그리고 사실 여부 등을 가장 정확하고 종합적으로 판단할 수 있기 때문이다.17 자동화된 지표가 놓치기 쉬운 고차원적인 품질 측면을 평가할 수 있다는 점에서 그 가치는 절대적이다.

하지만 ’골드 스탠더드’라는 위상에도 불구하고, 인간 평가는 현실적인 제약에서 자유롭지 못하다. 가장 큰 단점은 높은 비용과 시간, 그리고 낮은 확장성이다.13 전문 평가자를 고용하고 평가를 진행하는 데는 상당한 예산과 시간이 소요되며, 이로 인해 대규모 데이터셋 전체가 아닌 일부 샘플에 대해서만 제한적으로 평가를 수행하는 것이 일반적이다.13

또한, 평가자의 주관성과 비일관성은 결과의 신뢰도를 위협하는 고질적인 문제다. 동일한 텍스트에 대해서도 평가자마다 기준이 달라 평가 결과가 상이할 수 있으며, 한 평가자 내에서도 피로도나 집중력 저하로 인해 일관성이 떨어질 수 있다.17 이러한 문제로 인해 평가자 간 합의도(inter-annotator agreement)가 낮게 나타나는 경우가 많으며, 이는 평가 결과의 객관성을 확보하는 데 큰 걸림돌이 된다.21 평가자를 사전에 체계적으로 훈련시키는 것 또한 상당한 노력이 필요한 어려운 과제다.21

이러한 문제점을 개선하기 위해 최근 인간 평가 방법론도 진화하고 있다. 과거에는 단순히 1점에서 5점까지의 리커트 척도(Likert scale)로 점수를 매기는 방식이 주를 이루었으나, 최근에는 특정 분야의 전문 지식을 갖춘 평가자가 생성된 텍스트를 직접 검토하며 문법 오류, 사실관계 오류, 논리적 모순 등을 구체적으로 찾아 표시(annotate)하는 방식이 선호되고 있다.26 이러한 접근은 평가의 주관성을 줄이고, 모델의 어떤 부분이 문제인지를 구체적으로 파악할 수 있게 하여 더 의미 있고 실행 가능한 피드백을 제공한다.26

2.2 자동 평가: 필요성과 진화

자동 평가 지표(Automatic Evaluation Metrics, AEMs)는 인간 평가의 현실적 제약을 보완하기 위해 개발되었다. 자동 평가의 가장 큰 장점은 속도와 비용 효율성이다.14 모델 개발 과정에서 수많은 실험과 반복이 필요한데, 이때마다 인간 평가를 수행하는 것은 불가능하다. 자동 평가 지표는 개발자들이 모델을 수정하고 재학습시킬 때마다 빠르고 일관된 피드백을 제공함으로써 연구 개발의 속도를 크게 향상시킨다.

자동 평가 기술은 NLG 기술의 발전과 궤를 같이하며 진화해왔다. 초기에는 BLEU나 ROUGE와 같이 생성된 텍스트와 정답 텍스트 간의 단어나 구(n-gram)가 얼마나 겹치는지를 계산하는 어휘 중첩 기반(lexical overlap-based) 방식이 주를 이루었다.14 이러한 지표들은 계산이 간단하고 직관적이라는 장점이 있었지만, 동의어나 다른 표현을 사용해 의미적으로는 동일한 문장을 제대로 평가하지 못한다는 명백한 한계를 가졌다.26

이러한 한계를 극복하기 위해, 단어의 의미를 벡터 공간에 표현하는 워드 임베딩(word embedding) 기술을 활용한 의미적 유사도 기반(semantic similarity-based) 지표들이 등장했다. BERTScore와 같은 지표들은 문맥을 고려한 임베딩을 사용하여 표면적인 형태가 다르더라도 의미가 유사한 문장들을 더 정확하게 평가할 수 있게 되었다.14

최근에는 한 걸음 더 나아가, GPT-4와 같은 강력한 대규모 언어 모델(LLM) 자체를 평가자로 활용하는 LLM 기반 평가자(LLM-as-a-Judge) 패러다임이 새로운 대안으로 부상하고 있다.14 이는 자동 평가의 확장성과 인간 평가의 섬세함을 결합하려는 시도로, 현재 활발히 연구되고 있는 분야다.

2.3 상관관계의 딜레마: 두 패러다임의 간극

자동 평가 지표의 궁극적인 목표는 인간의 복합적인 판단을 가능한 한 정확하게 근사(approximate)하는 것이다.21 따라서, 특정 자동 평가 지표의 점수와 인간 평가 점수 간의 **상관관계(correlation)**는 그 지표의 유효성을 판단하는 핵심적인 척도로 사용된다. 상관관계가 높을수록 해당 자동 지표가 인간의 품질 판단을 잘 대변한다고 볼 수 있다.

일부 연구에서는 NIST와 같은 지표가 특정 조건 하에서 인간의 판단과 0.8 이상의 높은 상관관계를 보인다고 보고하기도 했다.21 하지만 대다수의 연구에서는 널리 사용되는 BLEU, ROUGE와 같은 지표들이 인간의 판단과 약한 상관관계만을 보인다는 결과를 제시하며 그 유효성에 의문을 제기해왔다.19 특히, 이러한 지표들은 훈련 데이터에 자주 등장하는 단어나 구문을 많이 사용하는, 즉 빈도 기반의 보수적인 생성 모델에 더 높은 점수를 주는 경향이 있어 모델의 창의성이나 표현의 다양성을 제대로 평가하지 못하는 편향을 보인다.21

이러한 현상은 자동 평가 지표가 가진 본질적인 역설, 즉 **‘대리 지표의 함정(Proxy Trap)’**으로 설명될 수 있다. 자동 평가 지표는 본질적으로 ’실제 텍스트 품질’이라는 궁극적인 목표를 측정하기 위한 ’대리 지표(proxy)’다. 그러나 연구 커뮤니티가 모델 성능 경쟁 속에서 이 대리 지표, 예를 들어 BLEU 점수 자체를 최적화의 목표로 삼게 되면 문제가 발생한다. 모델은 인간이 보기에 좋은 텍스트를 생성하는 대신, ‘BLEU 점수를 높이는’ 텍스트를 생성하도록 진화하게 된다. 이는 측정치가 목표가 되는 순간 더 이상 좋은 측정치로서 기능하지 못하게 되는 ’굿하트의 법칙(Goodhart’s Law)’의 전형적인 사례다. 모델이 참조 문장과의 n-gram 중복을 극대화하기 위해 의미적 다양성이나 창의성을 희생하는 방향으로 학습될 수 있는 것이다. 이 ’대리 지표의 함정’은 NLG 연구의 발전을 왜곡시킬 수 있으며, 의미적으로는 뛰어나지만 어휘적으로 다른 표현을 사용한 혁신적인 모델이 부당하게 저평가받는 결과를 초래할 수 있다. 이는 왜 단순한 어휘 중첩을 넘어 의미 기반의 새로운 평가 패러다임이 필수적인지를 설명하는 핵심적인 논거가 된다.

3. 자동 평가 지표: 정량적 분석

자동 평가는 NLG 모델 개발의 효율성을 높이는 데 필수적인 요소다. 수년에 걸쳐 다양한 자동 평가 지표가 제안되었으며, 이들은 크게 어휘 중첩 기반, 임베딩 기반, 확률 기반의 세 가지 범주로 나눌 수 있다. 각 지표는 고유한 철학과 계산 방식을 가지며, 그에 따른 강점과 약점이 명확하다.

3.1 어휘 중첩 기반 지표 (Lexical Overlap-Based Metrics)

이 범주의 지표들은 가장 전통적인 방식으로, 모델이 생성한 텍스트(hypothesis)와 사람이 작성한 정답 텍스트(reference) 사이에 공통으로 나타나는 단어나 구(n-gram)의 수를 세어 유사도를 측정한다.

3.1.1 BLEU (Bilingual Evaluation Understudy)

BLEU는 본래 기계 번역의 성능을 평가하기 위해 개발된 지표로, 생성된 문장이 얼마나 정확한 단어들로 구성되어 있는지를 측정하는 **정밀도(precision)**에 기반한다.25 번역 과제에서는 정답 문장의 일부 단어가 빠지더라도 의미 전달이 가능할 수 있지만(낮은 재현율 허용), 오역된 단어가 추가되면 문장의 의미가 크게 훼손될 수 있기 때문에 정밀도를 중시한다.29

BLEU 점수는 두 가지 핵심 요소를 통해 계산된다. 첫째는 **수정된 n-gram 정밀도(modified n-gram precision)**다. 이는 “the the the the“와 같이 특정 단어가 반복적으로 나타나 높은 정밀도 점수를 받는 문제를 해결하기 위해 고안되었다. 생성 문장에 나타난 특정 n-gram의 수를 정답 문장에서 해당 n-gram이 나타난 최대 횟수로 제한(clip)하여 계산한다.25

$p_n = \frac{\sum_{c \in \{\text{Candidates}\}} \sum_{\text{ngram} \in c} \text{Count}_{\text{clip}}(\text{ngram})}{\sum_{c' \in \{\text{Candidates}\}} \sum_{\text{ngram}' \in c'} \text{Count}(\text{ngram}')}$
둘째는 **문장 길이 페널티(Brevity Penalty, BP)**다. 매우 짧은 문장을 생성하면 우연히 정답 문장과 일치하는 단어들만 포함하게 되어 정밀도가 비정상적으로 높게 나올 수 있다. BP는 생성된 문장의 길이가 정답 문장보다 짧을 경우 페널티를 부과하여 이러한 과대평가를 방지한다.25

$\text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{(1-r/c)} & \text{if } c \le r \end{cases}$
여기서 $c$ 는 생성 문장의 길이, $r$ 은 정답 문장의 길이를 의미한다.

최종 BLEU 점수는 보통 1-gram부터 4-gram까지의 수정된 정밀도에 대한 가중 기하 평균에 BP를 곱하여 산출된다.31

$\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$
여기서 $w_n$ 은 각 n-gram 정밀도에 대한 가중치로, 보통 $1/N$ 으로 균등하게 설정된다.

그러나 BLEU는 단어의 순서나 문법 구조의 변화, 동의어 사용 등 의미는 같지만 표현이 다른 경우를 전혀 반영하지 못하며, 이로 인해 실제 인간의 품질 판단과 낮은 상관관계를 보인다는 비판을 지속적으로 받아왔다.16

3.1.2 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

ROUGE는 주로 텍스트 요약(text summarization)의 품질을 평가하기 위해 개발된 지표다. 이름에서 알 수 있듯이, 정답 요약본이 담고 있는 중요한 정보들을 생성된 요약본이 얼마나 잘 포함하고 있는지를 측정하는 **재현율(recall)**에 초점을 맞춘다.29

ROUGE는 평가 방식에 따라 여러 변형이 존재한다.

ROUGE-N: BLEU와 유사하게 n-gram의 중첩을 기반으로 하지만, 분모를 생성 문장이 아닌 정답 문장의 n-gram 수로 하여 재현율을 계산한다.29

$\text{ROUGE-N}_{\text{recall}} = \frac{\sum_{S \in \{\text{RefSumm}\}} \sum_{\text{gram}_n \in S} \text{Count}_{\text{match}}(\text{gram}_n)}{\sum_{S \in \{\text{RefSumm}\}} \sum_{\text{gram}_n \in S} \text{Count}(\text{gram}_n)}$
ROUGE-L: **최장 공통 부분 서열(Longest Common Subsequence, LCS)**을 사용하여 문장 수준의 구조적 유사성을 평가한다. LCS는 두 문장에서 순서에 맞게 공통으로 나타나는 가장 긴 단어 시퀀스를 의미하며, 단어들이 반드시 연속적으로 나타날 필요는 없다. 이를 통해 ROUGE-N보다 유연하게 문장 구조의 유사성을 포착할 수 있다.29 ROUGE-L은 LCS 길이를 기반으로 재현율(

$R_lcs$ ), 정밀도( $P_lcs$ ), 그리고 이 둘의 조화 평균인 F1 점수( $F_lcs$ )를 계산한다.

$R_{lcs} = \frac{\text{LCS}(X, Y)}{m}, \quad P_{lcs} = \frac{\text{LCS}(X, Y)}{n}$

$F_{lcs} = \frac{(1 + \beta^2) R_{lcs} P_{lcs}}{R_{lcs} + \beta^2 P_{lcs}}$

여기서 $m$ 과 $n$ 은 각각 정답 문장과 생성 문장의 길이를, $β$ 는 재현율에 더 큰 가중치를 두기 위한 파라미터를 의미한다.

ROUGE 역시 BLEU와 마찬가지로 의미적 동등성을 파악하지 못하며, 주로 내용 포함 여부에만 집중하기 때문에 생성된 요약문의 유창성이나 일관성을 평가하는 데는 한계가 있다.36

3.1.3 METEOR (Metric for Evaluation of Translation with Explicit Ordering)

METEOR는 BLEU의 한계를 보완하고자 제안된 지표로, 정밀도와 재현율을 모두 고려하며 더 나아가 의미론적 유사성까지 포착하려 시도한다.38

METEOR는 여러 단계의 정교한 매칭 과정을 거친다. 먼저, 정확한 단어 일치뿐만 아니라, 동일한 어간(stem)을 공유하는 단어(예: ‘run’, ‘running’), 그리고 WordNet과 같은 시소러스를 이용해 동의어 관계에 있는 단어까지 일치하는 것으로 간주한다. 이렇게 확장된 매칭을 기반으로 정밀도(P)와 재현율(R)을 계산한 후, 이 둘의 조화 평균( $F_mean$ )을 구한다. 이때 재현율에 더 높은 가중치(보통 9배)를 부여한다.38

$F_{\text{mean}} = \frac{10PR}{R+9P}$
또한, METEOR는 단어들의 정렬 상태를 평가하기 위해 **조각화 페널티(fragmentation penalty)**를 도입한다. 매칭된 단어들이 정답 문장과 생성 문장에서 얼마나 인접하게 나타나는지를 측정하여, 매칭이 여러 조각으로 흩어져 있을수록 더 큰 페널티를 부과한다.

$\text{Penalty} = 0.5 \cdot \left(\frac{\text{chunks}}{\text{unigrams\_matched}}\right)^3$
여기서 $chunks$ 는 인접한 매칭 단어 덩어리의 수를, $unigrams_matched$ 는 전체 매칭 단어 수를 의미한다.

최종 METEOR 점수는 조화 평균에 (1 - Penalty)를 곱하여 계산된다.

$\text{METEOR} = F_{\text{mean}} \cdot (1 - \text{Penalty})$
이러한 정교한 매칭 방식 덕분에 METEOR는 BLEU나 ROUGE보다 인간의 판단과 더 높은 상관관계를 보이는 것으로 알려져 있다.38

3.2 임베딩 기반 지표 (Embedding-Based Metrics)

임베딩 기반 지표들은 단어를 고차원 벡터 공간의 한 점으로 표현하는 ‘워드 임베딩’ 기술을 활용한다. 이를 통해 단어의 표면적 형태가 아닌, 문맥 속에서의 의미적 유사성을 직접 비교할 수 있다.

3.2.1 BERTScore

BERTScore는 BERT와 같은 사전 훈련된 대규모 언어 모델이 생성하는 **문맥적 임베딩(contextual embeddings)**을 활용하여 텍스트 생성 모델을 평가하는 대표적인 지표다.41 같은 단어라도 문맥에 따라 다른 의미를 가질 수 있다는 점을 반영하여, 각 토큰을 문맥 속에서 동적으로 임베딩한다.

계산 과정은 다음과 같다. 먼저, 생성 문장과 정답 문장의 모든 토큰에 대해 문맥적 임베딩 벡터를 추출한다. 그 후, 생성 문장의 각 토큰과 정답 문장의 모든 토큰 간의 코사인 유사도를 계산하여 유사도 행렬을 만든다. 이 행렬을 바탕으로, **탐욕적 매칭(greedy matching)**을 통해 각 토큰에 대한 최적의 대응을 찾는다.42

재현율(R_BERT): 정답 문장의 각 토큰에 대해, 생성 문장에서 가장 높은 코사인 유사도를 보이는 토큰과의 유사도 점수를 찾아 평균을 낸다.
$R_{\text{BERT}} = \frac{1}{\vert x \vert} \sum_{x_i \in x} \max_{\hat{x}_j \in \hat{x}} x_i^T \hat{x}_j$
정밀도(P_BERT): 생성 문장의 각 토큰에 대해, 정답 문장에서 가장 높은 코사인 유사도를 보이는 토큰과의 유사도 점수를 찾아 평균을 낸다.
$P_{\text{BERT}} = \frac{1}{\vert \hat{x} \vert} \sum_{\hat{x}_j \in \hat{x}} \max_{x_i \in x} x_i^T \hat{x}_j$
여기서 $x$ 는 정답 문장의 토큰 집합, $\hat{x}$ 는 생성 문장의 토큰 집합을, $x_i$ 와 $\hat{x}_j$ 는 각 토큰의 임베딩 벡터를 나타낸다.
F1 점수(`F_BERT): 계산된 정밀도와 재현율의 조화 평균을 구한다.
$F_{\text{BERT}} = 2 \frac{P_{\text{BERT}} \cdot R_{\text{BERT}}}{P_{\text{BERT}} + R_{\text{BERT}}}$

BERTScore는 의역(paraphrasing)이나 동의어 사용, 어순 변경 등에 강건하며, 기존 어휘 중첩 기반 지표들보다 인간의 판단과 훨씬 높은 상관관계를 보이는 것으로 입증되었다.15

3.2.2 MoverScore

MoverScore는 문맥적 임베딩과 운송 문제 해결에 사용되는 **Earth Mover’s Distance (EMD)**를 결합한 독창적인 평가 지표다.49 이 지표는 한 문장을 단어들의 분포로 보고, 이 분포를 다른 문장의 단어 분포로 변환하는 데 필요한 최소 “이동 비용“을 계산한다. 여기서 ’비용’은 임베딩 공간상에서의 유클리드 거리로 정의된다.

즉, MoverScore는 의미적으로 유사한 단어들끼리 매칭될 때 이동 비용이 적게 들고, 의미가 다른 단어들끼리 매칭될 때 비용이 많이 드는 원리를 이용하여 두 문장 간의 의미적 거리를 측정한다. 이는 개별 단어의 유사도를 넘어 문장 전체의 의미 구조를 비교하는 방식으로, 요약, 번역 등 다양한 NLG 과제에서 인간의 판단과 높은 상관관계를 보인다.49

3.3 확률 기반 지표 (Probability-Based Metrics)

3.3.1 Perplexity (PPL)

Perplexity는 언어 모델 자체의 성능을 평가하는 내적 평가(intrinsic evaluation) 지표로, 모델이 주어진 텍스트 샘플을 얼마나 “헷갈려하는지(perplexed)“를 정량화한다.54 PPL은 언어 모델이 다음 단어를 예측할 때 느끼는 불확실성의 정도를 나타내며, 그 값이 낮을수록 모델이 테스트 데이터의 언어적 패턴을 잘 학습했다고 해석할 수 있다.

수학적으로 PPL은 테스트셋의 각 단어에 대한 예측 확률의 기하 평균의 역수로 정의되며, 이는 교차 엔트로피(cross-entropy) 값에 지수를 취한 것과 동일하다.58

$\text{PPL}(W) = P(w_1, w_2, \dots, w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1, w_2, \dots, w_N)}}$
이를 로그 확률로 표현하면 다음과 같다.

$\text{PPL}(W) = \exp\left(-\frac{1}{N}\sum_{i=1}^{N}\log P(w_i|w_1, \dots, w_{i-1})\right)$
PPL 값은 모델이 각 시점에서 평균적으로 몇 개의 단어를 다음 후보로 고려하는지를 의미하는 ’분기 계수(branching factor)’로 직관적으로 해석할 수 있다. 예를 들어 PPL이 10이라면, 모델은 다음 단어를 예측할 때 평균적으로 10개의 유력한 후보 중에서 고민하고 있다는 뜻이다.61

PPL은 모델의 유창성이나 문법적 정확도를 측정하는 데는 유용하지만, 생성된 텍스트의 사실성, 관련성, 다양성 등 내용적 측면을 전혀 평가하지 못한다는 명백한 한계를 가진다.56 PPL 점수가 매우 낮더라도 의미적으로는 말이 안 되거나 사실이 아닌 문장을 생성할 수 있다.62

3.4 Table 1: 자동 평가 지표 비교 분석 (Comparative Analysis of Automatic Evaluation Metrics)

NLG 모델 평가를 위해 적절한 자동 평가 지표를 선택하는 것은 매우 중요하다. 각 지표의 핵심 원리, 주요 적용 분야, 그리고 강점과 약점을 종합적으로 이해하면, 특정 과업과 평가 목표에 가장 적합한 도구를 선택하는 데 도움이 된다. 아래 표는 본문에서 논의된 주요 자동 평가 지표들을 비교 분석한 것이다.

지표 (Metric)	핵심 원리 (Core Principle)	주요 적용 분야 (Primary Application)	강점 (Strengths)	약점 (Limitations)
BLEU	수정된 n-gram 정밀도 (Modified n-gram precision)	기계 번역	계산이 빠르고 간단함, 정밀도에 초점	의미/문법적 유사성 측정 불가, 재현율 무시
ROUGE	n-gram/LCS 재현율 (n-gram/LCS recall)	텍스트 요약	핵심 정보 포함 여부 평가에 유용, 다양한 변형	의미/문법적 유사성 측정 불가, 정밀도 간과 가능성
METEOR	정밀도/재현율의 조화 평균 + 의미론적 확장	기계 번역	동의어/어간 일치 고려, 인간 판단과 상관관계 높음	언어 자원(WordNet 등)에 의존적, 계산 복잡성
BERTScore	문맥적 임베딩 간 코사인 유사도	범용 텍스트 생성 (번역, 요약 등)	의역/문체 변화에 강건함, 의미적 유사성 포착	계산 비용 높음, 기반 모델의 편향 상속 가능성
MoverScore	임베딩 간 Earth Mover’s Distance	범용 텍스트 생성	문장 전체의 의미 구조 비교, 인간 판단과 상관관계 높음	계산 비용 매우 높음, 해석의 복잡성
Perplexity	테스트셋에 대한 역확률 정규화	언어 모델 자체 평가 (내적 평가)	계산이 빠르고 모델 훈련 시 유용, 유창성 측정	생성문의 사실성/관련성 평가 불가, 어휘 크기에 민감

4. 인간 평가 방법론: 정성적 분석

자동 평가 지표가 제공하는 정량적 점수만으로는 NLG 모델의 성능을 온전히 이해하기 어렵다. 생성된 텍스트가 실제로 인간 사용자에게 어떻게 인식되는지를 파악하기 위해서는 정성적인 분석, 즉 인간 평가가 필수적이다. 신뢰도 높은 인간 평가를 수행하기 위해서는 명확한 평가 기준을 정의하고 체계적인 평가 절차를 설계하는 것이 무엇보다 중요하다.

4.1 핵심 평가 기준 정의 (Defining Core Evaluation Criteria)

신뢰할 수 있는 인간 평가의 첫걸음은 평가하고자 하는 품질의 측면을 명확하게 정의하는 것이다. 그러나 NLG 연구 분야에서는 동일한 품질을 지칭하는 데에도 다양한 용어가 사용되고, 그 정의마저 모호한 경우가 많아 연구 간 결과 비교를 어렵게 만드는 요인이 되어왔다.22 그럼에도 불구하고, 대부분의 평가에서 공통적으로 중요하게 다루어지는 핵심 기준들은 다음과 같다.

유창성 (Fluency): 이 기준은 생성된 텍스트가 문법적으로 얼마나 정확하고, 표현이 얼마나 자연스러운지를 평가한다. 평가자는 텍스트를 읽을 때 어색함이나 부자연스러움 없이 쉽게 이해할 수 있는지를 판단한다. 문법 오류, 오탈자, 비문 등 언어의 형식적 측면이 주된 평가 대상이다.9
일관성 (Coherence): 텍스트 내의 문장과 문단들이 논리적으로 얼마나 잘 연결되어 있으며, 전체적으로 통일된 주제와 흐름을 유지하는지를 평가한다. 내용상의 모순, 갑작스러운 주제 전환, 문맥에 맞지 않는 문장 등 글의 구조적 완결성을 저해하는 요소가 없는지를 확인한다.9
관련성 (Relevance): 생성된 텍스트가 주어진 입력(프롬프트, 질문, 소스 문서 등)의 의도나 주제와 얼마나 밀접하게 연관되어 있는지를 평가한다. 질문의 핵심을 정확히 파악하고 그에 맞는 답변을 제공하는지, 주제에서 벗어나는 불필요한 정보를 포함하고 있지는 않은지를 중점적으로 본다.9
사실성/충실도 (Factuality/Faithfulness): 이 기준은 생성된 텍스트에 포함된 정보가 소스 문서의 내용이나 보편적으로 알려진 사실과 일치하는지를 평가한다. 특히, 원본 데이터에 근거하지 않은 정보를 지어내는 ‘환각(hallucination)’ 현상이 없는지를 검증하는 것이 핵심이다. 이는 정보의 신뢰도와 직결되는 매우 중요한 평가 항목이다.9

4.2 평가 설계 및 실행 (Designing and Executing Evaluations)

명확한 기준이 정립되었다면, 다음 단계는 이러한 기준에 따라 평가를 수행할 구체적인 방법론을 설계하는 것이다. 주로 사용되는 방법론은 다음과 같다.

4.2.1 리커트 척도 (Likert Scales)

리커트 척도는 태도나 의견과 같은 추상적인 개념을 측정하기 위해 심리학에서 개발된 방법으로, NLG 평가에서도 널리 사용된다. 이 방법은 평가자에게 특정 기준(예: “이 텍스트는 얼마나 유창합니까?”)에 대해 미리 정해진 척도(예: 1점 ’매우 부자연스러움’부터 5점 ’매우 자연스러움’까지) 위에서 자신의 판단을 표시하도록 요청한다.63 이를 통해 평가자의 정성적인 판단을 정량적인 점수로 변환하여 통계적 분석을 용이하게 할 수 있다.68

리커트 척도를 설계할 때는 몇 가지 고려사항이 있다. 척도의 점 개수(보통 5점 또는 7점)를 결정해야 하며, 각 점수가 무엇을 의미하는지 명확한 언어적 앵커(anchor)를 제공해야 한다. 그러나 평가자들이 척도의 각 구간을 동일한 간격(interval)으로 인식하지 않을 수 있다는 점은 이 방법론의 고질적인 비판점이다.69 따라서 결과 해석 시 데이터가 서열 척도(ordinal scale)임을 인지하고 그에 맞는 통계 기법을 적용하는 것이 중요하다.

4.2.2 순위 기반 평가 (Ranking-based Evaluation)

순위 기반 평가는 여러 모델이 동일한 입력에 대해 생성한 결과물들을 한 번에 평가자에게 제시하고, 품질이 좋은 순서대로 순위를 매기도록 하는 방식이다.70 이 방법은 각 결과물에 절대적인 점수를 부여하는 것의 어려움과 주관성을 완화해준다. 평가자는 어떤 결과물이 ’완벽한지’를 판단할 필요 없이, 다른 결과물과 비교하여 상대적인 우위만을 결정하면 되므로 인지적 부담이 적고, 시스템 간의 성능 차이를 더 명확하게 드러낼 수 있다.

가장 단순한 형태의 순위 기반 평가는 **쌍대 비교(pairwise comparison)**다. 두 개의 결과물 중 어느 것이 더 나은지를 선택하게 하는 방식으로, 평가 과업을 단순화하여 일관성 있는 데이터를 얻는 데 유리하다.28 수집된 순위 데이터는 Elo 평점 시스템과 같은 통계 모델을 통해 각 시스템의 종합적인 점수로 변환될 수 있다.

4.2.3 A/B 테스팅 (A/B Testing)

A/B 테스팅은 두 개 이상의 시스템 변형(A와 B)을 실제 사용자 환경에 적용하여 어떤 것이 더 나은 성과를 내는지 직접 측정하는 실험적 방법론이다.73 이는 실험실 환경의 평가가 아닌, 실제 서비스 환경에서의 시스템 성능, 즉 **외적 평가(extrinsic evaluation)**에 해당한다. 예를 들어, 챗봇의 응답 생성 로직을 변경한 후, 사용자 그룹을 무작위로 나누어 기존 로직(A)과 새로운 로직(B)을 각각 경험하게 하고, 특정 비즈니스 목표와 관련된 지표를 비교 분석한다.

대화 시스템의 경우, A/B 테스팅에서 추적하는 핵심 지표에는 NLU 정확도, 인간 상담원 전환율, 대화 완결률(containment rate), 평균 해결 시간, 사용자 만족도 설문 점수 등이 포함될 수 있다.73 A/B 테스팅은 생성된 텍스트의 언어적 품질뿐만 아니라, 그것이 사용자의 행동과 비즈니스 성과에 미치는 실질적인 영향을 측정할 수 있다는 점에서 가장 강력한 평가 방법 중 하나로 꼽힌다.

4.3 Table 2: 인간 평가 기준 및 질문 예시 (Human Evaluation Criteria and Example Questions)

체계적이고 재현 가능한 인간 평가를 위해서는 구체적인 평가 기준과 질문이 담긴 가이드라인이 필수적이다. 아래 표는 NLG 평가에 활용될 수 있는 핵심 기준에 대한 정의와 평가 질문 예시를 정리한 것이다. 이는 평가자들에게 일관된 평가 척도를 제공하고, 수집된 데이터의 신뢰도를 높이는 데 기여할 수 있다.

평가 기준 (Criterion)	정의 (Definition)	평가 질문 예시 (1-5점 척도)	주요 확인 사항 (Key Points to Check)
유창성 (Fluency)	생성된 텍스트의 문법적 완결성과 자연스러움	텍스트가 문법적으로 올바르고 자연스럽게 읽힙니까?	오탈자, 문법 오류, 어색한 표현, 비문 등
일관성 (Coherence)	텍스트 내 문장들의 논리적 연결성과 통일성	문장들이 논리적으로 잘 연결되며, 전체 글의 흐름이 일관됩니까?	문맥에 맞지 않는 문장, 내용상 모순, 갑작스러운 주제 전환 등
관련성 (Relevance)	생성된 텍스트가 주어진 입력(주제, 질문)과의 연관성	텍스트가 주어진 질문이나 주제에 대해 얼마나 관련 있는 내용을 담고 있습니까?	주제 이탈, 불필요한 정보, 질문의 핵심을 벗어나는 답변 등
사실성 (Faithfulness)	생성된 텍스트가 원본 정보나 사실과 일치하는 정도	텍스트의 내용이 제공된 원본 정보나 사실과 일치합니까? (허위 정보가 없습니까?)	원본에 없는 내용 추가(hallucination), 정보 왜곡, 사실과 다른 내용 등

5. 고급 평가 주제 및 최신 동향

NLG 기술이 빠르게 발전함에 따라, 평가 방법론 역시 전통적인 방식을 넘어 새로운 패러다임으로 확장되고 있다. 최근에는 강력한 성능의 대규모 언어 모델(LLM)을 평가 도구로 활용하거나, 특정 과업의 고유한 특성을 반영한 전문적인 평가 전략을 수립하고, 모델의 사회적 영향을 고려한 안전성 및 공정성 평가가 중요한 연구 주제로 부상하고 있다.

5.1 LLM을 활용한 평가 (LLM-as-a-Judge)

LLM-as-a-Judge는 인간 평가자가 수행하던 정성적 평가 역할을 GPT-4와 같은 고성능 LLM에게 맡기는 새로운 평가 패러다임이다.14 이는 인간 평가의 고질적인 문제인 높은 비용, 시간 소모, 낮은 확장성을 해결할 수 있는 잠재력을 지니고 있어 큰 주목을 받고 있다. 여러 연구에서 LLM 평가자가 내린 점수가 인간 전문가의 판단과 높은 상관관계를 보인다는 결과가 보고되면서 그 가능성을 입증하고 있다.72

그러나 이 새로운 접근법 역시 여러 도전 과제를 안고 있다. 첫째, 편향(Bias) 문제다. LLM 평가자는 여러 개의 답변 중 먼저 제시된 답변을 선호하는 **위치 편향(Positional Bias)**을 보이거나, 자신이 생성했을 법한 스타일의 텍스트에 더 높은 점수를 주는 **자기 선호 편향(Self-preference Bias)**을 나타낼 수 있다.75 둘째, **견고성 부족(Lack of Robustness)**이다. LLM은 표면적으로는 유창하지만 미묘한 의미적 오류나 논리적 모순을 놓치는 경우가 있으며, 평가를 위한 프롬프트의 미세한 변화에도 민감하게 반응하여 평가 결과의 일관성이 떨어질 수 있다.14 셋째,

점수 분포 문제다. LLM은 1.0, 2.0과 같은 정수 단위로 점수를 매기는 경향이 있어, 텍스트 간의 세밀한 품질 차이를 변별하는 능력이 떨어질 수 있다.75 이러한 한계들을 극복하고 LLM 기반 평가의 신뢰도를 높이기 위한 연구가 활발히 진행 중이다.

5.2 태스크 특화 평가 전략 (Task-Specific Evaluation Strategies)

모든 NLG 과업을 동일한 잣대로 평가할 수는 없다. 성공적인 평가를 위해서는 각 과업의 고유한 목표와 특성을 반영한 맞춤형 평가 전략이 필요하다.

5.2.1 요약 (Summarization)

텍스트 요약 과업에서는 전통적으로 ROUGE 지표가 널리 사용되어 왔으나, 이는 주로 원문에서 문장을 추출하는 방식의 요약(extractive summarization)에 더 적합했다. 원문의 내용을 바탕으로 새로운 문장을 생성하는 추상적 요약(abstractive summarization) 모델이 발전하면서, ROUGE의 한계는 더욱 명확해졌다.37 최근 요약 평가의 핵심 기준은 **사실성(Factuality)**과 **일관성(Consistency)**으로 이동하고 있다. 생성된 요약이 원문의 핵심 정보를 정확하게 전달하면서, 원문에 없는 내용을 지어내거나(hallucination) 기존 사실을 왜곡하지 않는 것이 무엇보다 중요해졌다.37 따라서 현재는 BERTScore와 같은 의미 기반 자동 지표와, 사실성 검증에 초점을 맞춘 인간 평가를 병행하는 것이 표준적인 평가 방식으로 자리 잡고 있다.78

5.2.2 대화 시스템 (Dialogue Systems)

대화 시스템은 단방향 텍스트 생성이 아닌, 사용자와의 상호작용을 통해 과업을 완수하거나 관계를 형성하는 것을 목표로 한다. 따라서 BLEU나 ROUGE와 같이 단일 문장의 품질을 정답 문장과 비교하는 방식은 대화의 동적이고 문맥적인 특성을 전혀 반영하지 못해 부적절하다.81 대화 시스템 평가의 핵심은 **사용자 만족도(User Satisfaction)**와 **참여도(Engagement)**다. 사용자가 대화를 통해 자신의 목표를 성공적으로 달성했는지, 대화 과정이 만족스러웠는지, 그리고 대화를 계속 이어가고 싶은지를 측정하는 것이 중요하다.81 이를 위해 실제 사용자를 대상으로 한 A/B 테스팅, 사용자 행동을 모방하는 시뮬레이터를 활용한 자동 평가, 그리고 실제 대화 로그를 분석하여 문제점을 진단하는 방식 등이 활용된다.83

5.2.3 데이터-투-텍스트 (Data-to-Text)

데이터-투-텍스트는 표, 데이터베이스, 지식 그래프와 같은 정형 데이터(structured data)를 입력받아 자연어 텍스트로 설명하는 과업이다. 일기 예보 생성이나 스포츠 경기 결과 보고서 작성이 대표적인 예다. 이 과업에서는 창의성이나 문체보다는 입력된 데이터의 정보를 정확하게 그리고 빠짐없이 전달하는 것이 가장 중요하다.86 따라서 핵심 평가 지표는 **충실도(Faithfulness)**다. 충실도는 생성된 텍스트에 포함된 모든 주장(claim)이 입력 데이터에 의해 명백하게 뒷받침되는지를 검증하는 지표다.65 평가는 보통 (1) 생성된 텍스트에서 개별적인 주장들을 추출하고, (2) 각 주장이 원본 데이터와 일치하는지를 하나씩 확인한 후, (3) 전체 주장 중 사실과 부합하는 주장의 비율을 계산하는 방식으로 이루어진다.65

5.3 모델의 안전성 및 공정성 평가 (Evaluating Model Safety and Fairness)

최신 NLG 모델의 영향력이 커지면서, 모델이 생성하는 텍스트의 품질뿐만 아니라 그것이 사회에 미치는 영향, 즉 안전성과 공정성에 대한 평가가 매우 중요해졌다.

5.3.1 편향 탐지 및 측정 (Bias Detection and Measurement)

NLG 모델은 방대한 텍스트 데이터로부터 학습하는 과정에서 데이터에 내재된 성별, 인종, 종교, 직업 등에 대한 사회적 편견과 고정관념을 그대로 학습하고, 심지어 증폭시킬 수 있다.11 예를 들어, ’의사’는 남성으로, ’간호사’는 여성으로 연관 짓는 성별 편향이 나타날 수 있다. 이러한 편향을 탐지하고 측정하기 위한 다양한 방법론이 제안되었다. 대표적으로 단어 임베딩 공간에서 특정 개념 간의 거리를 측정하는

WEAT(Word Embedding Association Test), 특정 문맥에서 특정 집단과 관련된 단어가 나타날 확률을 비교하는 확률 기반 측정, 그리고 모델이 생성한 텍스트에서 직접적으로 유해하거나 편향된 표현의 빈도를 측정하는 생성 텍스트 기반 분석 등이 있다.12 FAccT, ACL과 같은 최고 수준의 AI 학회에서는 이러한 공정성 문제를 다루는 연구가 핵심 분야 중 하나로 자리 잡았다.88

5.3.2 레드팀(Red Teaming)을 통한 안전성 평가 (Safety Evaluation via Red Teaming)

레드팀은 모델의 안전성을 평가하기 위한 일종의 적대적 테스팅(adversarial testing) 기법이다.92 보안 전문가나 언어 전문가로 구성된 ’레드팀’이 의도적으로 모델의 안전 가드레일을 우회하거나 무력화시키려는 악의적인 프롬프트를 입력하여, 모델이 유해 콘텐츠(혐오 발언, 폭력 조장), 잘못된 정보, 개인정보 등 부적절한 결과물을 생성하도록 유도한다. 레드팀의 목표는 이러한 공격을 통해 모델의 취약점을 사전에 발견하고, 이를 개발팀에 알려 모델의 방어 체계를 강화하도록 하는 것이다.92 이는 자동화된 벤치마크만으로는 발견하기 어려운, 예상치 못한 잠재적 위험을 식별하는 데 매우 효과적인 방법이다.

NLG 평가 분야의 이러한 최신 동향들은 한 가지 중요한 흐름을 시사한다. 그것은 바로 단순히 모델을 평가하는 것을 넘어, **‘평가 방법 자체를 평가(meta-evaluation)’**하는 단계로 진입했다는 점이다. LLM-as-a-judge의 신뢰도와 편향을 분석하는 연구 75, 인간 평가 프로토콜의 재현성 문제를 제기하는 연구 22, 그리고 교육 측정 이론과 같은 다른 분야의 엄격한 프레임워크를 도입하여 평가 지표의 신뢰도(reliability)와 타당도(validity)를 정량적으로 분석하려는 시도 98 등은 모두 ’우리가 사용하는 평가 방식이 과연 올바른가?’라는 근본적인 질문을 던지고 있다. 이는 NLG 기술이 성숙기에 접어들면서, 평가 과정의 과학적 엄밀성과 신뢰성을 확보하려는 연구 커뮤니티의 자성적 노력을 반영하는 것으로, 향후 NLG 평가 연구의 중요한 방향이 될 것이다.

6. 결론: 종합적 평가 전략 수립을 위한 제언

자연어 생성(NLG) 모델의 성능을 정확하고 다각적으로 평가하기 위해서는 단편적인 접근에서 벗어나, 과업의 목표와 특성을 고려한 종합적인 평가 전략을 수립해야 한다. 본 안내서에서 논의된 다양한 평가 패러다임과 지표, 그리고 최신 동향을 바탕으로 다음과 같은 전략적 제언을 제시한다.

6.1 단일 지표의 함정 극복: 다중 지표의 조합적 활용

어떤 단일 자동 평가 지표도 NLG 모델이 생성하는 텍스트의 복합적인 품질을 완벽하게 측정할 수 없다는 사실을 명확히 인지해야 한다.17 특정 지표는 특정 품질 측면을 측정하는 데 특화되어 있을 뿐이다. 따라서 ’단일 최고의 지표’를 찾으려는 시도보다는, 평가하고자 하는 품질의 여러 측면을 포괄할 수 있도록

여러 지표를 조합하여 상호 보완적으로 활용하는 것이 필수적이다.

예를 들어, 모델의 기본적인 언어 능력을 평가하기 위해 Perplexity로 유창성을 확인하고, 정답 텍스트와의 내용적 일치도를 평가하기 위해 ROUGE나 BERTScore를 사용할 수 있다.9 여기에 더해, 생성된 텍스트의 다양성을 측정하는 지표(예: distinct-n)를 추가하여 모델이 단순히 훈련 데이터를 암기하여 반복적인 결과물을 내놓는지를 확인할 수 있다. 이처럼 다중 지표를 종합적으로 분석함으로써 모델의 강점과 약점을 더 입체적으로 파악할 수 있다.

6.2 태스크와 목적에 맞는 평가 프레임워크 설계

평가 방법론은 개발 중인 NLG 시스템의 구체적인 **과업(task)과 최종 목표(goal)**에 따라 맞춤형으로 설계되어야 한다. 모든 NLG 시스템에 적용할 수 있는 만능 평가 프레임워크는 존재하지 않는다.

예를 들어, 학술 논문 초록을 생성하는 요약 모델을 평가한다면 원문의 핵심 내용을 정확하게 전달하는 **사실성(Faithfulness)**과 **정보 포함도(Coverage)**가 가장 중요한 기준이 될 것이다. 반면, 사용자와 자유로운 대화를 나누는 오픈 도메인 챗봇을 평가한다면 **참여도(Engagement)**나 **일관성(Coherence)**이 더 중요한 척도가 될 수 있다.

또한, 평가의 목적에 따라 접근 방식을 달리해야 한다. 모델 개발 초기 단계나 연구 과정에서는 자동 평가 지표를 활용하여 수많은 모델 변형을 빠르게 비교하고 반복적으로 개선하는 것이 효율적이다. 그러나 실제 서비스로 배포하여 최종 사용자의 경험에 영향을 미치는 단계에서는, A/B 테스팅과 같은 외적 평가를 통해 시스템의 실질적인 효과와 사용자 만족도를 측정하는 것이 훨씬 더 중요하다.73

6.3 지속적인 평가와 재현 가능성의 중요성

NLG 모델 평가는 개발 마지막 단계에서 한 번 수행하는 일회성 이벤트가 되어서는 안 된다. 평가는 모델 개발 생애주기 전반에 걸쳐 지속적으로 이루어져야 하는 반복적인 과정이다. 데이터 수집 단계부터 모델 훈련, 미세조정, 그리고 배포 후 모니터링에 이르기까지 각 단계에서 적절한 평가를 통해 모델의 성능과 잠재적 문제를 꾸준히 추적해야 한다.

더불어, 과학적 발전의 토대가 되는 **재현 가능성(reproducibility)**을 확보하기 위한 노력이 절실하다. 연구자들은 자신의 평가 결과를 보고할 때, 사용한 평가 데이터셋, 구체적인 평가 기준과 가이드라인, 평가자 정보, 그리고 통계적 유의성 검증 방법 등을 투명하게 공개해야 한다.22 이러한 상세한 정보 공유는 다른 연구자들이 해당 평가 결과를 신뢰하고, 자신의 연구와 공정하게 비교할 수 있는 기반을 마련하며, NLG 평가 분야 전체의 신뢰도를 높이는 데 기여한다.

6.4 미래 전망

NLG 평가 분야는 기술의 발전과 함께 끊임없이 진화할 것이다. 앞으로의 연구는 다음과 같은 방향으로 나아갈 것으로 전망된다.

첫째, 인간의 가치와 더 잘 부합하는(human-aligned) 평가 지표 개발이 가속화될 것이다. 이는 단순히 의미적 유사성을 넘어, 생성된 텍스트의 유용성, 설득력, 창의성, 공감 능력 등 인간의 고차원적인 가치 판단을 반영하는 방향으로 발전할 것이다.

둘째, 평가 과정의 공정성과 안전성을 보장하는 방법론이 더욱 중요해질 것이다. LLM-as-a-Judge의 편향을 완화하는 기술, 다양한 인구통계학적 그룹에 대한 모델의 성능을 공정하게 측정하는 벤치마크, 그리고 모델의 잠재적 위험을 체계적으로 탐지하는 레드팀 기법 등이 더욱 정교화될 것이다.

결론적으로, 미래의 NLG 평가는 자동 평가의 효율성, LLM 기반 평가의 확장성, 그리고 인간 평가의 깊이를 결합한 하이브리드(hybrid) 평가 방식이 주류를 이룰 것이다. 이러한 종합적인 접근을 통해 우리는 더 안전하고, 유용하며, 신뢰할 수 있는 NLG 기술을 만들어 나갈 수 있을 것이다.

7. 참고 자료

boottent.com, https://boottent.com/community/article/20240104163701#:~:text=%EC%9E%90%EC%97%B0%EC%96%B4%20%EC%83%9D%EC%84%B1(NLG)%EC%9D%80%20%EC%9D%B8%EA%B3%B5,NLU)%EC%99%80%20%EA%B4%80%EB%A0%A8%EC%9D%B4%20%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4.와 관련이 있습니다.)
자연어 생성이란 무엇일까요? | IT 뉴스레터, 아티클, 개념정리부터 취업꿀팁까지, https://boottent.com/community/article/20240104163701
자연어 처리(NLP)란 무엇인가요? - AWS, https://aws.amazon.com/ko/what-is/nlp/
짧은 AI 상식 : 자연어 처리(NLP)와 자연어 생성(NLG)의 차이 - 인공지능 활용 연구소 AIUI, https://neo-platform.tistory.com/23
초보자와 전문가를 위한 자연어 생성(NLG) 이해하기 - 경남 ICT협회, https://www.gnict.org/blog/130/%EA%B8%80/%EC%B4%88%EB%B3%B4%EC%9E%90%EC%99%80-%EC%A0%84%EB%AC%B8%EA%B0%80%EB%A5%BC-%EC%9C%84%ED%95%9C-%EC%9E%90%EC%97%B0%EC%96%B4-%EC%83%9D%EC%84%B1nlg-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0/
자연어 생성(NLG)이란 무엇인가요? - IBM, https://www.ibm.com/kr-ko/think/topics/natural-language-generation
NLP, NLU, NLG의 간단한 이해 - (사)경남ICT협회, https://www.gnict.org/blog/130/%EA%B8%80/nlp-nlu-nlg%EC%9D%98-%EA%B0%84%EB%8B%A8%ED%95%9C-%EC%9D%B4%ED%95%B4/
대규모 언어 모델(LLM) 평가 방법 - Medium, https://medium.com/@junhoher/2023%EB%85%84-%EB%8C%80%EA%B7%9C%EB%AA%A8-%EC%96%B8%EC%96%B4-%EB%AA%A8%EB%8D%B8-%ED%8F%89%EA%B0%80-5%EA%B0%80%EC%A7%80-%EB%B0%A9%EB%B2%95-040d7894c3df
Testing & Evaluating Large Language Models(LLMs): Key Metrics and Best Practices Part-2 | by Sumit Soman | Medium, https://medium.com/@sumit.somanchd/testing-evaluating-large-language-models-llms-key-metrics-and-best-practices-part-2-0ac7092c9776
대규모 언어 모델 LLM 평가에 대한 초보자 가이드 | 샤이프 - Shaip, https://ko.shaip.com/blog/beginner-guide-to-large-language-model-evaluation/
Bias and Fairness in Natural Language Processing | by Navid Rekabsaz - Medium, https://medium.com/tr-labs-ml-engineering-blog/bias-and-fairness-in-natural-language-processing-7663a6d33932
Bias and Fairness in Large Language Models: A Survey …, https://direct.mit.edu/coli/article/50/3/1097/121961/Bias-and-Fairness-in-Large-Language-Models-A
Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling - AAAI Publications, https://ojs.aaai.org/index.php/AAAI/article/view/29857/31493
LLM-based NLG Evaluation: Current Status and Challenges - MIT Press Direct, https://direct.mit.edu/coli/article/51/2/661/128807/LLM-based-NLG-Evaluation-Current-Status-and
[논문이해] BERTSCORE: EVALUATING TEXT GENERATION WITH BERT - 자연어천재만재, https://heygeronimo.tistory.com/28
A Survey on Evaluation Metrics for Machine Translation - ResearchGate, https://www.researchgate.net/publication/368590740_A_Survey_on_Evaluation_Metrics_for_Machine_Translation
Lecture 15 - Natural Language Generation - velog, https://velog.io/@tobigs-text1415/Lecture-15-Natural-Language-Generation
A list of metrics for evaluating LLM-generated content - Microsoft Learn, https://learn.microsoft.com/en-us/ai/playbook/technology-guidance/generative-ai/working-with-llms/evaluation/list-of-eval-metrics
A Structured Review of the Validity of BLEU | Computational Linguistics - MIT Press Direct, https://direct.mit.edu/coli/article/44/3/393/1598/A-Structured-Review-of-the-Validity-of-BLEU
Which natural language generation metrics (e.g., BLEU, ROUGE, METEOR) can be used to compare a RAG system’s answers to reference answers, and what are the limitations of these metrics in this context? - Milvus, https://milvus.io/ai-quick-reference/which-natural-language-generation-metrics-eg-bleu-rouge-meteor-can-be-used-to-compare-a-rag-systems-answers-to-reference-answers-and-what-are-the-limitations-of-these-metrics-in-this-context
Comparing Automatic and Human Evaluation of NLG Systems. - ResearchGate, https://www.researchgate.net/publication/220946975_Comparing_Automatic_and_Human_Evaluation_of_NLG_Systems
Twenty Years of Confusion in Human Evaluation: NLG Needs Evaluation Sheets and Standardised Definitions - Edinburgh Napier University, https://www.napier.ac.uk/-/media/worktribe/output-2697597/twenty-years-of-confusion-in-human-evaluation-nlg-needs-evaluation-sheets-and.ashx
Twenty Years of Confusion in Human Evaluation: NLG Needs Evaluation Sheets and Standardised Definitions | Request PDF - ResearchGate, https://www.researchgate.net/publication/375932030_Twenty_Years_of_Confusion_in_Human_Evaluation_NLG_Needs_Evaluation_Sheets_and_Standardised_Definitions
Best practices for the human evaluation of automatically generated text - ACL Anthology, https://aclanthology.org/W19-8643.pdf
A Survey on Evaluation Metrics for Machine Translation - MDPI, https://www.mdpi.com/2227-7390/11/4/1006
NLG Evaluation 2025 vs 2015: much improved but needs to be better - Ehud Reiter’s Blog, https://ehudreiter.com/2025/02/04/nlg-evaluation-2025-vs-2015/
[PDF] Comparing Automatic and Human Evaluation of NLG Systems - Semantic Scholar, https://www.semanticscholar.org/paper/Comparing-Automatic-and-Human-Evaluation-of-NLG-Belz-Reiter/a70e48c119742cb69b1cdbd62e58a8a8d0d28a8e
LLM-based NLG Evaluation: Current Status and Challenges - arXiv, https://arxiv.org/html/2402.01383v2
자연어 처리 Task 모델 평가지표(Precision, Recall, F-measure…) - 아는 것의 미학, https://applepy.tistory.com/215
LLM 성능평가를 위한 지표들 - 슈퍼브 블로그 - Superb AI, https://blog-ko.superb-ai.com/llm-evaluation-metrics/
Optimizing BLEU Scores for Improving Text Generation, https://www.cs.cmu.edu/~epxing/Class/10708-19/assets/project/final-reports/project3.pdf
Text Generation Metric(자연어 생성 평가 지표) - velog, https://velog.io/@dohee1121/Text-Generation-Metric%EC%9E%90%EC%97%B0%EC%96%B4-%EC%83%9D%EC%84%B1-%ED%8F%89%EA%B0%80-%EC%A7%80%ED%91%9C
ROUGE (metric) - Wikipedia, https://en.wikipedia.org/wiki/ROUGE_(metric)
Scoring and Comparing Models with ROUGE | CodeSignal Learn, https://codesignal.com/learn/courses/benchmarking-llms-on-text-generation/lessons/scoring-and-comparing-models-with-rouge-1
ROUGE: A Package for Automatic Evaluation of … - ACL Anthology, https://aclanthology.org/W04-1013.pdf
Understanding ROUGE scores to evaluate Text Summarization Models | by Arunav Tiwari, https://medium.com/@arunav.tiwari/understanding-rouge-scores-to-evaluate-text-summarization-models-7a7a19f55c88
LLM Evaluation For Text Summarization - Neptune.ai, https://neptune.ai/blog/llm-evaluation-text-summarization
Comparison and Adaptation of Automatic Evaluation Metrics … - arXiv, https://arxiv.org/pdf/1601.02789
Evaluating NLP Models: A Comprehensive Guide to ROUGE, BLEU, METEOR, and BERTScore Metrics - In Plain English, https://plainenglish.io/blog/evaluating-nlp-models-a-comprehensive-guide-to-rouge-bleu-meteor-and-bertscore-metrics-d0f1b1
Which traditional language generation metrics are applicable for evaluating RAG-generated answers, and what aspect of quality does each (BLEU, ROUGE, METEOR) capture? - Milvus, https://milvus.io/ai-quick-reference/which-traditional-language-generation-metrics-are-applicable-for-evaluating-raggenerated-answers-and-what-aspect-of-quality-does-each-bleu-rouge-meteor-capture
BERTScore Explained in 5 minutes. Evaluating Text Generation with BERT… | by Abonia Sojasingarayar | Medium, https://medium.com/@abonia/bertscore-explained-in-5-minutes-0b98553bfb71
BERTScore For LLM Evaluation - Comet, https://www.comet.com/site/blog/bertscore-for-llm-evaluation/
[1904.09675] BERTScore: Evaluating Text Generation with BERT - arXiv, https://arxiv.org/abs/1904.09675
BERTScore : Evaluating Text Generation with BERT - velog, https://velog.io/@dongspam0209/BERTScore-Evaluating-Text-Generation-with-BERT
1월 1, 1970에 액세스, https://arxiv.org/pdf/1904.09675.pdf
BERTScoreVisualizer: A Web Tool for Understanding Simplified Text Evaluation with BERTScore - arXiv, https://arxiv.org/html/2409.17160v1
How BERTScore evaluation metric evaluate the text summarization - Educative.io, https://www.educative.io/answers/how-bertscore-evaluation-metric-evaluate-the-text-summarization
BERTScore: BERT로 텍스트 생성 평가 (요약) : r/LanguageTechnology - Reddit, https://www.reddit.com/r/LanguageTechnology/comments/ud5pln/bertscore_evaluating_text_generation_with_bert/?tl=ko
MoverScore: Text Generation Evaluating with Contextualized …, https://aclanthology.org/D19-1053/
Daily Papers - Hugging Face, https://huggingface.co/papers?q=MoverScore
Moverscore: Text Generation Evaluating With Contextualized Embeddings and Earth Mover Distance | PDF | Applied Linguistics - Scribd, https://www.scribd.com/document/685779142/1909-02622
MoverScore: Text Generation Evaluating with … - ACL Anthology, https://aclanthology.org/D19-1053.pdf
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance - ResearchGate, https://www.researchgate.net/publication/335689825_MoverScore_Text_Generation_Evaluating_with_Contextualized_Embeddings_and_Earth_Mover_Distance
NLP 평가지표(PPL, BLEU) 간단 개념 정리, https://nthree.tistory.com/m/54
Perplexity for LLM Evaluation - Comet, https://www.comet.com/site/blog/perplexity-for-llm-evaluation/
Decoding Perplexity and its significance in LLMs - UpTrain AI, https://blog.uptrain.ai/decoding-perplexity-and-its-significance-in-llms/
[NLP] 2-4. 펄플렉시티(Perplexity, PPL) - Oneul - 티스토리, https://oneul-hyeon.tistory.com/474
Perplexity for LLM Evaluation - GeeksforGeeks, https://www.geeksforgeeks.org/nlp/perplexity-for-llm-evaluation/
Article One: Two minutes NLP — Perplexity explained with simple probabilities, https://www.cs.bu.edu/fac/snyder/cs505/PerplexityPosts.pdf
언어모델 평가지표 Perplexity - velog, https://alpha.velog.io/@mmodestaa/%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8-%ED%8F%89%EA%B0%80%EC%A7%80%ED%91%9C-Perplexity
[5분 NLP] 언어 모델 평가 지표 PPL 알아보기, https://facerain.github.io/nlp-ppl/
퍼플렉시티가 언어 모델 평가에 좋은 척도인가요? : r/LanguageTechnology - Reddit, https://www.reddit.com/r/LanguageTechnology/comments/uekxcn/is_perplexity_a_good_measure_for_evaluating/?tl=ko
Evaluate Text Generation Models Key Metrics and Tips - MoldStud, https://moldstud.com/articles/p-evaluate-text-generation-models-key-metrics-and-tips
Leveraging Large Language Models for NLG Evaluation: A Survey - arXiv, https://arxiv.org/html/2401.07103v1
Faithfulness - Ragas, https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/faithfulness/
RAG Evaluation Metrics: Assessing Answer Relevancy, Faithfulness, Contextual Relevancy, And More - Confident AI, https://www.confident-ai.com/blog/rag-evaluation-metrics-answer-relevancy-faithfulness-and-more
Likert-Type Scale - MDPI, https://www.mdpi.com/2673-8392/5/1/18
What Is a Likert Scale? | Guide & Examples - Scribbr, https://www.scribbr.com/methodology/likert-scale/
The use of rating and Likert scales in Natural Language Generation human evaluation tasks: A review and some recommendations - ResearchGate, https://www.researchgate.net/publication/338053074_The_use_of_rating_and_Likert_scales_in_Natural_Language_Generation_human_evaluation_tasks_A_review_and_some_recommendations
RankME: Reliable Human Ratings for Natural Language Generation, https://researchportal.hw.ac.uk/en/publications/rankme-reliable-human-ratings-for-natural-language-generation
RankME: Reliable Human Ratings for Natural Language Generation …, https://aclanthology.org/N18-2012/
A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation - ACL Anthology, https://aclanthology.org/2024.findings-emnlp.559.pdf
Why you should A/B test your conversational experiences | Pathways, https://www.voiceflow.com/pathways/why-you-should-a-b-test-your-conversational-experiences-a
‎A/B Testing inside a Dialogue Tree | Sprinklr Help Center, https://www.sprinklr.com/help/articles/set-up-ab-testing/ab-testing-inside-a-dialogue-tree/6627b45c4c111e4b1e2a7a64
G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment - DEV.DY - 티스토리, https://dytis.tistory.com/86
[Paper] G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignment, https://noggame.tistory.com/93
Metric for text summarization : r/LanguageTechnology - Reddit, https://www.reddit.com/r/LanguageTechnology/comments/s5ao3z/metric_for_text_summarization/
Automatic Summarization Evaluation: Methods and Practices - King’s College London Research Portal, https://kclpure.kcl.ac.uk/portal/files/315408822/Paper_40.pdf
Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets, https://arxiv.org/html/2502.19339v2
Evaluate the text summarization capabilities of LLMs for enhanced decision-making on AWS, https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/
Metrics and Evaluation of Spoken Dialogue Systems | Request PDF - ResearchGate, https://www.researchgate.net/publication/236211345_Metrics_and_Evaluation_of_Spoken_Dialogue_Systems
[2108.01369] How to Evaluate Your Dialogue Models: A Review of Approaches - ar5iv, https://ar5iv.labs.arxiv.org/html/2108.01369
Simulating User Satisfaction for the Evaluation of Task-oriented Dialogue Systems - Krisztian Balog, https://krisztianbalog.com/files/sigir2021-usersim.pdf
Advancing Dialogue Systems: Measuring User Satisfaction and Embracing Multimodality - ACL Anthology, https://aclanthology.org/2023.yrrsds-1.18.pdf
Metrics and Evaluation of Spoken Dialogue Systems - Semantic Scholar, https://www.semanticscholar.org/paper/Metrics-and-Evaluation-of-Spoken-Dialogue-Systems-Hastie/e284f690113a396122d0116f503f5c866aa36c63
Evaluating Natural Language Generation Tasks for Grammaticality, Faithfulness and Diversity - Apollo, https://www.repository.cam.ac.uk/items/1718b380-029b-42a3-891d-da52016323c2
LLM Evaluation Metrics: The Ultimate LLM Evaluation Guide - Confident AI, https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation
Workshop on Gender Bias in Natural Language Processing (2025) - ACL Anthology, https://aclanthology.org/events/gebnlp-2025/
Bias and Fairness in Large Language Models: A Survey - arXiv, https://arxiv.org/html/2309.00770v2
ACM FAccT 2025 Accepted Papers, https://facctconference.org/2025/acceptedpapers
uclanlp/awesome-fairness-papers: Papers on fairness in NLP - GitHub, https://github.com/uclanlp/awesome-fairness-papers
AI Model Safety, Evaluation, + Red Teaming Solutions - Innodata, https://innodata.com/generative-ai/model-safety-evaluation-and-red-teaming/
LLM Red Teaming: The Complete Step-By-Step Guide To LLM …, https://www.confident-ai.com/blog/red-teaming-llms-a-step-by-step-guide
Evaluate model and system for safety | Responsible Generative AI Toolkit, https://ai.google.dev/responsible/docs/evaluation
Evaluating Toxicity in Large Language Models - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2025/03/evaluating-toxicity-in-large-language-models/
ALERT: A Comprehensive Benchmark for Assessing Large Language Models’ Safety through Red Teaming - ResearchGate, https://www.researchgate.net/publication/381110392_ALERT_A_Comprehensive_Benchmark_for_Assessing_Large_Language_Models’_Safety_through_Red_Teaming
How reproducible is best-worst scaling for human evaluation? A reproduction of $Data-to-text Generation with Macro Planning’ - ACL Anthology, https://aclanthology.org/2023.humeval-1.7.pdf
A Framework for Analyzing NLG Evaluation Metrics using Measurement Theory, https://openreview.net/forum?id=KfJffhdWO1&referrer=%5Bthe%20profile%20of%20Ziang%20Xiao%5D(%2Fprofile%3Fid%3D~Ziang_Xiao1)
A Framework for Analyzing NLG Evaluation Metrics using Measurement Theory - ACL Anthology, https://aclanthology.org/2023.emnlp-main.676.pdf
(PDF) Evaluating NLG systems: A brief introduction - ResearchGate, https://www.researchgate.net/publication/369623607_Evaluating_NLG_systems_A_brief_introduction