7.28 정보 엔트로피의 자연어 처리 응용: 퍼플렉서티(Perplexity)

7.28 정보 엔트로피의 자연어 처리 응용: 퍼플렉서티(Perplexity)

1. 퍼플렉서티의 정의

1.1 언어 모형의 퍼플렉서티

퍼플렉서티(perplexity, PPL)는 확률적 언어 모형(probabilistic language model)의 성능을 평가하는 표준적 내재적 척도(intrinsic metric)이다. 언어 모형 P_\theta가 테스트 수열 w_1, w_2, \ldots, w_N (N개의 토큰)에 대해 부여하는 퍼플렉서티는 다음과 같이 정의된다:

\text{PPL} = P_\theta(w_1, w_2, \ldots, w_N)^{-1/N} = 2^{H_\theta}

여기서 H_\theta는 모형의 교차 엔트로피이다:

H_\theta = -\frac{1}{N} \sum_{t=1}^{N} \log_2 P_\theta(w_t \vert w_1, \ldots, w_{t-1})

퍼플렉서티는 교차 엔트로피의 지수 변환이므로, 교차 엔트로피와 단조적 관계를 가진다. 교차 엔트로피가 낮을수록 퍼플렉서티도 낮으며, 이는 모형의 예측 성능이 우수함을 의미한다.

1.2 직관적 해석

퍼플렉서티의 값은 모형이 각 시점에서 “평균적으로 몇 개의 토큰 중에서 혼란을 겪는가“를 나타낸다. 퍼플렉서티가 k이면, 모형은 각 시점에서 마치 k개의 토큰 중에서 균등하게 선택하는 것과 동등한 수준의 불확실성을 가진다.

예를 들어, V개의 토큰을 가지는 알파벳에서 균등 분포 모형의 퍼플렉서티는 V이다. 합리적인 언어 모형의 퍼플렉서티는 V보다 훨씬 작으며, 이는 모형이 언어의 통계적 구조를 활용하여 불확실성을 줄임을 의미한다.

2. 엔트로피, 교차 엔트로피, 퍼플렉서티의 관계

2.1 세 척도의 관계

참 분포 P와 모형 분포 Q에 대해:

  • 엔트로피: H(P) = -\sum_x P(x) \log_2 P(x). 참 분포의 본질적 불확실성.
  • 교차 엔트로피: H(P, Q) = -\sum_x P(x) \log_2 Q(x) = H(P) + D_{\text{KL}}(P \| Q).
  • 퍼플렉서티: \text{PPL} = 2^{H(P, Q)}.

따라서:

\text{PPL} = 2^{H(P) + D_{\text{KL}}(P \| Q)} \geq 2^{H(P)}

등호는 Q = P, 즉 모형이 참 분포와 일치할 때에만 성립한다. 모형이 완벽하더라도 참 분포의 엔트로피에 의한 하한 2^{H(P)}은 넘을 수 없다. 이 하한은 언어 자체의 본질적 불확실성에 기인한다.

2.2 무잡음 부호화 정리와의 연결

교차 엔트로피 H(P, Q)는 참 분포 P 하에서 모형 Q에 기반한 부호를 사용할 때의 평균 부호 길이이다. 따라서 퍼플렉서티가 낮은 모형은 텍스트를 더 효율적으로 압축할 수 있다. 이 관계는 언어 모형의 성능 평가와 데이터 압축 사이의 본질적 동등성을 확립한다.

3. 퍼플렉서티의 계산

3.1 자기 회귀 모형에서의 계산

자기 회귀(autoregressive) 언어 모형에서 결합 확률은 연쇄 법칙에 의해 조건부 확률의 곱으로 분해된다:

P_\theta(w_1, \ldots, w_N) = \prod_{t=1}^{N} P_\theta(w_t \vert w_1, \ldots, w_{t-1})

로그를 취하면:

\log_2 P_\theta(w_1, \ldots, w_N) = \sum_{t=1}^{N} \log_2 P_\theta(w_t \vert w_{<t})

토큰 당 교차 엔트로피와 퍼플렉서티는:

H_\theta = -\frac{1}{N} \sum_{t=1}^{N} \log_2 P_\theta(w_t \vert w_{<t})

\text{PPL} = 2^{H_\theta}

3.2 n-그램 모형에서의 계산

n-그램 언어 모형에서 P(w_t \vert w_{t-n+1}, \ldots, w_{t-1})은 훈련 데이터의 빈도 통계로부터 추정된다. 영빈도 문제(zero-frequency problem)에 대응하여 평활화(smoothing) 기법이 적용되며, 이는 퍼플렉서티 계산에 직접적으로 영향을 미친다.

4. 퍼플렉서티를 이용한 모형 비교

4.1 모형 선택 기준으로서의 퍼플렉서티

동일한 테스트 데이터에 대해 여러 언어 모형의 퍼플렉서티를 비교함으로써, 모형의 상대적 성능을 객관적으로 평가할 수 있다. 낮은 퍼플렉서티는 모형이 테스트 데이터의 통계적 구조를 더 정확하게 포착하고 있음을 의미한다.

역사적으로, 언어 모형의 발전은 퍼플렉서티의 지속적 감소로 추적할 수 있다. 단일 문자 모형에서 n-그램 모형, 순환 신경망(RNN), 장단기 기억(LSTM) 네트워크, 트랜스포머(Transformer)에 이르기까지, 각 세대의 모형은 이전 세대보다 낮은 퍼플렉서티를 달성하였다.

4.2 한계와 주의점

퍼플렉서티는 내재적(intrinsic) 평가 척도로, 모형의 확률적 예측 능력만을 측정한다. 외재적(extrinsic) 과제—기계 번역, 질의 응답, 요약 등—에서의 성능과 퍼플렉서티 사이에는 양의 상관관계가 일반적으로 존재하나, 완벽한 대응은 아니다.

또한 퍼플렉서티의 비교는 동일한 어휘(vocabulary)와 토큰화(tokenization) 방식을 사용하는 모형들 사이에서만 유의미하다. 서로 다른 토큰화를 사용하는 모형의 퍼플렉서티를 직접 비교하면 오도적 결론에 도달할 수 있다. 이 경우 비트 당 문자(bits per character, BPC)와 같은 정규화된 척도의 사용이 권장된다.

5. 영어의 엔트로피와 퍼플렉서티

5.1 섀넌의 추정

섀넌은 1951년 논문 “Prediction and Entropy of Printed English“에서 인간 피험자의 텍스트 예측 실험을 통해 영어의 엔트로피율을 문자 당 약 1.0~1.5비트로 추정하였다. 이에 대응하는 문자 수준 퍼플렉서티는 약 2^{1.0} ~ 2^{1.5} \approx 2 ~ 2.8이다.

5.2 현대 언어 모형의 퍼플렉서티

현대의 대규모 언어 모형은 단어 수준에서 현저히 낮은 퍼플렉서티를 달성한다. GPT 계열 모형은 Penn Treebank 등의 표준 벤치마크에서 퍼플렉서티 20 미만을 달성하며, 이는 모형이 각 시점에서 평균적으로 약 20개 이하의 단어 중에서 불확실성을 가짐을 의미한다.

6. 정보론적 의의

퍼플렉서티는 정보 이론의 핵심 개념인 엔트로피와 교차 엔트로피의 직접적 응용이다. 이 척도의 사용은 언어 모형의 목표를 “텍스트의 확률 분포를 정확히 모형화하는 것“으로 명확하게 정의하며, 이 목표의 달성 정도를 정보론적으로 정량화한다. 퍼플렉서티에 의한 모형 평가는 “모형이 텍스트를 얼마나 효율적으로 압축할 수 있는가“라는 질문과 동등하며, 이는 무잡음 부호화 정리에 의해 엔트로피와 직결된다. 정보 이론이 자연어 처리에서 수행하는 이 기초적 역할은, 섀넌이 1948년 논문에서 영어 텍스트의 엔트로피 분석을 수행한 것에서 직접적으로 기원한다.