1.2.2 샘플링 전략의 영향: Temperature, Top-p, Top-k 파라미터에 따른 다양성과 일관성의 트레이드오프

대규모 언어 모델(LLM)의 트랜스포머 레이어(Transformer Layer)와 소프트맥스(Softmax) 연산을 거쳐 어휘의 확률 분포(Probability Distribution)가 도출되었다 하더라도, 언어 모델의 출력이 아직 완전히 결정된 것은 아니다. 도출된 수만 개의 확률 리스트 중에서 최종적으로 단 하나의 다음 토큰(Next Token)을 건져 올리는 ‘디코딩(Decoding) 혹은 샘플링(Sampling)’ 단계가 남아있다.

이 단계에서 개발자가 API 요청 시 함께 전달하는 하이퍼파라미터(Hyperparameters)들—대표적으로 Temperature, Top-p, Top-k—은 모델 출력의 일관성(Consistency)과 예측 불가능한 환각(Hallucination)의 발생 빈도를 결정짓는 가장 핵심적인 시스템 제어 조이스틱 역할을 한다. 이 파라미터들은 본질적으로 AI 텍스트 생성에 있어서 ’결정론성(Determinism)’과 ‘다양성/창의성(Diversity/Creativity)’ 사이의 등가교환(Trade-off)을 강제한다.

1. Temperature (온도 조절): 확률 분포의 융해와 응고

Temperature( $T$ ) 파라미터는 모델의 로짓(Logit) 스코어를 소프트맥스에 통과시키기 직전, 로짓 값을 임의의 스케일로 나누어 분포의 날카로움을 조작하는 함수적 요소이다. 수식으로는 $P(x_i) = \frac{\exp(z_i / T)}{\sum \exp(z_j / T)}$ 와 같이 표현된다.

$T < 1.0$ (낮은 온도, 응고): 로짓의 값 간 편차가 지수적으로 크게 확대된다. 즉, 1위 확률을 가진 토큰의 확률값이 압도적으로 100%에 가까워지며, 하위 토큰들의 생존 확률은 완전히 소멸한다. 극단적인 $T = 0.0$ 의 설정은 확률이 가장 높은 단 1개의 토큰만을 채택하는 그리디 서치(Greedy Search) 방식을 의미하며, 시스템의 출력을 수학적으로 가장 결정론적인(Deterministic) 상태로 유도한다. (단, 시스템 병렬 연산에 의한 부동소수점 오차는 여전히 약간의 비결정성을 남긴다.)
$T > 1.0$ (높은 온도, 융해): 스코어 간의 차이가 줄어들며 확률 분포가 평탄화(Smoothing)된다. 압도적인 선두 토큰이 사라지고, 평소에는 무시되었던 희귀한 엣지(Edge) 단어들이 선택될 비중이 늘어나면서 응답은 무작위적(Random)이고 창의성을 띠게 된다.

2. Top-k와 Top-p 샘플링: 후보군의 물리적 절삭(Truncation)

온도 조절과 더불어 샘플링 풀(Pool)의 잡음(Noise)을 제어하기 위해 꼬리 자르기 방식의 절삭 파라미터가 적용된다.

Top-k 샘플링: 어휘 사전에 수만 개의 단어가 있더라도, 확률값이 압도적으로 높은 최상위 $k$ 개의 후보(예: $k=50$ )만을 가져오고 나머지는 절대 선택되지 못하도록 확률값을 강제로 0으로 만든다. 그러나 확률 분포가 비교적 평탄하여 51번째 후보의 확률이 상대적으로 높은 상황이어도 기계적으로 배제된다는 동적인 유연성 부족의 단점이 있다.
Top-p (Nucleus Sampling): 상위 후보들부터 확률을 누적(Cumulative Probability)하여 더해 나갈 때, 그 합이 특정 임계값 $p$ (예: $p=0.9$ )에 도달하는 순위까지만 후보군을 인정한다. 1위 확률이 압도적이면 단 1~2개 토큰만 남기고 컷을 하며, 확률이 평탄하면 수백 개의 후보군을 가져가는 등 유동적으로 토큰 풀의 크기(Vocabulary Window)를 조정할 수 있어 현대 LLM 아키텍처에서 가장 신뢰받는 통제 파라미터로 쓰인다.

graph TD
    A[소프트맥스 직전 로짓 스코어 Logit Scores] --> B{Temperature 적용}
    
    B --> |T = 0.0| C[그리디 서치: 결정론적 출력 최상위 1개만 선택]
    B --> |T = 0.7| D[평탄화된 확률 분포 Flattened Distribution]
    
    D --> E{Top-p / Top-k 절삭 필터 Truncation Filter}
    
    E --> F[꼬리가 잘려나간 최종 후보군 Valid Candidate Nuclus]
    F --> G((확률 주사위 샘플링 Random Sampling))
    
    G --> H[다음 토큰 출력 결정]
    
    style C fill:#c8e6c9,stroke:#388e3c,stroke-width:2px;
    style G fill:#ffcc80,stroke:#f57c00,stroke-width:2px;

3. 다양한 파라미터 조합과 오라클 의존성의 상관관계

이러한 파라미터 세팅은 단순히 문장의 어투를 바꾸는 옵션이 아니라, 어플리케이션이 요구하는 공학적 엄밀성(Rigor)에 따른 아키텍처 결정(Architectural Decision)이다.

만약 SQL 쿼리 생성 에이전트나 JSON 구조 반환 파서(Parser)를 개발한다면 온도와 Top-p를 한계까지 낮추어야 한다( $T=0.1$ , $p=0.1$ ). 다양성이 곧 치명적인 신택스 에러(Syntax Error)를 의미하기 때문이다. 반대로 카피라이팅(Copywriting)이나 브레인스토밍 기능 개발에서는 높은 파라미터 값( $T=0.8$ , $p=0.95$ )이 요구된다.

그러나 $T=0.0$ 이라는 결정론적 앵커(Anchor)를 부여한다 하더라도 환각의 위험이 0으로 수렴하는 것은 절대 아니다. 학습 데이터 자체가 지닌 편향이나 프롬프트 구조의 결함으로 인해 모델이 ’틀린 사실’을 가장 높은 확률(argmax)로 밀어버리면, 시스템은 ’오류’를 100%의 일관성으로 확신에 차 출력하게 된다.

결국 파라미터 제어는 모델의 산란도(Variance)를 줄여줄 뿐이지 논리력(Accuracy) 자체를 수학적으로 보증하는 장치가 아니다. 따라서 이 샘플링 매개변수 값의 최적화 수준과 무관하게, 기업의 업무 프로세스에 AI를 통합하기 위해서는 블랙박스 결과물의 정합성을 평가하고 필터링해 내는 본질적인 외부 안전망, **소프트웨어 테스트 오라클(Software Test Oracle)**의 다단계 구축 방면으로 공학적 관심이 모일 수밖에 없는 것이다.