3.1.1.1 LLM의 ‘다음 토큰 예측’ 메커니즘과 불확실성

소프트웨어 엔지니어들이 거대 언어 모델(LLM, Large Language Model)을 다룰 때 겪는 가장 큰 인지 부조화 중 하나는, 언뜻 보기에 매우 지능적이고 논리적으로 보이는 AI의 응답 체계 이면에 극도로 단순하고 기계적인 확률 연산만이 존재한다는 사실이다.

결정론적 정답지를 설계하기 위한 첫 단추는, 우리의 검증 대상이 되는 LLM이 본질적으로 **“가장 높은 확률(Probability)을 가진 다음 토큰(Next Token)을 예측하는 통계 엔진”**에 불과함을 직시하고 그 한계와 비결정성(Nondeterminism)의 기원을 이해하는 것이다.

1. 자기 회귀적 토큰 예측(Autoregressive Token Prediction) 모델의 본질

GPT(Generative Pre-trained Transformer) 아키텍처를 기반으로 하는 모든 LLM은 자기 회귀적(Autoregressive) 성질을 갖는다. 이는 모델이 문장 전체의 구조나 논리를 한 번에 ’생각’하고 뱉어내는 것이 아니라, 이전에 주어진 문맥(Context) 토큰들을 조건부 확률의 입력으로 삼아 오직 **‘그다음 위치에 올 단 하나의 토큰’**만을 지속적으로 연산해 나가는 과정임을 의미한다.

수식으로 표현하면 다음과 같다. 입력된 프롬프트와 지금까지 생성된 토큰의 시퀀스를 $X_{<i} = (x_1, x_2, ..., x_{i-1})$ 라고 할 때, $i$ 번째 토큰 $x_i$ 가 생성될 확률 분포는 다음과 같이 계산된다.

$P(x_i | x_1, x_2, ..., x_{i-1})$

모델의 최종 출력 공간(Vocab List)은 모델이 알고 있는 수만 개의 토큰 전체이며, 모델은 이 수만 개의 토큰 각각이 $i$ 번째 자리에 올 확률(Logits)을 0과 1 사이의 값으로 계산해 낸다. 이후 Temperature, Top-p, Top-k와 같은 샘플링(Sampling) 하이퍼파라미터를 통해 이 확률 분포에서 최종 토큰을 ‘뽑아내는(Sample)’ 것이 바로 생성(Generation)의 실체다.

불확실성(Uncertainty)의 기원과 증폭 현상

이러한 ‘다음 토큰 예측’ 구조는 그 자체로 엔터프라이즈 시스템이 가장 기피하는 요소인 비결정적 동작(Non-deterministic Behavior)과 무작위성을 시스템의 코어 로직 한가운데로 끌어들인다.

샘플링에 의한 확률적 변주: Temperature가 0보다 클 경우, 시스템은 가장 확률이 높은 토큰을 무조건 선택하는 대신, 상위 랭크의 토큰들 사이에서 확률적 주사위 던지기를 수행한다. 즉, 입력 $A$ 에 대한 첫 번째 토큰이 미세한 확률 차이로 동의어 집합 내의 다른 단어로 대체되는 순간, 이어지는 조건부 확률 수식이 완전히 달라져 전체 문장의 논리나 포맷이 걷잡을 수 없이 나비 날갯짓처럼 변형된다(Butterfly Effect in Generation).
부동 소수점 오차(Floating-Point Non-determinism): 설령 Temperature를 0으로 설정하여 무작위 샘플링을 차단(Greedy Decoding)하더라도 완벽한 결정론이 보장되는 것은 아니다. 대규모 분산 GPU 인프라 환경에서 수행되는 거대한 행렬 곱(Matrix Multiplication) 연산의 병렬 처리 과정에서, 스레드(Thread) 경쟁 상태에 따른 연산 순서의 미세한 변경은 필연적으로 부동 소수점(Floating-Point)의 반올림 오차를 발생시킨다. 수억 번의 연산 끝에 이 오차가 누적되면, 확률이 가장 높은(Max) 토큰의 인덱스 순위 자체가 뒤바뀌게 되어 결과적으로 다른 출력을 유발한다.
장기 의존성(Long-term Dependency) 유지의 실패: 토큰이 몇 천 개 이상 생성되는 지점에 다다르면, 초반부 시스템 프롬프트(System Prompt)에 지시했던 엄격한 비즈니스 룰이나 포맷 제한 조건이, 최근에 생성된 수많은 토큰의 확률적 압력(Attention Weight)에 희석된다. 이는 “잃어버린 중간(Lost in the middle)” 현상 등의 형태로 나타나며, 모델이 스스로 세운 논리를 후반부에 자기모순(Self-contradiction)으로 깨버리는 결과를 초래한다.

검증 불가능한 블랙박스, 그리고 오라클의 역할

결론적으로, LLM의 다음 토큰 예측 메커니즘을 외부에서 통제하여 매번 동일한 결과를 ’보장’하려 드는 접근은 물리적으로 불가능에 가깝다. LLM은 ’계산기(Calculator)’가 아니라 경험 통계에 의존하는 ’문장성립 확률 엔진(Probability Engine)’이기 때문이다.

이러한 사실은 개발자에게 하나의 명백한 결론을 시사한다. 우리는 이 확률적 엔진의 내부(Inner Working)를 완벽히 통제할 수 없으므로, 생성 메커니즘 밖에서 결과에 대한 물리적인 족쇄(Shackle)를 채워야 한다. 무한한 토큰의 조합(State Space)이 비즈니스 레이어로 진입하기 전에, 그 출력이 시스템의 제약 조건(Constraints)을 충족하는지 강제로 끊어내고 검사하는 철강과 같은 검문소. 그것이 바로 결정론적 정답지와 오라클이 배치되어야 하는 정확한 당위성이다.