1.2.1 대규모 언어 모델(LLM)의 작동 원리: 다음 토큰 예측(Next Token Prediction)의 확률론

현대 인공지능 시대를 대표하는 거대 언어 모델(LLM; Large Language Model), 예컨대 OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈나 기타 트랜스포머(Transformer) 기반 아키텍처들의 근본적인 작동 원리는 놀랍도록 직관적이면서도 통계학적으로 깊은 의미를 내포하고 있다. 사용자에게는 마치 높은 지능을 지닌 자아(Consciousness)가 맥락에 맞춰 답변을 사고하여 작문하는 것처럼 보이지만, 이 모든 메커니즘의 기저에는 ’오직 다음 하나의 토큰을 확률적으로 예측하는 과정’만이 존재한다. 이를 **다음 토큰 예측(Next Token Prediction)**이라고 부른다.

1. 단어의 해체 모델: 토큰(Token)의 이해

언어 모델은 인간의 텍스트(문자열)를 있는 그대로 인식하거나 저장하지 않는다. 모델이 문장을 처리하기 위한 첫 번째 관문은 입력된 문자열을 ’토큰(Token)’이라는 더 잘게 쪼개진 원자적 단위로 파싱(Parsing)하는 것이다. 토큰화(Tokenization) 방식에 따라 하나의 토큰은 짧은 한 단어가 될 수도 있고, 단어의 일부 어근이나 접사가 될 수도 있으며, 심지어 하나의 문자가 될 수도 있다.

예를 들어, “소프트웨어 엔지니어링“이라는 문장은 내부 딕셔너리에 따라 ["소프트", "웨어", " 엔", "지", "니어", "링"]과 같이 분할될 수 있다. 그리고 이 각각의 토큰들은 모델 파라미터 내에서 고유한 정수 ID(Integer ID)로 대치된 후 다시 다차원 벡터 공간(Multi-dimensional Vector Space)의 임베딩(Embedding) 값으로 투영(Projection)된다. 따라서 언어 모델의 관점에서 말뭉치를 학습한다는 것은, 특정 토큰들의 집합이 연속적으로 나열되었을 때 그 뒤에 어떤 토큰 ID가 통계적으로 자주 등장했는지를 파악하는 것과 완벽히 동치이다.

2. 다음 토큰 예측 파이프라인

자연어 처리 분야에서 주어진 이전 토큰들의 시퀀스(Sequence)를 조건으로 하여 새로운 토큰을 산출하는 과정은 전형적인 조건부 확률(Conditional Probability)의 수학적 계산으로 환원된다.

수식으로 표현하면, 입력 프롬프트 $X = (x_1, x_2, ..., x_t)$ 가 주어졌을 때, 다음에 등장할 토큰 $x_{t+1}$ 의 분포는 방대한 가중치 공간 $\theta$ 에 의해 결정되는 다음 확률을 모델링하는 것이다.

$P(x_{t+1} \vert x_1, x_2, ..., x_t; \theta)$

이 토큰 예측 파이프라인의 구조적 워크플로우를 간략히 도식화하면 다음과 같다.

graph TD
    A[입력 시퀀스 전송 Input Sequence] --> B[토크나이저 Tokenizer]
    B -->|토큰 정수 ID| C[임베딩 및 위치 인코딩 Embedding & Positional Encoding]
    C --> D[다중 트랜스포머 블록 Multiple Transformer Blocks]
    
    subgraph Attention_Mechanism [어텐션 메커니즘]
        D1[토큰 간 맥락 파악 Self-Attention]
        D2[가중치 행렬 연산 Feed-Forward Network]
    end
    
    D --> Attention_Mechanism
    Attention_Mechanism --> E[선형 투영층 Linear Projection Layer]
    E --> F[로짓 값 도출 Logits]
    F --> G[소프트맥스 함수 Softmax Function]
    G --> H{확률 분포 표 Probability Distribution}
    
    style H fill:#e1bee7,stroke:#8e24aa,stroke-width:2px;

트랜스포머 블록 내부의 어텐션 메커니즘(Attention Mechanism)은 현재까지 생성된 전체 맥락(Context)을 스캔하여 어떤 이전 토큰들에 가중치를 주어 집중할지 결정한다. 이 모든 연산이 끝나면 모델은 어휘 사전(Vocabulary)에 존재하는 수만 개의 모든 토큰 후보군에 대해 실수 형태의 점수(Score)인 로짓(Logits)을 일제히 출력한다.

그리고 최종적으로 이 로짓들은 소프트맥스(Softmax) 계층을 통과하며 0과 1 사이의 확률값으로 스케일링(Scaling)되는데, 이것이 바로 현재 상황에서 어떤 토큰이 가장 적합한지에 대한 ’통계적 확률 분포도’를 형성한다.

환각(Hallucination)과 비결정성의 역학

위와 같은 다음 토큰 예측 원리는 그 근본 설계상 치명적인 약점을 안고 있다. 언어 모델은 절대로 사실(Fact) 계층에 대한 진리값 검증기(Truth-Value Validator)를 가지고 있지 않기 때문이다.

모델의 유일한 목적 함수(Objective Function)는 학습된 훈련 세트(Training Set) 상에서 분포의 다수를 차지했던 ’주변 단어들의 말뭉치 구조’를 통계적으로 가장 자연스럽게 흉내 내는 것이다. 따라서 “1+1은 무엇인가?“라는 질문에 “2“라고 답하는 원리는 수학적인 사칙 연산기를 구동시켜서 도출해 낸 연산의 결과가 아니라, “1+1은” 뒤에 “2“라는 토큰이 압도적으로 많이 등장했던 코퍼스(Corpus)의 통계적 빈도를 그대로 모방한 것에 불과하다.

이처럼 참/거짓의 논리를 따지지 오로지 “가장 그럴법한(Plausible) 단어를 이어 붙이는 행위“에 최적화된 아키텍처의 한계로 인해, 잘못된 전제가 입력되거나 학습 데이터가 희소한 도메인(Sparse Domain)의 질의가 주어질 경우, 모델은 매우 당당하고 유창한 어조로 완벽한 허구의 사실을 조립해 내는 환각(Hallucination) 현상을 발생시킨다. 대규모 언어 모델이 소프트웨어 2.0 시대를 견인하는 게임 체인저(Game Changer)임과 동시에, 기업의 실시간 트랜잭션 등 결정론적 엔지니어링 생태계에 편입시키기에는 그 출력 결과를 절대로 신뢰할 수 없는 근원적인 이유가 바로 이러한 ‘확률적 다음 토큰 예측 메커니즘’ 자체에 있다.