1.2.1.1 자기회귀(Autoregressive) 생성의 특징과 누적 오차(Accumulated Error)

대규모 언어 모델(LLM)이 문장을 산출하는 근간 기술은 **자기회귀 메커니즘(Autoregressive Mechanism)**이다. 자기회귀란, 현재 시점( $t$ )의 출력을 도출하기 위해 과거 시점( $0$ 부터 $t-1$ 까지)의 모든 과거 데이터들을 다시 입력(Input) 변수로 재활용하는 통계적 회귀 모델을 의미한다. 자연어 처리(NLP; Natural Language Processing) 영역에서 이 방식은 “지금까지 생성된 모든 단어(토큰 시퀀스)를 컨텍스트로 삼아, 그 다음에 올 하나의 다음 토큰 모델을 확률적으로 추론하는 행위“로 귀결된다. 언어 모델의 유창함(Fluency)은 바로 이 자기회귀적 반복 루프(Autoregressive Iteration Loop) 속에서 잉태되며, 역설적으로 그 파괴적인 기계적 한계 또한 이 구조 속에서 싹튼다.

1. 자기회귀 프로세스(Autoregressive Process)의 전개

시스템이 단 한 줄의 출력 문장을 완성하기 위해 내부적으로 어떠한 데이터 연쇄를 거치는지 살펴보자. 사용자가 제공한 초기 프롬프트를 $P$ 라고 할 때, 모델이 총 3개의 토큰 $T_1, T_2, T_3$ 를 연이어 생성해 내는 과정은 다음과 같은 확률적 사슬(Probabilistic Chain)로 이루어진다.

초기 예측 (Initial Prediction): 입력된 프롬프트 $P$ 를 바탕으로 첫 번째 토큰 $T_1$ 을 확률적 샘플링(Probabilistic Sampling)을 통해 예측한다.
$T_1 \leftarrow Model(P)$
결과 피드백 (Result Feedback): 방금 생성된 토큰 $T_1$ 을 기존 프롬프트 $P$ 의 제일 끝에 이어 붙인다(Concatenate). 이것이 새로운 컨텍스트 $\[P, T_1\]$ 이 된다.
다음 토큰 예측 (Next Token Prediction): 확장된 컨텍스트 $\[P, T_1\]$ 을 전체 입력으로 하여, 그 다음에 올 두 번째 토큰 $T_2$ 를 예측한다.
$T_2 \leftarrow Model(\[P, T_1\])$
반복 (Iteration): 다시 $T_2$ 를 컨텍스트에 추가하여 $\[P, T_1, T_2\]$ 를 만들고, 이 전체를 분석하여 세 번째 토큰 $T_3$ 를 산출해 낸다.
$T_3 \leftarrow Model(\[P, T_1, T_2\])$

graph TD
    subgraph AR_Loop [자기회귀 루프 Autoregressive Loop]
        A[초기 컨텍스트 Initial Context] --> B(LLM 연산 레이어 Forward Pass)
        B --> C{토큰 샘플링 Sampling}
        C --> D[새로운 토큰 생성 New Token Output]
        D -. 텍스트 병합 Concatenation .-> A
    end
    
    style AR_Loop fill:#f3e5f5,stroke:#ab47bc,stroke-width:2px;

이러한 메커니즘을 거치면서, 모델은 방금 자신이 내뱉은 출력에 대해 스스로 강한 의존성을 부여하게 된다. 즉, 생성된 텍스트가 모델 내부의 메모리에 저장되는 것이 아니라, 생성된 텍스트 시퀀스 그 자체가 매 연산 단계마다 다시 전체 입력값(Input)으로 주어지는 완전한 선형 파이프라인(Linear Pipeline)인 것이다.

2. 환각의 연쇄: 누적 오차(Accumulated Error)의 발생 기전

문제는 이 선형적 통계 파이프라인이 단 한 번의 단기 예측(Short-term Prediction)에는 매우 뛰어나지만, 수천 토큰 이상의 장기적인 추론(Long-term Reasoning)을 지속해야 하는 롱-컨텍스트(Long-context) 환경에서는 기하급수적으로 부패(Decay)할 수밖에 없다는 점이다. 이러한 구조적 결함을 공학적으로 누적 오차(Accumulated Error) 현상이라 명명한다.

통계적 샘플링 과정에서 발생하는 미세한 노이즈(Noise)나 환각(Hallucination)은 독립적인 일회성 오류로 그치지 않는다. 잘못된 토큰 $E_1$ (Error Token 1)이 문장 내에 한 번 생성되어 버리면, 이 오염된 토큰 $E_1$ 은 다음 토큰을 추론하기 위한 ’절대적인 과거의 컨텍스트(Ground Truth Context)’로 둔갑하여 모델에 재입력된다.

모델은 이 잘못된 컨텍스트 $E_1$ 을 정박점(Anchor)으로 삼아 논리적 당위성을 확보하고자 한다. 즉, 앞서 발생한 거짓말을 무리하게 수습하고 그 모순을 합리화하기 위해 그보다 더 심하게 오염된 토큰 $E_2$ 를 생성할 확률이 통계적으로 비약적으로 상승하게 된다. 이 지점부터 연산은 정답의 분포에서 완전히 이탈(Divergence)해 버리며, 걷잡을 수 없는 나비효과를 불러일으킨다.

정상 분포의 확률 공간(Probability Space) 내에서 연산이 시작된다.
희소한 확률적 엣지 케이스(Edge Case)에 의해 사실과 다른 토큰이 등장한다.
이 오염된 토큰이 프롬프트 내에 편입됨으로써 어텐션 메커니즘(Attention Mechanism)의 가중치 행렬이 비정상적인 방향으로 크게 쏠린다.
논리적 구조 전체가 와해되며 이른바 ‘의식을 잃은 듯한’ 환각 텍스트(Hallucinatory Text)의 연쇄가 쏟아지기 시작한다.

3. 품질 보증(QA) 측면의 공학적 경계

자기회귀의 특징과 이로부터 필연적으로 수반되는 누적 오차 메커니즘은 왜 LLM 기반 애플리케이션에 대한 고전적 의미의 단위 테스트(Unit Testing) 및 독립적 모듈 검증이 심각한 도전 과제로 다가오는지를 정확히 방증한다.

소프트웨어 1.0 체제에서는 각 함수와 모듈의 에러율(Error Rate)이 대체로 독립적이며 선형적으로 더해질 뿐 중첩되어 폭발하지는 않는다. 하지만, 소프트웨어 2.0에 해당하는 자기회귀 언어 모델 파이프라인에서는 첫 번째 스텝에서의 사소한 확률적 편차(Deviation)가 시스템의 종착지에서 전체 논리를 완전히 파탄 내버리는 증폭(Amplification) 과정을 심각하게 경계해야만 한다. 이 변동성을 철저하게 통제하기 위해 실서비스 단계에서는 **소프트웨어 테스트 오라클(Software Test Oracle)**과 더불어 체인 중간중간 데이터의 유효성을 끊어내는 다단계의 엄격한 가드레일(Guardrails) 메커니즘이 강제 요구되는 것이다.