6.16 수학적 추론 과제에서 대규모 언어 모델의 실패 양상 분석

1. 수학적 추론의 형식적 구조와 LLM의 접근 방식

수학적 추론은 공리로부터 추론 규칙을 체계적으로 적용하여 정리를 도출하는 연역적 과정이다. 각 추론 단계의 타당성은 전제와 결론 사이의 논리적 필연성에 의해 보장되며, 증명의 정확성은 이 단계들의 연쇄 전체에 대한 검증을 통해 확인된다. 수학적 증명은 단일 단계의 오류도 전체 증명을 무효화하므로, 각 단계에서의 엄밀한 정확성이 필수적이다.

대규모 언어 모델(LLM)은 이 과정에 근본적으로 다른 방식으로 접근한다. LLM은 훈련 코퍼스에 포함된 수학적 텍스트의 통계적 패턴을 학습하며, 주어진 맥락에서 가장 확률이 높은 토큰 열을 생성한다. 이 과정에서 형식적 추론 규칙의 적용은 명시적으로 이루어지지 않으며, 추론의 타당성에 대한 내재적 검증 메커니즘도 존재하지 않는다.

2. 산술 연산에서의 체계적 오류

LLM의 수학적 추론 실패는 가장 기초적인 산술 연산에서부터 관찰된다. 다자릿수 곱셈, 나눗셈, 큰 수의 덧셈 등에서 LLM은 체계적 오류를 보인다. 이 현상의 원인은 LLM의 연산 방식에 내재한다.

산술 연산은 자릿수별 규칙의 체계적 적용과 올림(carry)의 정확한 전파를 요구한다. 이 과정은 고정된 알고리즘의 순차적 실행이며, 각 단계는 이전 단계의 결과에 엄격히 의존한다. LLM의 토큰 생성 과정은 이러한 순차적 알고리즘 실행에 적합하지 않다. 자기 주의(self-attention) 메커니즘은 입력 토큰 간의 가중 결합을 통해 출력을 생성하며, 이는 패턴 매칭에는 효과적이나 정밀한 알고리즘 실행에는 구조적으로 부적합하다.

Nogueira 등(2021)의 연구(“Investigating the Limitations of Transformers with Simple Arithmetic Tasks”)는 트랜스포머 모델이 훈련 데이터에 포함된 자릿수 범위 내에서는 산술 연산을 수행할 수 있으나, 자릿수가 증가하면 정확도가 급격히 하락함을 보였다. 이는 모델이 산술의 일반적 알고리즘을 학습한 것이 아니라, 특정 자릿수 범위의 입출력 패턴을 암기한 것임을 시사한다.

3. 논리적 추론에서의 일관성 실패

LLM은 명제 논리(propositional logic)와 술어 논리(predicate logic)의 기본적 추론 과제에서도 일관성 있는 성능을 보이지 못한다. 전건 긍정(modus ponens)과 같은 단순한 추론 규칙은 비교적 높은 정확도로 수행하나, 추론의 깊이가 증가하거나 부정(negation), 전칭 양화(universal quantification), 반례 구성(counterexample construction) 등이 관여하면 성능이 현저히 저하된다.

Saparov와 He(2023)의 체계적 분석(“Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought”)은 LLM의 연쇄 사고(chain-of-thought) 추론에서 다음과 같은 오류 유형을 식별하였다.

첫째, 전제 누락(missing premise) 오류이다. 결론 도출에 필요한 전제를 추론 과정에서 사용하지 않고 건너뛰는 현상이다. 이는 형식적 추론에서 허용되지 않는 논리적 비약이다.

둘째, 환각 전제(hallucinated premise) 오류이다. 주어진 전제 집합에 포함되지 않은 가정을 추론 과정에 무단으로 도입하는 현상이다. 이는 형식 체계에서 공리에 없는 명제를 사용하는 것에 해당하며, 증명의 타당성을 근본적으로 훼손한다.

셋째, 오류 전파(error propagation) 문제이다. 다단계 추론에서 초기 단계의 작은 오류가 후속 단계에 누적적으로 영향을 미쳐 최종 결론의 오류율을 급격히 증가시킨다. 추론 깊이 $d$ 에 대해 각 단계의 오류 확률이 $p$ 이면, $d$ 단계 추론의 성공 확률은 $(1-p)^d$ 로 지수적으로 감소한다.

4. 증명 구성 과제에서의 실패

LLM에게 수학적 정리의 증명을 생성하도록 요청하면, 외형상 증명의 형태를 갖춘 텍스트를 생성하나 논리적으로 유효하지 않은 경우가 빈번하다. 이 실패의 양상은 여러 범주로 분류된다.

비형식적 비약(informal leap)은 증명의 핵심적 단계를 “명백하다(obvious)” 또는 “쉽게 확인할 수 있다(easily verified)“와 같은 문구로 대체하는 현상이다. 이러한 문구는 수학적 텍스트에서 관용적으로 사용되나, LLM의 경우 실제로 해당 단계를 수행할 수 없어 이를 회피하는 것인지, 아니면 문체적 패턴을 모방하는 것인지 구분이 어렵다.

순환 논증(circular reasoning)은 증명해야 할 명제를 전제로 암묵적으로 사용하는 오류이다. LLM은 결론과 유사한 표현이 훈련 데이터에서 빈번히 등장할 경우, 이를 증명 과정에 삽입하는 경향을 보인다.

부적절한 보조 정리(lemma) 호출은 존재하지 않거나 해당 맥락에서 적용 불가능한 정리를 인용하는 오류이다. 이는 LLM이 정리의 정확한 진술과 적용 조건을 형식적으로 파악하는 것이 아니라, 정리 이름과 맥락의 통계적 연관을 기반으로 인용을 생성하기 때문이다.

5. GSM8K와 MATH 벤치마크에서의 분석

Cobbe 등(2021)이 제안한 GSM8K 벤치마크는 초등학교 수준의 수학 문장제(word problem)로 구성된다. 이 과제는 자연어로 기술된 문제를 수학적으로 형식화하고, 다단계 산술 연산을 수행하여 답을 도출하는 것을 요구한다. LLM은 연쇄 사고 프롬프팅(chain-of-thought prompting)을 통해 이 벤치마크에서 높은 성능을 달성하였으나, 문제의 표면적 변형에 대해 취약성을 보인다.

Stolfo 등(2023)의 연구(“A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models”)는 GSM8K 문제의 수치를 변경하거나 불필요한 정보를 추가하는 것만으로 LLM의 정확도가 유의미하게 하락함을 보였다. 이는 모델이 수학적 구조를 이해하여 풀이하는 것이 아니라, 문제 유형의 표면적 패턴에 의존함을 시사한다.

Hendrycks 등(2021)이 제안한 MATH 벤치마크는 고등학교 및 대학교 수준의 경시대회 수학 문제를 포함한다. 이 벤치마크에서 LLM의 성능은 문제의 난이도와 주제에 따라 극적으로 변동한다. 특히 추상 대수학, 정수론, 조합론 등 형식적 추론의 비중이 큰 영역에서 성능 저하가 두드러진다.

6. 형식적 검증이 드러내는 LLM 추론의 취약성

LLM이 생성한 수학적 추론을 형식적 증명 보조기(proof assistant)—Lean, Coq, Isabelle 등—를 통해 검증하면, 자연어 수준에서 그럴듯해 보이는 추론의 상당 부분이 형식적으로 유효하지 않음이 확인된다.

Jiang 등(2023)의 연구(“Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs”)는 LLM이 생성한 비형식적 증명 초안을 Isabelle 증명 보조기로 형식화하려는 시도에서, LLM의 비형식적 추론과 형식적 유효성 사이의 간극을 정량적으로 측정하였다. 비형식적 수준에서 “올바른” 것으로 보이는 증명 단계의 상당 비율이 형식화 과정에서 실패하였으며, 이는 LLM의 추론이 형식적 엄밀성의 기준을 충족하지 못함을 보여 준다.

7. 오류의 구조적 원인 분석

LLM의 수학적 추론 실패는 아키텍처와 학습 방식에 내재하는 구조적 원인에서 기인한다.

첫째, 트랜스포머의 계산 깊이 제한이다. 고정된 층수(layer)의 트랜스포머는 고정된 깊이의 계산 회로(computational circuit)에 대응한다. Merrill과 Sabharwal(2024)의 이론적 분석(“The Expressive Power of Transformers with Chain of Thought”)에 따르면, 유한 정밀도(finite precision) 트랜스포머의 표현력은 $\text{TC}^0$ 복잡도 클래스에 제한된다. 연쇄 사고를 통해 중간 계산 단계를 명시적으로 생성함으로써 이 제한을 완화할 수 있으나, 이 경우에도 각 단계에서의 정확성 문제가 잔존한다.

둘째, 훈련 목표와 추론 목표의 불일치이다. LLM의 훈련 목표는 다음 토큰 예측의 교차 엔트로피 최소화이며, 이는 논리적 타당성의 최대화와 동일하지 않다. 논리적으로 유효한 추론 단계가 통계적으로 빈번한 추론 단계와 일치하지 않을 때, LLM은 후자를 선택하는 경향이 있다.

셋째, 작업 기억(working memory)의 부재이다. 복잡한 수학적 추론은 중간 결과를 임시로 저장하고 참조하는 작업 기억을 요구한다. 트랜스포머는 맥락 창(context window) 내의 이전 토큰을 참조할 수 있으나, 이는 명시적 작업 기억과는 구조적으로 다르다. 암묵적 계산 상태의 유지와 조작이 정확하게 이루어지기 어렵다.

8. 불완전성 정리와의 이론적 연결

LLM의 수학적 추론 실패는 불완전성 정리가 설정하는 이론적 한계와 두 가지 차원에서 연결된다.

첫째, 형식 체계 내에서 증명 불가능한 명제에 대해 LLM은 원리적으로 올바른 판단을 내릴 수 없다. LLM이 형식 체계 $\mathcal{F}$ 내의 증명 패턴을 학습했다면, $\mathcal{F}$ 의 괴델 문장 $G$ 에 대해 유효한 증명을 생성하는 것은 $\mathcal{F}$ 자체에서 불가능하므로, LLM의 출력 역시 이 제약을 벗어날 수 없다. LLM이 $G$ 에 대한 응답을 생성한다면, 그것은 형식적으로 유효한 증명이 아니라 통계적 패턴에 기반한 추측이다.

둘째, 더 실질적인 차원에서, LLM의 실패는 불완전성 정리가 설정하는 이론적 한계 이전에 발생한다. 불완전성 정리는 형식 체계가 원리적으로 도달할 수 없는 명제의 존재를 보이는 것이지만, LLM은 형식 체계가 충분히 도달할 수 있는 명제—증명 가능한 정리—에 대해서도 실패한다. 이 간극은 LLM의 한계가 불완전성 정리의 근본적 한계와는 질적으로 다른, 학습 방식과 아키텍처에 기인하는 공학적 한계임을 보여 준다.

이러한 분석은 LLM의 수학적 추론 능력이 형식적 추론의 체계적 수행이 아니라 추론 텍스트의 통계적 모방에 기반하며, 그 실패 양상이 이 본질적 차이를 반영하고 있음을 확인한다.