6.15 대규모 언어 모델의 구문적 패턴 학습과 의미론적 한계

1. 대규모 언어 모델의 학습 원리와 구문적 패턴 추출

대규모 언어 모델(Large Language Model, LLM)은 방대한 텍스트 코퍼스로부터 조건부 확률 분포를 학습하는 자기 회귀(autoregressive) 모델이다. 토큰 열 $w_1, w_2, \ldots, w_{t-1}$ 이 주어졌을 때, 다음 토큰 $w_t$ 의 확률 분포를 추정하는 것이 핵심 학습 목표이다.

$P(w_t \mid w_1, w_2, \ldots, w_{t-1}; \theta)$

여기서 $\theta$ 는 모델의 파라미터이다. 학습 과정은 대규모 코퍼스 전체에 대해 다음의 교차 엔트로피 손실(cross-entropy loss)을 최소화한다.

$\mathcal{L}(\theta) = -\sum_{t=1}^{T} \log P(w_t \mid w_1, \ldots, w_{t-1}; \theta)$

이 목적 함수의 최적화 과정에서 모델은 텍스트의 통계적 규칙성을 파라미터에 부호화한다. 트랜스포머(transformer) 아키텍처의 자기 주의(self-attention) 메커니즘은 임의의 두 토큰 위치 사이의 의존 관계를 포착할 수 있으며, 이를 통해 장거리 구문적 의존성(long-range syntactic dependency)을 학습한다.

LLM이 포착하는 구문적 패턴은 다층적이다. 형태론적(morphological) 수준에서 어휘 변화 규칙을, 구문론적(syntactic) 수준에서 구(phrase) 구조와 문장 구조의 규칙성을, 담화(discourse) 수준에서 텍스트의 일관성과 응집성 패턴을 학습한다. Hewitt와 Manning(2019)의 연구(“A Structural Probe for Finding Syntax in Word Representations”)는 LLM의 내부 표현이 구문 트리(parse tree) 구조를 암묵적으로 부호화하고 있음을 실험적으로 입증하였다.

2. 구문론과 의미론의 구분: 형식 언어 이론적 관점

구문론(syntax)과 의미론(semantics)의 구분은 형식 언어 이론에서 엄밀하게 정의된다. 구문론은 기호 열의 합법적 배열 규칙을 다루며, 형식 문법(formal grammar)에 의해 생성되는 문자열의 집합을 규정한다. 의미론은 구문론적으로 합법적인 표현에 의미, 즉 해석(interpretation)을 부여하는 체계이다.

타르스키(Tarski)의 형식 의미론에서, 문장의 진리값은 해석 구조(interpretation structure) $\mathcal{M} = (\mathcal{D}, \mathcal{I})$ 에 의해 결정된다. 여기서 $\mathcal{D}$ 는 논의 영역(domain of discourse), $\mathcal{I}$ 는 해석 함수이다. 문장 $\varphi$ 의 진리값은 $\mathcal{M} \models \varphi$ 로 표기되며, 이는 $\varphi$ 가 모델 $\mathcal{M}$ 에서 참임을 의미한다.

구문론적 조작은 기호의 형태(form)만을 다루고 기호의 의미(meaning)에는 접근하지 않는다. 형식 체계에서 증명은 순수하게 구문론적 절차이며, 의미론적 타당성(semantic validity)은 건전성 정리(soundness theorem)를 통해 간접적으로 보장된다. 이 구분은 LLM의 능력과 한계를 분석하는 데 핵심적 틀을 제공한다.

3. 확률적 앵무새 논변과 의미 이해의 문제

Bender와 Koller(2020)는 “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data“에서, 형태(form)만으로 훈련된 시스템이 의미(meaning)에 접근할 수 있는지에 대해 부정적 논변을 전개하였다. 이들의 핵심 논점은 다음과 같다.

의미(meaning)는 언어적 형태와 그 형태가 지시하는 외부 세계의 대상 사이의 관계이다. LLM은 텍스트라는 형태적 자료만을 학습하며, 텍스트가 지시하는 외부 세계에 대한 직접적 접근을 갖지 않는다. 따라서 LLM이 학습하는 것은 기호 간의 통계적 공기(共起, co-occurrence) 패턴이지, 기호와 세계 사이의 지시적(referential) 관계가 아니다.

Bender 등(2021)은 “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?“에서 LLM을 “확률적 앵무새(stochastic parrot)“로 규정하였다. 이 비유는 LLM이 훈련 코퍼스의 통계적 패턴을 재생산할 뿐, 발화의 의미를 이해하지 못한다는 주장을 함축한다.

이 논변에 대해서는 반론도 존재한다. LLM의 내부 표현이 단순한 공기 통계 이상의 구조화된 세계 모형(world model)을 포함할 가능성을 시사하는 실험적 증거가 보고되고 있다. Li 등(2023)의 연구(“Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task”)는 단순한 게임 환경에서 훈련된 모델이 내부적으로 게임 상태의 구조적 표현을 형성함을 보였다. 그러나 이러한 증거가 일반적 의미 이해의 달성을 입증하는지에 대해서는 학계에서 합의가 이루어지지 않았다.

4. 기호 접지 문제와 LLM의 의미론적 간극

Harnad(1990)가 제기한 기호 접지 문제(symbol grounding problem)는 LLM의 의미론적 한계를 이해하는 데 핵심적 개념이다. 형식 기호 체계에서 기호는 다른 기호를 통해서만 정의되며, 이 순환적 정의만으로는 기호가 외부 세계의 대상과 어떻게 연결되는지 설명할 수 없다.

LLM은 이 문제의 현대적 판본에 직면한다. 토큰은 다른 토큰들과의 공기 관계를 통해 표현되며(분포 의미론, distributional semantics), 이 표현은 토큰 사용의 맥락적 패턴을 포착한다. 분포 가설(distributional hypothesis)—유사한 맥락에서 출현하는 단어는 유사한 의미를 갖는다(Firth, 1957; Harris, 1954)—은 이 접근의 이론적 근거이다.

그러나 분포적 유사성이 의미적 동일성을 보장하지는 않는다. “태양은 동쪽에서 뜬다“와 “달은 동쪽에서 뜬다“는 분포적으로 매우 유사하지만, 전자는 항상 참이고 후자는 조건부적으로만 참이다. 이러한 진리 조건(truth condition)의 차이를 분포적 정보만으로 포착하는 것은 원리적으로 제한된다.

5. 합성성 원리와 LLM의 구조적 제약

프레게(Frege)의 합성성 원리(principle of compositionality)에 따르면, 복합 표현의 의미는 그 구성 요소의 의미와 결합 방식에 의해 결정된다. 자연어의 의미론은 이 원리를 근사적으로 따르며, 인간은 처음 접하는 문장의 의미를 구성 요소로부터 합성적으로 이해한다.

LLM이 합성적 의미 구성(compositional generalization)을 체계적으로 수행할 수 있는지는 핵심적 논쟁점이다. Keysers 등(2020)의 연구(“Measuring Compositional Generalization: A Comprehensive Method on Realistic Data”)는 SCAN 벤치마크 등을 통해 신경 모델이 훈련 분포 밖의 합성적 조합에서 체계적 실패를 보임을 입증하였다. 예를 들어, “jump twice“와 “walk left“를 각각 학습한 모델이 “jump left twice“를 올바르게 처리하지 못하는 현상이 관찰된다.

이 실패는 LLM의 학습이 구성 요소의 의미를 독립적으로 표상하고 규칙에 따라 합성하는 것이 아니라, 전체 패턴의 통계적 연관을 학습하는 방식에 기인한다. 합성적 일반화의 제한은 LLM이 구문적 패턴 매칭을 넘어 체계적 의미 구성에 도달하기 어려운 구조적 이유를 시사한다.

6. 형식적 추론 능력의 한계와 불완전성 정리의 접점

LLM이 형식적 추론 과제에서 보이는 행동은 불완전성 정리와의 접점을 형성한다. LLM은 훈련 코퍼스에 포함된 수학적 증명의 패턴을 학습할 수 있으며, 이를 통해 일부 형식적 추론 과제를 수행한다. 그러나 이 수행은 형식적 추론 규칙의 체계적 적용이 아니라, 증명 텍스트의 통계적 패턴 재생산이다.

이 구분은 중요한 함의를 갖는다. 형식 체계 $\mathcal{F}$ 내에서 유효한 증명의 패턴을 학습한 LLM은, $\mathcal{F}$ 의 추론 규칙을 구문적으로 모방할 수 있다. 그러나 괴델 문장과 같이 $\mathcal{F}$ 내에서 증명 불가능한 명제에 대해, LLM은 형식적 근거 없이 훈련 데이터의 통계적 편향에 따라 응답을 생성할 가능성이 높다. LLM은 증명의 유효성을 논리적으로 검증하는 것이 아니라, 증명처럼 보이는 텍스트를 생성하는 것이기 때문이다.

Saparov와 He(2023)의 연구(“Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought”)는 LLM의 연쇄 사고(chain-of-thought) 추론이 논리적 타당성을 체계적으로 보장하지 않음을 보였다. 추론 깊이(depth)가 증가할수록 오류 확률이 누적되며, 특히 증명 과정에서 불필요한 전제를 도입하거나 필요한 전제를 누락하는 오류가 빈번히 관찰된다.

7. 분포 이동과 의미론적 견고성의 부재

LLM의 의미론적 한계는 분포 이동(distributional shift) 상황에서 극명하게 드러난다. 훈련 코퍼스의 통계적 분포와 다른 맥락에서 LLM의 성능은 급격히 저하될 수 있다. 이는 LLM이 의미를 이해하는 것이 아니라 특정 분포의 패턴을 학습했기 때문이다.

의미를 진정으로 이해하는 체계라면, 표현 형식의 변화에도 의미적 동일성을 보존해야 한다. 그러나 LLM은 의미적으로 동일한 문장의 표면적 재구성(surface reformulation)에 대해 일관되지 않은 응답을 산출하는 경우가 관찰된다. 이는 LLM의 처리가 의미론적 수준이 아닌 구문론적 수준에서 이루어짐을 시사하는 증거이다.

8. 스케일링 법칙과 의미 이해의 창발 가능성 논쟁

Kaplan 등(2020)의 연구(“Scaling Laws for Neural Language Models”)에서 보고된 스케일링 법칙(scaling law)에 따르면, 모델 크기, 데이터 양, 연산량의 증가에 따라 LLM의 성능이 멱법칙(power law)을 따라 향상된다. 이에 기반하여, 충분한 규모의 확장이 의미 이해의 창발(emergence)을 가져올 수 있다는 주장이 제기되었다.

Wei 등(2022)은 “Emergent Abilities of Large Language Models“에서 특정 규모 이상의 모델에서 이전에 관찰되지 않던 능력이 갑작스럽게 출현하는 현상을 보고하였다. 그러나 Schaeffer 등(2024)은 “Are Emergent Abilities of Large Language Models a Mirage?“에서 관찰된 창발 현상의 상당 부분이 비선형적 평가 지표(metric)의 선택에 기인하며, 연속적 지표로 측정하면 성능 향상이 점진적임을 보였다.

규모 확장이 구문적 패턴 학습의 정교화를 넘어 진정한 의미 이해에 도달할 수 있는지는 현재로서는 미해결 문제이다. 이 문제는 단순한 공학적 질문이 아니라, 의미(meaning)란 무엇이며 통계적 패턴과 의미적 이해 사이의 경계가 어디에 있는지에 대한 철학적 질문과 불가분하게 연결되어 있다.

9. 불완전성 정리의 관점에서 본 LLM의 근본적 제약

불완전성 정리의 관점에서 LLM의 한계를 조망하면 다음과 같은 구조가 드러난다. 괴델의 정리는 형식 체계의 구문론적 조작만으로는 해당 체계의 모든 참인 명제를 포착할 수 없음을 보인다. 즉, 구문론(증명 가능성)과 의미론(진리)사이에는 메울 수 없는 간극이 존재한다.

LLM은 본질적으로 구문론적 체계이다. 토큰 열의 통계적 패턴을 학습하고 재생산하며, 이 과정에서 외부 세계의 의미론적 구조에 직접 접근하지 않는다. 불완전성 정리가 형식 체계 내부의 구문-의미 간극을 수학적으로 확립했듯, LLM의 구문적 패턴 학습과 진정한 의미 이해 사이에도 유비적 간극이 존재한다.

이 간극이 원리적으로 극복 불가능한 것인지, 아니면 다중 모달 학습(multimodal learning), 체화된 인지(embodied cognition), 또는 외부 도구와의 상호작용을 통해 좁힐 수 있는 것인지는 현대 인공지능 연구의 핵심 의제이다. 확실한 것은, 텍스트만을 입력으로 하는 순수 언어 모델이 구문적 패턴의 정교한 학습을 넘어 완전한 의미론적 이해에 도달할 수 있다는 주장은 현재까지의 이론적, 실험적 증거에 의해 충분히 뒷받침되지 않는다는 것이다.