6.14 딥러닝 기반 학습의 귀납적 추론과 형식적 증명의 근본적 차이

1. 연역적 추론과 귀납적 추론의 인식론적 구분

형식적 증명(formal proof)은 연역적 추론(deductive reasoning)의 전형적 형식이다. 연역적 추론은 유한한 공리 집합과 추론 규칙으로부터 출발하여 논리적 필연성에 의해 정리(theorem)를 도출하는 절차이다. 이 과정에서 결론의 진리값은 전제의 진리값에 의해 완전히 결정되며, 전제가 참이면 결론도 반드시 참이다. 진리 보존(truth-preserving)이라는 이 성질이 연역적 추론의 핵심적 강점이다.

귀납적 추론(inductive reasoning)은 이와 정반대의 방향을 취한다. 유한한 개별 관찰 사례로부터 일반적 규칙 또는 법칙을 추출하는 과정이다. 귀납적 추론의 결론은 전제에 의해 논리적으로 보장되지 않으며, 단지 개연적(probable)으로만 지지된다. 데이비드 흄(David Hume)이 제기한 귀납의 문제(problem of induction)는 유한한 관찰로부터 보편적 법칙을 정당화할 수 없다는 것을 보여 주며, 이 문제는 오늘날까지 철학적으로 완전히 해결되지 않았다.

딥러닝(deep learning)은 본질적으로 귀납적 추론 체계이다. 유한한 훈련 데이터 집합 $\mathcal{D} = \{(x_i, y_i)\}_{i=1}^{N}$ 으로부터 입력 공간 $\mathcal{X}$ 에서 출력 공간 $\mathcal{Y}$ 로의 매핑 $f_\theta: \mathcal{X} \to \mathcal{Y}$ 를 학습한다. 이 매핑은 훈련 데이터에서 관찰된 패턴의 통계적 규칙성을 파라미터 $\theta$ 에 부호화한 것이며, 미관측 데이터에 대한 예측은 귀납적 일반화(inductive generalization)에 해당한다.

2. 형식적 증명 체계의 구조와 괴델 정리의 직접적 적용

형식적 증명 체계는 다음 네 가지 구성 요소로 정의된다.

$\mathcal{F} = (\mathcal{L}, \mathcal{A}, \mathcal{R}, \mathcal{T})$

여기서 $\mathcal{L}$ 은 형식 언어, $\mathcal{A}$ 는 공리 집합, $\mathcal{R}$ 은 추론 규칙 집합, $\mathcal{T}$ 는 도출 가능한 정리 집합이다. 증명(proof)은 공리에서 출발하여 추론 규칙을 유한 번 적용하여 목표 명제에 도달하는 유한 열(finite sequence)이다. 각 단계의 정당성은 기계적으로 검증 가능하며, 증명의 타당성은 절대적이다.

괴델의 제1 불완전성 정리는 페아노 산술(Peano arithmetic)을 포함하는 모든 무모순(consistent) 형식 체계 $\mathcal{F}$ 에 대해, $\mathcal{F}$ 내에서 증명도 반증도 불가능한 명제 $G$ 가 존재함을 보인다. 제2 불완전성 정리는 그러한 $\mathcal{F}$ 가 자기 자신의 무모순성을 증명할 수 없음을 보인다. 이 정리들은 연역적 추론 체계의 내재적 한계를 수학적으로 확립한 것이다.

핵심적으로, 불완전성 정리는 형식 체계의 구문론적(syntactic) 차원에서 작동한다. 괴델 부호화(Gödel numbering)를 통해 메타수학적 진술을 체계 내부의 산술적 명제로 환원하며, 대각화 논법(diagonalization argument)을 사용하여 자기 참조적 명제를 구성한다. 이 전체 과정은 형식 체계의 재귀적 공리화 가능성(recursive axiomatizability)과 표현력(expressiveness)이라는 두 조건에 본질적으로 의존한다.

3. 딥러닝 학습 과정의 비형식적 특성

딥러닝의 학습 과정은 형식적 증명 체계의 구조와 근본적으로 다른 방식으로 작동한다. 경험적 위험 최소화(empirical risk minimization, ERM) 원리에 따라, 학습 알고리즘은 다음의 최적화 문제를 근사적으로 푼다.

$\hat{\theta} = \arg\min_{\theta \in \Theta} \frac{1}{N} \sum_{i=1}^{N} \ell(f_\theta(x_i), y_i)$

여기서 $\ell$ 은 손실 함수, $\Theta$ 는 파라미터 공간이다. 확률적 경사 하강법(stochastic gradient descent, SGD)과 그 변형들은 이 목적 함수의 극솟값(local minimum)을 탐색하며, 그 과정은 확률적이고 근사적이다.

이 학습 과정에는 형식적 증명에서 요구되는 어떠한 구조적 요소도 존재하지 않는다. 공리 집합이 없고, 명시적 추론 규칙이 없으며, 논리적 도출의 유한 열도 존재하지 않는다. 파라미터 갱신 과정은 미분 가능한 함수의 기울기에 기반한 수치적 최적화이지, 논리적 추론이 아니다. 따라서 불완전성 정리가 요구하는 형식 체계의 전제 조건 자체가 딥러닝에서는 충족되지 않는다.

4. 진리값의 보장 양식: 확실성 대 개연성

형식적 증명이 제공하는 보장은 절대적이다. 전제(공리)가 참이고 추론 규칙이 타당하면, 결론(정리)은 반드시 참이다. 이 보장은 경험적 증거에 의존하지 않으며, 논리적 구조 자체에 내재한다. 그러나 이 절대적 보장의 범위는 불완전성 정리에 의해 제한된다. 충분히 강력한 형식 체계에서는 참이지만 증명 불가능한 명제가 반드시 존재하기 때문이다.

딥러닝이 제공하는 보장은 확률적이고 조건부적이다. 학습된 모델의 성능은 훈련 데이터의 분포 $P_{\text{train}}$ 과 시험 데이터의 분포 $P_{\text{test}}$ 사이의 관계에 의존한다. 두 분포가 동일하다는 독립 동일 분포(i.i.d.) 가정 하에서도, 일반화 오차(generalization error)는 확률적 상한(probabilistic upper bound)으로만 제어된다.

PAC(Probably Approximately Correct) 학습 이론(Valiant, 1984)은 이 구조를 형식화한다. 가설 클래스 $\mathcal{H}$ 에 대해, 표본 수 $N$ 이 충분히 크면, 높은 확률 $1 - \delta$ 로 경험적 위험과 참 위험 사이의 차이가 $\epsilon$ 이내임을 보장한다.

$P\left[\sup_{h \in \mathcal{H}} \left| R(h) - \hat{R}(h) \right| > \epsilon \right] \leq \delta$

여기서 $R(h)$ 는 참 위험(true risk), $\hat{R}(h)$ 는 경험적 위험(empirical risk)이다. 이 보장은 “아마도(probably) 근사적으로(approximately) 정확한(correct)” 것이지, “확실히 정확한” 것이 아니다. 형식적 증명의 절대적 확실성과 PAC 학습의 확률적 보장 사이의 이 간극이 두 추론 양식의 본질적 차이를 수학적으로 포착한다.

5. 무귀납 정리와 보편적 학습 체계의 불가능성

Wolpert(1996)의 무귀납 정리(No Free Lunch Theorem for Supervised Learning)는 다음을 증명한다. 모든 가능한 목표 함수의 균등 분포 하에서, 어떠한 학습 알고리즘도 다른 모든 알고리즘보다 우월할 수 없다. 형식적으로, 학습 알고리즘 $A_1$ 과 $A_2$ 에 대해 다음이 성립한다.

$\sum_{f} E_{P}[\ell(A_1, f)] = \sum_{f} E_{P}[\ell(A_2, f)]$

여기서 합산은 모든 가능한 목표 함수 $f$ 에 대해 이루어진다. 이 정리는 귀납적 추론 체계의 내재적 한계를 보여 주며, 불완전성 정리가 연역적 추론 체계에 대해 설정하는 한계와 구조적 유비(structural analogy)를 형성한다. 두 정리 모두 “보편적으로 완전한 체계“의 불가능성을 각각의 영역에서 확립한다.

그러나 이 유비는 정밀한 논리적 동치(logical equivalence)가 아니라 개념적 대응이라는 점을 명확히 해야 한다. 불완전성 정리는 형식 체계의 구문론적 속성에 대한 메타수학적 결과이고, 무귀납 정리는 학습 알고리즘의 기대 성능에 대한 통계적 결과이다. 두 결과의 증명 기법, 전제 조건, 적용 범위는 서로 다르다.

6. 귀납 편향과 공리 선택의 대응 관계

딥러닝이 실질적으로 작동하는 이유는 귀납 편향(inductive bias)의 도입에 있다. 무귀납 정리는 모든 문제에 대해 보편적으로 우수한 알고리즘은 없다고 말하지만, 특정 문제 영역에서 적절한 귀납 편향을 가진 알고리즘은 탁월한 성능을 달성할 수 있다.

합성곱 신경망(convolutional neural network, CNN)의 국소 연결성(local connectivity)과 가중치 공유(weight sharing)는 자연 영상의 공간적 국소성과 이동 불변성이라는 가정을 반영하는 귀납 편향이다. 순환 신경망(recurrent neural network, RNN)의 순차적 상태 전이 구조는 시계열 데이터의 시간적 의존성이라는 가정을 부호화한다. 트랜스포머(transformer) 아키텍처의 자기 주의(self-attention) 메커니즘은 입력 요소 간 장거리 의존성의 존재를 전제한다.

이 귀납 편향은 형식 체계에서 공리의 선택과 기능적으로 유사한 역할을 수행한다. 공리는 형식 체계의 출발점을 규정하고 도출 가능한 정리의 범위를 결정하듯, 귀납 편향은 학습 알고리즘의 가설 공간을 제한하고 학습 가능한 함수의 범위를 결정한다. 공리의 선택이 체계의 완전성과 무모순성에 영향을 미치듯, 귀납 편향의 선택은 학습의 일반화 성능과 수렴 속도에 직접적 영향을 미친다.

그러나 결정적 차이가 존재한다. 형식 체계의 공리는 명시적이고 선언적이며, 그 의미론적 해석이 고정되어 있다. 딥러닝의 귀납 편향은 아키텍처 설계, 정규화 기법, 최적화 알고리즘 선택 등 다양한 차원에 암묵적으로 분산되어 있으며, 그 효과는 실험적으로만 검증 가능한 경우가 대부분이다.

7. 일반화의 이론적 미해결 문제

현대 딥러닝의 일반화 능력에 대한 완전한 이론적 설명은 아직 달성되지 않았다. 전통적 학습 이론에서 일반화 오차의 상한은 가설 클래스의 복잡도 측도—VC 차원(Vapnik-Chervonenkis dimension), 라데마허 복잡도(Rademacher complexity) 등—에 의해 제어된다.

그런데 Zhang 등(2017)의 실험(“Understanding deep learning requires rethinking generalization”)은 심층 신경망이 무작위로 레이블된 데이터도 완벽히 암기할 수 있음을 보였다. 이 결과는 전통적 복잡도 기반 일반화 이론이 심층 신경망의 일반화 현상을 설명하기에 불충분함을 시사한다. 동일한 아키텍처가 구조화된 데이터에서는 일반화하고 무작위 데이터에서는 단순 암기하는 현상은, 모델의 표현 능력(expressive capacity) 만으로는 일반화를 예측할 수 없음을 의미한다.

이 미해결 문제는 귀납적 추론 체계의 본질적 불확실성을 반영한다. 형식적 증명에서 정리의 타당성은 증명 과정의 검사만으로 확인되지만, 딥러닝 모델의 일반화 성능은 모델 구조나 훈련 과정의 분석만으로는 예측할 수 없으며, 미관측 데이터에 대한 실험적 평가를 필수적으로 요구한다.

8. 오류의 성격과 수정 가능성

형식적 증명 체계에서 오류는 두 가지 유형으로 분류된다. 첫째, 증명 과정의 논리적 오류(logical error)이며, 이는 기계적 검증을 통해 탐지 가능하다. 둘째, 공리 자체의 부적절성이며, 이는 체계 외부의 메타수학적 분석을 요구한다. 두 경우 모두 오류의 원인이 구조적으로 특정 가능하다.

딥러닝에서 오류의 원인을 특정하는 것은 근본적으로 더 어렵다. 모델의 예측 실패는 훈련 데이터의 편향, 아키텍처의 부적합성, 최적화 과정의 불완전성, 또는 이들의 복합적 상호작용에서 기인할 수 있다. 심층 신경망의 내부 표현은 고차원 파라미터 공간에 분산되어 있으며, 개별 파라미터와 모델 행동 사이의 인과적 관계를 추적하는 것은 현재의 해석 가능성(interpretability) 기법으로도 제한적이다.

이 차이는 두 체계의 투명성(transparency)에서 비롯된다. 형식적 증명은 구성적(constructive)이며 각 단계가 명시적으로 정당화된다. 딥러닝의 학습 결과는 암묵적(implicit)이며, 수십억 개의 파라미터에 인코딩된 지식의 내용과 구조를 완전히 해독하는 것은 현재로서는 불가능하다.

9. 불완전성 정리의 귀납적 추론 체계에 대한 간접적 함의

불완전성 정리는 딥러닝에 직접 적용되지 않지만, 간접적으로 의미 있는 함의를 제공한다. 첫째, 딥러닝이 형식적 추론 과제를 수행하도록 훈련될 때—예를 들어 수학적 정리의 증명을 생성할 때—그 출력은 여전히 형식 체계의 한계 내에 있다. 딥러닝 모델이 형식 체계 $\mathcal{F}$ 내의 증명을 학습하더라도, $\mathcal{F}$ 에서 증명 불가능한 명제를 올바르게 처리하는 것은 원리적으로 불가능하다.

둘째, 딥러닝 시스템의 완전한 행동 명세를 형식적으로 기술하려는 시도는 불완전성 정리의 제약을 받는다. 충분히 복잡한 신경망의 입출력 관계를 완전히 포착하는 형식 체계는, 그 자체가 불완전성 정리의 적용 대상이 될 수 있다. 이는 형식 검증(formal verification)을 통한 인공지능 안전성 보장에 이론적 한계가 존재함을 시사한다.

셋째, 귀납적 추론과 연역적 추론의 한계는 상보적(complementary)이다. 연역적 추론은 확실하지만 불완전하고, 귀납적 추론은 광범위하지만 불확실하다. 어떤 단일 추론 양식도 보편적 완전성과 절대적 확실성을 동시에 달성할 수 없다는 것은, 인공지능의 인식론적 한계에 대한 근본적 통찰을 제공한다.

10. 신경-기호 통합의 동기와 잔존하는 한계

연역과 귀납의 상보성에 기반하여, 신경-기호 통합(neuro-symbolic integration) 연구는 두 추론 양식의 장점을 결합하려 한다. 대표적 접근으로는 신경망의 출력을 기호적 추론 체계의 입력으로 사용하는 파이프라인 방식, 신경망 내부에 논리적 제약을 부호화하는 방식, 기호적 지식 그래프와 신경망 임베딩을 결합하는 방식 등이 있다.

그러나 신경-기호 통합 체계가 형식적 추론 구성 요소를 포함하는 한, 불완전성 정리의 제약으로부터 자유로울 수 없다. 또한 귀납적 구성 요소가 포함되는 한, 귀납적 추론의 확률적 불확실성을 완전히 제거할 수 없다. 두 양식의 통합은 각각의 한계를 완화할 수 있으나 소거할 수는 없다.

이러한 분석은 딥러닝과 형식적 증명이 서로 다른 인식론적 기반 위에 서 있으며, 각각 고유한 강점과 근본적 한계를 지닌 독립적 추론 양식임을 확인한다. 인공지능의 이론적 한계에 대한 온전한 이해는 두 양식의 차이를 명확히 인식하는 데서 출발해야 한다.