Part 2. 딥러닝을 위한 수학적 기초: 대수학, 미적분, 확률론
1. 서론: 딥러닝의 수학적 언어
딥러닝(deep learning)은 다층 신경망을 통해 데이터의 계층적 표현(hierarchical representation)을 학습하는 기계 학습의 하위 분야이다. 이 학습 과정의 모든 단계—데이터의 표현, 모형의 구성, 손실 함수의 정의, 최적화 알고리즘의 실행, 학습 결과의 분석—는 수학적 구조 위에서 정의되고 수행된다. 따라서 딥러닝의 원리를 깊이 이해하고 발전시키기 위해서는 그 기저에 놓인 수학적 기초를 체계적으로 구비하는 것이 필수적이다.
본 파트에서는 딥러닝의 이론과 실천에서 핵심적 역할을 수행하는 세 가지 수학적 분야—선형대수학(linear algebra), 미적분학(calculus), 확률론(probability theory)—의 기초를 다룬다. 이 세 분야는 각각 딥러닝의 서로 다른 측면을 지탱하면서도, 상호 밀접하게 연결되어 통합적 수학 체계를 형성한다.
2. 선형대수학: 데이터와 변환의 언어
2.1 딥러닝에서의 선형대수학의 역할
선형대수학은 딥러닝에서 데이터의 표현과 변환을 기술하는 기본 언어이다. 신경망의 입력 데이터는 벡터(vector), 행렬(matrix), 또는 일반적 텐서(tensor)로 표현되며, 각 층의 연산은 행렬 곱셈(matrix multiplication)과 비선형 활성화 함수(nonlinear activation function)의 합성으로 구성된다.
벡터 공간(vector space)의 개념은 데이터가 존재하는 추상적 공간을 정의하며, 선형 변환(linear transformation)은 이 공간 사이의 구조 보존적 매핑을 기술한다. 행렬은 선형 변환의 좌표 표현이며, 행렬의 고유값 분해(eigenvalue decomposition), 특이값 분해(singular value decomposition, SVD), 양의 정치 행렬(positive definite matrix) 등의 개념은 신경망의 동작과 학습 과정의 분석에서 핵심적으로 활용된다.
2.2 핵심 주제
본 파트의 선형대수학 영역에서는 다음의 주제를 다룬다. 스칼라, 벡터, 행렬, 텐서의 기본 정의와 연산, 선형 독립성과 기저(basis), 벡터 공간의 차원, 선형 변환과 행렬 표현, 행렬식(determinant)과 역행렬(inverse matrix), 고유값과 고유벡터, 직교성(orthogonality)과 정사영(orthogonal projection), 특이값 분해, 노름(norm)과 내적(inner product) 공간 등이다. 각 주제는 딥러닝에서의 구체적 활용과 연결하여 논의된다.
3. 미적분학: 변화와 최적화의 도구
3.1 딥러닝에서의 미적분학의 역할
미적분학은 딥러닝에서 모형의 매개변수를 학습하는 최적화 과정의 수학적 기반이다. 신경망의 학습은 손실 함수(loss function)를 매개변수에 대해 최소화하는 과정이며, 이 최소화는 경사 하강법(gradient descent)과 그 변종들에 의해 수행된다. 경사(gradient)의 계산, 연쇄 법칙(chain rule)에 의한 역전파(backpropagation), 고차 미분에 기반한 최적화 분석 등이 모두 미적분학의 영역이다.
단변수 미적분에서 다변수 미적분으로의 확장은 딥러닝의 맥락에서 특히 중요하다. 현대의 심층 신경망은 수백만에서 수십억 개의 매개변수를 가지며, 손실 함수는 이 매개변수에 대한 고차원 함수이다. 편미분(partial derivative), 경사 벡터(gradient vector), 야코비 행렬(Jacobian matrix), 헤시안 행렬(Hessian matrix) 등의 다변수 미적분 개념이 이 고차원 최적화의 분석에 필수적이다.
3.2 핵심 주제
본 파트의 미적분학 영역에서는 다음의 주제를 다룬다. 함수의 극한과 연속성, 미분의 정의와 기본 법칙, 편미분과 전미분, 연쇄 법칙과 역전파 알고리즘, 경사 벡터와 방향 미분(directional derivative), 테일러 전개(Taylor expansion)와 근사, 볼록 함수(convex function)와 볼록 최적화, 경사 하강법의 수렴 분석, 제약 최적화(constrained optimization)와 라그랑주 승수법 등이다.
4. 확률론: 불확실성과 학습의 기초
4.1 딥러닝에서의 확률론의 역할
확률론은 딥러닝에서 불확실성의 모형화와 통계적 학습의 이론적 기반을 제공한다. 학습 데이터는 미지의 확률 분포로부터 생성된 표본(sample)으로 간주되며, 학습의 목표는 이 분포의 핵심 구조를 포착하는 모형을 구성하는 것이다. 확률 분포(probability distribution), 기댓값(expectation), 분산(variance), 공분산(covariance), 조건부 확률(conditional probability), 베이즈 정리(Bayes’ theorem) 등의 확률론적 개념은 학습 알고리즘의 설계와 분석에서 근본적으로 활용된다.
또한 확률론은 생성 모형(generative model), 변분 추론(variational inference), 확률적 경사 하강법(stochastic gradient descent) 등 현대 딥러닝의 핵심 기법들의 이론적 토대를 형성한다. 정보 이론과의 연결을 통해, 교차 엔트로피 손실 함수, KL 발산, 상호 정보량 등의 개념이 학습의 목적 함수와 평가 척도로 사용된다.
4.2 핵심 주제
본 파트의 확률론 영역에서는 다음의 주제를 다룬다. 확률 공간(probability space)의 공리적 정의, 이산 및 연속 확률 변수, 확률 질량 함수와 확률 밀도 함수, 기댓값과 적률(moment), 결합 분포와 주변 분포, 조건부 확률과 베이즈 정리, 주요 확률 분포(이항 분포, 가우시안 분포, 다항 분포 등), 큰 수의 법칙(law of large numbers)과 중심 극한 정리(central limit theorem), 최대 우도 추정(maximum likelihood estimation) 등이다.
5. 세 분야의 통합적 역할
선형대수학, 미적분학, 확률론은 딥러닝에서 분리된 도구가 아니라 유기적으로 결합되어 작동한다. 경사 하강법은 미적분학의 경사 계산을 선형대수학의 행렬 연산으로 구현하며, 확률적 경사 하강법은 이에 확률론적 표본 추출을 결합한다. 가우시안 분포의 매개변수 추정은 확률론의 최대 우도 원리를 미적분학의 최적화로 수행하며, 공분산 행렬의 분석은 선형대수학의 고유값 분해를 활용한다.
이러한 통합적 관점에서 세 분야를 학습함으로써, 딥러닝의 개별 기법을 단편적으로 암기하는 것이 아니라 그 기저의 수학적 구조를 이해하고, 새로운 문제에 대한 원리적 접근이 가능해진다. 본 파트는 이 수학적 기초를 체계적이고 엄밀하게 구축하는 것을 목표로 한다.