27.14 코시-슈바르츠 부등식(Cauchy-Schwarz Inequality)의 증명
1. 부등식의 서술
내적 공간 (V, \langle\cdot,\cdot\rangle)에서, 임의의 \mathbf{u}, \mathbf{v} \in V에 대하여 다음 부등식이 성립한다.
|\langle \mathbf{u}, \mathbf{v} \rangle| \leq \|\mathbf{u}\| \cdot \|\mathbf{v}\|
여기서 \|\mathbf{u}\| = \sqrt{\langle\mathbf{u},\mathbf{u}\rangle}이다. 등호는 \mathbf{u}와 \mathbf{v}가 선형 종속일 때, 즉 하나가 다른 하나의 스칼라 배일 때에만 성립한다.
유클리드 내적의 경우, 이 부등식은 다음과 같이 표현된다.
\left|\sum_{i=1}^{n} u_i v_i\right| \leq \sqrt{\sum_{i=1}^{n} u_i^2} \cdot \sqrt{\sum_{i=1}^{n} v_i^2}
이 부등식은 Cauchy (1821), Bunjakowsky (1859), Schwarz (1884)에 의하여 각각 독립적으로 증명되었으며, 이들의 이름을 따서 코시-슈바르츠 부등식(Cauchy-Schwarz inequality) 또는 코시-부냐코프스키-슈바르츠 부등식이라 부른다.
2. 증명 1: 이차식 판별식을 이용한 증명
\mathbf{v} = \mathbf{0}이면 양변이 모두 0이므로 부등식이 자명하게 성립한다. \mathbf{v} \neq \mathbf{0}인 경우를 증명한다.
임의의 실수 t \in \mathbb{R}에 대하여, 내적의 양의 정부호성에 의하여
0 \leq \|\mathbf{u} + t\mathbf{v}\|^2 = \langle \mathbf{u} + t\mathbf{v}, \mathbf{u} + t\mathbf{v} \rangle
이를 전개하면
0 \leq \|\mathbf{u}\|^2 + 2t\langle\mathbf{u},\mathbf{v}\rangle + t^2\|\mathbf{v}\|^2
이 부등식은 t에 대한 이차식 f(t) = \|\mathbf{v}\|^2 t^2 + 2\langle\mathbf{u},\mathbf{v}\rangle t + \|\mathbf{u}\|^2이 모든 t에 대하여 비음수임을 의미한다. 이차식 at^2 + bt + c \geq 0이 모든 t에 대하여 성립하려면 판별식(discriminant)이 비양수여야 한다. 즉
\Delta = b^2 - 4ac = 4\langle\mathbf{u},\mathbf{v}\rangle^2 - 4\|\mathbf{u}\|^2\|\mathbf{v}\|^2 \leq 0
따라서
\langle\mathbf{u},\mathbf{v}\rangle^2 \leq \|\mathbf{u}\|^2\|\mathbf{v}\|^2
양변에 제곱근을 취하면 |\langle\mathbf{u},\mathbf{v}\rangle| \leq \|\mathbf{u}\|\|\mathbf{v}\|이 된다.
등호 조건: \Delta = 0이면 f(t_0) = 0인 t_0가 존재하여 \|\mathbf{u} + t_0\mathbf{v}\| = 0이 되고, 비퇴화 조건에 의하여 \mathbf{u} + t_0\mathbf{v} = \mathbf{0}, 즉 \mathbf{u} = -t_0\mathbf{v}이므로 두 벡터는 선형 종속이다.
3. 증명 2: 정사영을 이용한 증명
\mathbf{v} \neq \mathbf{0}일 때, \mathbf{u}의 \mathbf{v} 위로의 정사영(orthogonal projection)은
\text{proj}_\mathbf{v}\mathbf{u} = \frac{\langle\mathbf{u},\mathbf{v}\rangle}{\|\mathbf{v}\|^2}\mathbf{v}
이다. 오차 벡터 \mathbf{e} = \mathbf{u} - \text{proj}_\mathbf{v}\mathbf{u}는 \mathbf{v}에 직교하며, 피타고라스 정리에 의하여
\|\mathbf{u}\|^2 = \|\text{proj}_\mathbf{v}\mathbf{u}\|^2 + \|\mathbf{e}\|^2
\|\mathbf{e}\|^2 \geq 0이므로
\|\mathbf{u}\|^2 \geq \|\text{proj}_\mathbf{v}\mathbf{u}\|^2 = \frac{\langle\mathbf{u},\mathbf{v}\rangle^2}{\|\mathbf{v}\|^2}
양변에 \|\mathbf{v}\|^2을 곱하면 \|\mathbf{u}\|^2\|\mathbf{v}\|^2 \geq \langle\mathbf{u},\mathbf{v}\rangle^2을 얻는다. 등호는 \|\mathbf{e}\| = 0, 즉 \mathbf{u} = \text{proj}_\mathbf{v}\mathbf{u}일 때 성립하며, 이는 \mathbf{u}가 \mathbf{v}의 스칼라 배임을 의미한다.
4. 증명 3: 라그랑주 항등식을 이용한 증명
\mathbb{R}^n의 유클리드 내적에 특화된 대수적 증명이다. 라그랑주 항등식(Lagrange identity)은 다음과 같다.
\left(\sum_{i=1}^n u_i^2\right)\left(\sum_{i=1}^n v_i^2\right) - \left(\sum_{i=1}^n u_i v_i\right)^2 = \sum_{1 \leq i < j \leq n} (u_i v_j - u_j v_i)^2
우변은 실수의 제곱의 합이므로 \geq 0이다. 따라서
\left(\sum_{i=1}^n u_i v_i\right)^2 \leq \left(\sum_{i=1}^n u_i^2\right)\left(\sum_{i=1}^n v_i^2\right)
이 성립하며, 등호는 모든 i, j에 대하여 u_i v_j = u_j v_i일 때, 즉 \mathbf{u}와 \mathbf{v}가 비례할 때 성립한다.
라그랑주 항등식은 좌변의 “남은 양“이 무엇인지를 명시적으로 보여주는 장점이 있다. n = 2인 경우 (u_1 v_2 - u_2 v_1)^2은 두 벡터가 이루는 평행사변형의 넓이의 제곱에 해당한다.
5. 코시-슈바르츠 부등식의 결과
코시-슈바르츠 부등식으로부터 여러 중요한 결과가 도출된다.
삼각 부등식의 증명:
\|\mathbf{u} + \mathbf{v}\|^2 = \|\mathbf{u}\|^2 + 2\langle\mathbf{u},\mathbf{v}\rangle + \|\mathbf{v}\|^2 \leq \|\mathbf{u}\|^2 + 2\|\mathbf{u}\|\|\mathbf{v}\| + \|\mathbf{v}\|^2 = (\|\mathbf{u}\| + \|\mathbf{v}\|)^2
양변에 제곱근을 취하면 \|\mathbf{u} + \mathbf{v}\| \leq \|\mathbf{u}\| + \|\mathbf{v}\|을 얻는다. 따라서 내적으로부터 유도된 노름은 삼각 부등식을 자동으로 만족한다.
각도의 정의: \mathbf{u}, \mathbf{v} \neq \mathbf{0}일 때 \frac{|\langle\mathbf{u},\mathbf{v}\rangle|}{\|\mathbf{u}\|\|\mathbf{v}\|} \leq 1이므로, 코사인 값의 범위 [-1, 1] 안에 있게 되어 두 벡터 사이의 각도를 \cos\theta = \frac{\langle\mathbf{u},\mathbf{v}\rangle}{\|\mathbf{u}\|\|\mathbf{v}\|}으로 잘 정의할 수 있다.
역삼각 부등식:
\big| \|\mathbf{u}\| - \|\mathbf{v}\| \big| \leq \|\mathbf{u} - \mathbf{v}\|
이는 삼각 부등식의 직접적 결과이다.
6. 딥러닝에서의 코시-슈바르츠 부등식의 역할
코사인 유사도의 범위 보장: 코시-슈바르츠 부등식은 코사인 유사도 \text{sim}(\mathbf{u},\mathbf{v}) = \frac{\mathbf{u}^\top\mathbf{v}}{\|\mathbf{u}\|\|\mathbf{v}\|}가 [-1, 1] 범위에 있음을 보장한다. 이 범위가 보장되지 않으면 유사도 함수로서의 해석이 불가능해진다.
어텐션 스케일링의 이론적 근거: 스케일드 닷-프로덕트 어텐션에서 \sqrt{d_k}로 나누는 이유를 코시-슈바르츠 부등식과 연결하여 이해할 수 있다. 질의와 키 벡터의 성분이 독립 표준 정규 분포를 따르면, 내적 \mathbf{q}^\top\mathbf{k}의 분산은 d_k이고 기댓값은 0이다. 코시-슈바르츠 부등식에 의하여 |\mathbf{q}^\top\mathbf{k}| \leq \|\mathbf{q}\|\|\mathbf{k}\|이며, d_k가 클수록 노름이 커져 내적의 절댓값이 증가한다. \sqrt{d_k}로 스케일링하면 내적의 분산이 1로 정규화되어 소프트맥스 함수의 포화 현상을 방지한다.
경사도와 손실 변화의 관계: 매개변수 변화 \Delta\boldsymbol{\theta}에 의한 손실의 1차 근사 변화는 \Delta\mathcal{L} \approx \nabla\mathcal{L}^\top \Delta\boldsymbol{\theta}이다. 코시-슈바르츠 부등식에 의하여
|\Delta\mathcal{L}| \leq \|\nabla\mathcal{L}\| \cdot \|\Delta\boldsymbol{\theta}\|
이므로, 경사도의 노름은 손실이 변할 수 있는 최대 비율을 나타낸다. 등호는 \Delta\boldsymbol{\theta}가 경사도 방향과 평행할 때 달성되며, 이는 경사 하강법이 1차 근사에서 최적의 하강 방향임을 의미한다.
삼각 부등식과 리프시츠 연속성: 신경망 함수 f의 리프시츠 상수(Lipschitz constant) L은 \|f(\mathbf{x}_1) - f(\mathbf{x}_2)\| \leq L\|\mathbf{x}_1 - \mathbf{x}_2\|을 만족하는 최소 상수이다. 코시-슈바르츠 부등식과 삼각 부등식은 리프시츠 조건의 분석에 반복적으로 사용되며, 생성적 적대 신경망(GAN)과 와서슈타인 거리(Wasserstein distance) 기반 모델의 이론적 토대를 형성한다.