27.14 코시-슈바르츠 부등식(Cauchy-Schwarz Inequality)의 증명

1. 부등식의 서술

내적 공간 $(V, \langle\cdot,\cdot\rangle)$ 에서, 임의의 $\mathbf{u}, \mathbf{v} \in V$ 에 대하여 다음 부등식이 성립한다.

$|\langle \mathbf{u}, \mathbf{v} \rangle| \leq \|\mathbf{u}\| \cdot \|\mathbf{v}\|$

여기서 $\|\mathbf{u}\| = \sqrt{\langle\mathbf{u},\mathbf{u}\rangle}$ 이다. 등호는 $\mathbf{u}$ 와 $\mathbf{v}$ 가 선형 종속일 때, 즉 하나가 다른 하나의 스칼라 배일 때에만 성립한다.

유클리드 내적의 경우, 이 부등식은 다음과 같이 표현된다.

$\left|\sum_{i=1}^{n} u_i v_i\right| \leq \sqrt{\sum_{i=1}^{n} u_i^2} \cdot \sqrt{\sum_{i=1}^{n} v_i^2}$

이 부등식은 Cauchy (1821), Bunjakowsky (1859), Schwarz (1884)에 의하여 각각 독립적으로 증명되었으며, 이들의 이름을 따서 코시-슈바르츠 부등식(Cauchy-Schwarz inequality) 또는 코시-부냐코프스키-슈바르츠 부등식이라 부른다.

2. 증명 1: 이차식 판별식을 이용한 증명

$\mathbf{v} = \mathbf{0}$ 이면 양변이 모두 0이므로 부등식이 자명하게 성립한다. $\mathbf{v} \neq \mathbf{0}$ 인 경우를 증명한다.

임의의 실수 $t \in \mathbb{R}$ 에 대하여, 내적의 양의 정부호성에 의하여

$0 \leq \|\mathbf{u} + t\mathbf{v}\|^2 = \langle \mathbf{u} + t\mathbf{v}, \mathbf{u} + t\mathbf{v} \rangle$

이를 전개하면

$0 \leq \|\mathbf{u}\|^2 + 2t\langle\mathbf{u},\mathbf{v}\rangle + t^2\|\mathbf{v}\|^2$

이 부등식은 $t$ 에 대한 이차식 $f(t) = \|\mathbf{v}\|^2 t^2 + 2\langle\mathbf{u},\mathbf{v}\rangle t + \|\mathbf{u}\|^2$ 이 모든 $t$ 에 대하여 비음수임을 의미한다. 이차식 $at^2 + bt + c \geq 0$ 이 모든 $t$ 에 대하여 성립하려면 판별식(discriminant)이 비양수여야 한다. 즉

$\Delta = b^2 - 4ac = 4\langle\mathbf{u},\mathbf{v}\rangle^2 - 4\|\mathbf{u}\|^2\|\mathbf{v}\|^2 \leq 0$

따라서

$\langle\mathbf{u},\mathbf{v}\rangle^2 \leq \|\mathbf{u}\|^2\|\mathbf{v}\|^2$

양변에 제곱근을 취하면 $|\langle\mathbf{u},\mathbf{v}\rangle| \leq \|\mathbf{u}\|\|\mathbf{v}\|$ 이 된다.

등호 조건: $\Delta = 0$ 이면 $f(t_0) = 0$ 인 $t_0$ 가 존재하여 $\|\mathbf{u} + t_0\mathbf{v}\| = 0$ 이 되고, 비퇴화 조건에 의하여 $\mathbf{u} + t_0\mathbf{v} = \mathbf{0}$ , 즉 $\mathbf{u} = -t_0\mathbf{v}$ 이므로 두 벡터는 선형 종속이다.

3. 증명 2: 정사영을 이용한 증명

$\mathbf{v} \neq \mathbf{0}$ 일 때, $\mathbf{u}$ 의 $\mathbf{v}$ 위로의 정사영(orthogonal projection)은

$\text{proj}_\mathbf{v}\mathbf{u} = \frac{\langle\mathbf{u},\mathbf{v}\rangle}{\|\mathbf{v}\|^2}\mathbf{v}$

이다. 오차 벡터 $\mathbf{e} = \mathbf{u} - \text{proj}_\mathbf{v}\mathbf{u}$ 는 $\mathbf{v}$ 에 직교하며, 피타고라스 정리에 의하여

$\|\mathbf{u}\|^2 = \|\text{proj}_\mathbf{v}\mathbf{u}\|^2 + \|\mathbf{e}\|^2$

$\|\mathbf{e}\|^2 \geq 0$ 이므로

$\|\mathbf{u}\|^2 \geq \|\text{proj}_\mathbf{v}\mathbf{u}\|^2 = \frac{\langle\mathbf{u},\mathbf{v}\rangle^2}{\|\mathbf{v}\|^2}$

양변에 $\|\mathbf{v}\|^2$ 을 곱하면 $\|\mathbf{u}\|^2\|\mathbf{v}\|^2 \geq \langle\mathbf{u},\mathbf{v}\rangle^2$ 을 얻는다. 등호는 $\|\mathbf{e}\| = 0$ , 즉 $\mathbf{u} = \text{proj}_\mathbf{v}\mathbf{u}$ 일 때 성립하며, 이는 $\mathbf{u}$ 가 $\mathbf{v}$ 의 스칼라 배임을 의미한다.

4. 증명 3: 라그랑주 항등식을 이용한 증명

$\mathbb{R}^n$ 의 유클리드 내적에 특화된 대수적 증명이다. 라그랑주 항등식(Lagrange identity)은 다음과 같다.

$\left(\sum_{i=1}^n u_i^2\right)\left(\sum_{i=1}^n v_i^2\right) - \left(\sum_{i=1}^n u_i v_i\right)^2 = \sum_{1 \leq i < j \leq n} (u_i v_j - u_j v_i)^2$

우변은 실수의 제곱의 합이므로 $\geq 0$ 이다. 따라서

$\left(\sum_{i=1}^n u_i v_i\right)^2 \leq \left(\sum_{i=1}^n u_i^2\right)\left(\sum_{i=1}^n v_i^2\right)$

이 성립하며, 등호는 모든 $i, j$ 에 대하여 $u_i v_j = u_j v_i$ 일 때, 즉 $\mathbf{u}$ 와 $\mathbf{v}$ 가 비례할 때 성립한다.

라그랑주 항등식은 좌변의 “남은 양“이 무엇인지를 명시적으로 보여주는 장점이 있다. $n = 2$ 인 경우 $(u_1 v_2 - u_2 v_1)^2$ 은 두 벡터가 이루는 평행사변형의 넓이의 제곱에 해당한다.

5. 코시-슈바르츠 부등식의 결과

코시-슈바르츠 부등식으로부터 여러 중요한 결과가 도출된다.

삼각 부등식의 증명:

$\|\mathbf{u} + \mathbf{v}\|^2 = \|\mathbf{u}\|^2 + 2\langle\mathbf{u},\mathbf{v}\rangle + \|\mathbf{v}\|^2 \leq \|\mathbf{u}\|^2 + 2\|\mathbf{u}\|\|\mathbf{v}\| + \|\mathbf{v}\|^2 = (\|\mathbf{u}\| + \|\mathbf{v}\|)^2$

양변에 제곱근을 취하면 $\|\mathbf{u} + \mathbf{v}\| \leq \|\mathbf{u}\| + \|\mathbf{v}\|$ 을 얻는다. 따라서 내적으로부터 유도된 노름은 삼각 부등식을 자동으로 만족한다.

각도의 정의: $\mathbf{u}, \mathbf{v} \neq \mathbf{0}$ 일 때 $\frac{|\langle\mathbf{u},\mathbf{v}\rangle|}{\|\mathbf{u}\|\|\mathbf{v}\|} \leq 1$ 이므로, 코사인 값의 범위 $[-1, 1]$ 안에 있게 되어 두 벡터 사이의 각도를 $\cos\theta = \frac{\langle\mathbf{u},\mathbf{v}\rangle}{\|\mathbf{u}\|\|\mathbf{v}\|}$ 으로 잘 정의할 수 있다.

역삼각 부등식:

$\big| \|\mathbf{u}\| - \|\mathbf{v}\| \big| \leq \|\mathbf{u} - \mathbf{v}\|$

이는 삼각 부등식의 직접적 결과이다.

6. 딥러닝에서의 코시-슈바르츠 부등식의 역할

코사인 유사도의 범위 보장: 코시-슈바르츠 부등식은 코사인 유사도 $\text{sim}(\mathbf{u},\mathbf{v}) = \frac{\mathbf{u}^\top\mathbf{v}}{\|\mathbf{u}\|\|\mathbf{v}\|}$ 가 $[-1, 1]$ 범위에 있음을 보장한다. 이 범위가 보장되지 않으면 유사도 함수로서의 해석이 불가능해진다.

어텐션 스케일링의 이론적 근거: 스케일드 닷-프로덕트 어텐션에서 $\sqrt{d_k}$ 로 나누는 이유를 코시-슈바르츠 부등식과 연결하여 이해할 수 있다. 질의와 키 벡터의 성분이 독립 표준 정규 분포를 따르면, 내적 $\mathbf{q}^\top\mathbf{k}$ 의 분산은 $d_k$ 이고 기댓값은 0이다. 코시-슈바르츠 부등식에 의하여 $|\mathbf{q}^\top\mathbf{k}| \leq \|\mathbf{q}\|\|\mathbf{k}\|$ 이며, $d_k$ 가 클수록 노름이 커져 내적의 절댓값이 증가한다. $\sqrt{d_k}$ 로 스케일링하면 내적의 분산이 1로 정규화되어 소프트맥스 함수의 포화 현상을 방지한다.

경사도와 손실 변화의 관계: 매개변수 변화 $\Delta\boldsymbol{\theta}$ 에 의한 손실의 1차 근사 변화는 $\Delta\mathcal{L} \approx \nabla\mathcal{L}^\top \Delta\boldsymbol{\theta}$ 이다. 코시-슈바르츠 부등식에 의하여

$|\Delta\mathcal{L}| \leq \|\nabla\mathcal{L}\| \cdot \|\Delta\boldsymbol{\theta}\|$

이므로, 경사도의 노름은 손실이 변할 수 있는 최대 비율을 나타낸다. 등호는 $\Delta\boldsymbol{\theta}$ 가 경사도 방향과 평행할 때 달성되며, 이는 경사 하강법이 1차 근사에서 최적의 하강 방향임을 의미한다.

삼각 부등식과 리프시츠 연속성: 신경망 함수 $f$ 의 리프시츠 상수(Lipschitz constant) $L$ 은 $\|f(\mathbf{x}_1) - f(\mathbf{x}_2)\| \leq L\|\mathbf{x}_1 - \mathbf{x}_2\|$ 을 만족하는 최소 상수이다. 코시-슈바르츠 부등식과 삼각 부등식은 리프시츠 조건의 분석에 반복적으로 사용되며, 생성적 적대 신경망(GAN)과 와서슈타인 거리(Wasserstein distance) 기반 모델의 이론적 토대를 형성한다.