27.13 L1 노름, L2 노름, Lp 노름의 정의와 비교

1. $L^p$ 노름의 일반적 정의

$\mathbb{R}^n$ 의 벡터 $\mathbf{v} = (v_1, v_2, \ldots, v_n)^\top$ 에 대하여, $p \geq 1$ 인 실수 $p$ 에 대한 $L^p$ 노름은 다음과 같이 정의된다.

$\|\mathbf{v}\|_p = \left(\sum_{i=1}^{n} |v_i|^p\right)^{1/p}$

$L^p$ 노름이 노름의 공리(양의 정부호성, 양의 동차성, 삼각 부등식)를 만족함을 보이려면, 삼각 부등식의 증명이 핵심이다. $p \geq 1$ 에 대한 삼각 부등식 $\|\mathbf{u} + \mathbf{v}\|_p \leq \|\mathbf{u}\|_p + \|\mathbf{v}\|_p$ 는 민코프스키 부등식(Minkowski inequality)으로 알려져 있으며, 이를 증명하기 위하여 횔더 부등식(Holder inequality)이 사용된다.

횔더 부등식: $p > 1$ 이고 $\frac{1}{p} + \frac{1}{q} = 1$ ( $q$ 는 $p$ 의 켤레 지수)일 때,

$\sum_{i=1}^{n} |u_i v_i| \leq \|\mathbf{u}\|_p \cdot \|\mathbf{v}\|_q$

$p = q = 2$ 인 경우가 코시-슈바르츠 부등식에 해당한다.

$0 < p < 1$ 이면 삼각 부등식이 성립하지 않으므로 엄밀한 의미에서 노름이 아니다. 그러나 준노름(quasi-norm)으로서 머신러닝에서 활용되는 경우가 있다.

2. $L^1$ 노름의 성질

$L^1$ 노름은 성분 절댓값의 합으로 정의된다.

$\|\mathbf{v}\|_1 = \sum_{i=1}^{n} |v_i| = |v_1| + |v_2| + \cdots + |v_n|$

기하학적 특성: $\mathbb{R}^2$ 에서 $L^1$ 단위 구 $\{\mathbf{v} \in \mathbb{R}^2 : \|\mathbf{v}\|_1 = 1\}$ 은 꼭짓점이 $(\pm 1, 0)$ , $(0, \pm 1)$ 에 위치한 마름모이다. $\mathbb{R}^n$ 에서는 크로스폴리토프(cross-polytope)가 된다. 단위 구의 꼭짓점이 좌표축 위에 놓이므로, $L^1$ 노름 제약 하에서의 최적화는 좌표축 방향, 즉 희소 벡터를 선호하는 경향이 있다.

미분 가능성: $L^1$ 노름은 $v_i = 0$ 인 점에서 미분 불가능하다. $|v_i|$ 의 도함수는 $v_i > 0$ 이면 1, $v_i < 0$ 이면 $-1$ 이고 $v_i = 0$ 에서는 정의되지 않는다. 실무에서는 부분 경사도(subgradient) $\partial |v_i| \in [-1, 1]$ (at $v_i = 0$ )를 사용하거나, 근위 연산자(proximal operator)를 적용한다.

희소성 유도: $L^1$ 정규화(Lasso)에서 $\|\boldsymbol{\theta}\|_1$ 을 페널티로 부과하면 최적해의 일부 성분이 정확히 0이 된다. 이는 $L^1$ 단위 구의 꼭짓점 구조에 의한 것이며, 등고선(level set)이 좌표축과 먼저 접촉하기 때문이다.

3. $L^2$ 노름의 성질

$L^2$ 노름은 유클리드 내적으로부터 유도되는 노름이다.

$\|\mathbf{v}\|_2 = \sqrt{\sum_{i=1}^{n} v_i^2} = \sqrt{\mathbf{v}^\top\mathbf{v}}$

기하학적 특성: $L^2$ 단위 구는 초구(hypersphere)이며, 모든 방향에서 등방적(isotropic)이다. 이는 $L^2$ 노름이 회전에 대하여 불변(rotation invariant)이라는 성질을 반영한다. 직교 행렬 $Q$ 에 대하여 $\|Q\mathbf{v}\|_2 = \|\mathbf{v}\|_2$ 가 성립한다.

미분 가능성: $L^2$ 노름의 제곱 $\|\mathbf{v}\|_2^2 = \sum_i v_i^2$ 은 모든 곳에서 미분 가능하며, $\nabla_\mathbf{v}\|\mathbf{v}\|_2^2 = 2\mathbf{v}$ 이다. $L^2$ 노름 자체는 원점에서 미분 불가능하지만, 정규화 항으로는 주로 $\|\mathbf{v}\|_2^2$ 을 사용하므로 이 문제는 회피된다.

가중치 감쇠 효과: $L^2$ 정규화에서 경사도 갱신은 $\boldsymbol{\theta} \leftarrow (1 - \eta\lambda)\boldsymbol{\theta} - \eta\nabla\mathcal{L}$ 이 되며, 각 성분이 비례적으로 축소된다. 큰 가중치가 더 강하게 억제되지만, 작은 가중치를 정확히 0으로 만들지는 않는다.

4. $L^\infty$ 노름의 성질

$\|\mathbf{v}\|_\infty = \max_{1 \leq i \leq n} |v_i|$

$L^\infty$ 노름은 $p \to \infty$ 에서 $L^p$ 노름의 극한으로 얻어진다. 증명은 다음과 같다. $M = \|\mathbf{v}\|_\infty$ 라 하면 모든 $i$ 에 대하여 $|v_i| \leq M$ 이므로 $\|\mathbf{v}\|_p \leq n^{1/p}M$ 이다. 또한 $|v_j| = M$ 인 $j$ 가 존재하므로 $\|\mathbf{v}\|_p \geq M$ 이다. $p \to \infty$ 에서 $n^{1/p} \to 1$ 이므로 $\lim_{p \to \infty}\|\mathbf{v}\|_p = M$ 이다.

$\mathbb{R}^2$ 에서 $L^\infty$ 단위 구는 변의 길이가 2인 정사각형이며, $\mathbb{R}^n$ 에서는 초입방체(hypercube)이다.

5. $L^p$ 노름의 비교

성질	$L^1$	$L^2$	$L^\infty$
수식	$\sum \vert v_i \vert$	$\sqrt{\sum v_i^2}$	$\max \vert v_i \vert$
단위 구 형태 ( $\mathbb{R}^2$ )	마름모	원	정사각형
회전 불변성	없음	있음	없음
원점에서 미분 가능성	불가	불가	불가
제곱 형태 미분 가능성	해당 없음	모든 곳 가능	해당 없음
희소성 유도	강함	약함	없음

$p$ 가 작아질수록 단위 구가 좌표축 방향으로 뾰족해지며 희소성 유도가 강해진다. $p$ 가 커질수록 단위 구가 초입방체에 가까워진다.

6. 노름 사이의 동치 관계

$\mathbb{R}^n$ 에서 임의의 두 노름 $\|\cdot\|_a$ 와 $\|\cdot\|_b$ 에 대하여, 양의 상수 $c_1, c_2 > 0$ 가 존재하여

$c_1 \|\mathbf{v}\|_a \leq \|\mathbf{v}\|_b \leq c_2 \|\mathbf{v}\|_a, \quad \forall \mathbf{v} \in \mathbb{R}^n$

이 성립한다. 이를 노름의 동치성(equivalence of norms)이라 한다. 유한 차원 벡터 공간에서 모든 노름은 동치이므로, 수렴성이나 위상적 성질은 노름의 선택에 무관하다. 그러나 최적화 문제에서 정규화 항으로 사용될 때에는 각 노름이 유도하는 해의 구조가 다르므로, 노름의 선택이 실질적인 영향을 미친다.

7. 딥러닝에서의 $L^p$ 노름 활용

엘라스틱 넷(Elastic Net): $L^1$ 과 $L^2$ 정규화를 동시에 적용하는 방법이다.

$\Omega(\boldsymbol{\theta}) = \lambda_1 \|\boldsymbol{\theta}\|_1 + \lambda_2 \|\boldsymbol{\theta}\|_2^2$

$L^1$ 의 희소성 유도와 $L^2$ 의 안정적인 축소를 결합하여, 상관된 특성들이 존재할 때에도 안정적인 특성 선택이 가능하다.

스펙트럼 정규화(spectral normalization): 생성적 적대 신경망(GAN)의 판별자에서 가중치 행렬의 스펙트럼 노름(최대 특이값) $\sigma_{\max}(W)$ 를 1로 제한하여 리프시츠 조건(Lipschitz condition)을 만족시킨다. 이는 $L^2$ 연산자 노름을 직접 제어하는 방법이다.

$L^0$ 준노름과 구조적 가지치기: $\|\mathbf{v}\|_0 = \#\{i : v_i \neq 0\}$ 은 영이 아닌 성분의 개수를 세는 것으로, 엄밀한 의미에서 노름은 아니지만 희소성의 직접적인 측도이다. $L^0$ 최적화는 NP-경성(NP-hard)이므로, $L^1$ 노름을 볼록 완화(convex relaxation)로 사용하는 것이 일반적인 전략이다.

27.13 L1 노름, L2 노름, Lp 노름의 정의와 비교

1. L^p 노름의 일반적 정의

2. L^1 노름의 성질

3. L^2 노름의 성질

4. L^\infty 노름의 성질

5. L^p 노름의 비교