27.13 L1 노름, L2 노름, Lp 노름의 정의와 비교

1. L^p 노름의 일반적 정의

\mathbb{R}^n의 벡터 \mathbf{v} = (v_1, v_2, \ldots, v_n)^\top에 대하여, p \geq 1인 실수 p에 대한 L^p 노름은 다음과 같이 정의된다.

\|\mathbf{v}\|_p = \left(\sum_{i=1}^{n} |v_i|^p\right)^{1/p}

L^p 노름이 노름의 공리(양의 정부호성, 양의 동차성, 삼각 부등식)를 만족함을 보이려면, 삼각 부등식의 증명이 핵심이다. p \geq 1에 대한 삼각 부등식 \|\mathbf{u} + \mathbf{v}\|_p \leq \|\mathbf{u}\|_p + \|\mathbf{v}\|_p는 민코프스키 부등식(Minkowski inequality)으로 알려져 있으며, 이를 증명하기 위하여 횔더 부등식(Holder inequality)이 사용된다.

횔더 부등식: p > 1이고 \frac{1}{p} + \frac{1}{q} = 1 (qp의 켤레 지수)일 때,

\sum_{i=1}^{n} |u_i v_i| \leq \|\mathbf{u}\|_p \cdot \|\mathbf{v}\|_q

p = q = 2인 경우가 코시-슈바르츠 부등식에 해당한다.

0 < p < 1이면 삼각 부등식이 성립하지 않으므로 엄밀한 의미에서 노름이 아니다. 그러나 준노름(quasi-norm)으로서 머신러닝에서 활용되는 경우가 있다.

2. L^1 노름의 성질

L^1 노름은 성분 절댓값의 합으로 정의된다.

\|\mathbf{v}\|_1 = \sum_{i=1}^{n} |v_i| = |v_1| + |v_2| + \cdots + |v_n|

기하학적 특성: \mathbb{R}^2에서 L^1 단위 구 \{\mathbf{v} \in \mathbb{R}^2 : \|\mathbf{v}\|_1 = 1\}은 꼭짓점이 (\pm 1, 0), (0, \pm 1)에 위치한 마름모이다. \mathbb{R}^n에서는 크로스폴리토프(cross-polytope)가 된다. 단위 구의 꼭짓점이 좌표축 위에 놓이므로, L^1 노름 제약 하에서의 최적화는 좌표축 방향, 즉 희소 벡터를 선호하는 경향이 있다.

미분 가능성: L^1 노름은 v_i = 0인 점에서 미분 불가능하다. |v_i|의 도함수는 v_i > 0이면 1, v_i < 0이면 -1이고 v_i = 0에서는 정의되지 않는다. 실무에서는 부분 경사도(subgradient) \partial |v_i| \in [-1, 1] (at v_i = 0)를 사용하거나, 근위 연산자(proximal operator)를 적용한다.

희소성 유도: L^1 정규화(Lasso)에서 \|\boldsymbol{\theta}\|_1을 페널티로 부과하면 최적해의 일부 성분이 정확히 0이 된다. 이는 L^1 단위 구의 꼭짓점 구조에 의한 것이며, 등고선(level set)이 좌표축과 먼저 접촉하기 때문이다.

3. L^2 노름의 성질

L^2 노름은 유클리드 내적으로부터 유도되는 노름이다.

\|\mathbf{v}\|_2 = \sqrt{\sum_{i=1}^{n} v_i^2} = \sqrt{\mathbf{v}^\top\mathbf{v}}

기하학적 특성: L^2 단위 구는 초구(hypersphere)이며, 모든 방향에서 등방적(isotropic)이다. 이는 L^2 노름이 회전에 대하여 불변(rotation invariant)이라는 성질을 반영한다. 직교 행렬 Q에 대하여 \|Q\mathbf{v}\|_2 = \|\mathbf{v}\|_2가 성립한다.

미분 가능성: L^2 노름의 제곱 \|\mathbf{v}\|_2^2 = \sum_i v_i^2은 모든 곳에서 미분 가능하며, \nabla_\mathbf{v}\|\mathbf{v}\|_2^2 = 2\mathbf{v}이다. L^2 노름 자체는 원점에서 미분 불가능하지만, 정규화 항으로는 주로 \|\mathbf{v}\|_2^2을 사용하므로 이 문제는 회피된다.

가중치 감쇠 효과: L^2 정규화에서 경사도 갱신은 \boldsymbol{\theta} \leftarrow (1 - \eta\lambda)\boldsymbol{\theta} - \eta\nabla\mathcal{L}이 되며, 각 성분이 비례적으로 축소된다. 큰 가중치가 더 강하게 억제되지만, 작은 가중치를 정확히 0으로 만들지는 않는다.

4. L^\infty 노름의 성질

\|\mathbf{v}\|_\infty = \max_{1 \leq i \leq n} |v_i|

L^\infty 노름은 p \to \infty에서 L^p 노름의 극한으로 얻어진다. 증명은 다음과 같다. M = \|\mathbf{v}\|_\infty라 하면 모든 i에 대하여 |v_i| \leq M이므로 \|\mathbf{v}\|_p \leq n^{1/p}M이다. 또한 |v_j| = Mj가 존재하므로 \|\mathbf{v}\|_p \geq M이다. p \to \infty에서 n^{1/p} \to 1이므로 \lim_{p \to \infty}\|\mathbf{v}\|_p = M이다.

\mathbb{R}^2에서 L^\infty 단위 구는 변의 길이가 2인 정사각형이며, \mathbb{R}^n에서는 초입방체(hypercube)이다.

5. L^p 노름의 비교

성질L^1L^2L^\infty
수식\sum \vert v_i \vert\sqrt{\sum v_i^2}\max \vert v_i \vert
단위 구 형태 (\mathbb{R}^2)마름모정사각형
회전 불변성없음있음없음
원점에서 미분 가능성불가불가불가
제곱 형태 미분 가능성해당 없음모든 곳 가능해당 없음
희소성 유도강함약함없음

p가 작아질수록 단위 구가 좌표축 방향으로 뾰족해지며 희소성 유도가 강해진다. p가 커질수록 단위 구가 초입방체에 가까워진다.

6. 노름 사이의 동치 관계

\mathbb{R}^n에서 임의의 두 노름 \|\cdot\|_a\|\cdot\|_b에 대하여, 양의 상수 c_1, c_2 > 0가 존재하여

c_1 \|\mathbf{v}\|_a \leq \|\mathbf{v}\|_b \leq c_2 \|\mathbf{v}\|_a, \quad \forall \mathbf{v} \in \mathbb{R}^n

이 성립한다. 이를 노름의 동치성(equivalence of norms)이라 한다. 유한 차원 벡터 공간에서 모든 노름은 동치이므로, 수렴성이나 위상적 성질은 노름의 선택에 무관하다. 그러나 최적화 문제에서 정규화 항으로 사용될 때에는 각 노름이 유도하는 해의 구조가 다르므로, 노름의 선택이 실질적인 영향을 미친다.

7. 딥러닝에서의 L^p 노름 활용

엘라스틱 넷(Elastic Net): L^1L^2 정규화를 동시에 적용하는 방법이다.

\Omega(\boldsymbol{\theta}) = \lambda_1 \|\boldsymbol{\theta}\|_1 + \lambda_2 \|\boldsymbol{\theta}\|_2^2

L^1의 희소성 유도와 L^2의 안정적인 축소를 결합하여, 상관된 특성들이 존재할 때에도 안정적인 특성 선택이 가능하다.

스펙트럼 정규화(spectral normalization): 생성적 적대 신경망(GAN)의 판별자에서 가중치 행렬의 스펙트럼 노름(최대 특이값) \sigma_{\max}(W)를 1로 제한하여 리프시츠 조건(Lipschitz condition)을 만족시킨다. 이는 L^2 연산자 노름을 직접 제어하는 방법이다.

L^0 준노름과 구조적 가지치기: \|\mathbf{v}\|_0 = \#\{i : v_i \neq 0\}은 영이 아닌 성분의 개수를 세는 것으로, 엄밀한 의미에서 노름은 아니지만 희소성의 직접적인 측도이다. L^0 최적화는 NP-경성(NP-hard)이므로, L^1 노름을 볼록 완화(convex relaxation)로 사용하는 것이 일반적인 전략이다.