27.9 기저(Basis)의 정의와 벡터 공간의 차원(Dimension)

1. 기저의 정의

벡터 공간 $V$ 의 부분집합 $\mathcal{B} = \{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n\}$ 이 다음 두 조건을 동시에 만족하면, $\mathcal{B}$ 를 $V$ 의 기저(basis)라 한다.

$\mathcal{B}$ 는 선형 독립(linearly independent)이다.
$\mathcal{B}$ 는 $V$ 를 생성(span)한다. 즉 $\text{span}(\mathcal{B}) = V$ 이다.

직관적으로 기저는 벡터 공간을 구성하기 위하여 필요하고도 충분한 최소한의 벡터 집합이다. 조건 1은 불필요한 벡터가 포함되지 않음을 보장하고, 조건 2는 공간의 모든 벡터를 표현할 수 있음을 보장한다.

동치 정의. $\mathcal{B} = \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}$ 이 $V$ 의 기저일 필요충분조건은, $V$ 의 임의의 벡터 $\mathbf{v}$ 를 $\mathcal{B}$ 의 선형 결합으로 유일하게 표현할 수 있는 것이다.

증명: ( $\Rightarrow$ ) $\mathcal{B}$ 가 $V$ 를 생성하므로 $\mathbf{v} = \sum_i \alpha_i \mathbf{v}_i$ 로 표현 가능하다. $\mathbf{v} = \sum_i \beta_i \mathbf{v}_i$ 도 성립한다고 가정하면 $\sum_i (\alpha_i - \beta_i)\mathbf{v}_i = \mathbf{0}$ 이 되고, 선형 독립에 의하여 $\alpha_i = \beta_i$ 이므로 표현은 유일하다. ( $\Leftarrow$ ) 유일한 표현이 가능하면 $\text{span}(\mathcal{B}) = V$ 이다. 또한 $\sum_i \alpha_i \mathbf{v}_i = \mathbf{0}$ 이 성립하면, 자명한 표현 $\sum_i 0 \cdot \mathbf{v}_i = \mathbf{0}$ 과의 유일성에 의하여 모든 $\alpha_i = 0$ 이므로 선형 독립이다.

2. 좌표 벡터

$\mathcal{B} = \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}$ 이 $V$ 의 기저이고 $\mathbf{v} = \alpha_1 \mathbf{v}_1 + \cdots + \alpha_n \mathbf{v}_n$ 이면, 순서쌍 $(\alpha_1, \alpha_2, \ldots, \alpha_n)^\top$ 을 기저 $\mathcal{B}$ 에 대한 $\mathbf{v}$ 의 **좌표 벡터(coordinate vector)**라 하며 $[\mathbf{v}]_\mathcal{B}$ 로 표기한다.

$[\mathbf{v}]_\mathcal{B} = \begin{pmatrix} \alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_n \end{pmatrix} \in \mathbb{R}^n$

좌표 벡터의 개념은 추상 벡터 공간을 $\mathbb{R}^n$ 과 동일시할 수 있게 하는 핵심 장치이다. 기저의 선택이 달라지면 동일한 벡터의 좌표 표현도 달라진다.

3. 표준 기저

$\mathbb{R}^n$ 의 **표준 기저(standard basis)**는 $\mathcal{E} = \{\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n\}$ 이다. 여기서 $\mathbf{e}_i$ 는 $i$ 번째 성분만 1이고 나머지 성분이 모두 0인 벡터이다.

$\mathbf{e}_1 = \begin{pmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \quad \mathbf{e}_2 = \begin{pmatrix} 0 \\ 1 \\ \vdots \\ 0 \end{pmatrix}, \quad \ldots, \quad \mathbf{e}_n = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 1 \end{pmatrix}$

표준 기저에 대한 좌표 벡터는 벡터 자체와 일치한다. 즉 $[\mathbf{v}]_\mathcal{E} = \mathbf{v}$ 이다. 딥러닝에서 원-핫 인코딩(one-hot encoding)은 범주형 변수의 각 범주를 표준 기저 벡터에 대응시키는 것으로, $k$ 개의 범주를 가진 변수는 $\mathbb{R}^k$ 의 표준 기저 벡터 $\mathbf{e}_1, \ldots, \mathbf{e}_k$ 로 표현된다.

4. 차원의 정의

벡터 공간의 차원을 정의하기 위하여 다음의 핵심 정리가 필요하다.

정리 (차원의 불변성). 유한 차원 벡터 공간 $V$ 의 모든 기저는 동일한 개수의 원소를 갖는다.

이 정리에 의하여 기저의 원소 수를 $V$ 의 **차원(dimension)**으로 정의할 수 있으며, $\dim(V)$ 로 표기한다.

대표적인 예시는 다음과 같다.

벡터 공간	차원
$\mathbb{R}^n$	$n$
$\mathbb{R}^{m \times n}$ (행렬 공간)	$mn$
$\mathbb{P}_k$ ( $k$ 차 이하 다항식)	$k + 1$
$\{\mathbf{0}\}$ (영 공간)	$0$

5. 차원에 관한 기본 정리

정리 1. $\dim(V) = n$ 이면, $V$ 의 $n$ 개를 초과하는 벡터로 이루어진 집합은 반드시 선형 종속이다.

정리 2. $\dim(V) = n$ 이면, $V$ 를 생성하는 $n$ 개 미만의 벡터는 존재하지 않는다.

정리 3. $\dim(V) = n$ 이고 $S \subseteq V$ 가 $n$ 개의 벡터로 이루어진 집합일 때, 다음 세 조건은 동치이다.

$S$ 는 기저이다.
$S$ 는 선형 독립이다.
$S$ 는 $V$ 를 생성한다.

따라서 $n$ 차원 벡터 공간에서 $n$ 개의 벡터가 선형 독립임을 보이면, 생성 조건을 별도로 확인하지 않아도 기저임이 보장된다.

정리 4 (부분 공간의 차원). $W$ 가 유한 차원 벡터 공간 $V$ 의 부분 공간이면 $\dim(W) \leq \dim(V)$ 이다. 등호가 성립하면 $W = V$ 이다.

6. 기저 변환

동일한 벡터 공간에 서로 다른 기저 $\mathcal{B} = \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}$ 과 $\mathcal{B}' = \{\mathbf{w}_1, \ldots, \mathbf{w}_n\}$ 이 주어지면, 두 기저 사이의 관계를 나타내는 기저 변환 행렬(change of basis matrix) $P$ 가 존재하여

$[\mathbf{v}]_{\mathcal{B}'} = P [\mathbf{v}]_{\mathcal{B}}$

가 성립한다. $P$ 는 가역 행렬이며, 역방향 변환은 $[\mathbf{v}]_{\mathcal{B}} = P^{-1} [\mathbf{v}]_{\mathcal{B}'}$ 이다. 이 개념은 주성분 분석(PCA)에서 데이터의 좌표계를 고유벡터 기저로 변환하는 과정과 직접 대응된다.

7. 딥러닝에서의 차원과 기저

은닉 차원(hidden dimension): 신경망의 각 은닉층은 특정 차원의 벡터 공간에서 표현을 생성한다. 은닉 차원 $d_h$ 는 표현 공간 $\mathbb{R}^{d_h}$ 의 차원을 지정하는 하이퍼파라미터이다. 차원이 클수록 모델의 용량(capacity)이 증가하지만, 과적합(overfitting)의 위험과 계산 비용도 함께 증가한다.

임베딩 차원: 자연어 처리에서 단어 임베딩의 차원은 의미 공간의 차원이다. Word2Vec, GloVe 등에서는 일반적으로 100~300차원이 사용되며, 트랜스포머 기반 모델에서는 768차원(BERT-base) 또는 그 이상의 차원이 사용된다.

내재 차원(intrinsic dimension): 고차원 벡터 공간에서 데이터가 실제로 분포하는 저차원 다양체(manifold)의 차원을 내재 차원이라 한다. Li et al. (2018, “Measuring the Intrinsic Dimension of Objective Landscapes”)은 신경망의 손실 함수 경관의 내재 차원이 전체 매개변수 수에 비하여 매우 낮음을 실험적으로 보였다. 이 결과는 매개변수 공간에서 최적화가 실효적으로 저차원 부분 공간에서 이루어짐을 시사한다.