8.76 로지스틱 회귀와 분류
1. 분류 문제와 로지스틱 회귀의 동기
분류(classification)는 입력 \mathbf{x}에 대해 범주형 출력 y \in \{1, 2, \ldots, K\}를 예측하는 문제이다. 선형 회귀는 연속 출력에 적합하지만, 이진 또는 다중 클래스 분류에는 직접 적용되기 어렵다. 로지스틱 회귀(Logistic Regression)는 선형 회귀의 출력을 시그모이드 함수로 변환하여 확률 예측을 제공하며, 분류 문제의 기본 모델 중 하나이다.
2. 이진 로지스틱 회귀
2.1 모델 정식화
이진 반응 변수 y \in \{0, 1\}에 대해, y = 1일 확률을 입력 \mathbf{x}의 선형 함수의 시그모이드로 모델링한다.
P(y = 1 \vert \mathbf{x}) = \sigma(\boldsymbol{\beta}^T\mathbf{x}) = \frac{1}{1 + \exp(-\boldsymbol{\beta}^T\mathbf{x})}
여기서 \sigma(z) = 1/(1 + e^{-z})는 시그모이드(로지스틱) 함수이다. 출력이 [0, 1] 범위의 확률로 해석 가능하다.
2.2 로지트(logit) 변환
\text{logit}(P(y=1 \vert \mathbf{x})) = \ln\frac{P(y=1 \vert \mathbf{x})}{P(y=0 \vert \mathbf{x})} = \boldsymbol{\beta}^T\mathbf{x}
로지트(로그 오즈)가 입력의 선형 함수이다. 이것이 “로지스틱 회귀“라는 명칭의 유래이다.
3. 최대 가능도 추정
이진 관측의 가능도:
L(\boldsymbol{\beta}) = \prod_{i=1}^{n}p_i^{y_i}(1 - p_i)^{1-y_i}
여기서 p_i = \sigma(\boldsymbol{\beta}^T\mathbf{x}_i)이다. 로그 가능도는:
\ell(\boldsymbol{\beta}) = \sum_{i=1}^{n}[y_i\ln p_i + (1 - y_i)\ln(1 - p_i)]
이는 교차 엔트로피 손실(cross-entropy loss)의 음수이며, 분류에서 가장 널리 사용되는 손실 함수이다.
4. 수치적 해법
로지스틱 회귀의 가능도는 폐쇄형 해가 없으므로 반복 최적화가 필요하다.
뉴턴-랩슨 방법 / IRLS: 반복 재가중 최소 제곱(Iteratively Reweighted Least Squares, IRLS)은 뉴턴-랩슨의 특수한 형태이다.
경사 하강법: 대규모 데이터에 적합하다. 확률적 경사 하강법(SGD)이 심층 학습에서 표준이다.
5. 정규화된 로지스틱 회귀
과적합을 방지하고 일반화 성능을 향상시키기 위해 정규화 항을 추가한다.
\ell_2 정규화:
\arg\min_{\boldsymbol{\beta}}\left[-\ell(\boldsymbol{\beta}) + \lambda\lVert\boldsymbol{\beta}\rVert^2\right]
\ell_1 정규화: 희소 해를 유도한다(변수 선택).
6. 다중 클래스 분류
6.1 소프트맥스 회귀(Multinomial Logistic Regression)
K개 클래스에 대한 확장이다.
P(y = k \vert \mathbf{x}) = \frac{\exp(\boldsymbol{\beta}_k^T\mathbf{x})}{\sum_{j=1}^{K}\exp(\boldsymbol{\beta}_j^T\mathbf{x})}
이 함수를 소프트맥스(softmax) 함수라 한다. 각 클래스마다 별도의 가중치 벡터 \boldsymbol{\beta}_k를 학습한다.
6.2 일대다(One-vs-All) 분류
K개의 이진 분류기를 학습한다. 각 분류기는 “클래스 k 대 나머지“를 구분한다. 예측 시 가장 높은 확률의 클래스를 선택한다.
7. 결정 경계
로지스틱 회귀의 결정 경계는 P(y = 1 \vert \mathbf{x}) = 0.5에서 \boldsymbol{\beta}^T\mathbf{x} = 0으로, 선형(초평면)이다. 이 선형성은 이점(해석 가능, 안정적)과 한계(복잡한 경계 표현 불가)를 동시에 가진다. 커널 트릭이나 비선형 특징을 도입하여 확장할 수 있다.
8. 로지스틱 회귀의 성질
선형 모델의 한계: 선형 결정 경계만 학습 가능. 비선형 관계는 특징 공학이나 커널화가 필요하다.
확률적 출력: 점 예측뿐 아니라 확률을 제공하여 불확실성 기반 의사결정이 가능하다.
해석 가능성: 계수 \beta_j의 부호와 크기가 특징의 영향을 직접적으로 나타낸다.
9. 평가 지표
9.1 분류 정확도
\text{Accuracy} = \frac{\text{올바른 예측}}{\text{전체 예측}}
9.2 혼동 행렬(Confusion Matrix)
| 예측 양성 | 예측 음성 | |
|---|---|---|
| 실제 양성 | TP | FN |
| 실제 음성 | FP | TN |
9.3 정밀도, 재현율, F1 점수
- 정밀도: TP/(TP + FP)
- 재현율: TP/(TP + FN)
- F1: 정밀도와 재현율의 조화 평균
9.4 AUC
수신자 조작 특성(ROC) 곡선 아래 면적. 분류기의 순위 능력을 측정한다.
10. 로봇 공학에서의 로지스틱 회귀
이진 분류 작업: 물체의 종류 판별, 장애물 검출, 파지 성공 예측 등의 이진 결정에 사용된다.
다중 클래스 분류: 물체 인식, 장면 분류, 활동 인식 등에 소프트맥스 회귀가 적용된다.
신경망의 출력층: 심층 분류 신경망의 최종 층이 소프트맥스 회귀이다.
의사결정 지원: 확률 예측을 기반으로 로봇의 행동 선택에 활용된다.
11. 참고 문헌
- Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
version: 1.0