12.13 Focal Loss

Focal loss는 클래스 불균형이 심한 분류 과제에서 학습 신호의 균형을 조정하기 위하여 제안된 손실 함수이다. 이 손실은 쉬운 표본의 기여를 감소시키고 어려운 표본의 기여를 강조하는 학술적 동기에 기반하여 설계되었다. Focal loss는 객체 검출 분야에서 RetinaNet의 학술적 성공과 함께 광범위하게 알려졌다. 이 절에서는 Focal loss의 정의, 학술적 동기, 도함수, 매개 변수 해석, 활용 사례를 학습 순서에 따라 기술한다.

1. 학술적 동기

객체 검출과 같은 일부 과제에서는 배경 픽셀이 객체 픽셀보다 매우 많으므로 클래스 불균형이 극심하다. 표준 이진 교차 엔트로피 손실(BCE)을 사용하면 다수의 쉬운 배경 표본이 학습 신호를 지배하여, 어려운 객체 표본의 학습이 효과적으로 수행되지 않는다. 이 문제를 완화하기 위하여 Lin, Goyal, Girshick, He, Dollar가 2017년에 Focal Loss for Dense Object Detection에서 Focal loss를 학술적으로 제안하였다.

2. 정의

이진 분류에서 라벨 $t \in \{0, 1\}$ 과 예측 확률 $p \in [0, 1]$ 에 대하여, 라벨 라벨에 대응하는 예측 확률 $p_t$ 는 다음과 같이 정의된다.

$p_t = \begin{cases} p, & t = 1 \\ 1 - p, & t = 0 \end{cases}$

이 정의에서 $p_t$ 는 모형이 정답 라벨에 부여한 확률이다. 표준 이진 교차 엔트로피는 $-\log p_t$ 로 표현된다. Focal loss는 이 손실에 변조 인자(modulating factor) $(1 - p_t)^{\gamma}$ 를 곱하여 다음과 같이 정의된다.

$\text{FL}(p_t) = -(1 - p_t)^{\gamma} \log p_t$

여기서 $\gamma \geq 0$ 은 초점화(focusing) 매개 변수이다. $\gamma = 0$ 인 경우 Focal loss는 표준 BCE와 동일하다. $\gamma$ 가 클수록 쉬운 표본의 기여가 더 강하게 감소된다.

클래스 불균형을 추가로 다루기 위하여 학술적으로 가중치 $\alpha_t$ 가 결합된 형태가 권고된다.

$\text{FL}(p_t) = -\alpha_t (1 - p_t)^{\gamma} \log p_t$

여기서 $\alpha_t$ 는 양성 클래스와 음성 클래스에 부여되는 가중치이다.

12.13.3 변조 인자의 학술적 의미

변조 인자 $(1 - p_t)^{\gamma}$ 의 학술적 의미는 다음과 같다.

쉬운 표본 ( $p_t \to 1$ ): 변조 인자가 0에 가까워지므로 손실의 기여가 거의 0이 된다.
어려운 표본 ( $p_t \to 0$ ): 변조 인자가 1에 가까우므로 손실의 기여가 표준 BCE와 거의 동일하다.
$\gamma$ 의 효과: $\gamma$ 가 클수록 쉬운 표본과 어려운 표본 사이의 차이가 더 강하게 강조된다.

이러한 효과는 학습 신호가 어려운 표본에 집중되도록 하여, 클래스 불균형이 심한 환경에서도 효과적인 학습을 가능하게 한다.

12.13.4 권장 매개 변수 값

Lin 외의 원래 학술 논문은 객체 검출 과제에 대하여 $\gamma = 2$ 와 $\alpha = 0.25$ 를 권장한다. 이 값은 RetinaNet의 학습에서 학술적으로 우수한 결과를 보고하였다. 그러나 최적의 매개 변수 값은 과제와 데이터에 따라 다르므로 검증 데이터를 통한 조정이 필요하다.

12.13.5 학술적 특성

Focal loss의 주요 학술적 특성은 다음과 같다.

비음성: 항상 0 이상의 값을 가진다.
미분 가능성: 모든 점에서 미분 가능하다.
클래스 불균형의 완화: 쉬운 표본의 기여 감소를 통하여 클래스 불균형이 학습에 미치는 영향을 완화한다.
학습 안정성: 어려운 표본에 학습 신호를 집중시킴으로써 학습의 안정성과 수렴 속도가 향상된다.
단일 매개 변수 $\gamma$ : 추가된 매개 변수가 단일이므로 조정이 단순하다.

12.13.6 활용 사례

Focal loss는 다음의 학술적 활용 사례에서 사용된다.

객체 검출: RetinaNet과 같은 단일 단계 객체 검출기의 손실 함수
의미 분할: 클래스 불균형이 심한 분할 과제
의료 영상 분석: 병변 검출과 같은 클래스 불균형 과제
이상 검출: 이상 표본의 빈도가 매우 낮은 환경에서의 분류 과제
자율주행 인지: 희귀한 객체와 사건의 검출

12.13.7 다중 분류로의 확장

Focal loss는 다중 분류 과제에 자연스럽게 확장될 수 있다. 다중 분류에서 라벨 $c$ 와 소프트맥스 출력 $\mathbf{p}$ 에 대하여, $p_c = p_{t}$ 로 정의하면 다음과 같은 형태가 된다.

$\text{FL}(p_c) = -\alpha_c (1 - p_c)^{\gamma} \log p_c$

이 확장은 다중 분류 과제에서도 클래스 불균형의 완화에 효과적이다.

3. 한계와 학술적 비판

Focal loss는 다음의 학술적 한계를 가진다.

추가 하이퍼파라미터: $\gamma$ 와 $\alpha$ 의 조정이 요구된다.
일부 과제에서의 효과 저하: 클래스 불균형이 심하지 않은 과제에서는 표준 BCE와 큰 차이를 보이지 않을 수 있다.
학습 초기의 불안정: 학습 초기에 모든 표본이 어려운 것으로 평가될 수 있으므로 초기 학습률의 조정이 필요할 수 있다.

4. 출처 및 버전 정보

Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P., Focal Loss for Dense Object Detection, IEEE International Conference on Computer Vision, 2017
Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P., Focal Loss for Dense Object Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020
Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Cui, Y., Jia, M., Lin, T.-Y., Song, Y., Belongie, S., Class-Balanced Loss Based on Effective Number of Samples, IEEE Conference on Computer Vision and Pattern Recognition, 2019