Booil Jung

손실 함수

머신러닝의 핵심은 데이터를 통해 학습하고 예측하는 모델을 구축하는 데 있다. 이 학습 과정의 방향을 결정하고 성패를 좌우하는 가장 근본적인 요소가 바로 손실 함수(Loss Function)이다. 손실 함수는 모델의 예측이 실제 정답과 얼마나 다른지를 정량적으로 측정하는 수학적 도구이다.1 모델의 예측이 정확하면 손실 값은 작아지고, 부정확하면 커진다. 따라서 지도 학습(Supervised Learning)의 근본적인 목표는 이 손실 함수의 값을 최소화하는 모델 파라미터를 찾는 과정으로 귀결된다.4

손실 함수의 선택은 단순히 기술적인 절차를 넘어, 해결하고자 하는 문제의 본질과 목표를 수학적으로 정의하는 핵심적인 설계 결정이다. 어떤 종류의 오차를 더 민감하게 다룰 것인지, 데이터에 내재된 특성(예: 이상치, 불균형)을 어떻게 처리할 것인지, 그리고 최종적으로 모델이 어떤 방향으로 최적화되어야 하는지에 대한 철학이 손실 함수 안에 담겨 있다.6 이는 모델의 성능, 수렴 속도, 그리고 일반화 능력에 지대한 영향을 미친다.

본 보고서는 손실 함수에 대한 포괄적이고 심층적인 분석을 제공하는 것을 목표로 한다. 먼저, 손실, 비용, 목적 함수 등 혼용되기 쉬운 기본 개념들의 의미를 명확히 정립하고, 이들이 모델 최적화 과정에서 어떻게 유기적으로 작동하는지 살펴본다. 다음으로, 손실 함수가 효과적으로 작동하기 위해 필요한 핵심적인 수학적 속성인 볼록성(convexity)과 미분가능성(differentiability)을 탐구하고, 이 속성들이 최적화에 미치는 영향을 분석한다. 이어서 회귀 및 분류 문제에 사용되는 표준적인 손실 함수부터 클래스 불균형, 생성 모델, 강화 학습과 같은 복잡한 과제를 해결하기 위한 고급 손실 함수까지 체계적으로 분류하고 심층 비교한다. 마지막으로, 실제 문제 상황에서 최적의 손실 함수를 선택하기 위한 전략적 프레임워크를 제시하고, 메타 러닝(meta-learning)을 통한 손실 함수 자동 설계 등 최신 연구 동향과 미래 전망을 조망함으로써, 손실 함수에 대한 완전하고 깊이 있는 이해를 도모하고자 한다.9

손실 함수를 깊이 있게 이해하기 위해서는 먼저 그와 관련된 핵심 용어와 개념적 틀을 명확히 구축해야 한다. 이 섹션에서는 종종 혼용되는 용어들을 엄밀하게 구분하고, 손실 함수가 머신러닝 학습 과정의 근간을 이루는 방식을 설명한다.

손실 함수는 지도 학습 알고리즘이 데이터셋을 얼마나 잘 모델링하는지 평가하는 방법으로, 모델의 예측값(y^)과 실제 정답(y) 사이의 편차, 즉 ‘손실(loss)’을 정량화한다.1 모델의 예측이 실제 값과 완벽히 일치하면 손실은 0에 가까워지고, 예측이 빗나갈수록 손실 값은 커진다.2 따라서 지도 학습의 목표는 주어진 데이터에 대해 이 손실 값을 최소화하는 방향으로 모델의 내부 파라미터(가중치와 편향)를 조정하는 것이다.4

이 개념은 ‘정답’ 또는 ‘기준값(ground truth)’이 존재하는 지도 학습에만 해당된다. 클러스터링(clustering)과 같은 전통적인 비지도 학습 알고리즘은 레이블이 없는 데이터에서 고유한 패턴을 발견하는 것을 목표로 하므로, 예측이 ‘맞고 틀림’의 개념이 없어 손실 함수를 사용하지 않는다.2

머신러닝 문헌에서 손실 함수(Loss Function), 비용 함수(Cost Function), 목적 함수(Objective Function)는 종종 같은 의미로 사용되지만, 엄밀한 분석을 위해서는 이들의 범위를 명확히 구분하는 것이 중요하다.5

손실 함수 (Loss Function): 단일 훈련 샘플(single training example)에 대한 오차를 측정한다.3 예를 들어, ‘Loss’는 ‘외로운(lonely)’ 데이터 인스턴스 하나에 대한 것이라고 기억하면 도움이 된다.15
비용 함수 (Cost Function): 전체 훈련 데이터셋 또는 미니배치(mini-batch)에 대한 오차를 측정한다. 이는 개별 샘플에 대한 손실 값들의 집계(aggregation), 통상적으로 평균(average) 또는 합(sum)으로 계산된다.5 경사 하강법에서는 파라미터를 한 번 업데이트하기 위해 전체 배치의 성능을 나타내는 단일 스칼라 값이 필요하므로, 비용 함수가 이 역할을 수행한다.21
목적 함수 (Objective Function): 훈련 과정에서 궁극적으로 최적화하려는 함수를 지칭하는 가장 포괄적인 용어이다.15
- 목적 함수는 비용 함수를 최소화하는 것일 수도 있고, 최대우도추정(Maximum Likelihood Estimation, MLE)에서 우도(likelihood)를 최대화하는 것일 수도 있다.16
- 더 중요한 점은, 목적 함수가 종종 비용 함수뿐만 아니라 모델의 복잡도를 제어하여 과적합(overfitting)을 방지하기 위한 정규화(regularization) 항을 포함한다는 것이다.15 따라서 최종 목적 함수는
  
  J(f)=Cost(f)+Regularizer(f) 형태로 표현되는 경우가 많다.

이러한 용어의 계층 구조는 단순히 학문적 엄밀성을 위한 것이 아니다. 이는 머신러닝 모델 설계의 진화 과정을 반영한다. 가장 기본적인 목표는 단일 예제에 대해 올바른 예측을 하는 것(손실 함수로 측정)이다. 실용적인 모델이 되려면 데이터셋 전체에 대해 평균적으로 좋은 성능을 내야 한다(비용 함수로 측정). 마지막으로, 새로운 데이터에 대해서도 좋은 성능을 내는, 즉 일반화되기 위해서는 성능과 모델의 단순성 사이의 균형을 맞춰야 하며, 이는 정규화 항이 추가된 목적 함수를 통해 달성된다. 이처럼 용어의 구분은 머신러닝의 근본적인 과제인 ‘훈련 데이터 적합’과 ‘일반화’ 사이의 긴장 관계를 어떻게 수학적으로 해결할 것인지에 대한 선택을 보여준다.

손실 함수는 모델의 성능을 수동적으로 평가하는 점수판이 아니다. 그 핵심 역할은 모델의 파라미터(가중치 w와 편향 b)를 최적화하기 위한 신호를 능동적으로 제공하는 데 있다.2

경사 하강법(Gradient Descent)과 같은 최적화 알고리즘은 손실 함수의 기울기(gradient)를 사용한다.2 기울기는 각 파라미터에 대한 손실 함수의 편미분 벡터로, 현재 파라미터 위치에서 손실이 가장 가파르게 증가하는 방향을 나타낸다. 따라서 모델을 학습시킬 때는 이 기울기의 반대 방향으로 파라미터를 조금씩 이동시킨다. 이 과정을 반복하면 점진적으로 손실이 낮은 지점으로 이동하게 되며, 이 과정이 바로 모델이 ‘학습’하는 원리이다.2

결국 손실 함수의 수학적 형태는 ‘손실 공간(loss landscape)’이라는 다차원 공간의 지형을 결정한다.27 이 지형의 형태가 기울기의 방향과 크기를 결정하고, 이 기울기는 최적화 알고리즘이 모델의 가중치를 업데이트하는 유일한 정보가 된다.2 따라서 손실 함수를 선택하는 행위는 최적화 알고리즘이 탐색해야 할 지형을 설계하는 것과 같다. 부적절하게 선택된 손실 함수는 평탄한 지역(기울기 소실 문제)이나 급경사(기울기 폭주 문제)가 많은 험난한 지형을 만들어, 비록 해당 함수가 비즈니스 목표를 잘 반영하는 것처럼 보이더라도 최적화를 불가능하게 만들 수 있다.7

손실 함수가 최적화 과정에서 효과적으로 작동하기 위해서는 특정 수학적 속성을 갖추는 것이 이상적이다. 이 섹션에서는 볼록성(convexity)과 미분가능성(differentiability)이라는 두 가지 핵심 속성을 심층적으로 분석하고, 이러한 속성이 부재할 때 발생하는 문제와 그 해결 방안을 탐구한다.

정의: 어떤 함수의 그래프 위의 임의의 두 점을 연결한 선분이 항상 그래프 자체보다 위나 같은 곳에 위치할 때 그 함수를 볼록(convex)하다고 한다.30 두 번 미분 가능한 함수에서는 2차 도함수(다변수 함수에서는 헤시안 행렬)가 항상 0 이상(또는 양의 준정부호)인 것과 동치이다.33
중요성: 볼록성의 가장 중요한 의의는, 경사 하강법과 같은 지역적 탐색 알고리즘으로 찾은 모든 지역 최적해(local minimum)가 곧 전역 최적해(global minimum)임을 보장한다는 점이다.30
최적화에 대한 함의: 비볼록(non-convex) 함수는 다수의 지역 최적해를 가질 수 있어, 경사 하강법이 최적이 아닌 지점에 갇힐 위험이 크다. 반면 볼록 함수는 이러한 문제를 원천적으로 차단하여 최적화 과정을 신뢰할 수 있고 예측 가능하게 만든다.30 평균 제곱 오차(MSE)를 사용하는 선형 회귀나 교차 엔트로피(Cross-Entropy)를 사용하는 로지스틱 회귀와 같은 고전적인 머신러닝 알고리즘이 안정적으로 작동하는 이유는 바로 그들의 손실 함수가 볼록 함수이기 때문이다.26
딥러닝의 현실과 “볼록성 역설”: 최적화 이론은 신뢰할 수 있는 수렴을 위해 볼록성이 매우 중요하다고 강조한다.31 그러나 현대 인공지능의 정점에 있는 심층 신경망(Deep Neural Networks)의 손실 공간은 압도적으로

비볼록하며, 수많은 지역 최적해와 안장점(saddle point)을 포함하고 있다.27 그럼에도 불구하고 이러한 모델들이 성공적으로 훈련된다는 사실은 하나의 역설처럼 보인다. 이는 딥러닝 모델의 손실 공간이 비록 비볼록하지만, 대부분의 지역 최적해가 전역 최적해와 유사한 높은 성능을 보이거나, 나쁜 지역 최적해보다 안장점이 훨씬 더 흔하게 나타나는 등 특별한 기하학적 구조를 가질 수 있음을 시사한다. 딥러닝의 성공은 모델 자체의 표현력뿐만 아니라, 이러한 복잡한 지형을 효과적으로 탐색하는 고급 최적화 알고리즘(예: Adam)과 고차원 공간의 특성에 기인한 결과이기도 하다.
정의: 어떤 함수가 정의역 내 모든 지점에서 도함수를 가질 때, 즉 그래프가 꺾인 점이나 끊어진 부분 없이 매끄러울 때 미분가능(differentiable)하다고 한다.2
중요성: 미분가능성은 경사 하강법 기반 최적화의 기계적인 핵심이다. 기울기는 파라미터를 어느 방향으로 얼마나 업데이트해야 할지에 대한 명확하고 계산 가능한 정보를 제공한다.2
정확도를 손실 함수로 사용하지 않는 이유: 정확도(accuracy)는 계단 함수(step function) 형태로, 대부분의 지점에서 미분이 불가능하거나 기울기가 0이다. 이는 예측이 맞았는지 틀렸는지만 알려줄 뿐, 모델을 ‘어떻게’ 개선해야 할지에 대한 방향 정보를 전혀 제공하지 못한다.25 손실 함수는 파라미터의 미세한 변화에도 민감하게 반응하여 유의미한 기울기를 생성해야 하며, 미분가능성은 바로 이 속성을 보장한다.

평균 절대 오차(MAE)나 힌지 손실(Hinge Loss)처럼 유용하지만 모든 지점에서 미분 가능하지 않은 손실 함수들도 많다.6 이러한 함수들을 최적화하기 위해 다양한 기법들이 개발되었다.

실용적 해결책:
- 준기울기(Subgradient) 방법: 볼록하지만 미분 불가능한 함수에 대해서는 기울기를 일반화한 개념인 ‘준기울기’를 사용하여 최적화를 계속할 수 있다.
- 평활화(Smoothing) 및 근사: 미분 불가능한 함수를 미분 가능한 매끄러운 함수로 근사하여 대체하는 전략이 널리 사용된다. 대표적인 예가 후버 손실(Huber Loss)로, MAE의 0 지점에서의 뾰족한 모서리를 2차 함수로 부드럽게 만든 것이다.39
  
  제곱 힌지 손실(Squared Hinge Loss) 역시 힌지 손실의 미분 불가능한 지점을 해결하기 위한 매끄러운 대안이다.28
- 무미분 최적화(Derivative-Free Optimization): 유전 알고리즘과 같은 방법도 사용될 수 있으나, 대규모 딥러닝 모델에 적용하기에는 계산 비용이 너무 커서 실용적이지 않다.40
- 미분 가능한 대리 모델(Differentiable Proxies): 게임 엔진과 같이 미분 불가능한 프로세스를 근사하는 별도의 신경망을 훈련시킨 후, 이 신경망 자체를 손실 함수로 사용하는 강력한 최신 기법도 있다.48

이러한 해결책들은 머신러닝 분야가 경사 하강법에 얼마나 깊이 의존하고 있는지를 보여준다. F1 점수나 BLEU 점수처럼 실제 비즈니스에서 최적화하고 싶은 많은 지표들은 미분 불가능하다.49 그러나 연구자들은 무미분 최적화 기법으로 전환하기보다는, ‘소프트(soft)’ 버전을 만들거나 50, 미분 가능한 대리 모델을 설계하는 등 48 기존의 문제를 경사 하강법에 맞게 재구성하는 데 막대한 노력을 투자한다. 이는 역전파와 경사 하강법이 현대 인공지능에서 차지하는 계산적 효율성과 실용적 지배력을 명확히 보여주는 증거이다.

이 섹션에서는 지도 학습의 두 가지 주요 과제인 회귀와 분류에 사용되는 대표적인 손실 함수들을 수학적 공식, 이론적 배경, 실용적 장단점과 함께 상세하고 비교적으로 분석한다.

회귀 문제는 연속적인 값을 예측하는 과제로, 손실 함수는 예측값과 실제값 사이의 거리(오차의 크기)를 측정해야 한다.

평균 제곱 오차 (Mean Squared Error, MSE / L2 Loss):
- 공식: $L(y,\hat{y})=\frac{1}{n}∑_{i=1}^n(y_i−\hat{y}_i)^2$ 25
- 분석: 회귀 문제의 기본이자 표준 손실 함수이다.10 볼록하고 모든 지점에서 미분 가능하여 매끄러운 최적화 환경을 제공한다.7 가장 큰 특징은 오차를 제곱하기 때문에 큰 오차에 대해 매우 큰 페널티를 부과한다는 점이다. 이는 이상치(outlier)에 극도로 민감하게 반응하여, 모델의 예측이 소수의 비정상적인 데이터 포인트 쪽으로 크게 치우치게 만들 수 있다.3 확률론적 관점에서 MSE를 최소화하는 것은 오차항이 정규분포(Gaussian distribution)를 따른다고 가정했을 때의 최대우도추정(MLE)과 동일하다.39
평균 절대 오차 (Mean Absolute Error, MAE / L1 Loss):
- 공식: $L(y,\hat{y})=\frac{1}{n}∑_{i=1}^n y_i−\hat{y}_i $ 51
- 분석: MAE의 핵심 장점은 오차를 제곱하지 않기 때문에 이상치에 대해 강건(robust)하다는 것이다.3 따라서 데이터에 노이즈나 비정상적인 값이 많을 때 적합하다.54 반면,
  
  $y_i = \hat{y}_i$인 지점에서 미분이 불가능하고 다른 모든 지점에서는 기울기가 상수로 일정하다. 이로 인해 최적점에 가까워졌을 때 고정된 학습률을 사용하면 최적점을 지나쳐 진동하는 등 수렴이 불안정해질 수 있다.13 MAE 최소화는 오차의 중앙값(median)을 찾는 것과 관련이 있다.56
후버 손실 (Huber Loss / Smooth L1 Loss):
- 공식: 특정 임계값 $δ$를 기준으로, 오차가 $δ$보다 작으면 MSE처럼 2차 함수 형태를, 크면 MAE처럼 1차 함수 형태를 띠는 조각적(piecewise) 함수이다.3 $L_δ(y,\hat{y}) = \begin{cases} \frac{1}{2}(y − \hat{y})^2 & \text{for} ∣y−\hat{y}∣ ≤ δ\\ δ(∣y−\hat{y}∣−\frac{1}{2}δ) & \text{otherwise} \\ \end{cases}$ 분석: 후버 손실은 MSE와 MAE의 장점을 결합한 하이브리드 형태이다. 모든 지점에서 미분 가능하여 최적점 근처에서는 MSE처럼 안정적인 수렴을 유도하고, 큰 오차에 대해서는 MAE처럼 선형적인 페널티를 부과하여 이상치에 대한 강건성을 유지한다.39 하이퍼파라미터 $δ$는 ‘큰 오차’와 ‘작은 오차’를 구분하는 기준이 되며, 데이터의 특성에 맞게 조정해야 하는 과제가 있다.46

손실 함수	공식	주요 속성 (미분가능성, 볼록성)	이상치 민감도	확률론적 해석	주요 사용 사례
MSE (L2 Loss)	$\frac{1}{n}∑(y_i−\hat{y}_i)^2$	모든 지점에서 미분 가능, 볼록	높음 (오차를 제곱하여 큰 오차에 과도한 페널티)	오차가 정규분포를 따른다고 가정할 때의 MLE	데이터가 깨끗하고 이상치가 적을 때, 큰 오차를 엄격히 제어해야 할 때
MAE (L1 Loss)	$\frac{1}{n}∑	y_i−\hat{y}_i	$	0에서 미분 불가능, 볼록	낮음 (오차에 선형적으로 반응하여 이상치 영향이 적음)
Huber Loss	$δ$ 기준 조각적 함수	모든 지점에서 미분 가능, 볼록	중간 (δ 값으로 조절 가능, 큰 오차에는 덜 민감)	MSE와 MAE의 하이브리드	이상치에 강건하면서도 안정적인 수렴이 필요할 때 (두 장점의 절충)

분류 문제는 이산적인 클래스(category)를 예측하는 과제로, 손실 함수는 모델이 예측한 클래스 확률 분포와 실제 클래스 분포 간의 차이를 측정해야 한다.

교차 엔트로피 손실 (Cross-Entropy Loss / Log Loss):
- 기원 및 공식: 정보 이론에서 유래했으며, 실제 확률 분포(정답 클래스만 1이고 나머지는 0인 원-핫 벡터)와 모델이 예측한 확률 분포(소프트맥스 또는 시그모이드 함수의 출력) 사이의 불일치 정도를 측정한다.13 이진 분류를 위한 이진 교차 엔트로피(Binary Cross-Entropy, BCE)와 다중 클래스 분류를 위한 범주형 교차 엔트로피(Categorical Cross-Entropy, CCE)로 나뉜다.25
  - BCE: $L(y,\hat{y}) = −[y \log(\hat{y}) + (1−y) \log(1−\hat{y})]$
  - CCE: $L(y,\hat{y})=−∑_{k=1}^K y_k \log(\hat{y}_k)$
- 분석: 분류 문제의 표준이자 기본 손실 함수이다.59 교차 엔트로피 최소화는 로그 우도(log-likelihood)를 최대화하는 것과 수학적으로 동일하여 강력한 이론적 기반을 갖는다.19 또한, 확신에 차서 틀린 예측(예: 정답이 1인데 0에 가까운 확률을 예측)에 대해 손실 값이 기하급수적으로 증가하여 강력한 학습 신호를 제공한다.62 그러나 클래스 불균형 문제나 레이블 노이즈에 민감하다는 단점이 있다.59
힌지 손실 (Hinge Loss):
- 기원 및 공식: 최대 마진 분류기(maximum-margin classifier)인 서포트 벡터 머신(Support Vector Machine, SVM)을 위해 설계된 손실 함수이다.39 공식은 $L(y, f(x)) = \max(0, 1 - y \cdot f(x))$로, 여기서 $y$는 ${−1,1}$ 중 하나의 레이블을, $f(x)$는 모델의 원시 출력 점수(raw score)를 의미한다.44
- 분석: 힌지 손실은 교차 엔트로피와는 근본적으로 다른 원리로 작동한다. 이 손실은 확률적이지 않으며, 예측이 결정 경계(decision boundary)로부터 올바른 방향으로 특정 ‘마진(margin)’ 이상 떨어져 있으면 손실을 0으로 간주한다. 즉, 이 마진을 넘어 확실하게 올바르게 분류된 샘플들은 학습에 아무런 영향을 주지 않는다. 모델 파라미터 업데이트는 오분류된 샘플과 마진 경계 위에 있거나 마진 안쪽에 있는 ‘서포트 벡터(support vector)’들에 의해서만 주도된다.64 이는 모델의 강건성을 높이고 희소한 해(sparse solution)를 유도하는 경향이 있다. 단점으로는 마진 경계에서 미분이 불가능하며, 잘 보정된 확률 값을 출력하지 않는다는 점이 있다.44

손실 함수	기본 원리	공식	모델 출력 유형	미분가능성	주요 적용 모델
교차 엔트로피	확률 분포 간의 불일치 측정 (정보 이론 기반)	BCE/CCE 공식 참조	클래스별 확률 (Sigmoid/Softmax 출력)	모든 지점에서 미분 가능	로지스틱 회귀, 심층 신경망 분류기
힌지 손실	최대 마진(Max-Margin) 원리 (기하학적 기반)	$\max(0,1−y⋅f(x))$	원시 점수 (raw score)	마진 경계$(y⋅f(x)=1)$에서 미분 불가능	서포트 벡터 머신 (SVM)

이 섹션에서는 현대 머신러닝의 가장 어려운 문제들을 해결하기 위해 손실 함수의 개념이 어떻게 창의적으로 확장되고 변형되었는지 탐구한다. 이는 손실 함수가 단순히 오차를 측정하는 도구를 넘어, 문제 해결 전략 그 자체가 될 수 있음을 보여준다.

문제점: 사기 탐지, 의료 진단 등 실제 세계의 데이터셋에서는 클래스 불균형이 매우 흔하다. 예를 들어, 99%의 정상 거래와 1%의 사기 거래 데이터로 모델을 학습시킬 경우, 표준 교차 엔트로피 손실은 다수 클래스인 정상 거래에 의해 지배된다. 수많은 ‘쉬운’ 정상 거래 샘플들이 전체 손실의 대부분을 차지하게 되어, 모델은 소수 클래스인 사기 거래를 무시하고 모든 것을 정상으로 예측하는 방향으로 학습하게 된다.68
포컬 손실 (Focal Loss):
- 공식: $FL(p_t)=−α_t(1−p_t)^γ \log(p_t)$ 71
- 분석: 포컬 손실은 교차 엔트로피를 획기적으로 개선한 손실 함수이다. 핵심은 동적으로 손실을 조절하는 변조 계수(modulating factor) $(1−p_t)^γ$를 도입한 것이다. 여기서 $p_t$는 정답 클래스에 대한 모델의 예측 확률이다. 샘플이 잘 분류되어 $p_t$가 높으면 $(1−p_t)^γ$는 0에 가까워져 해당 샘플의 손실 기여도를 크게 낮춘다. 반면, 샘플이 잘 분류되지 않아 $p_t$가 낮으면 이 계수는 1에 가까워져 손실이 그대로 유지된다. 이 메커니즘은 모델이 ‘쉬운’ 다수 클래스 샘플 대신, 분류하기 ‘어려운’ 소수 클래스 샘플에 학습을 집중하도록 강제한다.25 $α_t$ 항은 클래스별로 정적인 가중치를 부여하는 역할을 하며, 초점 파라미터(focusing parameter) γ는 동적 스케일링의 강도를 조절한다. 이는 특정 데이터 병목 현상을 해결하기 위해 손실 함수를 직접적으로 공학적으로 설계한 대표적인 사례이다.
문제점: 이진 교차 엔트로피 기반의 최소최대(minimax) 손실로 학습되는 초기 생성적 적대 신경망(GAN)은 훈련이 매우 불안정하다. 판별자(discriminator)가 너무 강력해지면 생성자(generator)의 기울기가 소실되고(vanishing gradients), 생성자가 소수의 특정 결과물만 생성하는 모드 붕괴(mode collapse) 현상이 발생하며, 손실 값 자체가 생성된 이미지의 품질과 상관관계가 없어 훈련 과정을 모니터링하기 어렵다.72
바서슈타인 GAN (WGAN) 손실:
- 핵심 아이디어: 판별자를 확률 대신 점수(score)를 출력하는 ‘평론가(critic)’로 대체한다. 손실 함수는 생성된 데이터 분포를 실제 데이터 분포로 옮기는 데 드는 최소 ‘비용’을 의미하는 ‘EM 거리(Earth Mover’s Distance)’라는 실제 거리 측정 기준에서 파생된다.72
- 손실 공식: 평론가 손실: $D(x_\text{real})−D(x_\text{fake})$; 생성자 손실: −D(x_\text{fake}).73 평론가는 실제 샘플과 가짜 샘플의 점수 차이를 최대화하려 하고, 생성자는 가짜 샘플이 높은 점수를 받도록 학습한다.
- 분석: WGAN 손실은 패러다임의 전환을 의미한다. 훨씬 더 매끄러운 기울기 공간을 제공하여 훈련 안정성을 크게 향상시킨다.72 가장 중요한 점은, 평론가의 손실 값이 이제 생성된 이미지의 품질과 유의미한 상관관계를 가져, 디버깅과 하이퍼파라미터 튜닝에 결정적인 단서를 제공한다는 것이다.73 이를 구현하기 위해서는 평론가 네트워크에 립시츠 제약(Lipschitz constraint)을 강제해야 하며, 이는 보통 가중치 클리핑(weight clipping)이나 더 발전된 형태인 기울기 페널티(gradient penalty, WGAN-GP)를 통해 이루어진다.75
문제점: 강화학습(Reinforcement Learning, RL) 환경에서는 명시적인 (입력, 출력) 쌍이 존재하지 않는다. 에이전트(agent)는 환경과의 상호작용을 통해 지연되고 희소한 스칼라 보상 신호를 받으며 학습한다.77 목표는 누적 미래 보상을 최대화하는 행동 전략, 즉 ‘정책(policy)’을 찾는 것이다.

정책 경사(Policy Gradient) 방법 (예: REINFORCE):

목적: 목표는 기대 총 보상 $J(\theta)$를 최대화하는 것이다. 따라서 최적화 문제에서는 이 목적 함수의 음수값, 즉 $-J(\theta)$를 ‘손실 함수’로 삼아, 최대화 문제를 일반적인 최적화기(optimizer)가 처리할 수 있는 최소화 문제로 변환한다.78

기울기: 정책 경사 정리(Policy Gradient Theorem)는 이 목적 함수의 기울기를 계산 가능한 형태로 제공한다: $∇J(θ)= \mathbb{E}[G_t⋅∇θ \log π_θ(a_t∣s_t)]$. 여기서 $G_t$는 시간 단계 $t$부터의 누적 미래 보상(‘반환값’)이며, $\pi\theta(a_t

s_t)$는 상태 $s_t$에서 행동 $a_t$를 선택할 정책 확률이다.80

분석: 이 공식은 직관적이다. 높은 보상을 가져온 행동의 로그 확률($\log π_θ$)을 증가시키고, 낮은 보상을 가져온 행동의 로그 확률을 감소시킨다. 반환값 $G_t$가 업데이트의 크기와 방향을 조절하는 가중치 역할을 하는 것이다. 이처럼 정책을 직접 최적화하는 방식은 강력하지만, 에피소드마다 반환값 $G_t$가 크게 달라질 수 있어 분산이 매우 높다는 고질적인 문제를 안고 있다. 이 높은 분산은 학습을 불안정하게 만들며, 이를 해결하기 위해 학습된 가치 함수(value function)를 기저선(baseline)으로 사용하여 분산을 줄이는 더 발전된 형태의 행위자-평론가(Actor-Critic) 방법들이 등장했다.77

손실 함수가 특정 과제의 구조에 맞춰 어떻게 맞춤 설계되는지 보여주기 위해 다른 분야의 예시들을 간략히 소개한다.

객체 탐지 및 분할: IoU(Intersection over Union) 손실이나 다이스 손실(Dice Loss)은 픽셀 단위의 분류 손실보다 최종 평가 지표와 더 직접적으로 연관된, 예측된 경계 상자(bounding box)나 마스크와 실제 정답 간의 기하학적 겹침을 직접 최적화한다.9
거리 학습 (Metric Learning, 예: 얼굴 인식): 삼중항 손실(Triplet Loss)이나 대조 손실(Contrastive Loss)은 유사한 항목(예: 같은 사람의 얼굴)의 임베딩은 가깝게, 다른 항목의 임베딩은 멀게 만드는 임베딩 공간을 학습하도록 설계되었다.9

마지막 섹션에서는 본 보고서의 내용을 종합하여 실제 문제 해결을 위한 전략적 프레임워크를 제공하고, 손실 함수의 진화에 대한 미래 지향적인 관점을 제시한다.

손실 함수 선택은 체계적인 접근이 필요한 중요한 결정이다. 다음의 단계별 프레임워크는 실무자가 정보에 입각한 결정을 내리는 데 도움을 줄 수 있다.

1단계: 과제 정의 (Define the Task): 해결하려는 문제가 회귀, 이진/다중 클래스 분류, 생성, 순위 결정 등 어떤 유형인지 명확히 한다. 이는 후보 손실 함수군을 1차적으로 결정한다.6
2단계: 데이터 분석 (Analyze the Data):
- 이상치(Outliers): 데이터에 노이즈가 많거나 극단적인 이상치가 포함되어 있다면, MSE보다 MAE나 후버 손실과 같이 강건한(robust) 손실 함수를 우선적으로 고려해야 한다.3
- 클래스 불균형(Class Imbalance): 데이터셋이 심각하게 불균형하다면 표준 교차 엔트로피는 부적절하다. 가중 교차 엔트로피(Weighted Cross-Entropy)나 포컬 손실(Focal Loss)을 사용하여 소수 클래스가 학습 과정에서 무시되지 않도록 해야 한다.68
3단계: 비즈니스 목표와 연계 (Align with Business Objectives): 손실 함수는 현실 세계의 오차 비용을 반영해야 한다. 예를 들어, 암 진단 모델에서 위음성(False Negative, 암을 놓치는 경우)이 위양성(False Positive)보다 훨씬 치명적이라면, 손실 함수는 클래스 가중치 부여 등을 통해 이러한 비대칭성을 인코딩해야 한다. 이는 단순히 통계적 최적화를 넘어 비즈니스적으로 중요한 지표(예: 재현율, Recall)와 손실 함수를 일치시키는 전략적 결정이다.66
4단계: 모델과 출력 고려 (Consider Model and Output): 모델이 잘 보정된 확률 값을 출력해야 하는가? 그렇다면 교차 엔트로피가 이상적이다. 목표가 하드 마진(hard-margin) 분류기를 만드는 것인가? 그렇다면 힌지 손실이 자연스러운 선택이다.67

부적절한 손실 함수 선택이 모델 성능에 미치는 파괴적인 영향을 구체적인 사례를 통해 살펴본다.

사례 1: 이상치가 있는 회귀 문제: 이상치가 포함된 데이터에 MSE를 사용하면, 모델은 소수의 이상치에 과도하게 영향을 받아 대다수의 정상 데이터에 대한 예측 성능이 저하된다. 예측선이 이상치 쪽으로 끌려가기 때문이다. 이 경우 후버 손실로 전환하면 이상치의 영향을 줄여 훨씬 더 강건하고 대표성 있는 모델을 얻을 수 있다.28
사례 2: 불균형 데이터 분류 문제: 99:1 비율의 불균형 데이터셋에 표준 교차 엔트로피를 적용하면, 모델은 모든 샘플을 다수 클래스로 예측하는 단순한 분류기를 학습할 가능성이 높다. 이 모델은 99%의 정확도를 보이지만, 정작 중요한 소수 클래스 이벤트를 전혀 탐지하지 못해 실제로는 아무 쓸모가 없다.7

이러한 사례들은 중요한 점을 시사한다: 최적화하는 손실 함수와 최종적으로 평가하는 지표가 다를 때 심각한 성능 저하가 발생할 수 있다. 모델은 주어진 손실 함수를 최소화하는 데 매우 능숙해지지만, 이것이 실제로 중요한 평가 지표의 향상으로 이어지지 않을 수 있다.66 따라서 훈련 목표와 평가 기준을 최대한 일치시키는 것이 무엇보다 중요하다.

손실 함수 연구의 최전선은 정해진 메뉴에서 손으로 고르는 방식을 넘어, 자동화되고 적응적이며 더 강력한 패러다임으로 나아가고 있다.

손실 함수를 위한 메타 러닝(Meta-Learning): 이는 이중 최적화(bi-level optimization) 구조를 가진다. ‘내부 루프’에서 특정 손실 함수로 모델을 학습시키고, ‘외부 루프’에서는 그 모델의 검증 성능을 최적화하도록 유연한 파라미터형 손실 함수의 파라미터를 학습한다.88 이를 통해 주어진 태스크 분포에 최적화된 손실 함수를 자동으로 설계할 수 있다 (예: AutoBalance, MeTAL).88
미분 가능한 프로그래밍(Differentiable Programming): 이 패러다임은 알고리즘이나 시뮬레이터 자체를 더 큰 모델의 미분 가능한 구성 요소로 취급한다. 만약 미분 불가능한 프로세스(예: 게임 엔진, 물리 시뮬레이터)를 미분 가능한 시뮬레이터로 근사할 수 있다면, 전체 시뮬레이션 과정을 통해 역전파를 수행할 수 있다. 이는 사실상 시뮬레이션의 결과를 매우 특화된 손실 함수로 사용하는 것과 같다.48
최신 연구 동향: 미래의 손실 함수는 더 강건하고, 해석 가능성과 공정성을 증진시키며, 대규모 데이터에서도 계산적으로 효율적이고, 훈련 과정에서 동적으로 적응하는 방향으로 발전할 것이다.8 NeurIPS, ICML과 같은 최고 수준의 학회에서는 하이브리드 손실 함수, 어려운 손실 공간을 다루기 위한 뉴턴 손실(Newton Losses)과 같은 2차 최적화 기법의 활용, 그리고 손실 공간의 기하학적 구조에 대한 더 깊은 연구들이 활발히 진행되고 있다.12

본 보고서는 머신러닝의 핵심 구성 요소인 손실 함수에 대해 다각적이고 심층적인 고찰을 수행했다. 손실 함수는 단순히 모델의 오차를 측정하는 수치를 넘어, 학습의 목표를 정의하고 최적화 과정의 방향을 제시하는 나침반과 같은 역할을 수행한다. 그 선택은 모델의 최종 성능과 직결되는 가장 중요한 설계 결정 중 하나이다.

보고서의 분석을 통해, 손실, 비용, 목적 함수 간의 미묘하지만 중요한 개념적 차이가 모델 설계의 복잡성(단순 적합에서 일반화로의 이행)을 어떻게 반영하는지 확인했다. 또한, 볼록성과 미분가능성과 같은 수학적 속성이 최적화의 안정성과 효율성을 어떻게 보장하는지, 그리고 현대 딥러닝이 비볼록, 비미분 함수의 도전을 어떻게 극복하고 있는지를 탐구했다. 회귀와 분류의 표준 손실 함수부터 불균형 데이터, GAN, 강화학습과 같은 고급 과제를 위한 특수 손실 함수까지의 여정은, 주어진 문제의 본질을 해결하기 위해 손실 함수가 얼마나 창의적으로 설계될 수 있는지를 명확히 보여주었다.

결론적으로, 손실 함수에 대한 깊이 있는 이해와 신중한 선택은 성공적인 머신러닝 모델을 구축하고자 하는 모든 연구자와 실무자에게 필수적인 역량이다. 미래에는 메타 러닝과 같은 기술을 통해 손실 함수 자체가 데이터로부터 학습되어, 더욱 정교하고 자동화된 모델 개발이 가능해질 것이다. 이는 손실 함수가 머신러닝의 지적인 핵심으로서 그 중요성을 계속해서 확대해 나갈 것임을 시사한다. 강건하고, 효과적이며, 진정으로 지능적인 시스템을 구축하기 위한 여정에서 손실 함수에 대한 통찰력은 그 무엇보다 강력한 도구가 될 것이다.

www.ibm.com, accessed July 19, 2025, https://www.ibm.com/kr-ko/think/topics/loss-function#:~:text=%EB%A8%B8%EC%8B%A0%20%EB%9F%AC%EB%8B%9D(ML)%EC%97%90%EC%84%9C%EB%8A%94%20%EC%86%90%EC%8B%A4,%EB%B3%80%EC%88%98%EB%A5%BC%20%EC%A1%B0%EC%A0%95%ED%95%B4%EC%95%BC%20%ED%95%A9%EB%8B%88%EB%8B%A4.
손실 함수란 무엇인가요? - IBM, accessed July 19, 2025, https://www.ibm.com/kr-ko/think/topics/loss-function
Loss Functions in Machine Learning Explained - DataCamp, accessed July 19, 2025, https://www.datacamp.com/tutorial/loss-function-in-machine-learning
모델이 학습하는 방법 (1) - 손실함수(Loss function)와 경사하강법(Gradient Descent), accessed July 19, 2025, https://yhyun225.tistory.com/5
[Machine Learning] 손실 함수 - 비용 함수, 목적 함수 - 정보 기술 놀이터, accessed July 19, 2025, https://byunghyun23.tistory.com/84
[ ML/DL ] Loss function 왜 필요하고, 어디에 사용되는 걸까?, accessed July 19, 2025, https://tori-notepad.tistory.com/19
The Impact of Loss on Machine Learning Models - Number Analytics, accessed July 19, 2025, https://www.numberanalytics.com/blog/the-impact-of-loss-on-machine-learning-models
Loss Functions in Deep Learning: A Comprehensive Review - arXiv, accessed July 19, 2025, https://arxiv.org/html/2504.04242v1
Loss Functions and Metrics in Deep Learning - arXiv, accessed July 19, 2025, https://arxiv.org/html/2307.02694v3
How to Choose Loss Functions When Training Deep Learning Neural Networks - MachineLearningMastery.com, accessed July 19, 2025, https://machinelearningmastery.com/how-to-choose-loss-functions-when-training-deep-learning-neural-networks/
A survey and taxonomy of loss functions in machine learning - arXiv, accessed July 19, 2025, https://arxiv.org/html/2301.05579v2
Innovative Loss Function Strategies for Deep Learning Model Enhancement, accessed July 19, 2025, https://www.numberanalytics.com/blog/innovative-loss-function-strategies-deep-learning-enhancement
손실함수 간략 정리(예습용) - velog, accessed July 19, 2025, https://velog.io/@yuns_u/%EC%86%90%EC%8B%A4%ED%95%A8%EC%88%98-%EA%B0%84%EB%9E%B5-%EC%A0%95%EB%A6%AC
Objective function, cost function, loss function: are they the same thing? - Kaggle, accessed July 19, 2025, https://www.kaggle.com/discussions/questions-and-answers/445725
Difference Between the Cost, Loss, and the Objective Function …, accessed July 19, 2025, https://www.baeldung.com/cs/cost-vs-loss-vs-objective-function
Cost Function & Loss Function - Nadeem, accessed July 19, 2025, https://nadeemm.medium.com/cost-function-loss-function-c3cab1ddffa4
Objective function, cost function, loss function: are they the same thing? - Cross Validated, accessed July 19, 2025, https://stats.stackexchange.com/questions/179026/objective-function-cost-function-loss-function-are-they-the-same-thing
목적함수 vs 비용함수 vs 손실함수 - juxgsiroo, accessed July 19, 2025, https://jungsiroo.github.io/aistudy/2023-10-30-obj-cost-loss/
Loss Function vs Cost Function vs Objective Function은 무슨 차이 인가요?, accessed July 19, 2025, https://ploradoaa.tistory.com/37
Object Function, Cost Function, Loss Fuction - ok-lab - 티스토리, accessed July 19, 2025, https://ok-lab.tistory.com/171

비용함수(Cost Function), 손실함수(Loss function), 목적함수(Objective Function)

Ai-tech, accessed July 19, 2025, https://velog.io/@regista/%EB%B9%84%EC%9A%A9%ED%95%A8%EC%88%98Cost-Function-%EC%86%90%EC%8B%A4%ED%95%A8%EC%88%98Loss-function-%EB%AA%A9%EC%A0%81%ED%95%A8%EC%88%98Objective-Function-Ai-tech

비용함수(Loss function/cost function)와 경사하강법(Gradient Descent)이란 - 비전공자 데이터분석 노트 - 티스토리, accessed July 19, 2025, https://bigdaheta.tistory.com/85
SVM - Difference between Energy vs Loss vs Regularization vs Cost function, accessed July 19, 2025, https://stackoverflow.com/questions/37511274/svm-difference-between-energy-vs-loss-vs-regularization-vs-cost-function
목적함수, 비용함수 그리고 손실함수 - velog, accessed July 19, 2025, https://velog.io/@prislewarz/%EB%AA%A9%EC%A0%81%ED%95%A8%EC%88%98-%EB%B9%84%EC%9A%A9%ED%95%A8%EC%88%98-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EC%86%90%EC%8B%A4%ED%95%A8%EC%88%98
[딥러닝 기본지식] 손실 함수(Loss Function)의 이해 - 손실 함수의 정의 …, accessed July 19, 2025, https://ga02-ailab.tistory.com/64

Linear regression: Gradient descent

Machine Learning - Google for Developers, accessed July 19, 2025, https://developers.google.com/machine-learning/crash-course/linear-regression/gradient-descent

Visualizing the Loss Landscape of Neural Nets - NIPS papers, accessed July 19, 2025, https://proceedings.neurips.cc/paper/7875-visualizing-the-loss-landscape-of-neural-nets.pdf
machine-learning-articles/about-loss-and-loss-functions.md at main - GitHub, accessed July 19, 2025, https://github.com/christianversloot/machine-learning-articles/blob/main/about-loss-and-loss-functions.md
NeurIPS Poster Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms, accessed July 19, 2025, https://neurips.cc/virtual/2024/poster/93193
20.3. Convex and Differentiable Loss Functions - Learning Data Science, accessed July 19, 2025, https://learningds.org/ch/20/gd_convex.html
Convexity Optimization - Machine Learning - GeeksforGeeks, accessed July 19, 2025, https://www.geeksforgeeks.org/machine-learning/convexity-optimization/
Why convexity is the key to optimization - Towards Data Science, accessed July 19, 2025, https://towardsdatascience.com/understand-convexity-in-optimization-db87653bf920/
1 Gradient descent for convex functions: univariate case - Georgia Tech, accessed July 19, 2025, https://faculty.cc.gatech.edu/~ssingla7/courses/Spring22/lec11.pdf
Why Convexity Matters in Machine Learning - Gradient Descent Part 1 - YouTube, accessed July 19, 2025, https://www.youtube.com/watch?v=L2YiNu22saU&pp=0gcJCdgAo7VqN5tD
1 Gradient descent for convex functions: univariate case - cs.Princeton, accessed July 19, 2025, https://www.cs.princeton.edu/courses/archive/fall13/cos521/lecnotes/lec19.pdf
12.2. Convexity - Dive into Deep Learning 1.0.3 documentation, accessed July 19, 2025, https://d2l.ai/chapter_optimization/convexity.html
Understanding Convexity in Machine Learning and Deep Learning, accessed July 19, 2025, https://data-intelligence.hashnode.dev/understanding-convexity-in-ml-and-dl

Convex vs. Non-Convex Functions: Why it Matters in Optimization for Machine Learning

by Ruman

MLfast.co, accessed July 19, 2025, https://rumn.medium.com/convex-vs-non-convex-functions-why-it-matters-in-optimization-for-machine-learning-39cd9427dfcc

Loss Functions in Machine Learning

Towards Data Science, accessed July 19, 2025, https://towardsdatascience.com/loss-functions-in-machine-learning-9977e810ac02/

Differentiable vs Non Differentiable loss function in ML - Data Science Stack Exchange, accessed July 19, 2025, https://datascience.stackexchange.com/questions/117983/differentiable-vs-non-differentiable-loss-function-in-ml
a survey and taxonomy of loss functions in machine learning - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/2301.05579
Understanding Loss Function in Deep Learning - Analytics Vidhya, accessed July 19, 2025, https://www.analyticsvidhya.com/blog/2022/06/understanding-loss-function-in-deep-learning/
Mastering Hinge Loss in Machine Learning - Number Analytics, accessed July 19, 2025, https://www.numberanalytics.com/blog/ultimate-guide-to-hinge-loss-in-machine-learning
What is Hinge loss in Machine Learning? - Analytics Vidhya, accessed July 19, 2025, https://www.analyticsvidhya.com/blog/2024/12/hinge-loss-in-machine-learning/
Huber loss - Wikipedia, accessed July 19, 2025, https://en.wikipedia.org/wiki/Huber_loss
Huber Loss – Loss function to use in Regression when dealing with Outliers, accessed July 19, 2025, https://mlexplained.blog/2023/07/31/huber-loss-loss-function-to-use-in-regression-when-dealing-with-outliers/
Non differentiable loss function - Data Science Stack Exchange, accessed July 19, 2025, https://datascience.stackexchange.com/questions/66410/non-differentiable-loss-function
Deep Learning in the Real World: How to Deal with Non-differentiable Loss Functions, accessed July 19, 2025, https://fruty.io/2019/11/04/deep-learning-in-the-real-world-how-to-deal-with-non-differentiable-loss-functions/
Do loss functions have to be differentiable? - Learning Machine - RenChu Wang, accessed July 19, 2025, https://rentruewang.github.io/learning-machine/basics/gradients/loss-fn-derivative.html
What happens when I use a non differentiable loss function? : r/MLQuestions - Reddit, accessed July 19, 2025, https://www.reddit.com/r/MLQuestions/comments/6nfkbe/what_happens_when_i_use_a_non_differentiable_loss/
[Machine Learning] 손실 함수 (loss function), accessed July 19, 2025, https://insighted-h.tistory.com/7

Linear regression: Loss

Machine Learning - Google for Developers, accessed July 19, 2025, https://developers.google.com/machine-learning/crash-course/linear-regression/loss

5 Essential Loss Function Techniques for ML Success, accessed July 19, 2025, https://www.numberanalytics.com/blog/loss-function-techniques-ml
Neural Network Loss Functions - ApX Machine Learning, accessed July 19, 2025, https://apxml.com/courses/introduction-to-deep-learning/chapter-3-training-loss-optimization/loss-functions-overview
1. Loss function(손실함수) - 회귀&분류, accessed July 19, 2025, https://uumini.tistory.com/54
The heart of machine learning: Understanding the importance of loss functions - EyeOn, accessed July 19, 2025, https://eyeonplanning.com/blog/the-heart-of-machine-learning-understanding-the-importance-of-loss-functions/
HuberLoss - PyTorch 2.7 documentation, accessed July 19, 2025, https://docs.pytorch.org/docs/stable/generated/torch.nn.HuberLoss.html
The Huber Loss Function And Its Application - FasterCapital, accessed July 19, 2025, https://fastercapital.com/topics/the-huber-loss-function-and-its-application.html/1
The Ultimate Guide to Cross-Entropy Loss - Number Analytics, accessed July 19, 2025, https://www.numberanalytics.com/blog/ultimate-guide-cross-entropy-loss
Categorical Cross-Entropy in Multi-Class Classification - GeeksforGeeks, accessed July 19, 2025, https://www.geeksforgeeks.org/deep-learning/categorical-cross-entropy-in-multi-class-classification/
Understanding Cross-Entropy Loss and Its Role in Classification Problems - Medium, accessed July 19, 2025, https://medium.com/@l228104/understanding-cross-entropy-loss-and-its-role-in-classification-problems-d2550f2caad5
Understanding Binary Cross-Entropy and Log Loss for Effective Model Monitoring, accessed July 19, 2025, https://coralogix.com/ai-blog/understanding-binary-cross-entropy-and-log-loss-for-effective-model-monitoring/
Cross-Entropy Loss: Make Predictions with Confidence - Pinecone, accessed July 19, 2025, https://www.pinecone.io/learn/cross-entropy-loss/
Support Vector Machine (SVM) Algorithm - GeeksforGeeks, accessed July 19, 2025, https://www.geeksforgeeks.org/machine-learning/support-vector-machine-algorithm/

Understanding Hinge Loss in Machine Learning: A Comprehensive Guide

by KoshurAI, accessed July 19, 2025, https://koshurai.medium.com/understanding-hinge-loss-in-machine-learning-a-comprehensive-guide-0a1c82478de4

What are the impacts of choosing different loss functions in classification to approximate 0-1 loss - Cross Validated, accessed July 19, 2025, https://stats.stackexchange.com/questions/222585/what-are-the-impacts-of-choosing-different-loss-functions-in-classification-to-a
hinge loss vs logistic loss advantages and disadvantages/limitations - Cross Validated, accessed July 19, 2025, https://stats.stackexchange.com/questions/146277/hinge-loss-vs-logistic-loss-advantages-and-disadvantages-limitations
[D]How to handle highly imbalanced dataset? : r/MachineLearning - Reddit, accessed July 19, 2025, https://www.reddit.com/r/MachineLearning/comments/1ir2zm3/dhow_to_handle_highly_imbalanced_dataset/
What is Focal Loss and when should you use it? - Aman Arora’s Blog, accessed July 19, 2025, https://amaarora.github.io/posts/2020-06-29-FocalLoss.html
[D] Focal loss - why it scales down the loss of minority class? : r/MachineLearning - Reddit, accessed July 19, 2025, https://www.reddit.com/r/MachineLearning/comments/xt01bk/d_focal_loss_why_it_scales_down_the_loss_of/
Focal Loss Explained Papers With Code, accessed July 19, 2025, https://paperswithcode.com/method/focal-loss

Wasserstein GANs (W-GAN). - GANs Series Part 3

by Ankit kumar - Medium, accessed July 19, 2025, https://ankittaxak5713.medium.com/wasserstein-gans-wgan-3b8031aebf53

How to Implement Wasserstein Loss for Generative Adversarial …, accessed July 19, 2025, https://machinelearningmastery.com/how-to-implement-wasserstein-loss-for-generative-adversarial-networks/
Loss Functions Machine Learning - Google for Developers, accessed July 19, 2025, https://developers.google.com/machine-learning/gan/loss
Wasserstein GAN - Wikipedia, accessed July 19, 2025, https://en.wikipedia.org/wiki/Wasserstein_GAN
WGAN-GP Loss Explained - Papers With Code, accessed July 19, 2025, https://paperswithcode.com/method/wgan-gp-loss
REINFORCE Algorithm explained in Policy-Gradient based methods with Python Code, accessed July 19, 2025, https://www.sefidian.com/2021/03/01/policy-g/
Understanding Policy Gradient - a fundamental idea in RL - Radek Osmulski, accessed July 19, 2025, https://radekosmulski.com/understanding-policy-gradient-the-fundamental-idea-underpinning-much-of-rl/
REINFORCE (Vanilla Policy Gradient VPG) Algorithm Explained - YouTube, accessed July 19, 2025, https://www.youtube.com/watch?v=boEO7tN7uoY
Policy Gradient Algorithms - Lil’Log, accessed July 19, 2025, https://lilianweng.github.io/posts/2018-04-08-policy-gradient/
Introduction to Reinforcement Learning. Part 5: Policy Gradient Algorithms, accessed July 19, 2025, https://markelsanz14.medium.com/introduction-to-reinforcement-learning-part-5-policy-gradient-algorithms-862960f7b0dc
Reinforcement Learning Explained Visually (Part 6): Policy Gradients, step-by-step, accessed July 19, 2025, https://towardsdatascience.com/reinforcement-learning-explained-visually-part-6-policy-gradients-step-by-step-f9f448e73754/
REINFORCE - A Quick Introduction (with Code) - Dilith Jayakody, accessed July 19, 2025, https://dilithjay.com/blog/reinforce-a-quick-introduction-with-code
Reinforcement Learning from Scratch - Part 3 - REINFORCE Algorithm - DEV Community, accessed July 19, 2025, https://dev.to/akshayballal/reinforcement-learning-from-scratch-part-3-reinforce-algorithm-4724
What is Loss Function? IBM, accessed July 19, 2025, https://www.ibm.com/think/topics/loss-function
Outliers and Loss Functions - Eran Raviv, accessed July 19, 2025, https://eranraviv.com/outliers-and-loss-functions/
Use weighted loss function to solve imbalanced data classification problems - Medium, accessed July 19, 2025, https://medium.com/@zergtant/use-weighted-loss-function-to-solve-imbalanced-data-classification-problems-749237f38b75
AutoBalance: Optimized Loss Functions for Imbalanced Data - NIPS, accessed July 19, 2025, https://papers.nips.cc/paper/2021/file/191f8f858acda435ae0daf994e2a72c2-Paper.pdf
[D] Imbalance: Metric to Loss functions : r/MachineLearning - Reddit, accessed July 19, 2025, https://www.reddit.com/r/MachineLearning/comments/v4lwr6/d_imbalance_metric_to_loss_functions/

How To Choose Your Loss Function - Where I Disagree With Cassie Kozyrkov

by Christian Leschinski

Towards AI, accessed July 19, 2025, https://pub.towardsai.net/how-to-choose-your-loss-function-where-i-disagree-with-cassie-kozyrkov-2038d19b5e0a

Meta Learning via Learned Loss - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/1906.05374
Meta-Learning via Learned Loss - Artem Molchanov, accessed July 19, 2025, https://amolchanov86.github.io/pdf/bechtle19icml.pdf
Meta Learning via Learned Loss - Meta Research - Facebook, accessed July 19, 2025, https://research.facebook.com/publications/meta-learning-via-learned-loss/
Meta-Learning With Task-Adaptive Loss Function for Few-Shot Learning - CVF Open Access, accessed July 19, 2025, https://openaccess.thecvf.com/content/ICCV2021/papers/Baik_Meta-Learning_With_Task-Adaptive_Loss_Function_for_Few-Shot_Learning_ICCV_2021_paper.pdf
Loss Functions in Deep Learning: A Comprehensive Review - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/2504.04242
NeurIPS Poster Realizable $H$-Consistent and Bayes-Consistent Loss Functions for Learning to Defer, accessed July 19, 2025, https://neurips.cc/virtual/2024/poster/95357
NeurIPS Poster On the Convergence of Loss and Uncertainty-based Active Learning Algorithms, accessed July 19, 2025, https://neurips.cc/virtual/2024/poster/95912