YOLOv8 (2023)

1. YOLOv8의 등장과 실시간 객체 탐지의 새로운 패러다임

객체 탐지(Object Detection)는 컴퓨터 비전의 핵심 분야로, 이미지나 영상 속에서 객체의 위치를 식별하고 분류하는 기술을 의미한다. 과거 2-stage detector 계열(예: R-CNN)은 높은 정확도를 보였으나, 영역 제안(region proposal)과 분류를 순차적으로 수행하는 구조적 한계로 인해 실시간 처리에 어려움을 겪었다.1 2015년, YOLO(You Only Look Once)의 등장은 이러한 패러다임을 근본적으로 바꾸었다. YOLO는 객체 탐지를 경계 상자(Bounding Box)와 클래스 확률을 예측하는 단일 회귀 문제(single regression problem)로 재정의함으로써, 2-stage detector의 속도 한계를 극복하고 실시간 처리를 현실화한 혁신적인 프레임워크였다.2

이후 YOLO 계열은 지속적인 발전을 거듭하며 실시간 객체 탐지 분야의 표준으로 자리매김했다. 그리고 2023년 1월 10일, Ultralytics는 YOLOv8을 공개하며 또 한 번의 기술적 도약을 선언했다.5 YOLOv8은 이전 버전들의 성공을 계승하면서도, 정확도와 속도 측면에서 최첨단(State-of-the-Art, SOTA) 성능을 제시하는 플래그십 모델이다. 이는 단순한 점진적 개선을 넘어, 아키텍처 설계, 손실 함수 구성, 그리고 개발자 경험 전반에 걸친 중요한 진화를 의미한다.

YOLOv8의 핵심적인 의의는 단순히 성능 지표의 향상에만 있지 않다. 이전 버전들이 주로 학술적 연구 결과물로서 강력하지만 다소 접근하기 어려운 도구였다면, YOLOv8은 잘 정립된 생태계를 갖춘 포괄적인 컴퓨터 비전 플랫폼으로 진화했다. 객체 탐지뿐만 아니라 인스턴스 분할, 자세 추정, 이미지 분류 등 다양한 작업을 지원하는 통합 프레임워크를 제공하며 3, 간결한 API와 CLI, 그리고 방대한 문서를 통해 개발자의 접근성을 극대화했다.9 이러한 변화는 복잡한 인공지능 기술의 진입 장벽을 낮추고, YOLOv8의 폭넓은 채택을 이끄는 핵심 동력이 되었다. 기술적 성능만큼이나 이러한 플랫폼화 전략이 YOLOv8의 성공에 중요한 역할을 한 것이다.

본 안내서는 YOLOv8의 기술적 성취를 다각적으로 분석하는 것을 목표로 한다. 이를 위해 먼저 YOLO 계보가 v1부터 v7까지 걸어온 기술적 여정을 개괄한다. 이후 YOLOv8의 핵심인 백본, 넥, 헤드 구조를 심층적으로 해부하고, 정확도 향상의 동력이 된 손실 함수의 재구성을 수학적 분석과 함께 설명한다. 나아가 주요 모델들과의 성능 벤치마크 비교를 통해 YOLOv8의 객관적인 위치를 가늠한다. 또한, 객체 탐지를 넘어선 다중 작업 프레임워크로서의 확장성을 고찰하고, 마지막으로 기술적 강점과 내재적 한계를 종합하여 향후 실시간 객체 탐지 기술의 발전 방향을 조망한다.

2. YOLO 계보의 진화: v1에서 v7까지의 기술적 여정

YOLOv8의 혁신을 온전히 이해하기 위해서는 그 기술적 뿌리가 되는 이전 버전들의 발전 과정을 살펴보는 것이 필수적이다. YOLO의 역사는 단순히 성능을 개선해 온 과정이 아니라, 아키텍처의 근본적인 혁신과 학습 전략의 정교화 사이를 오가며 최적의 균형점을 찾아온 여정이다.

2.1 YOLOv1 (2015)

YOLOv1은 객체 탐지를 단일 신경망을 통해 처리하는 혁신을 선보였다. 이미지를 S \times S 그리드로 나누고, 각 그리드 셀이 경계 상자와 클래스 확률을 직접 예측하는 구조를 제안했다.2 이 단일 단계(one-stage) 접근법은 실시간 처리를 가능하게 했으나, 그리드 셀당 제한된 수의 객체만 예측할 수 있어 작은 객체나 군집 객체 탐지에 취약했으며, 위치 예측 오류(localization error)가 크다는 명확한 한계를 보였다.1

2.2 YOLOv2 (YOLO9000, 2016)

YOLOv2는 v1의 한계를 극복하기 위해 여러 핵심적인 개선을 도입했다. 사전 정의된 다양한 크기와 비율의 박스인 앵커 박스(Anchor Box) 개념을 도입하여 위치 예측의 정확도를 높였다.4 또한, Darknet-19라는 더 깊고 강력한 백본 네트워크를 사용하고 모든 합성곱 레이어에 배치 정규화(Batch Normalization)를 적용하여 학습의 안정성과 속도를 개선했다.3 특히 ’YOLO9000’이라는 이름에서 알 수 있듯, WordTree라는 계층적 데이터 구조를 활용하여 탐지 데이터셋과 분류 데이터셋을 함께 학습함으로써 9000개 이상의 방대한 클래스를 탐지하는 능력을 확보했다.2

2.3 YOLOv3 (2018)

YOLOv3는 작은 객체 탐지 성능을 획기적으로 개선하는 데 집중했다. 이를 위해 더 깊은 53개 레이어의 Darknet-53 백본을 도입하여 특징 추출 능력을 극대화했다.4 가장 중요한 변화는 세 가지 다른 스케일(scale)의 특징 맵에서 예측을 수행하는 Feature Pyramid Network (FPN) 구조를 채택한 것이다. 이 다중 스케일 예측 방식은 이미지 내 다양한 크기의 객체, 특히 기존에 탐지가 어려웠던 작은 객체들을 효과적으로 포착할 수 있게 했다.13

2.4 YOLOv4 (2020)

YOLOv4는 객체 탐지 모델의 구조를 백본(Backbone)-넥(Neck)-헤드(Head)의 3단 구조로 명확히 정립하고, 각 부분을 최적화하는 데 중점을 두었다.2 백본으로는 CSPNet(Cross Stage Partial Network)의 아이디어를 Darknet-53에 결합한 CSPDarknet53을 사용했다. 넥 부분에는 공간 피라미드 풀링(Spatial Pyramid Pooling, SPP)과 경로 집합 네트워크(Path Aggregation Network, PAN)를 도입하여 특징 융합 능력을 강화했다.2 또한, 추론 비용 증가 없이 성능을 높이는 학습 기법 모음인 ‘Bag of Freebies’(BoF)와, 약간의 추론 비용 증가로 성능을 높이는 ‘Bag of Specials’(BoS)라는 개념을 도입했다. 대표적인 BoF 기법인 모자이크 데이터 증강(Mosaic Data Augmentation)은 여러 이미지를 하나로 합쳐 모델의 일반화 성능을 크게 향상시켰다.2

2.5 YOLOv5 (2020)

YOLOv4와 거의 동시에 Ultralytics에서 공개한 YOLOv5는 공식 논문 없이 출시되었음에도 불구하고 폭발적인 인기를 얻었다. 그 이유는 Darknet 프레임워크 대신 대중적인 PyTorch를 기반으로 구현되어 사용자 편의성과 접근성을 크게 향상시켰기 때문이다.4 나노(n), 스몰(s)부터 엑스라지(x)까지 다양한 크기의 모델을 제공하여 사용자가 자신의 환경에 맞는 최적의 모델을 선택할 수 있게 했으며, 활발한 오픈소스 커뮤니티를 통해 빠른 속도로 발전했다.

2.6 YOLOv6 (2022)

YOLOv6는 특정 산업용 애플리케이션에 초점을 맞춰 개발되었다. 하드웨어의 특성을 고려하여 추론 효율성을 극대화한 RepVGG 스타일의 백본과, 분류와 회귀 작업을 분리하여 성능을 높인 효율적인 분리형 헤드(Efficient Decoupled Head)를 도입했다.2 이는 속도와 정확도 사이의 균형을 산업 현장의 요구에 맞게 재조정하려는 시도였다.

2.7 YOLOv7 (2022)

YOLOv7은 다시 한번 학습 전략의 혁신에 집중했다. ‘학습 가능한 Bag-of-Freebies’(Trainable bag-of-freebies)라는 개념을 통해, 추가적인 추론 비용 없이 정확도를 높이는 정교한 학습 기법들을 제안했다.2 또한, E-ELAN(Extended Efficient Layer Aggregation Network)이라는 새로운 네트워크 모듈을 도입하여 모델의 학습 효율성과 파라미터 활용도를 극대화했다.3

이러한 YOLO의 진화 과정은 단순히 선형적인 발전이 아니었다. 초기에는 아키텍처의 근본적인 변화(v1-v3)가 혁신을 주도했다면, 중기에는 복잡하고 정교한 학습 전략(v4, v7)이 성능 향상의 핵심 동력이었다. 이는 딥러닝 연구가 성숙함에 따라, 네트워크 구조 자체의 변경만큼이나 ’어떻게 학습시키는가’가 중요해졌음을 보여준다. YOLOv8은 이러한 흐름 속에서 또 다른 변곡점을 제시한다. 복잡했던 앵커 박스 구조를 과감히 제거하며 아키텍처를 간소화하는 대신, 손실 함수와 같은 수학적 구성 요소의 정교함을 높이는 방향을 택했다. 이는 아키텍처적 복잡성을 수학적 복잡성으로 대체함으로써 더 우아하고 일반화 성능이 높은 해결책을 모색한 결과로, YOLO 계보의 진화가 새로운 국면에 접어들었음을 시사한다.

3. YOLOv8 아키텍처 심층 분석

YOLOv8의 아키텍처는 이전 세대의 장점을 계승하면서도, 효율성과 성능을 극대화하기 위한 여러 핵심적인 변화를 담고 있다. 특히 백본, 넥, 헤드의 각 구성 요소는 유기적으로 연결되어 있으며, 하나의 설계 변경이 다른 부분의 혁신을 이끌어내는 연쇄적인 효과를 보여준다.

3.1 백본(Backbone): CSPDarknet의 진화와 C2f 모듈

백본은 입력 이미지로부터 유의미한 시각적 특징을 추출하는 역할을 담당하는 네트워크의 근간이다. YOLOv8은 이전 버전에서 그 효율성이 검증된 CSPDarknet 아키텍처를 기반으로 한다.16 CSP(Cross-Stage Partial) 구조의 핵심은 특징 맵(feature map)을 두 개의 경로로 분할하여 처리한 후 다시 병합하는 것이다. 이 과정에서 한 경로는 상대적으로 적은 연산을 거치고 다른 경로는 더 깊은 처리를 거치는데, 이는 중복되는 그래디언트 정보의 전파를 줄여 계산 비용을 절감하고, 동시에 그래디언트 흐름을 원활하게 하여 학습 효율성을 높이는 효과를 가져온다.17

YOLOv8에서 가장 주목할 만한 백본의 변화는 YOLOv5에서 사용되던 C3 모듈이 C2f(Cross Stage Partial + fusion) 모듈로 대체된 점이다.11 C2f 모듈은 YOLOv7의 E-ELAN(Extended ELAN) 개념에서 영감을 받아 설계되었으며, C3 모듈보다 더 많은 분기와 병합을 통해 특징 맵을 연결한다.22 이는 각기 다른 해상도의 특징 정보를 더욱 풍부하게 결합하고, 더 강력한 그래디언트 흐름을 제공하여 모델의 학습 능력을 향상시키기 위함이다. 다만, 다수의 분할(Split) 및 결합(Concat) 연산으로 인해 일부 하드웨어에서의 배포 최적화 측면에서는 C3 모듈보다 다소 복잡성이 증가할 수 있다.23 이 외에도 백본의 첫 번째 6x6 합성곱(Convolution) 레이어가 3x3으로 변경되고, 일부 불필요한 합성곱 레이어가 제거되는 등, 전체적으로 파라미터 수를 줄이고 계산 효율성을 높이는 방향으로 구조가 간소화되었다.21

3.2 넥(Neck): PANet을 통한 다중 스케일 특징 융합

넥은 백본에서 추출된 다양한 수준의 특징 맵들을 융합하여 후속 단계인 헤드가 객체를 효과적으로 탐지할 수 있도록 정보를 가공하는 중간 다리 역할을 한다. YOLOv8은 FPN(Feature Pyramid Network)과 PAN(Path Aggregation Network)을 결합한 구조를 채택하여 이 역할을 수행한다.5

이 구조는 양방향 정보 흐름을 생성한다. 먼저 FPN은 하향식(Top-down) 경로를 통해, 깊은 레이어에서 추출된 고수준의 의미론적(semantic) 특징(예: ‘이것은 자동차다’)을 얕은 레이어의 특징 맵으로 전달한다. 반대로 PAN은 상향식(Bottom-up) 경로를 통해, 얕은 레이어에 보존된 저수준의 정밀한 위치(localization) 정보(예: ‘객체의 정확한 경계선’)를 깊은 레이어로 전달한다.22 이처럼 의미 정보와 위치 정보가 서로 다른 스케일의 특징 맵 간에 효과적으로 융합됨으로써, 모델은 이미지 내에 존재하는 다양한 크기의 객체들을 안정적으로 탐지할 수 있게 된다.5 YOLOv8은 이 FPN+PAN 구조의 효율성을 더욱 높이기 위해, YOLOv5와 달리 업샘플링(upsampling) 과정에서 사용되던 일부 1x1 합성곱 레이어를 제거했다.22 이는 특징 융합의 핵심 기능은 유지하면서도 불필요한 파라미터와 연산을 줄여 모델을 경량화하고 추론 속도를 높이는 실용적인 최적화라 할 수 있다.

3.3 헤드(Head): Anchor-Free와 Decoupled Head로의 전환

헤드는 넥으로부터 전달받은 특징 맵을 최종적으로 분석하여 객체의 클래스, 위치, 크기 등을 예측하는 부분이다. YOLOv8의 헤드는 이전 버전과 비교해 가장 혁신적인 변화를 담고 있다.

첫 번째 핵심 변화는 앵커 기반(Anchor-based) 방식에서 앵커 프리(Anchor-free) 방식으로의 전환이다.8 기존의 앵커 기반 모델들은 사전에 정의된 여러 형태의 앵커 박스를 기준으로 객체의 위치 오프셋(offset)을 예측했다. 이 방식은 효과적이었지만, 데이터셋의 객체 분포에 맞춰 앵커 박스를 신중하게 설계해야 하는 복잡성과 하이퍼파라미터 튜닝의 어려움이 있었다. 반면, YOLOv8이 채택한 앵커 프리 방식은 이러한 사전 정의된 박스 없이 객체의 중심점(center point)을 직접 예측한다.11 이로 인해 앵커 박스 설계와 관련된 복잡성이 사라지고, 비정형적인 형태나 극단적인 종횡비를 가진 객체에 대한 일반화 성능이 향상된다.9 또한, 예측해야 할 후보 박스의 수가 크게 줄어들어, 후처리 과정인 비최대 억제(Non-Maximum Suppression, NMS)의 연산 부담을 경감시키고 전체적인 추론 속도를 가속화하는 중요한 이점을 제공한다.9

두 번째 핵심 변화는 분리형 헤드(Decoupled Head)의 채택이다.11 객체 탐지 작업은 ’무엇’을 찾는가(분류)와 ’어디’에 있는가(회귀)라는 두 가지 상이한 태스크의 결합이다. 이 두 태스크는 종종 상충 관계(trade-off)를 보이는데, 하나의 헤드가 두 작업을 동시에 처리할 경우 최적의 성능을 내기 어렵다. YOLOv8은 이를 해결하기 위해 분류와 경계 상자 회귀를 위한 예측 헤드를 물리적으로 분리했다. 이렇게 분리된 각 헤드는 자신에게 주어진 작업에만 집중하여 특징을 학습하므로, 모델의 수렴 속도가 빨라지고 최종적인 탐지 정확도가 향상되는 효과를 가져온다.11 더 나아가, 이전 버전에 존재했던 객체의 존재 유무(objectness)를 예측하는 브랜치까지 제거하여 21, 헤드 구조를 더욱 간결하고 핵심적인 두 작업에 집중하도록 만들었다.

이러한 헤드의 구조적 변화는 독립적인 결정이 아니다. ’앵커 프리’라는 근본적인 설계 변경은 필연적으로 다른 구성 요소들의 변화를 촉발하는 연쇄 효과를 낳았다. 앵커 박스가 사라지면서, 특징 맵의 어떤 위치를 ‘긍정 샘플’(positive sample)로 간주할 것인지 결정하는 레이블 할당(label assignment) 전략이 매우 중요해졌다. 기존의 정적인 규칙 대신, YOLOv8은 TaskAlignedAssigner와 같은 동적 할당 전략을 채택했다. 이 방식은 분류 점수와 IoU(Intersection over Union)를 종합적으로 고려하여 각 실제 객체(ground-truth)에 가장 적합한 예측들을 동적으로 선택한다.23 이는 앵커 프리 설계로 인해 폭발적으로 증가한 ‘부정 샘플’(negative sample, 배경) 문제를 지능적으로 관리하는 역할을 한다. 또한, 분리형 헤드는 분류 점수와 위치 정확도 간의 불일치(misalignment) 문제를 야기할 수 있는데 11, 이는 새롭게 설계된 손실 함수가 직접적으로 해결해야 할 과제가 되었다. 결국, YOLOv8의 헤드 구조, 레이블 할당 전략, 그리고 손실 함수는 서로 긴밀하게 연결된 혁신의 삼위일체(triad)이며, 한 영역의 구조적 간소화가 다른 영역의 수학적 정교화를 요구하는 고도화된 설계 철학을 보여준다.

4. 손실 함수(Loss Function)의 재구성: 정확도 향상의 핵심 동력

손실 함수는 모델의 예측이 실제 정답과 얼마나 다른지를 측정하는 척도이며, 모델이 학습하는 방향을 결정하는 핵심적인 역할을 한다. YOLOv8은 아키텍처의 변화에 발맞춰 손실 함수를 정교하게 재구성함으로써 정확도를 한 단계 끌어올렸다. YOLOv8의 전체 손실 함수는 분류 손실(L_{cls}), 경계 상자 회귀 손실(L_{box}), 그리고 분포 초점 손실(L_{dfl})의 세 가지 요소의 가중 합으로 구성된다.29 이전 버전들과 달리 객체의 존재 유무를 판단하는 Objectness 손실은 사용하지 않는다.23
L_{total} = w_1 L_{cls} + w_2 L_{box} + w_3 L_{dfl}

4.1 분류 손실(Classification Loss): 이진 교차 엔트로피(BCE)의 적용

YOLOv8은 객체의 클래스를 분류하기 위한 손실 함수로 BCEWithLogitsLoss(Binary Cross-Entropy with Logits Loss)를 사용한다.11 이는 모델의 최종 출력 값인 로짓(logit)에 직접 시그모이드(Sigmoid) 함수를 적용한 후 이진 교차 엔트로피(BCE) 손실을 계산하는 방식과 동일하다.

소프트맥스(Softmax) 함수가 모든 클래스에 대한 확률의 총합을 1로 만드는 상호 배타적인 분류에 사용되는 것과 달리, BCE 손실은 각 클래스에 대해 독립적인 확률을 예측할 수 있게 한다. 이는 하나의 객체가 여러 개의 레이블을 가질 수 있는 다중 레이블 분류(multi-label classification) 시나리오를 효과적으로 지원하기 위함이며, 이러한 설계 철학은 YOLOv3부터 이어져 왔다.2

클래스의 수가 N일 때, i번째 클래스에 대한 모델의 예측 로짓을 x_i, 실제 레이블을 y_i (0 또는 1)라고 하면, 분류 손실의 수학적 표현은 다음과 같다.
L_{cls} = - \frac{1}{N} \sum_{i=1}^{N} [y_i \cdot \log(\sigma(x_i)) + (1 - y_i) \cdot \log(1 - \sigma(x_i))]
여기서 \sigma(x_i)는 시그모이드 함수, 즉 \frac{1}{1+e^{-x_i}}를 의미한다.

4.2 회귀 손실(Regression Loss): CIoU와 Distribution Focal Loss(DFL)의 결합

YOLOv8은 경계 상자의 위치를 정확하게 예측하기 위해 두 가지 손실 함수, 즉 CIoU Loss와 Distribution Focal Loss (DFL)를 결합하여 사용한다. 이는 위치 예측의 정확성과 강건성을 모두 높이기 위한 전략이다.

4.2.1 Complete IoU (CIoU) Loss

CIoU(Complete Intersection over Union) 손실은 전통적인 IoU 손실이 가진 한계, 즉 겹치지 않는 박스에 대해서는 그래디언트를 제공하지 못하는 문제를 해결하고, 더 정교한 위치 회귀를 위해 세 가지 핵심적인 기하학적 요소를 종합적으로 고려한다: (1) 예측 박스와 실제 박스 간의 중첩 영역(Overlap area), (2) 두 박스의 중심점 간 거리(Center point distance), (3) 두 박스의 종횡비 일관성(Aspect ratio consistency).11

CIoU 손실의 수학적 공식은 다음과 같다.
L_{box} = L_{CIoU} = 1 - IoU + \frac{\rho^2(b, b^{gt})}{c^2} + \alpha v
여기서 각 항의 의미는 다음과 같다.

  • IoU: 예측 박스와 실제 박스(ground truth) 간의 Intersection over Union 값.

  • \frac{\rho^2(b, b^{gt})}{c^2}: 두 박스의 중심점 간 유클리드 거리 제곱(\rho^2)을 두 박스를 모두 포함하는 가장 작은 볼록 박스(convex box)의 대각선 길이 제곱(c^2)으로 정규화한 항. 이 항은 중심점 거리를 최소화하는 역할을 한다.31

  • \alpha v: 종횡비의 일관성을 고려하는 페널티 항. \alpha는 긍정적인 가중치 파라미터이며, v는 종횡비의 유사성을 측정하는 지표로 다음과 같이 정의된다.
    v = \frac{4}{\pi^2} \left( \arctan \frac{w^{gt}}{h^{gt}} - \arctan \frac{w}{h} \right)^2
    여기서 (w^{gt}, h^{gt})(w, h)는 각각 실제 박스와 예측 박스의 너비와 높이를 의미한다.

4.2.2 Distribution Focal Loss (DFL)

DFL은 YOLOv8의 회귀 손실에서 가장 혁신적인 부분 중 하나로, 경계 상자 좌표 예측을 전통적인 회귀(regression) 문제에서 분류(classification) 문제로 재해석한다.23 즉, 모델은 박스의 각 경계(예: 왼쪽 경계의 x좌표)가 특정 연속적인 값이라고 직접 예측하는 대신, 그 값이 존재할 가능성이 있는 이산적인 위치들의 확률 분포를 학습한다.

이러한 접근 방식은 실제 세계에서 객체의 경계가 모호하거나 불확실할 수 있다는 점을 모델링에 반영한다. 예를 들어, 털이 많은 동물의 경계나 그림자로 인해 흐릿한 객체의 경계는 단일 값으로 정의하기 어렵다. DFL은 이러한 불확실성을 확률 분포로 표현함으로써 모델이 더 유연하고 강건한 예측을 하도록 유도한다.33

DFL의 손실 계산은 다음과 같이 이루어진다. 예측하려는 실제 연속 좌표 값을 y라고 할 때, 모델은 y를 둘러싸는 가장 가까운 두 정수 위치 y_iy_{i+1} (즉, y_i \leq y \leq y_{i+1})에 대한 확률 P(y_i)P(y_{i+1})을 예측한다. 손실 함수는 모델이 실제 값 y에 더 가까운 쪽의 확률을 더 높이도록, 즉 P(y_i)P(y_{i+1})의 기댓값이 y와 같아지도록 유도한다. 이는 교차 엔트로피(Cross-Entropy) 손실을 이용하여 구현되며, 그 공식은 다음과 같다.29
L_{dfl}(P_{y_i}, P_{y_{i+1}}) = -((y_{i+1} - y)\log(P_{y_i}) + (y - y_i)\log(P_{y_{i+1}}))
DFL의 도입은 단순히 새로운 손실 함수를 추가한 것을 넘어, YOLOv8이 위치 예측을 바라보는 관점 자체를 근본적으로 변화시켰음을 의미한다. 이는 ’박스는 어디에 있는가?’라는 결정론적(deterministic) 질문에서 ’박스 경계의 확률 분포는 어떻게 되는가?’라는 확률론적(probabilistic) 질문으로의 전환이다. 모델은 이제 예측의 불확실성을 분포의 형태로 표현할 수 있다. 예를 들어, 경계가 명확한 객체에 대해서는 특정 위치에 확률이 집중된 뾰족한 분포를, 경계가 모호한 객체에 대해서는 넓게 퍼진 평평한 분포를 예측하게 된다.35 이처럼 DFL은 실제 시각 데이터가 가진 본질적인 모호함을 모델이 학습할 수 있도록 하여, 결과적으로 더 정교하고 신뢰성 높은 위치 예측을 가능하게 하는 철학적 진보를 담고 있다.

5. 성능 벤치마크 분석: 속도와 정확도의 새로운 균형

YOLOv8의 기술적 우수성은 객관적인 성능 벤치마크를 통해 입증된다. 본 장에서는 YOLOv8을 이전 세대 모델 및 타 주요 모델과 비교하고, YOLOv8 제품군 내의 모델별 성능을 상세히 분석하여 속도와 정확도 측면에서 달성한 새로운 균형점을 평가한다.

5.1 이전 세대와의 비교: YOLOv5, YOLOv7 대비 성능 우위 분석

YOLOv8은 이전 세대인 YOLOv5, YOLOv7과 비교했을 때, 모든 모델 크기에서 더 우수한 정확도-속도 트레이드오프(trade-off)를 달성했다.9 이는 아키텍처의 효율성이 크게 개선되었음을 의미한다.

아래 표는 COCO val2017 데이터셋을 기준으로 세 가지 모델 세대의 대표적인 대형 모델들을 비교한 것이다. YOLOv8l 모델은 YOLOv7x 모델보다 약 40% 적은 파라미터(43.7M vs 71.3M)를 사용하면서도 거의 동등한 수준의 mAP(52.9% vs 53.1%)를 달성했다. 이는 YOLOv8의 구조가 파라미터를 훨씬 효율적으로 활용하고 있음을 보여준다.9 또한, A100 GPU 환경에서 YOLOv8l의 추론 속도는 2.39ms로, YOLOv5x(11.89ms)나 YOLOv7x(11.57ms)보다 월등히 빠르다. 특히 CPU 환경에서의 추론 속도 개선이 두드러져, 엣지 컴퓨팅 환경에서의 활용 가능성을 크게 높였다.9

Modelsize (pixels)mAPval 50-95SpeedCPU ONNX (ms)SpeedA100 TensorRT (ms)params (M)FLOPs (B)
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv8l64052.9375.22.3943.7165.2
YOLOv8x64053.9479.13.5368.2257.8

5.2 주요 모델과의 비교: EfficientDet, DETR과의 벤치마크

YOLOv8을 다른 계열의 주요 객체 탐지 모델과 비교하면 그 경쟁력을 더욱 명확히 알 수 있다. 비록 직접적인 YOLOv8 비교 자료는 부족하지만, 후속 모델인 YOLOv10의 벤치마크를 통해 YOLO 계열의 전반적인 성능 우위를 유추할 수 있다.38

YOLOv10-Large 모델은 Transformer 기반의 DETR(ResNet-50) 모델과 비교했을 때, 훨씬 적은 파라미터와 5배 이상 빠른 추론 속도를 보이면서도 mAP는 11% 이상 높았다 (53.3% vs 42%).38 이는 복잡한 어텐션 메커니즘을 사용하는 Transformer 기반 모델에 비해, 고도로 최적화된 CNN 기반의 YOLO 아키텍처가 여전히 실시간 탐지 시나리오에서 압도적인 효율성을 보임을 시사한다.

5.3 YOLOv8 모델별 상세 성능 지표 (COCO 데이터셋 기준)

YOLOv8은 다양한 애플리케이션 요구사항과 하드웨어 제약에 대응하기 위해, 나노(n)부터 엑스라지(x)까지 총 5가지 크기의 모델을 제공한다.5 이러한 확장성은 개발자가 자신의 프로젝트에 가장 적합한 ‘정확도-속도’ 균형점을 데이터 기반으로 선택할 수 있게 하는 중요한 유연성을 제공한다.5

아래 표는 COCO 데이터셋에서 평가된 YOLOv8 객체 탐지 및 인스턴스 분할 모델들의 상세 성능 지표이다. 모델 크기가 커질수록 파라미터 수와 연산량(FLOPs)이 증가하며, 이는 더 높은 정확도(mAP)와 더 긴 추론 시간으로 이어진다. 예를 들어, 탐지 모델의 경우 가장 작은 YOLOv8n은 3.2M의 파라미터로 37.3 mAP와 80.4ms(CPU)의 속도를 보이는 반면, 가장 큰 YOLOv8x는 68.2M의 파라미터로 53.9 mAP를 달성하지만 CPU 추론 시간은 479.1ms로 늘어난다.8 이러한 명확한 트레이드오프 관계는 리소스가 제한된 엣지 디바이스용 경량 모델부터 최고 성능을 요구하는 클라우드 서버용 대형 모델까지, 폭넓은 스펙트럼의 요구를 충족시킬 수 있음을 보여준다.

YOLOv8 모델별 COCO 데이터셋 벤치마크

Detection (COCO)

Modelsize (pixels)mAPval 50-95SpeedCPU ONNX (ms)SpeedA100 TensorRT (ms)params (M)FLOPs (B)
YOLOv8n64037.380.40.993.28.7
YOLOv8s64044.9128.41.2011.228.6
YOLOv8m64050.2234.71.8325.978.9
YOLOv8l64052.9375.22.3943.7165.2
YOLOv8x64053.9479.13.5368.2257.8

Segmentation (COCO)

Modelsize (pixels)mAPbox 50-95mAPmask 50-95SpeedCPU ONNX (ms)SpeedA100 TensorRT (ms)params (M)FLOPs (B)
YOLOv8n-seg64036.730.596.11.213.412.6
YOLOv8s-seg64044.636.8155.71.4711.842.6
YOLOv8m-seg64049.940.8317.02.1827.3110.2
YOLOv8l-seg64052.342.6572.42.7946.0220.5
YOLOv8x-seg64053.443.4712.14.0271.8344.1

6. 다중 작업 프레임워크로서의 확장성

YOLOv8의 가장 강력한 차별점 중 하나는 단순한 객체 탐지 모델을 넘어, 다양한 컴퓨터 비전 핵심 작업을 지원하는 통합 프레임워크라는 점이다.3 이는 개발자가 여러 개의 개별적인 프레임워크를 학습하고 통합해야 했던 기존의 파편화된 개발 환경의 문제를 해결한다. YOLOv8은 일관된 API와 작업 흐름을 통해 여러 비전 태스크를 처리할 수 있게 함으로써, 개발의 복잡성과 시간을 획기적으로 줄여준다.

이러한 통합 프레임워크는 기술적 성취를 넘어 전략적인 의미를 가진다. 과거에는 예를 들어 매장 내 고객 동선 분석 시스템을 구축하기 위해 객체 탐지, 인스턴스 분할, 자세 추정을 위한 각각 다른 모델과 프레임워크를 찾아 학습하고, 이들을 복잡하게 연결해야 했다. 이 과정은 막대한 엔지니어링 비용을 유발했다. 하지만 YOLOv8은 pip install ultralytics라는 단일 명령어로 이 모든 작업을 수행할 수 있는 도구를 제공한다. 데이터 형식이 표준화되고, 학습 명령어는 task 파라미터 하나를 변경하는 것만으로 전환된다. 이는 개발의 마찰을 줄여주는 강력한 가치를 제공하며, Ultralytics 생태계에 대한 사용자 의존도를 높이는 효과적인 전략이다. 즉, YOLOv8의 다중 작업 지원은 단순한 기능 추가가 아니라, 컴퓨터 비전 개발의 패러다임을 바꾸는 포괄적인 SDK(Software Development Kit)를 제공하려는 전략적 움직임으로 해석할 수 있다.

6.1 인스턴스 분할 (Instance Segmentation)

인스턴스 분할은 객체의 위치를 나타내는 경계 상자를 예측하는 것을 넘어, 각 객체 인스턴스를 픽셀 단위로 정확하게 구분하는 마스크(mask)를 생성하는 작업이다.11 이는 객체의 정확한 모양을 알아야 하는 의료 영상 분석이나 자율 주행과 같은 분야에서 필수적이다.

YOLOv8은 모델 이름에 -seg 접미사가 붙은 사전 학습된 모델(예: yolov8n-seg.pt)을 통해 인스턴스 분할 기능을 완벽하게 지원한다.8 개발자는 동일한 CLI 또는 Python API를 사용하여 task=segment 인자만 지정하면 손쉽게 분할 모델을 학습시키거나 추론에 사용할 수 있다.41 아키텍처적으로는 기존 객체 탐지 모델의 헤드 부분에 마스크 계수를 예측하는 추가적인 브랜치를 통합하고, 이를 프로토타입 마스크와 결합하여 최종 분할 마스크를 생성하는 방식으로 구현되었을 가능성이 높다. (주: 제공된 자료는 마스크 헤드의 구체적인 구조를 상세히 설명하지는 않는다 40).

6.2 자세 추정 (Pose Estimation)

자세 추정은 이미지나 영상 속에서 사람의 관절과 같은 신체 주요 지점(keypoints)의 2D 또는 3D 위치를 식별하는 작업이다.43 이는 스포츠 동작 분석, 재활 치료, 증강 현실, 제스처 기반 인터페이스 등 다양한 응용 분야의 핵심 기술이다.44

YOLOv8은 -pose 접미사가 붙은 모델(예: yolov8n-pose.pt)을 통해 이 기능을 제공하며, 이 모델들은 COCO Keypoints 데이터셋에 사전 학습되어 있다.43 YOLOv8의 자세 추정 모델은 한 번의 추론으로 이미지 내 모든 사람의 위치를 탐지함과 동시에 각 개인의 신체 키포인트를 정확하게 예측한다. 아키텍처는 탐지 헤드에 각 키포인트의 좌표와 가시성(visibility)을 예측하는 출력을 추가하는 형태로 구현되었을 것으로 추정된다. (주: 자료는 헤드의 구체적인 구조를 설명하지 않는다 45).

6.3 이미지 분류 (Image Classification)

이미지 분류는 객체의 위치 정보 없이 이미지 전체에 대해 단일 클래스 레이블을 할당하는 가장 기본적인 컴퓨터 비전 작업이다.11

YOLOv8은 -cls 접미사가 붙은 모델(예: yolov8n-cls.pt)을 통해 이미지 분류를 지원한다.8 이 모델들은 일반적으로 객체 탐지 모델에서 사용된 강력한 CSPDarknet 백본을 특징 추출기로 활용한다. 백본을 통과한 고차원 특징 맵은 전역 평균 풀링(Global Average Pooling)을 통해 고정된 크기의 벡터로 압축된 후, 하나 이상의 완전 연결 계층(Fully Connected Layer)을 거쳐 최종적으로 클래스별 확률을 출력하는 구조를 따를 것으로 예상된다. (주: 자료는 백본 이후의 구체적인 분류기 구조를 명시하지 않는다 46). 이는 검증된 분류 모델 아키텍처를 YOLOv8의 통합 프레임워크 내에서 손쉽게 활용할 수 있도록 한 것이다.

7. 종합 고찰 및 향후 전망

YOLOv8은 실시간 객체 탐지 기술의 역사에서 중요한 이정표를 세웠다. 이는 단순히 이전 세대의 성능을 뛰어넘는 것을 넘어, 아키텍처의 효율성, 학습 전략의 정교함, 그리고 개발 프레임워크의 통합성이라는 세 가지 축에서 주목할 만한 진보를 이루었기 때문이다. 본 장에서는 YOLOv8의 기술적 강점과 내재적 한계를 종합적으로 고찰하고, 이를 바탕으로 향후 실시간 객체 탐지 기술의 발전 방향을 전망한다.

7.1 YOLOv8의 기술적 강점 (Advantages)

  • 최고 수준의 성능: YOLOv8은 속도와 정확도 간의 최적의 균형점을 제공한다. 특히 대형 모델은 SOTA 수준의 정확도를 달성하면서도, 경량 모델은 CPU 환경에서도 실시간에 가까운 빠른 추론 속도를 보여주어 엣지 디바이스부터 클라우드 서버까지 폭넓은 적용이 가능하다.9
  • 구조적 효율성 및 유연성: 앵커 프리(Anchor-free) 설계와 분리형 헤드(Decoupled Head)와 같은 혁신적인 아키텍처 변경을 통해, 하이퍼파라미터 튜닝의 복잡성을 줄이고 다양한 형태의 객체에 대한 일반화 성능을 높였다. 이는 모델 구조를 간소화하면서도 높은 성능을 유지하는 효율적인 설계 철학을 보여준다.9
  • 다기능성 및 확장성: 단일 프레임워크 내에서 객체 탐지, 인스턴스 분할, 자세 추정, 이미지 분류 등 핵심적인 컴퓨터 비전 작업을 모두 지원한다. 이 통합된 접근 방식은 개발의 복잡성을 크게 줄이고, 다양한 기능이 요구되는 복합적인 애플리케이션 개발을 용이하게 한다.9
  • 탁월한 사용자 친화성: 잘 정리된 공식 문서, 직관적인 API 및 CLI, 그리고 Ultralytics가 제공하는 활발한 커뮤니티와 지원 생태계는 개발자가 YOLOv8을 빠르고 쉽게 도입하고 활용할 수 있도록 돕는다. 이는 학술적 연구 도구를 넘어 산업적으로 널리 사용될 수 있는 제품으로서의 가치를 더한다.3

7.2 내재적 한계 및 과제 (Disadvantages/Challenges)

  • 작은 객체 탐지 문제: YOLO 계열이 지속적으로 개선해 온 부분이지만, 여전히 해상도가 낮거나 밀집된 환경에서의 매우 작은 객체 탐지는 어려운 과제로 남아있다. 앵커 프리 방식이 일부 개선을 가져왔지만, 근본적인 해결에는 한계가 있을 수 있다.50
  • 자원 집약성: YOLOv8의 대형 모델(l, x)은 최고의 정확도를 제공하는 대신, 학습과 추론 과정에서 상당한 컴퓨팅 자원(고성능 GPU, 대용량 메모리 등)을 요구한다. 이는 리소스가 제한된 환경에서는 모델 선택에 제약으로 작용할 수 있다.50
  • 데이터 의존성: 모든 딥러닝 모델과 마찬가지로, YOLOv8의 성능은 학습 데이터의 품질과 양에 크게 의존한다. 특정 도메인(예: 의료 영상, 위성 사진)에서 높은 성능을 얻기 위해서는 해당 분야에 특화된 대규모의 고품질 데이터셋을 구축하고 미세 조정(fine-tuning)하는 과정이 필수적이다.50

7.3 향후 전망: YOLOv8 이후의 실시간 객체 탐지

YOLOv8은 실시간 객체 탐지 기술의 새로운 기준을 제시했으며, 향후 기술 발전은 YOLOv8이 이룩한 성과 위에서 다음과 같은 방향으로 전개될 것으로 전망된다.

  • End-to-End 아키텍처의 완성: YOLOv10에서 시도된 바와 같이, 후처리 과정인 NMS(Non-Maximum Suppression)를 제거하여 완전히 미분 가능한 End-to-End 학습 파이프라인을 구축하려는 연구가 가속화될 것이다.37 이는 추론 속도를 더욱 향상시키고, 학습 과정을 간소화하여 모델의 최적화를 용이하게 할 것이다.
  • 효율성의 지속적인 추구: 엣지 디바이스와 모바일 환경에서의 AI 수요가 증가함에 따라, 모델 경량화, 양자화(quantization), 지식 증류(knowledge distillation) 등 제한된 자원 내에서 최대의 성능을 내기 위한 최적화 기술의 중요성이 더욱 커질 것이다.2
  • 설명 가능성(Explainability) 및 강건성(Robustness) 강화: 모델이 왜 특정 예측을 했는지 시각적 또는 논리적으로 설명하는 XAI(Explainable AI) 기술과의 결합이 중요해질 것이다. 또한, 안개, 비 등 악천후 조건이나 의도적인 적대적 공격(adversarial attacks)과 같은 비정상적인 입력에 대해 모델이 안정적으로 작동하도록 하는 강건성(robustness)을 높이는 연구가 핵심 과제가 될 것이다.2

결론적으로, YOLOv8은 단순히 더 빠르고 정확한 모델을 넘어, ‘효율적인 아키텍처’, ‘정교한 학습 전략’, 그리고 ’통합 프레임워크’라는 세 가지 핵심 가치를 성공적으로 구현한 플랫폼이다. 미래의 실시간 객체 탐지 기술은 YOLOv8이 제시한 이러한 방향성을 바탕으로, 더욱 지능적이고, 효율적이며, 신뢰할 수 있는 형태로 진화해 나갈 것이다.

8. 참고 자료

  1. A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS - arXiv, https://arxiv.org/html/2304.00501v6
  2. YOLO Explained: From v1 to Present - Viso Suite, https://viso.ai/computer-vision/yolo-explained/
  3. YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions - arXiv, https://arxiv.org/html/2411.00201v2
  4. History of YOLO: From YOLOv1 to YOLOv10 - Labelvisor, https://www.labelvisor.com/history-of-yolo-from-yolov1-to-yolov10/
  5. What is YOLOv8: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector - arXiv, https://arxiv.org/html/2408.15857
  6. Ultralytics YOLO Docs: Home, https://docs.ultralytics.com/
  7. Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices, https://arxiv.org/html/2409.16808v1
  8. Explore Ultralytics YOLOv8 - Ultralytics YOLO Docs, https://docs.ultralytics.com/models/yolov8/
  9. Model Comparison: YOLOv8 vs. YOLOv7 for Object Detection, https://docs.ultralytics.com/compare/yolov8-vs-yolov7/
  10. What is YOLOv8: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector - arXiv, https://arxiv.org/html/2408.15857v1
  11. YOLOv8: A Complete Guide - Viso Suite, https://viso.ai/deep-learning/yolov8-guide/
  12. Object Detection with YOLOv8 Advanced Capabilities - DigitalOcean, https://www.digitalocean.com/community/tutorials/yolov8-a-revolutionary-advancement-in-object-detection-2
  13. The history of YOLO: The origin of the YOLOv1 algorithm | SuperAnnotate, https://www.superannotate.com/blog/yolov1-algorithm
  14. A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS - MDPI, https://www.mdpi.com/2504-4990/5/4/83
  15. YOLO-v1 to YOLO-v8, the Rise of YOLO and Its Complementary Nature toward Digital Manufacturing and Industrial Defect Detection - MDPI, https://www.mdpi.com/2075-1702/11/7/677
  16. Understanding YOLOv8 Architecture, Applications & Features - Labellerr, https://www.labellerr.com/blog/understanding-yolov8-architecture-applications-features/
  17. YOLOv8 Architecture: A Detailed Overview | by Vindya Lenawala …, https://medium.com/@vindyalenawala/yolov8-architecture-a-detailed-overview-5e2c371cf82a
  18. Computer Vision: Hands-on implementation onYOLOv8 | by Ayush Yajnik - Medium, https://medium.com/@ayushyajnik2/computer-vision-hands-on-implementation-onyolov8-65bf5d682c62
  19. Detailed illustration of YOLOv8 model architecture. The Backbone, Neck - ResearchGate, https://www.researchgate.net/figure/Detailed-illustration-of-YOLOv8-model-architecture-The-Backbone-Neck-and-Head-are-the_fig4_375697582
  20. Network Architecture of Yolov8: Backbone (CSPDarknet), Neck (PANet), and Head (Yolo Layer) [52] - ResearchGate, https://www.researchgate.net/figure/Network-Architecture-of-Yolov8-Backbone-CSPDarknet-Neck-PANet-and-Head-Yolo_fig1_384207277
  21. Brief summary of YOLOv8 model structure · Issue #189 · ultralytics …, https://github.com/ultralytics/ultralytics/issues/189
  22. YOLOv8 with Attention Mechanisms for Pediatric Wrist Fracture Detection - arXiv, https://arxiv.org/html/2402.09329v4
  23. Dive into YOLOv8: How does this state-of-the-art model work? | by …, https://openmmlab.medium.com/dive-into-yolov8-how-does-this-state-of-the-art-model-work-10f18f74bab1
  24. YOLOv8 Explained: Understanding Object Detection from Scratch …, https://medium.com/@melissa.colin/yolov8-explained-understanding-object-detection-from-scratch-763479652312
  25. Unlock the Full Potential of Object Detection with YOLOv8: Faster and More Accurate than YOLOv7 - Augmented Startups, https://www.augmentedstartups.com/blog/unlock-the-full-potential-of-object-detection-with-yolov8-faster-and-more-accurate-than-yolov7-2
  26. YOLOv8 Architecture Explained!. What is YOLOv8 ? | by Abin …, https://abintimilsina.medium.com/yolov8-architecture-explained-a5e90a560ce5
  27. Anchor-Free Object Detection - Ultralytics, https://www.ultralytics.com/glossary/anchor-free-detectors
  28. Is YOLOv8 a anchor-free detector? · Issue #3424 - GitHub, https://github.com/ultralytics/ultralytics/issues/3424
  29. What is exactly the Loss function of YOLOv8? · Issue #17275 - GitHub, https://github.com/ultralytics/ultralytics/issues/17275
  30. Definition of regression loss function in YOLOv8 · Issue #8781 - GitHub, https://github.com/ultralytics/ultralytics/issues/8781
  31. GIoU, CIoU and DIoU: Variants of IoU and how they are better compared to IoU | by Abhishek Jain | Medium, https://medium.com/@abhishekjainindore24/giou-ciou-and-diou-variants-of-iou-and-how-they-are-better-compared-to-iou-4610a015643a
  32. loss - YOLOv8 dfl_loss metric - Stack Overflow, https://stackoverflow.com/questions/75950283/yolov8-dfl-loss-metric
  33. YOLO Loss Function Part 2: GFL and VFL Loss - LearnOpenCV, https://learnopencv.com/yolo-loss-function-gfl-vfl-loss/
  34. Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection, https://proceedings.neurips.cc/paper/2020/file/f0bda020d2470f2e74990a07a607ebd9-Paper.pdf
  35. Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2021/papers/Li_Generalized_Focal_Loss_V2_Learning_Reliable_Localization_Quality_Estimation_for_CVPR_2021_paper.pdf
  36. YOLOv8 vs. YOLOv5: Choosing the Best Object Detection Model - Augmented Startups, https://www.augmentedstartups.com/blog/yolov8-vs-yolov5-choosing-the-best-object-detection-model
  37. YOLOv7 vs YOLOv5: A Detailed Technical Comparison, https://docs.ultralytics.com/compare/yolov7-vs-yolov5/
  38. Merlin Wittenhagen.indd, https://scindeks-clanci.ceon.rs/data/pdf/2956-087X/8888/2956-087X8800008W.pdf
  39. How to train YOLOv8 instance segmentation on a custom dataset - Ikomia, https://www.ikomia.ai/blog/train-yolov8-custom-dataset
  40. Instance Segmentation - Ultralytics YOLO Docs, https://docs.ultralytics.com/tasks/segment/
  41. Train YOLOv8 Instance Segmentation on Custom Data - LearnOpenCV, https://learnopencv.com/train-yolov8-instance-segmentation/
  42. How to Train YOLOv8 Instance Segmentation on a Custom Dataset - Roboflow Blog, https://blog.roboflow.com/how-to-train-yolov8-instance-segmentation/
  43. YoloV8 Pose Estimation Tutorial - Dev-kit, https://dev-kit.io/blog/machine-learning/yolov8-pose-estimation
  44. YOLOv8 Pose Estimation: Advanced KeyPoint Technology - Ikomia, https://www.ikomia.ai/blog/yolov8-pose-advanced-estimation
  45. Pose Estimation - Ultralytics YOLO Docs, https://docs.ultralytics.com/tasks/pose/
  46. Image Classification - Ultralytics YOLO Docs, https://docs.ultralytics.com/tasks/classify/
  47. YOLOv8 vs SSD: Choosing the Right Object Detection Model - Keylabs, https://keylabs.ai/blog/yolov8-vs-ssd-choosing-the-right-object-detection-model/
  48. Object Detection Using YOLOv8 : A Systematic Review - SISTEMASI, https://sistemasi.ftik.unisi.ac.id/index.php/stmsi/article/download/5081/964
  49. YOLOv8: Object Detection Explained - Keylabs, https://keylabs.ai/blog/under-the-hood-yolov8-architecture-explained/
  50. Unraveling YOLO v8: Benefits and Challenges in Object Detection | by Muhammad Asad Nadeem | Medium, https://medium.com/@masadnadeem23/unraveling-yolo-v8-benefits-and-challenges-in-object-detection-1ec762debefd
  51. The YOLO Framework: A Comprehensive Review of Evolution, Applications, and Benchmarks in Object Detection - MDPI, https://www.mdpi.com/2073-431X/13/12/336