Booil Jung

고성능 오픈 소스 비전 모델의 현주소

컴퓨터 비전 분야는 지난 십여 년간 괄목할 만한 발전을 거듭해왔습니다. 초기 AlexNet, VGG, ResNet과 같은 합성곱 신경망(Convolutional Neural Networks, CNN)이 지배하던 시대를 지나, 현재는 비전 트랜스포머(Vision Transformers, ViT)와 대규모 멀티모달 모델(Large Multimodal Models, LMM)이 최첨단(State-of-the-Art, SOTA) 성능의 기준을 새롭게 정립하고 있습니다.1 현대 비전 AI의 혁신은 여러 전선에서 동시에 일어나고 있습니다. 한편에서는 ConvNeXt와 같이 순수 CNN 아키텍처를 현대적으로 재해석하여 성능을 극한으로 끌어올리고 있으며, 다른 한편에서는 Swin Transformer V2처럼 트랜스포머 아키텍처의 확장성과 효율성을 최적화하고 있습니다. 더 나아가, LLaVA나 InternVL과 같은 모델들은 시각 정보 처리 능력에 언어 이해 능력을 결합하여 ‘비전 모델’의 정의 자체를 확장하고 있습니다.4

고성능 비전 모델들의 성능을 가늠하는 주요 시험대는 다음과 같은 핵심 과제들입니다.1 이 보고서 전반에 걸쳐 모델들은 이 과제들을 기준으로 평가될 것입니다.

모델의 성능을 공정하게 비교하기 위해서는 표준화된 벤치마크와 평가 지표가 필수적입니다. ImageNet 7, MS COCO 9, ADE20K 11 등은 학계와 산업계에서 널리 인정받는 표준 벤치마크입니다. 본 보고서에서는 다음과 같은 핵심 지표를 사용하여 모델들을 분석할 것입니다.

그러나 이러한 표준 벤치마크에는 명백한 한계가 존재합니다. 연구에 따르면, 많은 모델들이 COCO와 같은 특정 벤치마크에 ‘과적합’되는 경향을 보이며, 이는 실험실 환경의 이상적인 이미지를 넘어서는 현실 세계의 복잡하고 ‘지저분한(messy)’ 데이터에 대해서는 낮은 성능으로 이어질 수 있습니다.9 실제로 ImageNet 데이터셋에 대해 높은 정확도를 보이는 모델들이 ImageNet-D와 같이 실제 왜곡을 모방한 데이터셋에서는 성능이 급격히 하락하는 현상이 관찰되었습니다.15 이는 벤치마크 점수가 모델의 우수성을 보장하는 필요조건일 뿐, 충분조건은 아님을 시사합니다. 진정한 고성능 모델은 벤치마크 점수뿐만 아니라, 실제 환경에서의 강건성(robustness)과 일반화 능력까지 갖추어야 합니다.

고성능 모델을 논할 때 기술적 측면만큼이나 중요한 것이 바로 ‘오픈 소스’의 법적, 실용적 의미입니다. 모델의 소스 코드 공개 여부를 넘어, 어떤 라이선스 하에 배포되는지가 모델의 활용 범위를 결정짓기 때문입니다. 오픈 소스 라이선스는 크게 두 가지로 나뉩니다.16

최근에는 AI 모델, 데이터, 가중치 등 복합적인 구성 요소를 포괄하는 OpenMDW와 같은 AI 특화 라이선스도 등장하며 생태계의 복잡성을 더하고 있습니다.19 따라서 모델을 선택할 때, 그 모델의 라이선스가 프로젝트의 목적(학술 연구, 상업용 제품 개발 등)과 부합하는지 면밀히 검토하는 것은 기술적 성능을 분석하는 것만큼이나 중요한 전략적 결정입니다.

ConvNeXt는 비전 트랜스포머의 부상에 대한 직접적인 응답으로 탄생했습니다. 이 모델은 점진적으로 ViT의 성공적인 설계 원칙들을 도입하여 고전적인 ConvNet을 현대화했으며, 이를 통해 순수 합성곱 아키텍처가 여전히 SOTA 수준의 성능을 달성할 수 있음을 증명했습니다.2 ConvNeXt V1이 지도 학습(supervised learning) 환경에서 아키텍처의 우수성을 입증했다면, ConvNeXt V2는 한 걸음 더 나아가 마스크드 오토인코더(Masked Autoencoders, MAE)와 같은 자기 지도 학습(self-supervised learning) 프레임워크와의 ‘공동 설계(co-design)’에 초점을 맞추어 개발되었습니다.21

ConvNeXt의 핵심은 깊이별 합성곱(depthwise convolution), 역병목 구조(inverted bottleneck), 그리고 Swin Transformer에서 영감을 받은 큰 커널 크기(large kernel size)를 사용하는 ConvNeXt 블록에 있습니다.2 ConvNeXt V2의 가장 중요한 혁신은 바로 전역 응답 정규화(Global Response Normalization, GRN) 레이어의 도입입니다.

연구진들은 ConvNeXt 아키텍처와 MAE 사전 학습을 단순 결합했을 때 기대 이하의 성능을 보이는 문제를 발견했습니다.21 그 원인은 MAE 방식이 특징 다양성(feature diversity)으로부터 큰 이점을 얻지만, 표준 ConvNeXt 구조는 이를 충분히 촉진하지 못했기 때문입니다. GRN은 바로 이 문제를 해결하기 위해, 즉 채널 간 특징 경쟁을 강화하고 특징의 다양성을 높이기 위해 고안되었습니다.21

GRN의 작동 메커니즘은 다음과 같은 3단계로 구성됩니다 21:

  1. 전역 특징 집계 (Global Feature Aggregation): 각 채널의 공간적 특징들을 하나의 값으로 집계합니다. 논문에서는 L2-norm을 사용하는 것이 가장 효과적임을 보였습니다. 입력 특징 맵 $X \in \mathbb{R}^{H \times W \times C}$의 각 채널 Xi에 대해, 전역 특징 벡터 $gx$의 $i$번째 요소는 다음과 같이 계산됩니다. \(gx_i= \| X_i \| _2\)

  2. 특징 정규화 (Feature Normalization): 집계된 값들을 모든 채널에 걸쳐 정규화하여 각 채널의 상대적 중요도를 계산합니다. \(nx_i=\frac{\|Xi\|_2}{\sum_{j=1}^C\|X_j\|_2}\) 특징 보정 (Feature Calibration): 계산된 정규화 점수를 원래의 특징 맵에 곱하여 채널별 응답을 보정합니다. \(X_i'=X_i⋅nx_i\) 안정적인 학습을 위해 학습 가능한 파라미터 $γ$, $β$와 잔차 연결(residual connection)이 추가된 최종 GRN 블록의 공식은 다음과 같습니다.21

\[X_i \leftarrow \gamma \cdot \left(X_i \cdot \frac{\|X_i\|_2}{\sum_{j=1}^{C} \|X_j\|_2 + \epsilon}\right) + \beta + X_i\]

여기서 $ϵ$은 $0$으로 나누는 것을 방지하기 위한 작은 상수입니다. 이처럼 GRN은 핵심적인 부분에 학습 가능한 파라미터가 없어 매우 단순하면서도 강력한 성능 향상을 이끌어냅니다.

ConvNeXt V2는 순수 ConvNet으로서 SOTA 수준의 성능을 달성했습니다. 특히 공개된 데이터셋만으로 학습한 Huge 모델은 ImageNet-1K 데이터셋에서 Top-1 정확도 88.9%라는 놀라운 성과를 기록했습니다.21 또한 COCO 객체 탐지, ADE20K 시맨틱 분할과 같은 다운스트림 과제에서도 뛰어난 성능을 보여, 범용적인 백본(backbone) 아키텍처로서의 가치를 입증했습니다.21 ConvNeXt V2는 Atto(3.7M 파라미터)부터 Huge(650M 파라미터)까지 다양한 크기의 모델을 제공하여, 사용 환경에 따른 유연한 선택이 가능합니다.21

이러한 ConvNeXt V2의 성공은 아키텍처와 학습 방법론이 분리될 수 없으며, 반드시 ‘공동 설계’되어야 한다는 중요한 교훈을 남깁니다. SOTA 아키텍처와 SOTA 사전 학습 방법을 단순히 결합하는 것만으로는 최적의 결과를 보장할 수 없으며, 두 요소의 상호작용을 깊이 이해하고 그에 맞춰 아키텍처를 수정(GRN 도입)하는 과정이 SOTA 달성의 핵심이었던 것입니다. 이는 또한 비전 AI 분야가 트랜스포머라는 단일 아키텍처로 수렴되는 것이 아니라, ConvNet과 같은 검증된 패러다임 내에서도 여전히 혁신과 성능 향상의 여지가 충분함을 보여주는 증거이기도 합니다.

Swin Transformer는 계층적 구조(hierarchical structure)와 이동된 윈도우(shifted windows) 기반의 셀프 어텐션을 도입하여, ViT를 범용 컴퓨터 비전 백본으로 실용화한 선구적인 아키텍처입니다.3 기존 ViT의 고정된 해상도와 입력 크기에 대한 제곱의 복잡도 문제를 해결했기 때문입니다. Swin Transformer V2는 여기서 한 걸음 더 나아가, 모델을 수십억 개의 파라미터 규모로 확장할 때 발생하는 근본적인 문제들을 해결하는 데 초점을 맞춥니다.25

대규모 비전 모델을 훈련할 때 두 가지 주요 문제가 발생합니다: 훈련 불안정성, 그리고 사전 학습과 미세 조정 간의 해상도 불일치입니다. Swin V2는 이 문제들을 해결하기 위해 세 가지 핵심 기술을 제안합니다.25

  1. 훈련 불안정성 문제와 해결책 (Res-Post-Norm & Scaled Cosine Attention):

    • 문제: Pre-LN(Layer Normalization) 구조를 사용하는 기존 ViT는 모델이 깊어질수록 특정 레이어의 활성화 값이 폭발적으로 증가하여 훈련이 불안정해지는 현상을 보였습니다.25

    • 해결책 1 (Res-Post-Norm): LN 레이어를 각 잔차 블록의 시작이 아닌 끝으로 이동시키는 Post-LN 방식을 적용했습니다. 이는 메인 브랜치에 병합되기 전에 출력을 정규화하여, 네트워크가 깊어져도 활성화 값의 진폭이 안정적으로 유지되도록 합니다.25

    • 해결책 2 (Scaled Cosine Attention): 표준 내적(dot-product) 어텐션을 스케일링된 코사인(scaled cosine) 함수로 대체했습니다. 코사인 어텐션은 본질적으로 정규화되어 있어 입력 특징의 크기에 덜 민감하며, 일부 픽셀 쌍이 어텐션 맵을 지배하는 현상을 완화하여 훈련을 더욱 안정화시킵니다. 어텐션 계산은 다음과 같이 수정됩니다. \(\text{Attention}(Q, K, V) = \text{SoftMax}\left(\frac{\cos(Q, K)}{\tau} + B\right)V\) 여기서 \tau는 학습 가능한 온도 파라미터이고, B는 위치 편향입니다.

  2. 해상도 불일치 문제와 해결책 (Log-Spaced Continuous Position Bias):

    • 문제: 저해상도 이미지로 사전 학습된 모델을 고해상도 이미지로 미세 조정할 때, 위치 편향(position bias)을 보간(interpolation)하는 과정에서 성능 저하가 발생합니다.
    • 해결책 (Log-CPB): 상대 좌표를 로그 공간(log-space)으로 변환한 후, 작은 메타 네트워크를 통해 연속적인 위치 편향 값을 동적으로 생성합니다. 이 방식은 해상도 변경 시 필요한 외삽(extrapolation) 비율을 크게 줄여, 모델이 다양한 해상도에 걸쳐 부드럽게 적응하고 성능을 유지할 수 있도록 합니다.25

Swin Transformer V2는 이러한 혁신을 바탕으로 엄청난 규모까지 성공적으로 확장되었습니다. SwinV2-G(Giant) 모델은 ImageNet-1K에서 Top-1 정확도 90.17%를, COCO test-dev 데이터셋에서는 63.1 box mAP를 달성하며 SOTA 성능을 기록했습니다.26 이러한 성능을 달성하기 위해 JFT-3B의 7천만 개 이미지 부분집합이나 비공개 ImageNet-22K 확장 데이터셋과 같은 초거대 데이터셋을 사전 학습에 활용했습니다.25

EVA-02는 ‘더 크고 더 많은 데이터’라는 일반적인 스케일업 경쟁에서 벗어나, 훈련 효율성과 접근성에 초점을 맞춘 모델입니다. 이 모델의 목표는 중간 크기의 모델과 공개적으로 접근 가능한 데이터만을 사용하여 SOTA 성능을 달성함으로써, 강력한 비전 모델에 대한 접근을 민주화하는 것입니다.29

EVA-02의 핵심 아이디어는 마스크드 이미지 모델링(MIM)을 사용한 사전 학습에 있지만, 그 목표 설정 방식에 독창성이 있습니다.29

EVA-02는 파라미터 대비 성능 효율성에서 놀라운 결과를 보여주었습니다. 304M(3억 4백만)개의 파라미터를 가진 EVA-02-L 모델은 ImageNet-1K에서 Top-1 정확도 90.0%라는 경이로운 성능을 달성했습니다.29 제로샷 성능 또한 뛰어나, CLIP 인코더로 사용될 때 ImageNet에서 80.4%의 정확도를 기록하여 훨씬 더 큰 모델들을 능가했습니다.30

중요한 점은 이 모든 성과가 ImageNet-21K와 같은 공개 데이터셋과, 가장 큰 모델의 경우에도 3,800만 장 규모의 공개 데이터셋 병합본을 사용하여 이루어졌다는 것입니다.29 이는 수십억 장 규모의 비공개 데이터셋에 의존하는 다른 모델들과의 핵심적인 차별점입니다.

Swin V2와 EVA-02는 SOTA 성능 달성에 대한 두 가지 상반된 철학을 보여줍니다. Swin V2가 막대한 컴퓨팅과 데이터를 동원하여 성능의 한계를 밀어붙이는 ‘더 크게(bigger is better)’ 접근 방식을 따른다면, EVA-02는 우월한 교사 모델로부터 지식을 효율적으로 증류(distillation)하여 훨씬 적은 자원으로 비슷한 수준의 성능을 달성하는 ‘더 똑똑하게(smarter, not harder)’ 접근 방식을 따릅니다. 이는 자원이 한정된 대부분의 연구 기관이나 기업에게 EVA-02의 지식 전달 철학이 훨씬 더 실용적이고 비용 효율적인 SOTA 달성 경로임을 시사합니다. 동시에, EVA-02의 성공은 그 자체로 완결된 것이 아니라, 그 배경에 EVA-CLIP과 같은 더 강력한 교사 모델의 존재가 필수적이었음을 보여줍니다. 이는 AI 생태계가 거대 자본을 투입해 ‘교사 모델’을 만드는 소수의 연구 그룹과, 그 지식을 증류하여 더 작고 효율적인 ‘학생 모델’을 만드는 광범위한 커뮤니티로 계층화되고 있음을 암시합니다.

YOLO(You Only Look Once) 계열은 속도(지연 시간, FPS)와 정확도(mAP) 사이의 효과적인 균형을 통해 실시간 객체 탐지 분야의 지배적인 패러다임으로 자리 잡았습니다.33 최신 버전인 YOLOv9과 YOLOv10은 정보 흐름의 근본적인 문제와 후처리 과정을 개선하여 이 성능-효율성 경계를 더욱 확장합니다.

YOLOv9은 딥 네트워크의 정보 병목 현상, 즉 데이터가 깊은 층을 통과하면서 예측에 필요한 핵심 정보가 손실되는 문제를 해결하는 데 중점을 둡니다.35

YOLOv10은 YOLO 계열의 오랜 숙제였던 후처리 의존성 문제를 해결하여 진정한 종단간(end-to-end) 탐지를 목표로 합니다.34

YOLOv9과 YOLOv10은 다양한 모델 크기(T, S, M, C, B, L, X, E)에서 SOTA 수준의 실시간 성능을 보여줍니다. 예를 들어, YOLOv10-S는 비슷한 AP 성능을 가진 RT-DETR-R18보다 1.8배 빠르며, YOLOv10-B는 동일한 성능의 YOLOv9-C에 비해 지연 시간은 46%, 파라미터는 25% 더 적습니다.34 아래 표는 각 모델의 상세 성능 지표입니다.34

모델 파라미터 (M) FLOPs (G) Latency (ms) COCO APval (%)
YOLOv9-T 2.0 7.7 - 38.3
YOLOv9-S 7.1 26.4 - 46.8
YOLOv9-M 20.0 76.3 - 51.4
YOLOv9-C 25.3 102.1 - 53.0
YOLOv9-E 57.3 189.0 - 55.6
YOLOv10-N 2.3 6.7 1.84 38.5
YOLOv10-S 7.2 21.6 2.49 46.3
YOLOv10-M 15.4 59.1 4.74 51.1
YOLOv10-B 19.1 92.0 5.74 52.5
YOLOv10-L 24.4 120.3 7.28 53.2
YOLOv10-X 29.5 160.4 10.70 54.4

DINO(DETR with Improved deNoising anchOr boxes)는 DETR을 기반으로 한 종단간 트랜스포머 객체 탐지기의 SOTA 모델입니다. DINO는 기존 DETR의 느린 수렴 속도와 훈련의 어려움을 해결하여, 고도로 최적화된 고전적인 탐지기들을 능가하는 성능을 달성했습니다.42

DINO는 DETR의 훈련 과정을 안정화하고 가속화하기 위한 세 가지 핵심 기술을 도입했습니다.42

DINO는 Swin-L 백본과 결합되었을 때 COCO test-dev에서 63.3 AP라는 SOTA 성능을 기록했습니다.44 또한 ResNet-50 백본으로 12 에포크만 훈련했을 때 이전 SOTA DETR 모델보다 +6.0 AP 높은 성능을 달성하며 훈련 효율성도 크게 개선했음을 입증했습니다.43

객체 탐지 분야의 두 거두인 YOLO와 DINO는 서로 다른 경로를 통해 발전해왔지만, NMS가 없는 진정한 종단간 예측이라는 동일한 목표를 향해 수렴하고 있습니다. YOLOv10이 NMS-free를 구현함으로써 두 패밀리 간의 구조적 격차는 줄어들고 있으며, 경쟁의 초점은 이제 ‘어떻게’ 종단간 탐지를 달성하면서 정확도-지연 시간의 균형을 최적화할 것인가로 옮겨가고 있습니다. 이 과정에서 라이선스 정책은 기술적 성능만큼이나 중요한 전략적 분기점을 형성합니다. GPL/AGPL 계열의 YOLO는 커뮤니티 기여를 유도하고 상업용 라이선스 판매를 통한 수익 모델을 구축하는 반면, Apache/MIT 계열의 DINO는 학계와 산업계 전반에 걸친 광범위한 채택을 통해 표준으로 자리매김하려는 전략을 취하고 있습니다.

LLaVA(Large Language-and-Vision Assistant)는 이미지에 대해 ‘대화’하고 지시를 따를 수 있는 오픈 소스 범용 시각 보조 모델의 선구자입니다.49 LLaVA-NeXT(v1.6)는 추론, 광학 문자 인식(OCR), 그리고 세상 지식(world knowledge) 능력을 대폭 향상시킨 주요 업그레이드 버전입니다.50

LLaVA의 성공은 단순하면서도 효과적인 아키텍처와 독창적인 훈련 방법론에 기인합니다.49

LLaVA-NeXT는 MMMU, MathVista, SEED-Bench와 같은 주요 멀티모달 벤치마크에서 다른 오픈 소스 LMM들을 능가하고, 상용 모델인 Gemini Pro와 대등한 성능을 보입니다.51 7B, 13B, 34B 등 다양한 크기의 모델이 제공되어 사용자의 컴퓨팅 환경에 맞춰 선택할 수 있습니다.51

InternVL 2는 현재 오픈 소스 MLLM 중 가장 강력한 성능을 목표로 개발되었으며, 여러 도전적인 벤치마크에서 GPT-4o와 같은 선두적인 상용 모델의 성능에 필적하거나 이를 능가합니다.54

InternVL 2의 SOTA 성능은 거대한 모델 크기뿐만 아니라, 정교한 훈련 전략과 효율적인 아키텍처 설계에 기반합니다.55

InternVL 2는 깊은 추론 능력을 요구하는 벤치마크에서 특히 압도적인 성능을 자랑합니다. MathVista에서 66.3%, MMMU에서 62.0%, DocVQA에서 95.1%의 정확도를 달성하며 오픈 소스 모델의 새로운 기준을 제시했습니다.55

LMM 분야의 발전은 아키텍처 자체만큼이나 훈련 데이터의 질과 양에 의해 결정되고 있습니다. LLaVA가 GPT-4를 이용해 지시 데이터를 생성한 것이나 49, InternVL 2가 시험 문제, OCR 데이터 등을 대규모로 수집하고 정제한 것에서 볼 수 있듯이 55, 이제는 ‘데이터 해자(Data Moat)’가 SOTA 성능 복제의 가장 큰 장벽이 되고 있습니다. 동일한 오픈 소스 아키텍처를 사용하더라도, 고품질의 대규모 미세 조정 데이터셋 없이는 최고 성능을 재현하기 어렵습니다.57 이와 동시에, InternVL 2-Pro와 같은 초거대 모델의 등장은 실용성을 위한 효율화 연구를 촉진하고 있습니다. LLaVA-NeXT의 SGLang을 통한 효율적 배포나 51, InternVL-X의 토큰 압축 기술은 56 LMM 분야가 극한의 성능을 추구하는 흐름과, 이를 현실 세계에서 사용 가능하도록 만드는 효율화 연구의 흐름으로 양분되고 있음을 보여줍니다.

지금까지 심층 분석한 모델들은 각기 다른 철학과 강점을 가지고 있습니다. 이들을 효과적으로 비교하기 위해 다음과 같은 다차원적 프레임워크를 적용할 수 있습니다.

아래 표는 본 보고서에서 분석한 핵심 모델들의 주요 특성을 한눈에 비교할 수 있도록 정리한 것입니다. 이는 사용자가 자신의 요구사항(예: 특정 작업, 라이선스 제약, 하드웨어 예산)에 맞는 최적의 모델을 신속하게 찾는 데 도움을 줄 것입니다.

모델 계열 대표 모델/변형 주요 과제 아키텍처 유형 핵심 혁신 ImageNet Top-1 (%) COCO box AP (%) 파라미터(M) FLOPs(G)/Latency(ms) 라이선스
ConvNeXt V2 Huge 분류/탐지/분할 CNN Global Response Normalization (GRN) 88.9 21 59.1 (Mask R-CNN) 650 21 - MIT (추정)
Swin V2 SwinV2-G 분류/탐지/분할 Hierarchical ViT Res-Post-Norm, Scaled Cosine Attention 90.17 26 63.1 (HTC++) 26 3000 26 - MIT (추정)
EVA-02 EVA-02-L 분류/특징추출 Plain ViT MIM with Teacher Model Features 90.0 31 - 304 31 - Permissive
DINO Swin-L Backbone 고정확도 탐지 Transformer Detector Contrastive De-Noising, Mixed Query - 63.3 44 - - Apache 2.0 (추정)
YOLOv9 YOLOv9-E 실시간 탐지 CNN (GELAN) Programmable Gradient Info (PGI) - 55.6 41 57.3 41 189.0 G 41 GPL-3.0 41
YOLOv10 YOLOv10-X 실시간 탐지 CNN NMS-Free (Consistent Dual Assign.) - 54.4 34 29.5 34 10.70 ms 34 AGPL-3.0
LLaVA-NeXT 34B 멀티모달 채팅 LMM Dynamic High Resolution - - 34,750 51 - Apache-2.0 53
InternVL 2 Pro 멀티모달 추론 LMM Progressive Alignment Training - - 108,700 55 - Permissive (추정)

본 보고서는 현대 고성능 오픈 소스 비전 모델의 지형을 심층적으로 분석했으며, 다음과 같은 핵심적인 흐름을 확인했습니다. 첫째, 아키텍처와 훈련 방법론의 ‘공동 설계’가 SOTA 성능의 필수 조건이 되었습니다. 둘째, 객체 탐지 분야는 NMS가 없는 완전한 종단간 예측으로 수렴하고 있습니다. 셋째, 최첨단 모델들은 시각과 언어를 통합한 멀티모달 모델로 진화하고 있습니다. 넷째, 고품질 훈련 데이터의 확보가 ‘데이터 해자’를 형성하며 모델 성능의 핵심 변수로 부상했습니다. 다섯째, 연구의 방향이 극한의 성능 추구와 실용성을 위한 효율화로 양분되고 있습니다. 마지막으로, 오픈 소스 라이선스는 기술 선택에 있어 법적, 전략적으로 매우 중요한 고려사항이 되었습니다.

분야의 궤적은 명확합니다. InternVL 2와 같이 단일 아키텍처 내에서 여러 모달리티(이미지, 비디오, 텍스트)와 여러 과제(탐지, 분할, VQA)를 동시에 처리할 수 있는 통합 기반 모델(unified foundation models)로 나아가고 있습니다.4 미래의 SOTA는 순수한 ‘비전’ 모델이 아니라, 세상을 종합적으로 인식하고 추론하는 범용 지능 엔진의 형태를 띨 것입니다.

이러한 눈부신 발전에도 불구하고, 여전히 중요한 과제들이 남아있습니다.

  1. Top Computer Vision Models: Comparing the Best CV Models - Encord, accessed July 20, 2025, https://encord.com/blog/top-computer-vision-models/
  2. arXiv:2311.15599v2 [cs.CV] 18 Mar 2024, accessed July 20, 2025, https://arxiv.org/pdf/2311.15599
  3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2103.14030
  4. Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions - arXiv, accessed July 20, 2025, https://arxiv.org/html/2404.07214v1
  5. JackYFL/awesome-VLLMs: This repository collects papers on VLLM applications. We will update new papers irregularly. - GitHub, accessed July 20, 2025, https://github.com/JackYFL/awesome-VLLMs
  6. 12 Benchmarking AI - Machine Learning Systems, accessed July 20, 2025, https://mlsysbook.ai/contents/core/benchmarking/benchmarking.html
  7. ImageNet, accessed July 20, 2025, https://www.image-net.org/
  8. ImageNet Challenge Leaderboard from 2011 to 2020. - ResearchGate, accessed July 20, 2025, https://www.researchgate.net/figure/ImageNet-Challenge-Leaderboard-from-2011-to-2020_fig5_366336973
  9. The Why and What of our Computer Vision Benchmark Tool by Jérémy Keusters ML6team, accessed July 20, 2025, https://blog.ml6.eu/why-ml6-is-working-on-a-computer-vision-benchmark-tool-e8d4644ba10f
  10. COCO - Common Objects in Context, accessed July 20, 2025, https://cocodataset.org/index.htm
  11. Lacking Good Computer Vision Benchmark Datasets Is a Problem-Let’s Fix That!, accessed July 20, 2025, https://www.activeloop.ai/resources/lacking-good-computer-vision-benchmark-datasets-is-a-problem-lets-fix-that/
  12. ImageNet Classification Leaderboard, accessed July 20, 2025, https://kobiso.github.io/Computer-Vision-Leaderboard/imagenet.html
  13. COCO test-dev Benchmark (Object Detection) - Papers With Code, accessed July 20, 2025, https://paperswithcode.com/sota/object-detection-on-coco
  14. ImageNet Benchmark (Image Classification) - Papers With Code, accessed July 20, 2025, https://paperswithcode.com/sota/image-classification-on-imagenet
  15. CVPR 2024 Datasets and Benchmarks - Part 2 - Voxel51, accessed July 20, 2025, https://voxel51.com/blog/cvpr-2024-datasets-and-benchmarks-part-2-benchmarks
  16. What are the most common open-source licenses? - Milvus, accessed July 20, 2025, https://milvus.io/ai-quick-reference/what-are-the-most-common-opensource-licenses
  17. The Landscape of Open Source Licensing in AI: A Primer on LLMs and Vector Databases, accessed July 20, 2025, https://medium.com/@zilliz_learn/the-landscape-of-open-source-licensing-in-ai-a-primer-on-llms-and-vector-databases-5effbccbccd5
  18. AI Licenses: What You Should Know for Your Applications - Viso Suite, accessed July 20, 2025, https://viso.ai/deep-learning/ai-licenses/
  19. The Open Source Legacy and AI’s Licensing Challenge - Linux Foundation, accessed July 20, 2025, https://www.linuxfoundation.org/blog/the-open-source-legacy-and-ais-licensing-challenge
  20. IMvision12/ConvNeXt-tf: A Tensorflow Implementation of “A ConvNet for the 2020s” and “ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders” (ConvNeXt and ConvNeXtV2) - GitHub, accessed July 20, 2025, https://github.com/IMvision12/ConvNeXt-tf
  21. ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2301.00808
  22. ConvNeXt V2: Co-designing and Scaling ConvNets with Masked …, accessed July 20, 2025, https://paperswithcode.com/paper/convnext-v2-co-designing-and-scaling-convnets
  23. convnext / GitHub Topics, accessed July 20, 2025, https://github.com/topics/convnext
  24. ConvNeXT - Hugging Face, accessed July 20, 2025, https://huggingface.co/docs/transformers/model_doc/convnext
  25. [2111.09883] Swin Transformer V2: Scaling Up Capacity and …, accessed July 20, 2025, https://ar5iv.labs.arxiv.org/html/2111.09883
  26. Swin Transformer V2: Scaling Up Capacity and Resolution Papers …, accessed July 20, 2025, https://paperswithcode.com/paper/swin-transformer-v2-scaling-up-capacity-and
  27. Papers Explained 215: Swin Transformer V2 by Ritvik Rastogi - Medium, accessed July 20, 2025, https://ritvik19.medium.com/papers-explained-215-swin-transformer-v2-53bee16ab668
  28. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Papers With Code, accessed July 20, 2025, https://paperswithcode.com/paper/swin-transformer-hierarchical-vision
  29. [2303.11331] EVA-02: A Visual Representation for Neon Genesis - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2303.11331
  30. arXiv:2303.11331v2 [cs.CV] 22 Mar 2023, accessed July 20, 2025, https://arxiv.org/pdf/2303.11331
  31. EVA-02: A Visual Representation for Neon Genesis Papers With …, accessed July 20, 2025, https://paperswithcode.com/paper/eva-02-a-visual-representation-for-neon
  32. EVA/README.md at master / baaivision/EVA - GitHub, accessed July 20, 2025, https://github.com/baaivision/EVA/blob/master/README.md
  33. Top 5 Open-Source Computer Vision Models - Unitlab Blogs, accessed July 20, 2025, https://blog.unitlab.ai/top-5-open-source-computer-vision-models/
  34. YOLOv10: Real-Time End-to-End Object Detection, accessed July 20, 2025, https://arxiv.org/pdf/2405.14458
  35. arXiv:2402.13616v2 [cs.CV] 29 Feb 2024, accessed July 20, 2025, https://arxiv.org/abs/2402.13616
  36. YOLOv9: Learning What You Want to Learn Using Programmable …, accessed July 20, 2025, https://paperswithcode.com/paper/yolov9-learning-what-you-want-to-learn-using
  37. Paper Review: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information by Andrew Lukyanenko, accessed July 20, 2025, https://artgor.medium.com/paper-review-yolov9-learning-what-you-want-to-learn-using-programmable-gradient-information-8ec2e6e13551
  38. YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024] - GitHub, accessed July 20, 2025, https://github.com/THU-MIG/yolov10
  39. models/yolov10/ / ultralytics / Discussion #13117 - GitHub, accessed July 20, 2025, https://github.com/orgs/ultralytics/discussions/13117
  40. Learn What Is Introduced in YOLOv10 YOLOv10 Paper Explained - YouTube, accessed July 20, 2025, https://www.youtube.com/watch?v=2ZFJbeJXXDM
  41. WongKinYiu/yolov9: Implementation of paper - YOLOv9 … - GitHub, accessed July 20, 2025, https://github.com/WongKinYiu/yolov9
  42. [2203.03605] DINO: DETR with Improved DeNoising Anchor Boxes …, accessed July 20, 2025, https://ar5iv.labs.arxiv.org/html/2203.03605
  43. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection, accessed July 20, 2025, https://arxiv.org/abs/2203.03605
  44. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End …, accessed July 20, 2025, https://paperswithcode.com/paper/dino-detr-with-improved-denoising-anchor-1
  45. wzk1015/COCO-leaderboard: Notes of COCO leaderboard (based on https://paperswithcode.com/sota/object-detection-on-coco) - GitHub, accessed July 20, 2025, https://github.com/wzk1015/COCO-leaderboard
  46. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection, accessed July 20, 2025, https://www.researchgate.net/publication/359079872_DINO_DETR_with_Improved_DeNoising_Anchor_Boxes_for_End-to-End_Object_Detection
  47. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection, accessed July 20, 2025, https://openreview.net/forum?id=3mRwyG5one
  48. This repo contains the code and configuration files for reproducing object detection results of FocalNets with DINO - GitHub, accessed July 20, 2025, https://github.com/FocalNet/FocalNet-DINO
  49. LLaVA, accessed July 20, 2025, https://llava-vl.github.io/
  50. haotian-liu/LLaVA: [NeurIPS’23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond. - GitHub, accessed July 20, 2025, https://github.com/haotian-liu/LLaVA
  51. LLaVA-NeXT: Improved reasoning, OCR, and world knowledge …, accessed July 20, 2025, https://llava-vl.github.io/blog/2024-01-30-llava-next/
  52. arXiv:2304.08485v2 [cs.CV] 11 Dec 2023, accessed July 20, 2025, https://arxiv.org/abs/2304.08485
  53. LLaVA-VL/LLaVA-NeXT - GitHub, accessed July 20, 2025, https://github.com/LLaVA-VL/LLaVA-NeXT
  54. OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 - GitHub, accessed July 20, 2025, https://github.com/OpenGVLab/InternVL
  55. InternVL2, accessed July 20, 2025, https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
  56. Advancing and Accelerating InternVL Series with Efficient Visual Token Compression - arXiv, accessed July 20, 2025, https://arxiv.org/html/2503.21307v1
  57. Open-LLaVA-NeXT/docs/Data.md at master - GitHub, accessed July 20, 2025, https://github.com/xiaoachen98/Open-LLaVA-NeXT/blob/master/docs/Data.md
  58. llava-next-multimodal-chatbot.ipynb - GitHub, accessed July 20, 2025, https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/llava-next-multimodal-chatbot/llava-next-multimodal-chatbot.ipynb