AMD Instinct와 NVIDIA Blackwell의 AI 컴퓨팅 패권 경쟁

AMD Instinct와 NVIDIA Blackwell의 AI 컴퓨팅 패권 경쟁

1. 서론: AI 컴퓨팅의 새로운 경쟁 구도

지난 수십 년간 컴퓨팅 산업의 발전을 주도해 온 무어의 법칙이 물리적 한계에 직면하면서, 인공지능(AI)과 고성능 컴퓨팅(HPC) 분야는 새로운 성장 동력을 필요로 하게 되었다. 이 해답은 그래픽 처리 장치(GPU)를 범용 병렬 컴퓨팅에 활용하는 GPGPU 기술에서 나왔고, 이 흐름의 중심에는 NVIDIA가 있었다. NVIDIA는 2006년 CUDA(Compute Unified Device Architecture)라는 혁신적인 병렬 컴퓨팅 플랫폼을 선보이며 AI 가속기 시장의 문을 열었고, 이후 20년 가까이 독점적인 지위를 누려왔다.1 CUDA 생태계는 단순한 하드웨어의 성능을 넘어, 방대한 소프트웨어 라이브러리, 개발 도구, 그리고 강력한 개발자 커뮤니티를 아우르는 견고한 ’해자(moat)’를 구축하며 경쟁자들의 진입을 막는 거대한 장벽으로 작용했다.1

그러나 2020년대에 들어 거대 언어 모델(LLM)이 폭발적으로 성장하면서 시장의 패러다임이 급격하게 변화하기 시작했다. 수천억에서 조 단위에 이르는 파라미터를 가진 LLM은 기존의 AI 모델과는 차원이 다른 컴퓨팅 성능과 메모리 용량을 요구했다. 특히, 모델 전체를 단일 GPU 메모리에 올리지 못해 여러 GPU에 걸쳐 분산 처리해야 하는 병목 현상은 AI 서비스의 지연 시간(latency)과 총소유비용(TCO)을 급격히 증가시키는 주된 원인이 되었다.5 이러한 시장의 근본적인 변화는 NVIDIA의 독주 체제에 균열을 만들었고, 새로운 경쟁자에게 기회의 창을 열어주었다.

이 기회를 포착한 가장 강력한 도전자는 바로 AMD다. CPU 시장에서 혁신적인 칩렛(Chiplet) 아키텍처를 통해 인텔의 아성을 무너뜨린 경험을 가진 AMD는, 동일한 전략을 AI 가속기 시장에 적용하며 NVIDIA의 유일한 대항마로 급부상했다.6 AMD의 Instinct 시리즈는 경쟁사 대비 월등한 메모리 용량과 대역폭을 전면에 내세우며 LLM 시대에 최적화된 하드웨어임을 강조하고 있다.8

이제 AI 가속기 시장의 경쟁은 단순히 개별 칩의 이론적 연산 성능(TFLOPS)을 비교하는 단계를 넘어섰다. 경쟁의 축은 대규모 모델을 효율적으로 처리하기 위한 메모리 아키텍처, 수천 개의 GPU를 하나처럼 묶는 상호연결(Interconnect) 기술, 하드웨어의 잠재력을 최대한 이끌어내는 소프트웨어 스택의 성숙도, 그리고 데이터센터 전체의 효율성을 좌우하는 랙(Rack) 단위의 시스템 수준 통합 능력으로 확장되었다.10

이러한 다차원적인 경쟁 구도는 두 기업의 근본적인 전략 차이를 드러낸다. NVIDIA는 GPU, CPU, DPU부터 네트워킹 스위치, 소프트웨어 플랫폼에 이르기까지 모든 것을 자체적으로 설계하고 최적화하는 ’닫힌 수직 통합 생태계’를 지향한다. 이는 마치 Apple이 하드웨어와 소프트웨어를 긴밀하게 통합하여 최고의 사용자 경험을 제공하는 전략과 유사하다. 이 방식은 강력한 성능과 안정성을 보장하지만, 높은 가격과 특정 벤더에 대한 종속성이라는 대가를 요구한다.10

반면, AMD는 업계 최고의 성능을 가진 개별 부품(GPU, CPU)을 제공하고, UAL(Ultra Accelerator Link)과 같은 개방형 표준을 통해 다른 파트너사들과 협력하여 생태계를 구축하는 ‘개방형 부품 기반 생태계’ 전략을 취하고 있다.11 이는 과거 PC 시장에서 IBM 호환 기종들이 다양한 하드웨어와 Microsoft의 소프트웨어를 조합하여 시장을 장악했던 모델을 연상시킨다. 이 전략은 고객에게 높은 유연성과 선택권을 제공하지만, 시스템 최적화에 대한 책임 일부를 고객이나 파트너사에게 전가하는 측면이 있다.

본 보고서는 AI 컴퓨팅 시장의 패권을 둘러싼 두 거인, AMD와 NVIDIA의 경쟁을 심층적으로 분석한다. 1장에서는 두 기업의 상반된 아키텍처 철학을 비교하고, 2장에서는 최신 제품들의 핵심 기술 사양을 세대별로 상세히 분석한다. 3장에서는 경쟁의 핵심인 소프트웨어 생태계를, 4장에서는 업계 표준 벤치마크를 통해 실제 성능을 검증한다. 5장에서는 미래 기술 로드맵을 통해 장기적인 전략 방향을 조망하고, 6장에서는 시장 동향과 경제성 분석을 통해 전략적 시사점을 도출한다. 이 분석을 통해 기술 전문가, 산업 분석가, 그리고 투자자들이 AI 컴퓨팅의 미래를 예측하고 전략적 결정을 내리는 데 필요한 깊이 있는 통찰을 제공하고자 한다.

2. 아키텍처 철학의 대립 - 모놀리식 대 칩렛

AI 가속기의 성능과 효율, 그리고 비용을 결정하는 가장 근본적인 요소는 칩을 설계하는 아키텍처 철학이다. NVIDIA와 AMD는 이 지점에서 극명한 대조를 보이며, 이는 각 사의 제품 전략과 미래 비전에 깊은 영향을 미치고 있다. NVIDIA가 전통적인 모놀리식(Monolithic) 설계의 완성도를 극한까지 끌어올리는 전략을 취하는 반면, AMD는 칩렛(Chiplet)이라는 파괴적 혁신을 통해 새로운 가능성을 모색하고 있다.

2.1 NVIDIA Hopper & Blackwell: 모놀리식 설계의 정점

NVIDIA는 수십 년간 검증된 모놀리식 설계 방식을 고수하고 있다. 이는 하나의 거대한 실리콘 다이(die) 위에 프로세서의 모든 구성 요소(연산 유닛, 캐시, I/O 등)를 집적하는 전통적인 방식이다. Hopper 아키텍처 기반의 H100 GPU는 단일 칩 면적이 814 mm^2에 달하며, 800억 개의 트랜지스터를 집적한 모놀리식 설계의 정점을 보여준다.9

이러한 접근 방식의 가장 큰 장점은 성숙하고 안정된 제조 공정을 통해 예측 가능한 고성능을 달성할 수 있다는 점이다. 칩 내 모든 구성 요소가 동일한 평면 위에서 짧은 거리로 연결되므로 데이터 지연 시간이 짧고, 설계 복잡성이 상대적으로 낮다. 그러나 이 방식은 근본적인 물리적 한계에 직면하고 있다. 반도체 웨이퍼에서 한 번에 생산할 수 있는 칩의 최대 크기, 즉 ’레티클 한계(reticle limit)’에 근접하면서 칩의 크기를 더 이상 늘리기 어려워졌다.15 또한, 칩의 면적이 커질수록 웨이퍼의 미세한 결함 하나가 전체 칩을 불량으로 만들 확률이 기하급수적으로 증가하여 수율이 급격히 떨어지고, 이는 제조 비용의 폭발적인 증가로 이어진다.16

NVIDIA는 차세대 Blackwell 아키텍처에서 이 한계를 극복하기 위한 새로운 시도를 도입했다. B200 GPU는 레티클 한계에 도달한 두 개의 동일한 다이를 초고속 인터커넥트로 연결하여 하나의 거대한 GPU처럼 작동하게 만드는 MCM(Multi-Chip Module) 패키징 기술을 채택했다.15 이는 모놀리식 설계의 한계를 인정하고 부분적으로 칩렛과 유사한 접근법을 취한 것이지만, 여전히 거대한 동일 다이를 수평적으로 연결한다는 점에서 근본적인 설계 철학은 모놀리식의 연장선에 있다고 볼 수 있다.

2.2 AMD CDNA 3 & 4: 3D 칩렛 설계의 혁신

AMD는 CPU 시장에서 EPYC 프로세서의 성공을 통해 칩렛 설계의 잠재력을 입증했으며, 이 혁신적인 접근법을 GPU 아키텍처에 성공적으로 이식했다. AMD의 CDNA 3 아키텍처 기반 MI300X는 칩렛 설계를 한 차원 더 발전시킨 3D 스태킹(stacking) 기술을 선보였다.9

MI300X는 기능별로 최적화된 여러 개의 작은 다이, 즉 칩렛으로 구성된다. 고성능 연산을 담당하는 GPU 연산 다이(XCD, Accelerator Complex Die)는 최첨단 5nm 공정으로 제작하고, 시스템 I/O와 메모리 컨트롤러를 담당하는 I/O 다이(IOD, I/O Die)는 상대적으로 성숙한 6nm 공정으로 제작한다. 그리고 이들을 수직으로 쌓아 올려 3차원적으로 연결한다.17

이러한 3D 칩렛 설계는 여러 가지 중요한 장점을 제공한다.

첫째, 비용 효율성이다. 작은 크기의 칩렛은 거대한 모놀리식 다이보다 훨씬 높은 수율로 생산할 수 있다. 또한, 각 기능에 가장 적합한 공정을 선택적으로 사용할 수 있어 불필요한 비용 낭비를 줄일 수 있다.16

둘째, 성능 및 전력 효율이다. 메모리(HBM)와 연산 유닛(XCD)을 수직으로 적층함으로써 둘 사이의 물리적 거리를 획기적으로 단축시킬 수 있다. 이는 데이터 전송에 필요한 시간과 에너지를 크게 줄여 메모리 대역폭을 극대화하고 전력 효율을 높이는 결과로 이어진다.9

셋째, 설계 유연성이다. 필요에 따라 CPU 칩렛과 GPU 칩렛을 조합하여 MI300A와 같은 APU(Accelerated Processing Unit)를 만들거나, GPU 칩렛만으로 MI300X와 같은 순수 가속기를 만드는 등 다양한 제품 라인업을 유연하게 구성할 수 있다.

물론, 이러한 3D 칩렛 설계는 나노미터 수준의 정밀도로 여러 칩을 완벽하게 정렬하고 연결해야 하는 등 제조 공정이 매우 복잡하고 까다롭다는 단점이 있다.9 하지만 AMD는 이 기술적 난관을 성공적으로 극복하며 AI 가속기 시장에 새로운 설계 패러다임을 제시했다.

2.3 설계 철학이 TCO와 시장 전략에 미치는 영향

두 기업의 대조적인 아키텍처 철학은 단순히 기술적인 차이를 넘어, 제품의 총소유비용(TCO)과 시장 전략 전반에 깊은 영향을 미친다. AI 인프라 투자자들이 점점 더 비용에 민감해지고 명확한 투자수익률(ROI)을 요구함에 따라, 칩의 근본적인 비용 구조는 중요한 경쟁 요소가 되고 있다.16

AMD의 칩렛 접근법은 본질적으로 더 낮은 제조 비용과 높은 수율을 통해 더 나은 TCO를 제공할 잠재력을 내포하고 있다. 특히 거대 모델 추론 시 더 많은 메모리를 제공하여 필요한 GPU 수를 줄일 수 있다는 점은 TCO 관점에서 강력한 장점이다.16 AMD는 이러한 비용 경쟁력을 바탕으로 NVIDIA보다 저렴한 가격에 더 높은 성능을 제공하는 ‘가성비’ 전략을 통해 시장 점유율을 확대하려 하고 있다.

이에 맞서는 NVIDIA의 전략은 개별 칩의 비용 경쟁을 넘어, ’시스템 수준의 가치’를 제공하는 것이다. NVIDIA는 GB200 NVL72와 같은 랙 스케일 시스템을 통해 하드웨어와 소프트웨어를 완벽하게 통합하고 최적화된 솔루션을 제공한다. 이 시스템은 개별 GPU를 구매하여 직접 구성하는 것보다 월등한 성능과 안정성, 그리고 관리의 용이성을 제공함으로써, 높은 가격을 정당화하고 AMD의 TCO 공세를 방어하려 한다.10 즉, NVIDIA는 ’부품’이 아닌 ’완성된 AI 공장’을 판매함으로써 경쟁의 장을 바꾸려는 전략을 구사하고 있다.

더 나아가, 두 회사의 아키텍처 선택은 공급망 관리와 지정학적 리스크 분산이라는 더 큰 전략적 고려와도 맞닿아 있다. NVIDIA의 거대한 모놀리식 다이는 TSMC의 최첨단 4N 공정에 대한 의존도가 극도로 높다.14 이는 TSMC의 생산 능력이나 대만 해협의 지정학적 리스크와 같은 단일 실패 지점(single point of failure)에 매우 취약한 구조다. 반면, AMD의 칩렛 설계는 5nm와 6nm 등 여러 공정을 혼용할 수 있는 유연성을 제공한다.17 이는 특정 공정에 대한 의존도를 낮출 뿐만 아니라, 향후 삼성전자 등 다른 파운드리의 공정을 일부 활용할 수 있는 가능성을 열어두어 공급망을 다변화하고 리스크를 분산하는 데 유리하다. 따라서 AMD의 칩렛 전략은 기술 및 비용적 이점을 넘어, 장기적인 공급망 안정성을 확보하기 위한 전략적 포석으로도 해석될 수 있다.

3. 세대별 기술 사양 심층 분석

AI 가속기 시장의 경쟁은 세대를 거듭하며 더욱 치열해지고 있다. 각 기업은 새로운 아키텍처를 통해 연산 능력, 메모리, 상호연결 기술의 한계를 끊임없이 넘어서고 있다. 이 장에서는 NVIDIA의 Hopper 및 Blackwell 아키텍처와 AMD의 CDNA 3 및 CDNA 4 아키텍처 기반의 주력 제품군을 세대별로 나누어 핵심 기술 사양을 정량적으로 비교 분석한다.

3.1 Hopper vs. CDNA 3: H100/H200 대 MI300X

2023년 본격적으로 시작된 경쟁의 서막은 NVIDIA의 Hopper 아키텍처 기반 H100과 AMD의 CDNA 3 아키텍처 기반 MI300X의 대결이었다. 이 대결의 핵심은 ’메모리’였다.

  • 메모리 용량 및 대역폭: AMD MI300X는 출시 당시 시장에 큰 충격을 주었다. 192 GB의 HBM3 메모리와 5.3 TB/s에 달하는 압도적인 메모리 대역폭은 경쟁 제품인 NVIDIA H100(80 GB HBM3, 3.35 TB/s)을 크게 능가했다.4 이 막대한 메모리 용량은 LLM 추론 워크로드에서 결정적인 차이를 만들었다. 예를 들어, 1000억 개 이상의 파라미터를 가진 대형 모델을 단일 MI300X GPU 메모리에 모두 올려놓고 처리할 수 있게 된 것이다.5 반면, H100 사용자는 동일한 모델을 처리하기 위해 여러 개의 GPU에 걸쳐 모델을 분할(partitioning)해야 했으며, 이는 GPU 간 통신 오버헤드를 발생시켜 지연 시간을 늘리고 시스템 복잡성을 증가시켰다. NVIDIA는 이러한 메모리 격차를 해소하기 위해 H100의 메모리 용량을 141 GB로 늘린 H200을 후속 출시하며 AMD의 공세에 대응했다.22

  • 연산 성능: 이론적인 연산 성능에서도 MI300X는 H100에 비해 근소한 우위를 보였다. FP16/BF16 정밀도에서 MI300X는 1.3 PFLOPS(희소성 미적용)의 성능을 제공하여 H100의 약 1 PFLOPS를 앞섰다.5 AI 추론에 주로 사용되는 저정밀도 FP8에서도 AMD는 2.6 PFLOPS(희소성 적용)를 주장하며 H100의 약 2 PFLOPS 대비 높은 수치를 제시했다.9

  • 상호연결 기술: 대규모 AI 학습 클러스터 구축에 필수적인 GPU 간 상호연결 기술에서는 NVIDIA가 여전히 강점을 보였다. H100은 4세대 NVLink 기술을 통해 GPU 간 900 GB/s의 직접 통신을 지원하며, NVSwitch 칩을 통해 최대 256개의 GPU를 하나의 거대한 가속기처럼 연결할 수 있는 확장성을 제공했다.14 반면, MI300X는 AMD의 Infinity Fabric 기술을 통해 8-GPU OAM(OCP Accelerator Module) 플랫폼 내에서 경쟁력 있는 대역폭을 제공했지만, 노드(node)를 넘어선 대규모 확장을 위한 전용 스위치 솔루션은 부재했다.24

3.2 Blackwell vs. CDNA 4: B200/B300 대 MI325X/MI350X

2024년과 2025년에 걸쳐 전개되는 차세대 경쟁은 더욱 격화된 양상을 띤다. 양사 모두 1년 주기의 공격적인 제품 출시를 통해 기술 리더십을 확보하고자 한다.

  • 메모리 리더십의 지속: AMD는 차세대 제품에서도 메모리 우위 전략을 고수한다. 2024년 말 출시 예정인 MI325X와 2025년 출시될 MI350X는 모두 288 GB의 HBM3e 메모리를 탑재한다.22 이는 NVIDIA의 주력 제품인 B200(192 GB HBM3e) 대비 약 50% 더 큰 용량으로, AMD는 이 점을 집중적으로 부각시키고 있다.16 AMD는 단일 MI350 시리즈 GPU가 최대 5200억(520B) 파라미터 모델을 메모리 내에서 직접 지원할 수 있다고 주장하며, 이는 모델 분할로 인한 복잡성과 성능 저하 없이 초대형 AI 모델을 효율적으로 서비스할 수 있음을 의미한다.25

  • 새로운 저정밀도 데이터 타입 도입: LLM 추론의 효율성을 극대화하기 위해 양사 모두 FP8보다 더 낮은 정밀도의 데이터 타입을 적극적으로 도입하고 있다. AMD는 3nm 공정 기반의 CDNA 4 아키텍처(MI350 시리즈)에서 FP4와 FP6 데이터 타입을 새롭게 지원한다.22 NVIDIA 역시 Blackwell 아키텍처에서 FP4와 FP6를 지원하며, 이를 통해 추론 처리량을 획기적으로 높이고자 한다.25 이 새로운 데이터 타입들은 약간의 정확도 손실을 감수하는 대신, 메모리 사용량과 연산량을 크게 줄여 추론 속도를 높이고 서비스 비용을 절감하는 데 핵심적인 역할을 할 것으로 기대된다.

  • 연산 성능 경쟁: 연산 성능 경쟁은 더욱 복잡해졌다. AMD는 자사의 MI350X가 B200 대비 FP6 정밀도에서 2배, FP8 및 FP16 정밀도에서는 10% 더 빠른 성능을 제공한다고 주장한다.25 반면, NVIDIA는 개별 칩 성능보다는 시스템 전체의 성능을 강조한다. 72개의 B200 GPU와 Grace CPU를 NVLink로 연결한 GB200 NVL72 랙 스케일 시스템은 이전 세대인 H200 시스템 대비 Llama 3.1 405B 모델에서 최대 30배 높은 처리량을 달성했다고 발표했다.20 이는 NVIDIA가 하드웨어와 소프트웨어, 네트워킹을 아우르는 시스템 수준의 최적화를 통해 경쟁 우위를 확보하려는 전략을 명확히 보여준다.

  • 전력 소모와 발열: 성능이 기하급수적으로 증가함에 따라 전력 소모와 그에 따른 발열 문제도 중요한 과제로 떠올랐다. NVIDIA B200의 TDP는 1000W에 달하며, AMD의 MI350X 역시 1000W, 고성능 버전인 MI355X는 최대 1400W의 TDP를 가진다.20 이는 기존의 공랭식 쿨링 방식으로는 한계가 있음을 시사하며, 데이터센터의 액체 냉각(liquid cooling) 솔루션 도입을 가속화하는 요인이 되고 있다.

다음 표는 두 기업의 세대별 주력 AI 가속기들의 핵심 기술 사양을 요약하여 비교한 것이다.

표 1: 세대별 AI 가속기 기술 사양 비교

사양NVIDIA Hopper H100 (SXM5)AMD CDNA 3 MI300XNVIDIA Blackwell B200 (SXM)AMD CDNA 4 MI350X/MI355X
아키텍처HopperCDNA 3BlackwellCDNA 4
제조 공정TSMC 4NTSMC 5nm (XCD) + 6nm (IOD)TSMC 4NPTSMC 3nm
트랜지스터 수800억1530억2080억 (2x104B)1850억
메모리 종류HBM3HBM3HBM3eHBM3e
메모리 용량80 GB192 GB192 GB288 GB
메모리 대역폭3.35 TB/s5.3 TB/s8 TB/s8 TB/s
FP8 성능 (희소성)2.0 PFLOPS2.6 PFLOPS20 PFLOPS10 PFLOPS (MI355X)
FP4/FP6 성능 (희소성)--40 PFLOPS (FP4)20 PFLOPS (FP6, MI355X)
FP16/BF16 성능 (희소성)1.0 PFLOPS1.3 PFLOPS10 PFLOPS5 PFLOPS (MI355X)
FP64 성능34 TFLOPS81.7 TFLOPS45 TFLOPS79 TFLOPS (MI355X)
상호연결 (GPU-to-GPU)NVLink4 (900 GB/s)Infinity FabricNVLink5 (1.8 TB/s)Infinity Fabric / UAL
TDP700 W750 W1000 W1000 W (350X) / 1400 W (355X)

자료: 4 등 종합

4. 소프트웨어 해자(Moat) - CUDA의 아성과 ROCm의 도전

AI 가속기 시장의 경쟁은 단순히 하드웨어의 성능만으로 결정되지 않는다. 하드웨어의 잠재력을 100% 이끌어내고, 개발자들이 쉽고 효율적으로 애플리케이션을 만들 수 있도록 지원하는 소프트웨어 생태계는 그 무엇보다 중요한 경쟁력이다. 이 영역에서 NVIDIA의 CUDA는 지난 20년간 누구도 넘볼 수 없는 철옹성을 구축해왔으며, AMD는 ROCm이라는 개방형 플랫폼을 통해 이 견고한 성에 도전하고 있다.

4.1 NVIDIA CUDA: 20년간 구축된 철옹성

2006년 처음 세상에 공개된 CUDA는 GPGPU의 개념을 대중화시킨 일등공신이다.2 CUDA는 C, C++, Python과 같은 대중적인 프로그래밍 언어를 통해 개발자들이 GPU의 수천 개 코어를 활용한 병렬 프로그래밍을 손쉽게 할 수 있도록 지원하는 플랫폼이다.3

그러나 CUDA의 진정한 힘은 프로그래밍 모델 자체를 넘어, 그 위에 구축된 방대하고 성숙한 생태계에 있다.

  • 포괄적인 라이브러리: 딥러닝을 위한 cuDNN, 선형대수 연산을 위한 cuBLAS, 고속 푸리에 변환을 위한 cuFFT, 추론 최적화를 위한 TensorRT 등 각 분야에 특화된 고도로 최적화된 라이브러리들은 개발자들이 복잡한 하드웨어 구조를 신경 쓰지 않고도 최고의 성능을 낼 수 있도록 돕는다.28

  • 강력한 개발 도구: 성능 프로파일링을 위한 Nsight, 디버깅을 위한 CUDA-GDB 등 강력한 개발 및 최적화 도구들은 개발 생산성을 획기적으로 향상시킨다.27

  • 거대한 커뮤니티와 교육 자료: 수백만 명의 개발자, 연구자, 학생들이 참여하는 커뮤니티와 수많은 온라인 강좌, 문서, 예제 코드는 새로운 개발자들이 CUDA 생태계에 쉽게 진입할 수 있도록 하는 선순환 구조를 만든다.27

이러한 요소들이 결합된 CUDA 생태계는 강력한 ’소프트웨어 해자(software moat)’로 작용한다. 수많은 기업과 연구 기관의 AI 애플리케이션과 워크플로우가 이미 CUDA 기반으로 구축되어 있기 때문에, 다른 플랫폼으로 이전하는 것은 막대한 시간과 비용, 그리고 위험을 수반한다. 이로 인해 많은 기업들은 AMD의 하드웨어가 특정 지표에서 더 뛰어나더라도, 소프트웨어의 안정성과 연속성을 위해 “CUDA가 아니면 안 된다“는 인식을 가지고 NVIDIA 제품을 선택하는 경향이 있다.1 이는 NVIDIA가 높은 가격을 유지하면서도 시장 지배력을 유지할 수 있는 핵심적인 이유다.

4.2 AMD ROCm: 개방성을 무기로 한 추격

NVIDIA의 견고한 CUDA 생태계에 맞서기 위해, AMD는 ’개방성(Openness)’이라는 차별화된 전략을 선택했다. ROCm(Radeon Open Compute platform)은 드라이버부터 라이브러리, 개발 도구에 이르기까지 모든 구성 요소의 소스 코드를 GitHub 등을 통해 공개하는 완전한 오픈소스 소프트웨어 스택이다.30 이는 특정 벤더에 대한 종속(vendor lock-in)을 피하고 싶은 고객들에게 큰 매력으로 다가온다.

ROCm 생태계의 성공을 위한 가장 핵심적인 전략은 HIP(Heterogeneous-compute Interface for Portability) 이다. HIP는 CUDA와 매우 유사한 C++ API를 제공하여, 개발자들이 기존 CUDA 코드를 최소한의 수정만으로 AMD GPU에서 실행할 수 있도록 지원한다.30 ’HIPIFY’라는 자동 변환 도구는 이 과정을 더욱 손쉽게 만들어준다.31 이는 CUDA로 축적된 방대한 양의 코드 자산을 재활용하여 ROCm으로의 전환 장벽을 획기적으로 낮추는, 매우 현실적이고 영리한 전략이다.

초기 ROCm은 불안정한 성능과 부족한 문서, 제한적인 하드웨어 지원 등으로 비판을 받기도 했으나, 최근 몇 년간 괄목할 만한 성장을 이루었다.

  • 주요 프레임워크 공식 지원: PyTorch와 TensorFlow 등 AI 개발의 양대 산맥인 프레임워크에서 ROCm을 공식적으로 지원하기 시작했으며, JAX, ONNX 등 다른 주요 프레임워크와의 통합도 빠르게 진행되고 있다.31

  • 생태계 협력 강화: AMD는 Hugging Face와 긴밀히 협력하여, 70만 개가 넘는 인기 AI 모델들이 별도의 수정 없이 AMD Instinct GPU에서 즉시 작동하도록 매일 테스트하고 있다.22 이는 개발자들이 최신 모델을 AMD 하드웨어에서 사용하는 데 겪는 어려움을 크게 줄여준다.

  • 성능 및 기능 개선: ROCm 6.0, 7.0 등 최신 버전에서는 FP8, FP4와 같은 새로운 데이터 타입 지원, Flash Attention과 같은 핵심 알고리즘 최적화, 클러스터 관리를 위한 기능 등이 추가되며 CUDA와의 기능적 격차를 빠르게 줄여나가고 있다.33

하지만 AMD의 ROCm 전략이 CUDA를 모든 면에서 완벽하게 대체하려는 것은 아니다. AMD 경영진은 “NVIDIA의 CUDA를 그대로 모방하여 추격하는 것은 어리석은 일이며, 결코 따라잡을 수 없는 게임“이라고 인정한 바 있다.7 이는 모든 개발자와 모든 사용 사례를 포괄하려는 시도 대신, 전략적으로 중요한 지점에 자원을 집중하겠다는 의도로 해석된다. AMD는 Microsoft, Meta, Oracle과 같은 대규모 구매력을 가진 소수의 핵심 하이퍼스케일러 파트너들과 긴밀하게 협력하고 있다. 그들의 가장 중요하고 규모가 큰 워크로드(예: Meta의 Llama 추론, Microsoft의 Azure AI 서비스)를 ROCm에서 완벽하게 최적화하는 데 개발 역량을 집중하는 것이다.7 이 ‘80/20’ 접근법은 시장의 80%를 차지하는 소수의 핵심 워크로드만 완벽히 지원하면, 나머지 롱테일(long-tail) 워크로드는 점차 개방형 커뮤니티의 기여를 통해 해결될 수 있다는 계산에 기반한다. 이는 제한된 자원으로 CUDA라는 거대한 생태계에 효과적으로 대응하기 위한 매우 실용적이고 전략적인 선택이다.

그럼에도 불구하고, 일반 개발자나 소규모 기업 입장에서는 여전히 ROCm의 생태계가 CUDA만큼 편리하지 않다는 인식이 존재한다. 특히 Windows 환경 지원 미비, 일부 구형 또는 소비자용 GPU에 대한 제한적인 지원, 특정 라이브러리의 안정성 문제 등은 여전히 개선이 필요한 과제로 남아있다.38

표 2: 소프트웨어 생태계 비교 매트릭스

요소NVIDIA CUDAAMD ROCm
철학 및 라이선스독점(Proprietary), 폐쇄형오픈소스(Open-Source)
성숙도매우 높음 (2006년 출시)성장 중 (초기 버전 이후 빠르게 개선)
이식성 (Portability)NVIDIA GPU에 종속HIP을 통한 CUDA 코드 이식 지원, 개방형
주요 프레임워크 지원PyTorch, TensorFlow, JAX 등 완벽 지원PyTorch, TensorFlow 등 주요 프레임워크 공식 지원
핵심 라이브러리cuDNN, cuBLAS, TensorRT 등MIOpen, rocBLAS, rocFFT 등
개발 및 디버깅 도구Nsight Suite, CUDA-GDB 등 포괄적ROCgdb, rocprof 등. 기능 확장 중
커뮤니티 및 문서화방대하고 성숙함빠르게 성장 중, 하이퍼스케일러 참여로 가속화
핵심 전략완전한 수직 통합 생태계 구축개방성과 HIP을 통한 전환 유도, 핵심 파트너 집중

자료: 1 등 종합

5. 성능 분석 - 벤치마크가 말해주는 것

하드웨어 사양과 소프트웨어 생태계의 우수성은 결국 실제 워크로드에서의 성능으로 증명되어야 한다. AI 분야에서 가장 권위 있는 업계 표준 벤치마크인 MLPerf는 다양한 AI 모델과 시나리오에 대해 시스템의 성능을 객관적으로 측정하고 비교할 수 있는 중요한 척도를 제공한다. 이 장에서는 최신 MLPerf 결과를 중심으로 두 회사의 AI 가속기 성능을 심층적으로 분석한다.

5.1 MLPerf Inference 벤치마크 분석

추론(Inference)은 학습된 AI 모델을 사용하여 실제 서비스를 제공하는 단계로, 전체 AI 컴퓨팅 비용의 상당 부분을 차지하기 때문에 그 효율성이 매우 중요하다.42

  • Hopper vs. CDNA 3 (MI325X): AMD는 MLPerf Inference v5.0 및 v5.1 결과를 통해 자사의 Instinct MI325X가 NVIDIA의 이전 세대 플래그십인 H200과 대등한 경쟁력을 갖추었음을 입증했다. 특히, Mixture-of-Experts(MoE) 모델인 Mixtral 8x7B의 오프라인(Offline) 처리량 테스트에서는 H200 대비 11% 더 높은 성능을 기록하며 기술력을 과시했다.26 Llama 2 70B와 같은 다른 주요 LLM 벤치마크에서도 H200과 거의 동등한 성능을 보였다.20 이는 AMD가 하드웨어 성능뿐만 아니라 ROCm 소프트웨어 스택의 최적화 수준을 상당한 수준까지 끌어올렸음을 시사한다.

  • Blackwell vs. CDNA 4 (MI355X): 차세대 제품 간의 경쟁은 더욱 흥미롭다. AMD는 MLPerf Inference v5.1에서 최신 MI355X GPU의 결과를 처음으로 공개했다. 특히 주목할 점은 Llama 2 70B 벤치마크에서 새로운 저정밀도 데이터 타입인 FP4를 활용하여, 동일 모델을 FP8로 실행한 이전 세대 MI325X 대비 2.7배나 높은 토큰 처리량을 달성했다는 것이다.26 이는 하드웨어 아키텍처의 발전과 새로운 데이터 타입 지원이 시너지를 발휘할 때 얼마나 큰 성능 향상을 가져올 수 있는지를 명확히 보여준다. 제3자 기관인 Signal65가 AMD의 의뢰를 받아 수행한 테스트 결과에 따르면, MI355X는 Llama 3.1 405B 추론에서 NVIDIA B200 대비 최대 2배, DeepSeek-R1 모델에서는 최대 1.5배 높은 처리량을 기록했다고 보고되었다.16

  • NVIDIA의 시스템 수준 성능 우위: NVIDIA는 개별 GPU 성능 경쟁을 넘어, 시스템 전체의 압도적인 성능을 통해 리더십을 유지하려 한다. MLPerf Inference v5.0에서 8-GPU B200 시스템은 8-GPU H200 시스템 대비 Llama 2 70B 모델에서 3배의 성능 향상을 기록했다.20 더 나아가 72개의 B200 GPU를 NVLink로 연결한 GB200 NVL72 랙 스케일 시스템은 H200 기반 시스템 대비 Llama 3.1 405B 모델에서 무려 30배 높은 처리량을 달성했다고 발표했다.20 최신 v5.1에서는 한 단계 더 나아간 Blackwell Ultra(B300/GB300) 아키텍처를 선보이며, 새로운 추론(reasoning) 벤치마크인 DeepSeek-R1에서 기존 Blackwell(GB200) 시스템보다 40% 이상 높은 성능을 기록하며 AI 추론 성능의 새로운 기준을 제시했다.44

5.2 MLPerf Training 벤치마크 분석

모델을 처음부터 학습시키는 훈련(Training) 영역, 특히 수천 개의 GPU를 동원하는 대규모 분산 학습에서는 여전히 NVIDIA가 확고한 우위를 점하고 있다. 이는 단순히 개별 GPU의 성능을 넘어, GPU 간의 데이터를 효율적으로 동기화하고 통신하는 상호연결 기술과 이를 뒷받침하는 소프트웨어(예: NCCL 라이브러리)의 성숙도가 결정적인 역할을 하기 때문이다.

NVIDIA는 MLPerf Training v4.0에서 무려 11,616개의 H100 GPU를 동원하여 GPT-3 175B 모델의 학습 시간을 단 3.4분으로 단축시키는 경이로운 결과를 보여주었다.46 이는 GPU 수를 늘렸을 때 성능이 거의 정비례하게 증가하는, 이상적인 선형적 확장성(near-linear scaling)을 달성했음을 의미하며, NVIDIA의 하드웨어 및 소프트웨어 스택이 대규모 클러스터 환경에서 얼마나 잘 최적화되어 있는지를 증명한다.

반면, AMD는 아직 이 정도 규모의 대규모 학습 벤치마크 결과를 제출하지 않고 있다. 다만, 특정 영역에서는 경쟁력을 보이고 있다. 예를 들어, LoRA(Low-Rank Adaptation) 기법을 사용한 Llama 2 70B 모델의 파인튜닝(fine-tuning) 벤치마크에서는 NVIDIA H100 대비 10%의 성능 우위를 보였다고 주장했다.16 이는 AMD가 대규모 학습보다는, 상대적으로 규모가 작지만 수요가 많은 파인튜닝이나 추론 시장을 우선적으로 공략하고 있음을 시사한다.

5.3 벤치마크 결과 해석의 유의점

MLPerf 벤치마크는 유용한 비교 척도이지만, 그 결과를 해석할 때는 몇 가지 유의할 점이 있다.

첫째, 제조사 발표 수치와의 차이다. AMD가 “CDNA 4 아키텍처가 이전 세대 대비 35배의 추론 성능 향상을 가져온다“고 발표한 것과 같은 수치는 22, 특정 모델과 최적화된 조건 하에서의 최고 성능을 나타내는 마케팅 수치일 수 있다. 따라서 MLPerf와 같은 표준화된 벤치마크 결과와 교차 검증하여 객관적으로 판단해야 한다.

둘째, 성능 측정 방식의 차이다. NVIDIA는 종종 행렬의 0 값을 계산에서 제외하여 성능을 높이는 ‘희소성(Sparsity)’ 기능을 활용한 성능을 강조하는 반면, AMD는 모든 값을 계산하는 ‘밀집(Dense)’ 행렬 연산 성능을 기준으로 발표하는 경향이 있다.6 두 방식은 직접적인 비교가 어려우므로, 어떤 조건에서 측정된 성능인지 명확히 인지해야 한다.

셋째, 제출 부문(Division)의 차이다. MLPerf는 엄격한 규칙 하에 동일한 모델과 최적화 기법을 사용해야 하는 ‘폐쇄(Closed)’ 부문과, 더 자유로운 모델 수정이나 최적화 기법을 허용하는 ‘개방(Open)’ 부문으로 나뉜다. AMD가 MLPerf v5.1에서 선보인 ‘구조적 프루닝(structured pruning)’ 기술을 적용한 Llama 3.1 405B 모델 결과는 개방 부문 제출 사례다.43 이 기술은 모델의 일부를 제거하여 연산량을 줄임으로써 90%에 달하는 처리량 향상을 가져왔지만, 이는 폐쇄 부문의 표준 모델 결과와 직접적인 성능 비교의 대상이 되기는 어렵다. 대신, 이러한 결과는 AMD가 하드웨어뿐만 아니라 소프트웨어와 알고리즘 최적화를 통해 성능을 향상시키려는 혁신적인 노력을 보여주는 지표로 해석해야 한다.

표 3: 주요 MLPerf Inference v5.1 벤치마크 결과 요약 (8-GPU 시스템 기준)

벤치마크 모델시나리오NVIDIA B200 (180GB)AMD MI355X (288GB)AMD MI325X (256GB)NVIDIA H200 (141GB)
Llama 2 70BOffline (Tokens/s)102,725169,197 (FP4)33,928 (v5.0)34,988 (v5.0)
(99% 정확도)Server (QPS)99,993153,076 (FP4)30,724 (v5.0)33,071 (v5.0)
Llama 3.1 405BOffline (Tokens/s)1,648~2,019 (Pruned)--
Server (QPS)1,246---
Stable Diffusion XLOffline (Samples/s)32.57-17.10 (v5.0)19.45 (v5.0)
Server (QPS)28.46-16.18 (v5.0)18.30 (v5.0)
Mixtral 8x7BOffline (Tokens/s)--리더십 (+11% vs H200)-

주: QPS는 Queries Per Second를 의미함. MI355X 결과는 FP4 정밀도, Llama 3.1은 Open 부문 프루닝 결과로 직접 비교에 한계가 있음. MI325X/H200은 v5.0 결과와 v5.1 분석을 종합함. 자료: 16 등 종합

6. 미래를 향한 경쟁 - 두 거인의 로드맵

AI 기술의 발전 속도가 기하급수적으로 빨라짐에 따라, 반도체 기업들은 현재의 성공에 안주할 수 없다. 미래 시장을 선점하기 위한 기술 로드맵 경쟁은 그 어느 때보다 치열하다. NVIDIA와 AMD 모두 1년 주기의 공격적인 제품 출시 계획을 발표하며, 향후 몇 년간의 기술 발전 방향과 전략적 비전을 제시하고 있다.

6.1 NVIDIA 로드맵: Blackwell → Vera Rubin → Rubin Ultra

NVIDIA는 ‘데이터센터를 하나의 거대한 컴퓨팅 단위로(Datacenter as a unit of compute)’ 보는 시스템 중심의 접근 방식을 로드맵에 명확히 반영하고 있다.10 이는 개별 GPU 칩의 성능 향상만으로는 미래의 AI 워크로드를 감당할 수 없다는 판단에 따른 것이다. NVIDIA의 로드맵은 Blackwell(2024년), Blackwell Ultra(2025년), Vera Rubin(2026년), Rubin Ultra(2027년)로 이어지는 1년 단위의 혁신을 예고하고 있다.10

  • 시스템 수준 통합 강화: NVIDIA의 핵심 전략은 GPU, CPU(Grace), DPU(BlueField), 네트워킹(NVLink, NVSwitch, InfiniBand) 등 데이터센터를 구성하는 모든 핵심 부품을 자체적으로 개발하고 이들을 긴밀하게 통합하여 시스템 전체의 성능을 극대화하는 것이다. 2026년 출시될 ‘Vera Rubin’ 플랫폼은 차세대 Arm 기반 CPU인 ’Vera’와 Rubin GPU를 1.8 TB/s의 초고속 NVLink C2C 인터커넥트로 연결하여 CPU와 GPU 간의 데이터 병목을 최소화할 계획이다.15

  • 메모리 및 상호연결 기술의 진화: 2027년 등장할 ‘Rubin Ultra’ 플랫폼은 기술적 혁신의 정점을 보여줄 것으로 기대된다. 이 플랫폼은 4개의 GPU 칩렛을 하나의 거대한 소켓에 통합하고, 차세대 메모리 기술인 HBM4E를 16단으로 적층하여 GPU당 1 TB에 달하는 막대한 메모리 용량을 제공할 예정이다.15 이를 통해 이론적 FP4 연산 성능 100 PFLOPS라는 전례 없는 수치를 목표로 하고 있다.

이러한 로드맵은 NVIDIA가 개별 칩 판매를 넘어, 완벽하게 통합되고 최적화된 랙 스케일의 ’AI 슈퍼컴퓨터’를 직접 공급하는 솔루션 제공자로 진화하고 있음을 명확히 보여준다.

6.2 AMD 로드맵: CDNA 3 → CDNA 4 → CDNA “Next”

NVIDIA의 공세에 맞서 AMD 역시 1년 주기의 신제품 출시 로드맵을 통해 강력한 추격 의지를 보이고 있다. AMD의 로드맵은 MI300 시리즈(CDNA 3, 2023년), MI325X(2024년), MI350 시리즈(CDNA 4, 2025년), 그리고 MI400 시리즈(CDNA “Next”, 2026년)로 이어진다.22

  • 메모리 및 추론 성능 리더십 유지: AMD의 핵심 전략은 LLM 시대에 가장 중요한 두 가지 요소, 즉 메모리 용량과 추론 성능에서 지속적인 리더십을 확보하는 것이다. MI350 시리즈에서 288 GB의 HBM3e 메모리를 탑재한 데 이어, 2026년 출시될 MI400 시리즈에서는 차세대 HBM4 메모리를 탑재하여 메모리 용량과 대역폭을 한 단계 더 끌어올릴 것으로 예상된다.11

  • 개방형 생태계 확장: AMD는 NVIDIA의 독점적인 NVLink에 대항하기 위해 개방형 표준을 통한 생태계 확장에 주력하고 있다. AMD는 자사의 Infinity Fabric 기술을 기반으로 하는 UAL(Ultra Accelerator Link) 이라는 새로운 개방형 인터커넥트 표준 컨소시엄을 주도하고 있다.11 UAL은 AMD뿐만 아니라 Intel, Google, Microsoft 등 여러 기업이 참여하며, 특정 벤더에 종속되지 않고 다양한 회사의 CPU와 GPU, 가속기를 서로 연결할 수 있는 유연성을 제공하는 것을 목표로 한다. UAL이 성공적으로 시장에 안착할 경우, NVIDIA의 폐쇄적인 생태계 전략에 상당한 위협이 될 수 있다.

  • 시스템 수준 솔루션 강화: AMD 역시 개별 칩 공급을 넘어 시스템 수준의 경쟁력을 강화하고 있다. 랙 시스템 설계 전문 기업인 ZT Systems를 인수하고 10, 2026년에는 차세대 EPYC CPU(‘Venice’), Instinct MI400 GPU, 그리고 ‘Vulcano’ 네트워킹 칩을 통합한 자체 랙 아키텍처 ’Helios’를 선보일 계획이다.11 이는 NVIDIA의 Vera Rubin 기반 랙 시스템과 정면으로 경쟁하겠다는 의지를 보여준다.

두 기업의 로드맵 경쟁 속에서 한 가지 주목할 만한 변수는 계획의 실행 가능성이다. 일부 비공식적인 소스에 따르면, NVIDIA는 AMD의 빠른 추격에 대응하기 위해 Blackwell과 Rubin의 출시 일정을 조정하거나 설계를 변경해야 했다는 주장이 제기되었다.16 NVIDIA가 제시하는 1년 주기의 로드맵은 극도로 복잡한 하드웨어와 소프트웨어의 통합을 요구하는 매우 도전적인 목표다. 만약 이 과정에서 약간의 지연이라도 발생한다면, 이는 공격적으로 추격하는 AMD에게 시장 점유율을 빼앗을 수 있는 중요한 기회의 창을 제공할 수 있다. 따라서 향후 몇 년간 두 회사가 발표한 로드맵을 얼마나 충실히 이행하는지가 시장 판도를 결정하는 중요한 관전 포인트가 될 것이다.

7. 시장 동향 및 전략적 시사점

기술적 경쟁의 최종 결과는 시장의 선택으로 나타난다. AI 가속기 시장의 동향, 특히 막대한 구매력을 가진 하이퍼스케일러들의 전략적 결정은 두 기업의 미래를 좌우할 가장 중요한 변수다. 이 장에서는 시장 점유율 현황을 살펴보고, 주요 고객들의 동향과 제품의 경제성을 분석하여 전략적 시사점을 도출한다.

7.1 시장 점유율 현황

현재 데이터센터 AI 가속기 시장은 여전히 NVIDIA의 압도적인 지배하에 있다. 시장 분석 기관인 Jon Peddie Research에 따르면, 2025년 2분기 기준으로 NVIDIA는 데이터센터 AI 프로세서 시장의 95%를 점유하고 있는 것으로 추정된다.47 이는 지난 수년간 CUDA 생태계를 기반으로 구축된 강력한 시장 지배력을 명확히 보여주는 수치다.

하지만 이러한 시장 점유율은 과거의 판매 실적을 반영하는 후행 지표라는 점을 인지해야 한다. AI 시장이 폭발적으로 성장하고, 공급 부족 현상이 심화되면서 시장 구도는 급변하고 있다. 미래 시장의 판도를 예측하기 위해서는 현재의 점유율 수치보다, 앞으로 대규모 구매를 결정할 주요 고객들의 계약 동향과 전략적 의도를 살펴보는 것이 훨씬 더 중요하다.

7.2 하이퍼스케일러의 선택: 공급망 다변화와 전략적 베팅

데이터센터 AI 인프라의 가장 큰 손인 하이퍼스케일러(대규모 클라우드 서비스 제공업체)들은 최근 몇 가지 중요한 도전에 직면해 있다. 첫째는 NVIDIA GPU의 만성적인 공급 부족 문제이며, 둘째는 단일 공급업체에 대한 과도한 의존이 가져오는 가격 협상력 약화와 공급망 리스크다. 이러한 배경 속에서, 하이퍼스케일러들은 안정적인 공급망을 확보하고 기술 선택의 폭을 넓히기 위해 AMD를 전략적인 대안으로 적극 채택하기 시작했다. 이는 현재 시장에서 나타나는 가장 중요한 변화이며, AMD에게는 절호의 기회다.7

  • 주요 채택 사례:

  • Microsoft Azure: Microsoft는 자사의 클라우드 플랫폼인 Azure에 MI300X 기반의 가상머신(VM) 인스턴스를 출시했을 뿐만 아니라, GPT-4와 같은 자체 AI 서비스 운영에도 AMD GPU를 적극적으로 활용하고 있다.37

  • Oracle Cloud: Oracle은 가장 공격적으로 AMD와 협력하는 하이퍼스케일러 중 하나다. Oracle Cloud Infrastructure(OCI)에 MI300X를 대규모로 도입했으며, 한발 더 나아가 차세대 MI450 GPU 50,000개를 사용하여 거대한 AI 슈퍼클러스터를 구축하겠다는 야심 찬 계획을 발표했다.16

  • Meta: Facebook과 Instagram을 운영하는 Meta는 자사의 거대 언어 모델인 Llama의 추론 서비스에 MI300X를 광범위하게 배포하여 사용하고 있다.37 이는 ROCm 소프트웨어 스택이 실제 대규모 상용 서비스 환경에서도 안정적으로 운영될 수 있음을 증명하는 중요한 사례다.

  • OpenAI: AI 시대를 연 장본인인 OpenAI마저 공급망 다변화에 나섰다. OpenAI는 AMD와 수십억 달러 규모의 다년 파트너십을 체결하고, 2026년 하반기부터 자사의 차세대 AI 인프라에 AMD Instinct GPU를 대규모로 배포할 계획이라고 밝혔다.11

이러한 하이퍼스케일러들의 움직임은 AMD가 단순한 ’대안’을 넘어, NVIDIA와 실질적으로 경쟁할 수 있는 ’필수 공급자’로 인정받고 있음을 의미한다.

7.3 경제성 분석: TCO와 클라우드 가격

AI 인프라를 구축하고 운영하는 데 있어 총소유비용(TCO)은 핵심적인 고려사항이다. AMD는 칩렛 설계와 대용량 온보드 메모리를 통해 특정 워크로드, 특히 여러 GPU에 모델을 분산해야 하는 대규모 추론 작업에서 더 나은 TCO를 제공할 수 있다고 주장한다.16

실제 사용자가 체감하는 비용은 클라우드 서비스 제공업체들이 책정하는 GPU 인스턴스 가격을 통해 가장 직접적으로 확인할 수 있다. 클라우드 GPU 가격은 제공업체, 지역, 계약 기간, 그리고 수요와 공급에 따라 매우 유동적이다. 일반적으로 AWS, Azure, Google Cloud와 같은 대형 하이퍼스케일러는 Lambda, Vultr, RunPod과 같은 전문 GPU 클라우드 제공업체보다 높은 가격을 책정하는 경향이 있다.

  • 가격 비교 (시간당, GPU당, On-Demand 기준):

  • AMD MI300X: 전문 클라우드인 Vultr나 TensorWave에서는 시간당 $1.50에서 $3.99 사이의 비교적 저렴한 가격에 제공된다. 반면, 대형 클라우드인 Azure에서는 동일한 GPU가 시간당 $7.86에 제공되어 상당한 가격 차이를 보인다.49

  • NVIDIA H200: AWS의 EC2 Capacity Blocks를 통해 예약할 경우 시간당 $4.33 수준에서 시작하지만, Azure에서는 시간당 $10.60에 달하는 높은 가격에 제공된다.52

  • NVIDIA B200: 최신 플래그십 제품인 B200은 초기 공급량이 적어 가격이 매우 높게 형성되어 있다. 전문 클라우드인 DataCrunch에서 시간당 $3.99에 제공되는 사례가 있지만, AWS에서는 시간당 $14를 훌쩍 넘는 가격이 책정되어 있다.49

이러한 가격 차이는 AMD가 하드웨어 비용 측면에서 경쟁력을 가지고 있음을 시사한다. 하지만 TCO는 단순한 하드웨어 가격뿐만 아니라, 소프트웨어 개발 및 최적화 비용, 전력 효율, 그리고 실제 워크로드에서의 성능을 모두 고려해야 하므로, 사용자는 자신의 특정 요구사항에 맞춰 종합적으로 판단해야 한다.

표 4: 주요 클라우드 제공업체별 GPU 인스턴스 가격 비교 (On-Demand 기준)

GPU 모델클라우드 제공업체인스턴스/SKU가격 ($/GPU/시간)비고
AMD MI300XAzureND MI300X v5 (8-GPU)$7.86하이퍼스케일러 가격
Oracle CloudBM.GPU.MI300X.8$6.00베어메탈
Vultrsingle-GPU$1.85전문 클라우드 최저가 수준
NVIDIA H200AWSp5e.48xlarge (8-GPU)$4.33 - $5.41EC2 Capacity Blocks 기준
AzureStandard_ND96isr_H200_v5$10.60하이퍼스케일러 최고가
Lambda Cloud1x H200$3.79전문 클라우드
NVIDIA B200AWS8x B20014.24 (113.93/8)온디맨드
DataCrunch1x B200$3.99전문 클라우드 최저가
Google CloudA4 VM (HGX B200)사용 가능 (가격 미정)-

자료: 49 등 종합

8. 결론: 경쟁 구도 종합 및 미래 전망

AI 컴퓨팅 시장은 지난 2년간 극적인 변화를 겪었다. NVIDIA의 독주 체제가 굳건했던 시장에 AMD가 강력한 도전자로 등장하면서, 기술 혁신과 시장 경쟁은 새로운 국면을 맞이했다. 본 보고서에서 다각적으로 분석한 바와 같이, 두 기업의 경쟁은 단순한 성능 경쟁을 넘어 아키텍처 철학, 소프트웨어 생태계 전략, 그리고 시장 접근 방식 전반에 걸친 근본적인 대립 구도를 형성하고 있다.

현재 구도 요약:

NVIDIA는 여전히 AI 컴퓨팅 시장의 절대 강자다. 20년에 걸쳐 구축한 CUDA라는 소프트웨어 해자는 그 어떤 경쟁자도 쉽게 넘볼 수 없는 강력한 경쟁 우위이며, Blackwell 아키텍처와 랙 스케일 시스템을 통해 보여준 시스템 수준의 통합 능력은 기술 리더십을 공고히 하고 있다. 압도적인 시장 점유율과 개발자들의 높은 충성도는 NVIDIA의 지배력이 단기간에 흔들리지 않을 것임을 시사한다.

그러나 AMD는 더 이상 무시할 수 없는 유의미한 경쟁자로 빠르게 부상했다. 혁신적인 3D 칩렛 아키텍처를 기반으로 한 Instinct 시리즈는 LLM 시대에 가장 중요한 요소인 메모리 용량과 대역폭에서 확실한 우위를 점했다. 이는 하드웨어의 TCO 경쟁력으로 이어졌고, NVIDIA의 독점적 공급망에 대한 대안을 찾던 하이퍼스케일러들의 폭발적인 지지를 이끌어내는 데 성공했다. Microsoft, Oracle, Meta, 그리고 OpenAI와 같은 거대 기업들의 대규모 채택은 AMD의 기술력과 ROCm 소프트웨어의 성숙도를 시장이 인정한 결과다.

미래 전망:

  • 단기 (1-2년): 경쟁의 초점은 LLM 추론 시장에 맞춰질 것이다. 추론은 전체 AI 워크로드 비용의 대부분을 차지하며, AMD의 대용량 메모리 아키텍처는 이 분야에서 특히 강점을 보인다. AMD는 하이퍼스케일러와의 협력을 통해 추론 시장에서의 점유율을 의미 있는 수준까지 확대할 가능성이 높다. 이에 맞서 NVIDIA는 Blackwell Ultra 및 차세대 소프트웨어 스택(TensorRT-LLM, Dynamo 등)을 통해 성능 격차를 유지하며 시장 지배력을 방어하려 할 것이다. 이 기간 동안 AMD의 성공 여부를 가를 가장 중요한 변수는 ROCm 소프트웨어 스택이 얼마나 빠르고 안정적으로 성숙하여 더 넓은 범위의 개발자들과 워크로드를 지원할 수 있느냐에 달려있다.

  • 장기 (3-5년): 경쟁 구도는 ’폐쇄형 수직 통합 생태계(NVIDIA)’와 ‘개방형 부품 기반 생태계(AMD와 파트너 연합)’ 간의 거대한 이념적 대결로 심화될 것이다. AMD가 주도하는 UAL과 같은 개방형 인터커넥트 표준이 성공적으로 안착하고, 다양한 벤더의 하드웨어를 자유롭게 조합할 수 있는 환경이 조성된다면, NVIDIA의 강력한 벤더 종속 전략은 심각한 도전에 직면할 수 있다. 또한, Mixture-of-Experts(MoE)나 멀티모달(Multi-modal) 모델과 같이 미래 AI 모델의 발전 방향이 어떤 아키텍처(대용량 메모리 vs. 초고속 인터커넥트)에 더 유리하게 작용할지도 중요한 관전 포인트가 될 것이다.

결론적으로, AI 컴퓨팅 시장은 NVIDIA의 일방적인 독주 체제에서, 강력한 2인자가 존재하는 건강한 과점(Duopoly) 체제로 점차 재편될 가능성이 높다. 이러한 경쟁 구도는 기술 혁신을 가속화하고, 소비자에게는 더 많은 선택권과 합리적인 가격을 제공하며, 전체 AI 산업의 발전에 긍정적인 영향을 미칠 것으로 전망된다. 앞으로 몇 년간 두 거인이 펼칠 기술과 전략의 향연은 21세기 가장 중요한 기술 패권을 결정하는 역동적인 서사가 될 것이다.

9. 참고 자료

  1. Battle of the giants: 8x Nvidia Blackwell B200 180GB vs. 8x AMD MI300X 192GB in FluidX3D CFD and OpenCL : r/hardware - Reddit, https://www.reddit.com/r/hardware/comments/1kj38r1/battle_of_the_giants_8x_nvidia_blackwell_b200/
  2. CUDA - Wikipedia, https://en.wikipedia.org/wiki/CUDA
  3. What Is CUDA? - Supermicro, https://www.supermicro.com/en/glossary/cuda
  4. AMD Instinct MI300X vs. NVIDIA H100 - TRG Datacenters, https://www.trgdatacenters.com/resource/mi300x-vs-h100/
  5. Comparison of the Latest AI Chips: NVIDIA H100, AMD MI300, Intel Gaudi3, and Apple M3, https://dolphinstudios.co/comparing-the-ai-chips-nvidia-h100-amd-mi300/
  6. AMD and Nvidia AI GPUs comparison - Jon Peddie Research, https://www.jonpeddie.com/techwatch/amd-and-nvidia-ai-gpus-comparison/
  7. Repeat after me: MI300X is not equivalent to H100, it’s a lot better! : r/AMD_Stock - Reddit, https://www.reddit.com/r/AMD_Stock/comments/19bf4mq/repeat_after_me_mi300x_is_not_equivalent_to_h100/
  8. NVIDIA H100 vs AMD MI300: Unveiling the Ultimate AI Chip Showdown - SourceIT, https://sourceit.com.sg/blogs/news/nvidia-h100-vs-amd-mi300-unveiling-the-ultimate-ai-chip-showdown
  9. Empowering AI: A Detailed Comparison of AMD Instinct MI300X and NVIDIA H100 GPUs for Large-Scale Clusters - TensorWave, https://tensorwave.com/blog/empowering-ai-a-detailed-comparison-of-amd-instinct-mi300x-and-nvidia-h100-gpus-for-large-scale-clusters?ref=ghost.twave.zone
  10. NVIDIA’s Latest Roadmap Emphasizes System Integration Over Silicon Gains - TechInsights, https://library.techinsights.com/search/sectioned-blog-viewer/a183aab7-ae4e-4067-aef8-263c3b3f738f
  11. AMD’s new AI roadmap spans new Instinct GPUs, networking, software, and rack architectures | TechSpot, https://www.techspot.com/news/108297-amd-new-ai-roadmap-spans-gpus-networking-software.html
  12. High Performance Supercomputing | NVIDIA Data Center GPUs, https://www.nvidia.com/en-us/data-center/data-center-gpus/
  13. The Engine Behind AI Factories | NVIDIA Blackwell Architecture, https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/
  14. NVIDIA H100 Tensor Core GPU Datasheet - Megware, https://www.megware.com/fileadmin/user_upload/LandingPage%20NVIDIA/nvidia-h100-datasheet.pdf
  15. Nvidia Draws GPU System Roadmap Out To 2028 - The Next Platform, https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/
  16. AMD Instinct MI355X: Examining Next-Generation Enterprise AI Performance - Reddit, https://www.reddit.com/r/AMD_Stock/comments/1nfh6kh/amd_instinct_mi355x_examining_nextgeneration/
  17. AMD’s MI300X Takes On H100 - TechInsights, https://www.techinsights.com/blog/amds-mi300x-takes-h100
  18. amd-cdna-3-white-paper.pdf, https://www.amd.com/content/dam/amd/en/documents/instinct-tech-docs/white-papers/amd-cdna-3-white-paper.pdf
  19. MI300A Architecture and Programming model - HLRS, https://fs.hlrs.de/projects/par/events/2025/HY-HLRS/pdf/MI300A_APU_ArchitectureAndProgrammingModelsOverview.pdf
  20. NVIDIA Blackwell & AMD MI325X Showdown In Latest MLPerf Inference Benchmarks: B200 Shatters Records, Instinct Fights Against Hopper - Wccftech, https://wccftech.com/nvidia-blackwell-amd-mi325x-showdown-mlperf-inference-benchmarks/
  21. NVIDIA H100 | Tensor Core GPU, https://www.res.restargp.com/wp1/wp-content/uploads/2023/01/nvidia-h100-datasheet-2287922-web.pdf
  22. AMD Accelerates Pace of AI Innovation and Leadership with …, https://www.edge-ai-vision.com/2024/06/amd-accelerates-pace-of-ai-innovation-and-leadership-with-expanded-amd-instinct-gpu-roadmap/
  23. H100 white paper - Jingchao’s Website, https://jingchaozhang.github.io/H100-white-paper/
  24. AMD Instinct MI300X GPU and MI300A APUs Launched for AI Era - Page 2 of 7, https://www.servethehome.com/amd-instinct-mi300x-gpu-and-mi300a-apus-launched-for-ai-era/2/
  25. AMD: Instinct MI350 GPUs Use Memory Edge To Best Nvidia’s …, https://www.crn.com/news/components-peripherals/2025/amd-instinct-mi350-gpus-use-memory-edge-to-best-nvidia-s-fastest-ai-chips
  26. Accelerating Generative AI: How AMD Instinct™ GPUs Delivered Breakthrough Efficiency and Scalability in MLPerf Inference v5.1, https://www.amd.com/en/blogs/2025/accelerating-generative-ai-how-instinct-gpus-delivered.html
  27. CUDA Toolkit - Free Tools and Training | NVIDIA Developer, https://developer.nvidia.com/cuda-toolkit
  28. CUDA Zone - Library of Resources | NVIDIA Developer, https://developer.nvidia.com/cuda-zone
  29. About CUDA | NVIDIA Developer, https://developer.nvidia.com/about-cuda
  30. ROCm - Wikipedia, https://en.wikipedia.org/wiki/ROCm
  31. AMD ROCm™ Software, https://www.amd.com/en/products/software/rocm.html
  32. AMD ROCm™ Software - GitHub Home, https://github.com/ROCm/ROCm
  33. 5 REASONS TO CHOOSE THE AMD ROCm™ PLATFORM, https://www.amd.com/content/dam/amd/en/documents/partner-hub/instinct/why-choose-rocm-platform.pdf
  34. AMD Accelerates Pace of Data Center AI Innovation and Leadership with Expanded AMD Instinct GPU Roadmap, https://ir.amd.com/news-events/press-releases/detail/1201/amd-accelerates-pace-of-data-center-ai-innovation-and-leadership-with-expanded-amd-instinct-gpu-roadmap
  35. AMD ROCm 7.0 Software: Supercharging AI and HPC Infrastructure with AMD Instinct Series GPUs and Open Innovation, https://www.amd.com/en/blogs/2025/rocm7-supercharging-ai-and-hpc-infrastructure.html
  36. AMD Launches ROCm 7.0, Up to 3.8x Performance Uplift Over ROCm 6.0 | TechPowerUp, https://www.techpowerup.com/341074/amd-launches-rocm-7-0-up-to-3-8x-performance-uplift-over-rocm-6-0
  37. AMD AIPs are going to have a great 2H ’26 – Jon Peddie Research, https://www.jonpeddie.com/news/amd-aips-are-going-to-have-a-great-2h-26/
  38. AMD Talks ROCm: What It Is & Where It’s Going | TFN Extra Edition : r/AMD_Stock - Reddit, https://www.reddit.com/r/AMD_Stock/comments/1n76v31/amd_talks_rocm_what_it_is_where_its_going_tfn/
  39. AMD ROCm 6 Updates & What is HIP? : r/AMD_Stock - Reddit, https://www.reddit.com/r/AMD_Stock/comments/1e19la9/amd_rocm_6_updates_what_is_hip/
  40. ROCm 6.0 released : r/StableDiffusion - Reddit, https://www.reddit.com/r/StableDiffusion/comments/18jssne/rocm_60_released/
  41. AMD ROCm @ Computex 2025 - YouTube, https://www.youtube.com/watch?v=0B8JOtS2Tew
  42. MLPerf Inference 4.0 Results Showcase GenAI; Nvidia Still Dominates - HPCwire, https://www.hpcwire.com/2024/03/28/mlperf-inference-4-0-results-showcase-genai-nvidia-still-dominates/
  43. Technical Dive into AMD’s MLPerf Inference v5.1 Submission — ROCm Blogs, https://rocm.blogs.amd.com/artificial-intelligence/mlperf-inference-v5.1/README.html
  44. MLPerf Inference v5.1 Results Land With New Benchmarks and Record Participation, https://www.hpcwire.com/2025/09/10/mlperf-inference-v5-1-results-land-with-new-benchmarks-and-record-participation/
  45. NVIDIA Blackwell Ultra Sets New Inference Records in MLPerf Debut, https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inference-records-in-mlperf-debut/
  46. NVIDIA Sets New Generative AI Performance and Scale Records in MLPerf Training v4.0, https://developer.nvidia.com/blog/nvidia-sets-new-generative-ai-performance-and-scale-records-in-mlperf-training-v4-0/
  47. AI processor sales are moving all the needles - Jon Peddie Research, https://www.jonpeddie.com/news/ai-processor-sales-are-moving-all-the-needles/
  48. Why, with 137 competitors already in the field, would OpenAI go custom?, https://www.jonpeddie.com/news/why-with-137-competitors-already-in-the-field-would-openai-go-custom/
  49. GPU Price Comparison [2025] - GetDeploying, https://getdeploying.com/reference/cloud-gpu
  50. Standard-ND96isr-MI300X-v5 Pricing and Specs: Azure VM, https://costcalc.cloudoptimo.com/azure-pricing-calculator/vm/Standard-ND96isr-MI300X-v5
  51. AMD MI300X Pricing (September 2025): Cheapest High‑Memory GPUs in the Cloud, https://www.thundercompute.com/blog/amd-mi300x-pricing
  52. NVIDIA H200 Price Guide for 2025 - ionstream, https://ionstream.ai/nvidia-h200-price-guide-for-2025/
  53. Nvidia H200 Price: 2025 Cost Breakdown & Cheapest Cloud Options | Jarvislabs.ai Docs, https://docs.jarvislabs.ai/blog/h200-price
  54. NVIDIA H200 Price Comparison (September 2025) | Thunder Compute Blog, https://www.thundercompute.com/blog/nvidia-h200-pricing
  55. Amazon EC2 Capacity Blocks for ML pricing, https://aws.amazon.com/ec2/capacityblocks/pricing/
  56. Nvidia B200 - Price, Specs & Cloud Providers - GetDeploying, https://getdeploying.com/reference/cloud-gpu/nvidia-b200
  57. ROCm Revisited: Evolution of the High-Performance GPU Computing Ecosystem, https://rocm.blogs.amd.com/ecosystems-and-partners/rocm-revisited-ecosy/README.html
  58. LLM performance up 15.4%: MLPerf v5.1 confirms NVIDIA HGX B200 on Lambda is built for enterprise inference, https://lambda.ai/blog/lambda-mlperf-inference-v5.1