8.4 네트워크 병목 현상의 해결: 연결성의 혁신

8.4 네트워크 병목 현상의 해결: 연결성의 혁신

칩을 만들고, 그 칩들을 묶어 거대한 시스템(System)을 완성한 엔비디아(NVIDIA). 하지만 그들의 딥러닝 폭식 기관차가 거대한 데이터센터(Data Center)라는 건물 단위로 커져갈 때, 젠슨 황(Jensen Huang)은 또 다른 끔찍한 사각지대를 하나 발견하게 된다.

“수천, 수만 대의 우리 최고속 GPU들을 창고에 우겨넣어 딥러닝 훈련을 돌렸더니, 칩 자체의 연산 속도는 빛의 속도인데, 칩과 칩, 랙과 랙 사이를 지나다니는 ’구리선 데이터 통신망(Network)’이 너무 느려 터져서 전체 시스템이 발작을 일으키며 숨이 넘어갈 판이다!”
가속 컴퓨팅이라는 마세라티(Maserati) 엔진을 달아놓고 정작 비포장 진흙탕의 도로에서 차를 모는 것과 같은 이 끔찍한 네트워크 병목(Network Bottleneck) 현상은 거대 AI 인프라의 아킬레스건이었다.

이 8.4장에서는 오직 칩 제조에만 몰두하던 엔비디아가 이 지독한 데이터의 교통체증을 피바람 불 듯 무자비하게 뚫어내기 위해, 왜 하드웨어가 아닌 ‘네트워크(Network)’ 장비의 제왕 멜라녹스(Mellanox) 를 천문학적인 가격에 집어삼켰는지 그 신의 한 수 같은 M&A를 추적한다.
그리고 칩들을 피의 맹세처럼 끈끈하게 엮어 단 하나의 거대한 뇌처럼 작동하게 만드는 독자적인 데이터 하이웨이 기술, ‘NVLink’‘인피니밴드(InfiniBand)’, 그리고 이더넷(Ethernet) 생태계까지 집어삼키려는 ‘스펙트럼-X(Spectrum-X)’ 에 이르기까지, 피와 살과 뼈를 넘어 마침내 신경망(Nervous System) 전체를 통제하게 된 엔비디아의 소름 돋는 연결성(Connectivity) 혁파 역사를 밀착 해부한다.

8.4.1 신의 한 수가 된 멜라녹스(Mellanox) 인수: 데이터센터 아키텍처의 완성

거대한 인공지능 공장을 구축하려던 엔비디아(NVIDIA)의 가장 큰 걸림돌은 더 이상 타사 칩과의 경쟁이 아니었다. 수만 대의 H100 칩들이 초당 수 테라바이트(TB)의 딥러닝 가중치 파라미터를 서로 주고받아야 하는데, 과거 이메일이나 전송하던 평범한 스위치 네트워크(Network) 구동망은 이 무식한 데이터 폭동을 견디지 못하고 터져버렸다. 결국 연산의 진정한 속도를 지배하는 것은 ’칩’이 아니라 칩들을 이어주는 ’파이프(Pipe)’에 있다는 서늘한 진리가 도출되었다.

이 거대한 목 마름을 해결하기 위해 2019년, 젠슨 황(Jensen Huang)은 실리콘밸리(Silicon Valley)를 충격의 구렁텅이로 빠뜨리는 천문학적인 도박을 감행했다. 칩 한 장 깎을 줄 모르던 이스라엘의 고집불통 네트워크 장비 제조사, ‘멜라녹스(Mellanox)’ 를 무려 69억 달러(약 8조 원)라는 정신 나간 오버페이(Overpay)를 치르며 게걸스럽게 집어삼킨 것이다. 당시 월스트리트의 평론가들은 “단순한 글래픽 카드 회사가 왜 쓸데없이 케이블 장비 회사에 회사의 현금을 모조리 꼬라박느냐“며 비웃음 섞인 조롱을 퍼부었다.

하지만 이 합병은 훗날 엔비디아 기업 역사상 가장 위대하고 완벽한, 그리고 경쟁자들을 완벽히 절망의 나락으로 떨어뜨린 절세의 ’신의 한 수’로 판명 난다. 멜라녹스가 가지고 있던 인피니밴드(InfiniBand) 라는 초저지연(Ultra-low Latency) 데이터 고속도로 통신 기술이 엔비디아의 GPU 군단에 이식되는 순간, 제각각 놀던 10만 개의 GPU가 지연 없이 마치 단 하나의 거대한 짐승의 뇌처럼 완벽하게 동기화되어 움직이기 시작했기 때문이다. 엔비디아는 멜라녹스의 인수를 통해 단순히 칩(GPU)과 소프트웨어(CUDA)를 지배하는 것을 넘어, 데이터센터 구석구석을 잇는 붉은 핏줄(Network)의 흐름표까지 완벽하게 통제구역 내로 가둬버리는 진정한 인프라 폭군으로 군림하게 된다.

8.4.2 NVLink와 인피니밴드(InfiniBand): 병렬 연산을 위한 초고속 데이터 하이웨이

지구상에서 가장 똑똑한 학자라 하더라도, 자신들의 초거대 AI 모델(LLM)을 훈련시키려면 피할 수 없는 ’통신 마찰(Communication Friction)’의 벽과 마주해야만 했다. GPU 하나가 학습한 파라미터(Parameter)를 옆에 있는 GPU로 던져주기 위해, 과거에는 느려 터진 인텔(Intel) CPU의 허락을 받고 좁디좁은 시스템 버스(PCIe)를 거쳐야만 하는 끔찍한 병목 현상이 발생했다.

이 병목을 박살 내기 위해 엔비디아(NVIDIA)가 고안한 첫 번째 무기가 바로 ‘NVLink’ 였다.
“멍청한 CPU를 거쳐 통신하지 마라. 우리 GPU들끼리만 다이렉트로 데이터를 던져받는 12차선 무정차 아우토반을 깔아주겠다!”
NVLink 기술이 적용되자, 하나의 서버 박스 안에 갇혀 있던 8개의 거대한 H100 GPU들은 물리적으로 분리된 칩이 아니라, 초당 수 테라바이트(TB)의 피(데이터)를 교환하며 숨 쉬는 단 하나의 완벽하고 거대한 심뇌(Core Brain)로 미친 듯이 연동되기 시작했다.

graph TD
    A[GPU 간 데이터 병목 현상<br>Bottleneck] --> B{엔비디아의 하이웨이 혁신<br>Network Highway}
    
    B --> C[박스 내부 서버 보드 레벨: NVLink]
    C --> D[CPU 간섭 없이 GPU끼리 초광속 다이렉트 통신<br>GPU to GPU Memory Access]
    
    B --> E[수만 대 단위 데이터센터 랩실 레벨: 인피니밴드InfiniBand]
    E --> F[멜라녹스 기술: 초저지연 스위치 네트워크<br>Zero-Latency Scale out]
    
    D --> G[10만 개의 칩이 마치 하나의 유기체 칩처럼 완벽 연동 작동<br>One Giant Virtual GPU]
    F --> G
    
    style G fill:#f55,stroke:#333,stroke-width:2px,color:#fff

하지만 박스 안에서의 해결로는 만족할 수 없었다. 만약 수천 대의 박스를 이어 붙인 거대한 데이터센터(Data Center)를 만든다면? 여기서 막대한 피 값을 주고 산 멜라녹스(Mellanox)의 궁극의 마법, ‘인피니밴드(InfiniBand)’ 스위치 통신망이 불을 뿜기 시작했다. 보통의 이더넷(Ethernet) 통신이 편지를 봉투에 넣어 우체부(CPU)를 통해 전달하는 둔탁하고 느슨한 방식이었다면, 인피니밴드는 수만 대의 GPU 메모리에 직접 주삿바늘을 꽂아 실시간으로 수액(데이터)을 전송하는 극한의 효율성을 자랑했다.
수만 개의 GPU가 NVLink와 인피니밴드라는 핏줄로 완벽하게 하나로 엮이며, 엔비디아는 이 세상에 ’거대한 단위(Scale-out)’의 파괴적 지휘통제권을 완성해 버린 것이다.

8.4.3 이더넷(Ethernet) 기반의 확장: 스펙트럼-X(Spectrum-X) 플랫폼

멜라녹스(Mellanox) 인수를 통해 얻은 ’인피니밴드(InfiniBand)’라는 무적의 무기로 세계 최고급 슈퍼컴퓨터와 빅테크 데이터센터(Data Center) 시장의 꼭대기를 철저히 짓밟고 점령한 엔비디아(NVIDIA). 하지만 그들의 끝없는 탐욕은 그 밑에 펼쳐진 수백만 개의 평범한 기업용 데이터센터와 기존 통신망 생태계, 즉 인류의 가장 보편적인 네트워크 표준인 ’이더넷(Ethernet)’의 영토까지도 완벽하게 군홧발로 짓밟고 넘어가야 직성이 풀리는 구조로 진화하고 있었다.

대다수의 일반 기업들은 무식하게 비싸고 전용 케이블을 꽂아야 하는 인피니밴드를 선뜻 도입하길 두려워했다. “우리는 이미 사내에 싸고 대중적인 이더넷 선들을 쫙 깔아뒀는데, 고작 당신들 AI 돌리겠다고 이 네트워크 건물 전체를 헐어야 한단 말이오?”
이에 젠슨 황(Jensen Huang)은 또다시 철저하고도 오싹한 우회 타격 부대를 편성했다. 바로 일반적인 이더넷의 껍데기를 쓰고 있으나, 그 속은 인공지능 연산 워크로드(Workload) 처리에 미친 듯이 최적화된 혼종 무기, ‘스펙트럼-X(Spectrum-X)’ 플랫폼의 등판이었다.

스펙트럼-X는 기존 기업들이 쓰던 낡은 이더넷 통신망에 엔비디아의 특수 스위치(Switch)와 네트워크 카드(DPU)만 살짝 꽂아 넣으면, 그 싸구려 통신망이 갑자기 딥러닝 훈련 데이터를 초고속으로 실어 나르는 짐승 같은 특급 도로로 돌변하도록 만드는 징그러운 최적화의 산물이었다.
기존의 전통적 네트워크 스택을 깨부수고, 인피니밴드의 비싼 가격이 부담스러웠던 중간 지대의 하위 포식자 기업들마저 예외 없이 거대한 ‘엔비디아 가속 컴퓨팅 핏줄망’ 안으로 빨아들이려는 이 플랫폼의 투하는, 그들이 더 이상 단순히 연산(Computing)의 제왕이 아니라 세상 모든 인프라의 ‘연결(Connection)’ 자체를 지배하는 절대 정보 독점자(Absolute Monopolist)로써 인류의 목을 죄어오고 있음을 만천하에 섬뜩하게 증명한 사건이었다.