17.3 데이터 이동의 혁명: 차세대 네트워크 인프라
전 세계에서 방귀 꽤나 뀐다는 인공지능 연구소들이 제아무리 최신 엔비디아(NVIDIA) GPU를 만 장씩 사다 묶어놔도, 정작 그 무식한 칩들 사이사이를 오가는 데이터 고속도로가 개판이면 서버는 미친듯한 지연(Latency)에 빠져 멈춰버리고 만다. 결국 AI 전쟁의 넥스트 승부처는 “누가 칩 사이의 통신 브릿지 파이프를 더 크고 빠르게, 더 빛의 속도로 이을 수 있는가?“라는 피 말리는 인프라 배관 공사로 이동했다.
오직 GPU 연산칩 하나만 파는 회사로 남으려 했다면 엔비디아는 결국 네트워크 병목이라는 벼랑 끝에서 클라우드 빅테크(아마존, MS)의 통제에 먹혔을 것이다. 그러나 젠슨 황(Jensen Huang)은 수년 전부터 가장 공격적인 인수합병(M&A)과 기술 독점을 통해 통신 케이블(Interconnect)의 주도권마저 완벽하게 탈취해 버렸다.
이 장에서는 칩과 칩, 서버와 서버를 연결하는 혈관 그 자체를 설계하고 억압하며, 데이터센터 전체를 더 이상 개별 부품의 하우스가 아니라 사실상 ’거대한 단 하나의 엔비디아 반도체 제국’으로 세뇌시켜버린 무자비한 네트워크 인프라(InfiniBand, BlueField DPU, Spectrum-X, NVLink)의 폭주 과정을 낱낱이 해부한다.
17.3.1 신의 한 수가 된 멜라녹스(Mellanox) 인수와 인피니밴드(InfiniBand)의 지배력
2020년, 엔비디아(NVIDIA)가 무려 70억 달러라는 거대 자금을 들이박아 이스라엘의 네트워크 칩 전문 통신 장비 회사 **멜라녹스(Mellanox)**를 집어삼키려 했을 때, 시장은 젠슨 황(Jensen Huang)이 그래픽 칩이나 만들지 웬 뜬금없는 인터넷 랜선 장비를 사느냐며 비웃었다.
하지만 수년 뒤, 이 거대한 도박은 인류 IT 산업에서 가장 소름 돋는 ’신의 한 수’이자 글로벌 AI 클라우드의 숨통을 조이는 절대 목줄로 판명 났다. 멜라녹스가 가지고 있던 핵심 무기는 바로 일반적인 공용 데이터 도로망(이더넷)과는 차원이 다른, 오직 슈퍼컴퓨터들만의 초저지연 프라이빗 전용 고속도로 광케이블 규격인 **‘인피니밴드(InfiniBand)’**였다.
초거대 파라미터를 가진 현재의 언어 모델들은 단 0.001초의 데이터 통신 브레이크만 걸려도 수백 기가의 오류와 병목 지옥을 뿜어낸다. 엔비디아는 이 멜라녹스의 인피니밴드 통신망 기술을 자신들의 최고급 GPU 클러스터 깊숙한 단전까지 강제로 직결시켰다. 이로써 “엔비디아의 A100/H100 칩을 수천 개 묶어 가장 완벽한 성능을 내려면, 결국 우리 엔비디아(구 멜라녹스)의 비싼 인피니밴드 통신 스위치 랙 장비까지 덤으로 세트로 묶어서 사 가야 한다“는 역사상 가장 끔찍하고 징그러운 끼워팔기 콤보 상품을 탄생시켰다. GPU라는 엔진과 인피니밴드라는 바퀴를 하나로 융합시켜, 데이터센터 전체 부품의 이익률을 독식해 버리는 것이다.
17.3.2 블루필드(BlueField) DPU: 제3의 프로세서가 된 데이터 처리 장치
미친 듯이 밀려 들어오는 네트워크 데이터 트래픽의 암호를 풀고, 악성코드를 방화벽으로 걸러내고, 어느 칩에 데이터를 뿌려줄지 고민하는 서버의 잡다한 보안 교통정리 업무. 예전엔 이 쓸데없이 무거운 짐을 서버의 두뇌인 CPU가 억지로 감당하느라 정작 딥러닝 칩셋들은 손가락을 빨며 무한 지연 병목에 갇혔다.
그 막힌 목구멍을 칼로 뚫어버리기 위해 엔비디아(NVIDIA)가 탄생시킨 가장 기형적인 돌연변이 실리콘이 바로 **블루필드(BlueField) DPU(Data Processing Unit)**다. 블루필드는 “멍청한 CPU는 이런 통신 잡무 따위에 개입하지 마라“며, 데이터 패킷 전송, 스토리지 입출력, 보안 방화벽이라는 피곤한 인프라 관리 노동만을 전담하여 박살 내는 극단적 특수 부대다.
CPU와 GPU에 이어 이른바 **‘데이터센터 심장부의 제3의 뇌’**로 군림하게 된 블루필드 가속기가 서버의 문지기로 자리 잡으면서, 인류의 서버 효율성은 극단적으로 스펙업되었다. 그러나 한 꺼풀 뒤집어 보면, 결국 수조 원 대의 거대 클라우드 서버의 대문 입구 트래픽 통제 권력마저 인텔(Intel)이나 서버 회사(Dell, HP)의 통제를 벗어나, 젠슨 황(Jensen Huang)이 만든 실리콘 장부책 아래 완벽하게 포위당했음을 알리는 섬뜩한 점령의 징표다.
17.3.3 범용 네트워크의 진화: AI 팩토리를 위한 이더넷 플랫폼, 스펙트럼-X(Spectrum-X)
엔비디아(NVIDIA)가 폐쇄적인 귀족층 수퍼컴퓨터를 위한 인피니밴드(InfiniBand)로만 돈을 끌어모을 것이라 생각했다면 오산이다. 세상에 널리고 널린 대다수의 중소기업과 일반 구형 서버들은 그 비싼 인피니밴드 전용 케이블을 뚫을 돈이 없다. 그들은 여전히 싸구려 범용 인터넷 광케이블 규격인 ’이더넷(Ethernet)’에 묶여 있다.
그러나 엔비디아의 탐욕은 ഈ 가장 거대하고 잡다한 이더넷 생태계 바닥 장판 파이마저 뜯어먹기 위해 기형적인 네트워크 통합 괴물, **스펙트럼-X(Spectrum-X)**를 시장에 투하했다. 기존에 대역폭의 한계로 싸구려 병목 취급받던 이더넷 환경에 블루필드(BlueField-3) DPU와 특수 스위치를 끼얹어, 패킷 전송 타이밍을 강제로 나노초(ns) 단위로 통제하고 잡음을 밀어버리는 마개조를 감행한 것이다.
“당신네 허접한 싸구려 이더넷 선들을 그대로 쓰면서도, 인피니밴드급 성능으로 딥러닝 AI 공장(AI Factory)을 돌리게 해 주겠다.” 세상 모든 데이터센터 네트워크의 지배력을 독식하려는 무자비한 하향 평준화 병탄 전략. 스펙트럼-X는 엔비디아가 하이엔드 슈퍼컴퓨터의 꼭대기 천장을 넘어, 이제 일반 기업 전산실의 가장 밑바닥 싸구려 이더넷 허브에까지 쿠다(CUDA)의 깃발을 꽂아버리는 섬뜩한 영토 확장 침공이다.
17.3.4 NVLink와 NVSwitch: GPU 간 연결을 극대화하는 초고속 인터커넥트 기술
엔비디아(NVIDIA)의 H100이나 블랙웰(Blackwell) 칩 8개를 하나의 상자(보드) 안에 때려 넣었을 때, 서로 간의 데이터 통신을 위해 저질스러운 일반 PC의 구리선 규격인 대역폭(PCIe)을 사용한다면 아무리 칩이 비싸도 통신 파이프라인의 좁은 구멍 때문에 100% 뇌졸중에 걸려 즉사하고 만다.
엔비디아는 남들이 칩을 깎는 일에 미쳐 있을 때, 이 칩들끼리 데이터를 피처럼 수혈하는 대동맥을 자신들만의 폐쇄적인 외계 규격으로 독점 설계해 버렸다. 그것이 바로 초당 수 테라바이트(TB/s)의 막대한 피를 강제로 펌핑하는 가장 징그러운 촉수 배관망, **‘NVLink’**와, 이 촉수 수백 개를 교통정리 해주는 거대한 교환원 스위치인 **‘NVSwitch’**다.
이 NVLink의 존재 이유는 명멸하면서도 파괴적이다. 엔비디아의 GPU가 아니면 이 완벽하고 빠른 파이프에 케이블을 꽂을 구멍(호환성) 자체를 허락하지 않는다. AMD나 인텔 가우디 칩이 아무리 스펙상 엔비디아를 넘어선다 한들, 이미 NVLink로 묶여 거대한 하나의 단일 뇌처럼 작동하는 엔비디아 256개 랙 클러스터의 절대 텐션 앞에서는 속수무책으로 짓밟힐 수밖에 없다. 타사의 칩 진입을 결코 허락하지 않는 가장 완벽한 폐쇄성을 지닌 이기적인 고속도로, 이것이 가장 하드웨어적인 방법의 완벽한 고객 예속 락인(Lock-in) 기술이다.