16.3 파괴적 혁신을 꿈꾸는 AI 반도체 스타트업

100년 전의 낡은 틀(폰 노이만 구조) 안에서 GPU를 개조해 AI 시장을 지배한 엔비디아(NVIDIA)의 방식은, 결국 칩과 메모리 사이에서 병목 현상이라는 영원한 불치병을 지닌 채 전력만 무식하게 퍼먹는 비효율의 극치라는 비판에서 자유로울 수 없다.

이 틈새를 노리고 수조 원의 벤처 자본을 수혈받으며 등장한 ’실리콘밸리 반도체 게릴라’들은, 엔비디아가 쌓아 올린 상식의 틀을 완전히 파괴해 버리는 전혀 다른 문법의 외계인 칩셋을 깎아 시장의 판을 뒤엎으려 한다. 웨이퍼 조각을 자르지 않고 피자 판처럼 통째로 구워버리는 광기의 거대한 칩, 오직 언어 모델의 추론만을 위해 메모리 구조를 완전히 뒤바꿔버린 초고속 칩, 그리고 구시대 x86과 ARM 명령어의 종속을 부숴버리는 오픈소스 반도체 아키텍처 군단까지.

이 장에서는 엔비디아 쿠다(CUDA)의 해자를 정공법으로 돌파하는 대신, 칩셋의 형태와 수학의 설계도면 자체를 찢어버려 새로운 룰을 강요하는 천재 스타트업들의 섬뜩한 하드웨어 물리 혁명과, NPU(신경망처리장치) 엣지(Edge) 시장의 무서운 잠재력을 낱낱이 파헤친다.

16.3.1 세레브라스(Cerebras): 웨이퍼 스케일 엔진(WSE)이 가져온 물리적 한계 돌파

반도체 산업의 50년 된 절대 불문율은 동그란 실리콘 웨이퍼를 구운 뒤, 이를 우표만 한 크기로 수백 조각(Die) 내어 잘라 쓰는 것이었다. 칩과 칩 사이를 구리선과 기판으로 억지로 이어 붙이다 보니, 데이터가 그 경계를 넘어갈 때마다 심각한 병목 현상이 발생하고 전력은 하수구처럼 줄줄 샜다. 하지만 세레브라스(Cerebras)는 이 낡은 상식을 비웃듯, 웨이퍼를 자르지 않고 피자판처럼 통째로 하나의 거대한 칩으로 구워버리는 ’광기의 짓’을 저질렀다. 이것이 바로 아이패드만 한 압도적인 크기를 자랑하는 세계 최대의 AI 칩, 웨이퍼 스케일 엔진(Wafer Scale Engine, WSE)이다.

엔비디아(NVIDIA)가 GPU 수천 개를 거추장스러운 네트워크 케이블과 스위치로 엮어 거대한 클러스터를 구축할 때 필연적으로 발생하는 끔찍한 통신 지연을, 세레브라스는 그냥 칩 하나를 무식할 정도로 거대하게 키워 실리콘 내부에서 빛의 속도로 데이터를 주고받게 만듦으로써 완전히 분쇄해 버렸다. 이 거대한 괴물 칩 내부에는 수조 개의 트랜지스터와 수십 기가바이트(GB)의 초고속 코어 내장 메모리(SRAM)가 빽빽하게 때려 박혀 있어, 연산 장치와 메모리 사이의 거리를 물리적으로 지워버렸다.

수천 장의 뚱뚱한 GPU가 전력을 퍼먹고 헉헉대며 데이터를 주고받아야 할 거대 언어 모델(LLM)의 무거운 연산량을, 이 기괴하고도 거대한 단일 물리 칩 하나가 통째로 집어삼킨다. 칩과 칩을 연결하기 위한 엔비디아의 복잡한 ‘NVLink’ 해자 따위는 필요 없다는 듯, 원초적인 질량과 물리적 크기로 기존 하드웨어의 룰을 무자비하게 짓밟아버린 외계인 칩셋의 표본이다.

16.3.2 그로크(Groq): 언어 모델에 특화된 LPU(Language Processing Unit)의 초고속 추론

엔비디아(NVIDIA)의 GPU는 본래 화면의 픽셀을 여러 개 동시 다발적으로 찍어내기 위한 ’병렬 연산’의 왕자였다. 구조가 복잡해지면 수백 개의 일을 동시에 대충 나눌 때는 좋지만, 챗GPT처럼 한 단어 다음 단어를 차례대로 생각하며 뱉어내야 하는 순차적(Sequential) 텍스트 추론 앞에서는 메모리를 읽고 쓰느라 병목에 심하게 체한다.

이 결함을 정확히 후벼 판 스타트업이 바로 구글(Google) 출신 엔지니어가 세운 **그로크(Groq)**다. 이들은 자신들의 칩을 GPU도 NPU도 아닌, 오직 텍스트 언어 생성만을 박살 내기 위한 **LPU(Language Processing Unit)**라 명명했다.

그로크는 거대한 모델을 계산할 때 외부 메모리(HBM 등)에 데이터를 저장해 두고 매번 CPU처럼 왔다 갔다 하는 낡은 방식을 휴지통에 버렸다. 대신 칩 내부에 거대한 고속 SRAM을 직접 깔아버려, 메모리 단절 없이 연산 유닛에서 데이터 스트림이 폭설처럼 한 번에 쭉 밀려 내려가 폭격하도록 만들었다. 이 결과, 그로크를 사용한 언어 모델의 응답 속도는 엔비디아 GPU를 썼을 때보다 무려 수십 배 이상 번개처럼 빠르다. “화면 렌더링(GPU)용으로 쓰던 쓸데없는 기름기를 다 빼고, 오직 추론 속도 하나만으로 네 목을 치겠다“는 특화 칩셋의 가장 날카롭고 공포스러운 자객이 나타난 것이다.

16.3.3 텐스토렌트(Tenstorrent)와 짐 켈러: RISC-V 기반의 유연성과 전력 효율성

AMD, 애플(Apple), 테슬라(Tesla)의 심장부 칩셋을 직접 빚어내 ’실리콘 밸리의 반도체 설계 전설’로 불리는 신(God), 짐 켈러(Jim Keller). 그가 CEO로 합류하며 엔비디아(NVIDIA) 타도 최전선에 선 캐나다 스타트업 **텐스토렌트(Tenstorrent)**의 사상 체계는 완전히 파괴적이다.

인텔과 ARM이라는 기존 반도체 군주들이 쥐고 있는 독점적 폐쇄형 명령어(ISA) 규격을 경멸하며, 완전히 오픈소스로 풀려있는 누구나 마음대로 개조할 수 있는 무료 명령어 집합 **‘RISC-V(리스크 파이브)’**를 칩 설계의 척추로 삼아버린 것이다. 즉, 비싼 로열티의 족쇄 없이 고객(자동차 회사, 서버 회사)의 입맛에 맞게 코어를 조립식 블록처럼 무한 확장 칩셋(Chiplet) 구조로 맞춤 설계해 준다.

거기에 더해 인간의 뇌신경 구조를 닮아 활성화된 코어에만 전기를 쏘는 극단적인 텐서 그래프(Tensor Graph) 컴파일러 최적화 덕분에, 그들의 칩은 엔비디아 GPU 수천 장이 뿜어내는 수력 발전소급 전기 소모량을 비웃듯 압도적인 전력 대비 가성비를 뽑아낸다. 비대하고 뚱뚱한 쿠다(CUDA)의 군대에 맞서, 오픈소스 규격의 유연성과 이단적인 칩렛 결합으로 엔비디아 제국의 골목길을 야금야금 점령해 들어가는 반도체 게릴라의 수장이 바로 텐스토렌트다.

16.3.4 NPU(신경망처리장치) 생태계의 부상과 엣지(Edge) AI 시장의 경쟁자들

엔비디아(NVIDIA) 제국이 데이터센터의 어두운 서버랙 안에서 수천조 번의 행렬 곱셈 연산 권력을 틀어쥐고 있다면, 밝은 바깥세상(PC, 스마트폰, 사물인터넷, 자동차)에서는 젠슨 황(Jensen Huang)의 통제력이 뻗치지 않는 극렬한 반란의 NPU(Neural Processing Unit) 내전이 벌어지고 있다.

온디바이스(On-device) AI 시대, 즉 수경 단위의 데이터센터 서버를 거치지 않고 내 손안의 단말기에서 직접 AI가 추론을 끝내야 하는 엣지(Edge) AI 시장에서 뚱뚱하고 뜨거운 엔비디아 GPU는 절대 쓸 수 없는 폐기물이다. 이 거대한 공백을 집어삼키기 위해, 스마트폰 칩의 최강자 퀄컴(Qualcomm)의 스냅드래곤, 애플(Apple)의 실리콘 뉴럴 엔진, 인텔의 코어 울트라(Core Ultra), 그리고 수많은 국내외 팹리스 기업들이 독자적인 NPU를 박아넣어 기기 자체 연산 권력을 구축하고 폭주하고 있다.

결국 AI의 최종 전쟁터가 훈련(Training) 센터의 중앙집권적 폭정에서 벗어나, 개별 기기의 가벼운 추론(Inference) 게릴라전으로 분산 이동하는 날이 올 때, 엔비디아의 육중한 데이터센터 코끼리 군단은 작고 날렵하며 배터리 소모를 극도로 억제한 NPU 생태계 무리에게 뜯어 먹혀 도태될 수 있다는 뼈아픈 미래 시나리오가 웅크리고 있다.