14.4 실패를 기술적 자산으로 바꾸는 집단 지성

14.4 실패를 기술적 자산으로 바꾸는 집단 지성

혁신은 필연적으로 실패의 시체를 깔고 앉아야만 꽃을 피운다. 에디슨이 전구를 발명하기 위해 수천 번의 실험을 망쳤듯, 엔비디아(NVIDIA)의 수백억 개짜리 실리콘 트랜지스터 역시 수많은 오류(Bug)와 폐기된 설계도의 무덤 위에서 탄생했다.
하지만 실패가 단순히 돈낭비로 그치지 않기 위해서는, 그 망가진 쓰레기 더미 속에서 반드시 수학적 교훈을 채굴해 흩뿌리는 과학적인 ’데이터 재활용 시스템’이 필수적이다.

14.4장에서는 엔비디아가 어떻게 그 고통스러운 실패의 경험들을 회사 전체의 영구적인 기술 자산으로 연성해 내는지, 그 소름 돋는 ’집단 지성(Collective Intelligence)’의 구조를 뜯어본다.
눈물을 쏙 빼는 질책 대신 차가운 데이터만을 들이대는 ‘철저한 사후 분석(Post-mortem)’ 시스템부터, 어제 내가 한 실수를 지구 반대편의 동료가 절대 반복하지 않도록 만드는 무자비한 지식의 데이터베이스화(Database), 그리고 성공한 범생이보다 처참하게 깨지고 돌아온 도전자의 가치를 더 높게 매기는 기괴한 인사 평가 기준까지. 실패를 처형대로 보내지 않고 오히려 혁신의 가장 강력한 연료(Fuel)로 변모시킨 엔비디아의 연금술을 조명한다.

14.4.1 감정을 배제한 철저한 사후 분석(Post-mortem) 시스템

거대 프로젝트가 처참하게 실패했을 때, 보통 권위적인 회사의 회의실에서는 고성이 오가고 징계 위원회가 열린다. 하지만 엔비디아(NVIDIA)에서는 누군가 폭탄을 터뜨렸을 때, 질책 대신 ‘부검(Post-mortem) 회의’ 라고 불리는 극도로 차갑고 기계적인 데이터 분석 회의가 벌어진다.

이 부검 회의의 핵심 룰은 오직 하나. ‘인간의 감정과 이름표를 완벽하게 배제하는 것’ 이다.
회의실 화이트보드에는 “김 수석이 코드를 잘못 짰다“라는 문장은 절대 적히지 않는다. 대신 “X라는 상황에서 캐시 메모리가 Y 초과했을 때 시스템이 알람을 울리지 못한 구조적 결함“이라는 건조한 물리적 ’현상’만이 철저하게 해부된다.

누군가를 비난하기 위한 회의가 아니라는 점이 명확해지자, 실패를 저지른 당사자 본인이 오히려 가장 신나서(?) 자신의 삽질 과정을 발표하는 기이한 풍경이 연출된다. “내가 이 코드를 짤 때 이런 변수를 고려하지 못했더니 시스템이 연쇄 폭발을 일으켰다!”
젠슨 황(Jensen Huang)은 이 감정이 거세된 분석 과정을 ’엔비디아 최고의 사내 학습 학교’로 삼았다. 특정 개인을 벌주면 그 한 명을 잃지만, 그 실패의 원인을 분자 단위로 해부해 팀원 100명에게 공유하면 회사는 그 실패 비용보다 100배 큰 면역력을 한꺼번에 얻게 되기 때문이다.

14.4.2 같은 실수를 반복하지 않기 위한 지식의 데이터베이스화

부검 회의를 통해 모인 수많은 ’피투성이의 실패 기록’들은 회의실을 나서는 순간 공중으로 흩어지지 않는다. 엔비디아(NVIDIA)는 이 실패의 기록물들을 긁어모아 회사에서 가장 중요하고 소중한 ‘사내 오류 데이터베이스(Database)’ 로 박제해 버린다.

아무리 천재들이 모인 조직이라 할지라도 사람인 이상 실수를 한다. 가장 끔찍한 조직의 낭비는, 미국 실리콘밸리 본사의 직원이 3개월간 매달려 실패했던 칩 레이아웃을, 1년 뒤 이스라엘 연구소의 다른 직원이 똑같은 방식으로 삽질하며 시간을 버리는 것이다.
엔비디아는 이런 중복된 삽질을 원천 차단하기 위해, 프로젝트가 실패했을 경우 그 과정과 결론 코드를 사내 아카이브 공간에 모조리 기록하도록 강제한다.

graph TD
    A[NVIDIA의 징그러운 실패 데이터베이스 무덤]
    
    A --> B[미국 본사에서 프로젝트 A 대실패]
    B --> C[부검Post-mortem 후 '이렇게 하면 폭발함' 데이터 아카이브 등재]
    
    C --> D[1년 뒤 이스라엘 팀에서 유사한 프로젝트 B 시도]
    D --> E[코드 알고리즘 설계 전 오류 데이터베이스 자동 크로스 체크]
    
    E --> F[과거 미국 본사의 실패 기록 팝업 경고]
    F --> G[이스라엘 팀은 과거의 3개월치 삽질을 0.1초 만에 건너뜀]
    
    G --> H((실패의 파편이 거대한 '집단 지능 도서관'으로 연성되어<br>3만 명 직원의 연산력 효율을 극단적으로 증폭시킴))
    
    style C fill:#333,stroke:#fff,stroke-width:2px,color:#fff
    style H fill:#f55,stroke:#333,stroke-width:2px,color:#fff

누군가가 낭비한 수백억 원짜리 실패의 코드는 사내망에 저장되어 후배 엔지니어들에게 가장 명확한 ‘오답 노트’ 역할을 수행한다. 이 방대한 오답 노트의 누적이야말로 경쟁사들이 함부로 따라올 수 없는 엔비디아의 ’보이지 않는 속도’의 원천이자 가장 값비싼 30년 치 코딩 매뉴얼 시스템이다.

14.4.3 성공보다 실패의 경험을 더 높이 평가하는 평가 기준

직원의 연봉을 매기는 인사 평가(HR Evaluation) 시즌. 보통의 대기업은 누가 매출을 많이 올리고 오류(Bug)를 안 냈는지를 놓고 줄을 세워 승진시킨다. 하지만 엔비디아(NVIDIA) 인사 평가 시스템에는 어딘가 나사가 하나 빠진 듯한 기괴한 항목이 존재한다. 바로 그 직원이 지난 1년간 ‘얼마나 어렵고 위험한 도전(Hardest Problem)에 자원했다가 처참하게 실패했는가’ 를 묻는 것이다.

안전한 기성 칩의 테스트 코드를 얌전하게 복사/붙여넣기 하여 버그 제로(Zero)를 달성한 A 사원과, 성공 확률 1%인 차세대 AI 반도체 폼팩터에 도전했다가 6개월을 허탕 치고 거대한 실패 로그만 남긴 B 사원이 있다고 치자.
단기적 재무 지표만 보면 얌전한 A 사원이 승진해야 마땅하다. 하지만 젠슨 황(Jensen Huang)의 조직에서는 파멸적 실패를 겪은 B 사원의 인사 고과가 훨씬 더 높게 책정되며, 월스트리트 기준 억대 연봉의 보너스와 스톡옵션이 그에게 쏟아진다.

“회사가 시키는 대로만 해서 달성한 성공(Success)은 혁신이 아니다. 그것은 기계가 할 일이다. 우리의 인간 천재들은 가장 많은 비용을 태우고, 가장 많이 넘어지며, 그 실패의 파편 속에서 새로운 문명을 캐내야 한다.”
엔비디아는 이 변태적일 정도로 ’실패에 너그러운 평가 기준’을 통해, 천재 엔지니어들이 안전한 사무실에 안주하려는 본능을 강제로 끄집어내어 매일 아침 폭탄이 터지는 전선의 한가운데로 스스로 걸어 들어가게끔 만든다.