엔비디아, '블랙웰' 기술 문제 최근 해결...'gpt-5.3-코덱스'가 증거 - ai타임스

엔비디아의 ‘블랙웰(Blackwell)’이 기술적인 복잡성 때문에 초기 도입 과정에서 주요 고객사들의 골칫거리였던 것으로 알려졌다. 이러한 기술적 난제는 최근 개선판 공급으로 해결 국면에 접어든 것으로 보이는데, 그 증거가 오픈AI의 최신 코딩 모델 'GPT-5.3-코덱스’라는 설명이다.

디 인포메이션은 5일(현지시간) 엔비디아와 메타 직원 등을 인용, 오픈AI와 메타 등 엔비디아의 고객들이 지난해 상당 기간 블랙웰 기반 서버를 안정적으로 구축하고 운영하는 데 어려움을 겪었다고 보도했다.

이로 인해 클라우드 사업자와 AI 기업들의 비용 부담과 개발 일정에도 차질이 빚어졌다는 내용이다.

젠슨 황 엔비디아 CEO는 1년 전부터 블랙웰 전환이 쉽지 않을 것이라고 예고한 바 있다. 그는 당시 “섀시와 시스템 아키텍처, 하드웨어, 전력 공급 방식까지 모두 바뀌어야 한다”라며 복잡성이 크게 높아졌다고 설명했다.

실제로 블랙웰, 특히 ‘그레이스 블랙웰(Grace Blackwell)’ 칩을 72개씩 묶어 하나의 서버로 구성하는 방식은 기존 세대보다 훨씬 까다로운 설치와 운용을 요구했다. 이전 세대 엔비디아 서버에서는 최대 8개의 칩만 연결할 수 있었고, 칩 간 통신 속도도 느렸다.

하지만 72개 칩을 하나의 서버로 촘촘히 연결하는 설계가 문제였다. 칩 간 통신 속도를 극대화해 초대형 AI 모델을 효율적으로 학습하겠다는 목표였지만, 칩 하나만 오류가 나도 수천개 칩으로 구성된 클러스터 전체를 멈추게 할 위험도 커졌다.

특히 AI 모델 학습 중 장애가 발생하면, 중단된 지점부터 다시 시작하는 데 수천달러에서 수백만 달러의 비용이 발생할 수 있다는 게 현장 관계자들의 설명이다.

이 때문에 오픈AI와 메타, 그리고 이들을 지원하는 클라우드 사업자들은 지난해 상당 기간 대규모 클러스터를 원하는 수준으로 가동하지 못한 것으로 알려졌다. 이전 호퍼 세대의 칩이 몇주 안에 현장 투입이 가능했던 것과 대조적이다.

이로 인해 일부 고객은 모델 학습 규모를 계획보다 줄이거나, 구형 칩 구매를 병행해야 했다.

블랙웰 출시 과정은 처음부터 순탄치 않았다. 2024년 여름부터 설계 결함으로 생산이 지연됐고, 초기 납품된 서버 랙에서는 과열과 연결성 문제가 잇따랐다. 마이크로소프트, 아마존웹서비스(AWS), 구글, 메타 등 주요 고객들이 주문량을 줄이거나 구형 칩으로 선회한 사례도 있었다. 일부 클라우드 사업자들은 “엔비디아가 하드웨어와 소프트웨어가 완전히 성숙하기도 전에 고객에게 공급하고 있다”고 불만을 토로했다.

엔비디아는 불만을 완화하기 위해 지난해 일부 고객에게 부분 환불이나 할인 조건을 제시한 것으로 알려졌다. 클라우드 사업자들도 비용 부담을 줄이기 위해 실제 사용량보다 적은 수량에 대해서만 비용을 지불하는 방식의 재협상을 진행했다.

오라클 클라우드는 블랙웰 칩 도입 지연으로 지난해 8월까지 3개월간 1억달러에 달하는 손실을 본 것으로 전해졌다. 고객이 하드웨어를 테스트하고 수용하는 데 시간이 걸리면서, 비용은 발생했지만 수익은 뒤따르지 못했기 때문이다.

엔비디아의 사업 전반에는 큰 타격이 없었다. 이런 기술적인 문제 때문에 구글의 TPU가 대안으로 주목받았지만, 엔비디아도 최근 기술적 문제 상당 부분을 해결했다는 것이다.

특히 2025년 하반기부터 블랙웰을 개선한 ‘GB300’ 칩을 선보였고, 냉각 성능과 커넥터 품질을 높여 안정성을 강화했다. 메타 엔지니어도 새로운 버전의 서버는 이전보다 연결과 운용이 수월하다고 전했다.

오픈AI 등 일부 고객은 주문 일부를 최신 버전으로 변경했다. 오픈AI는 며칠 전 공개한 코딩 모델 GPT-5.3-코덱스가 공동 설계(Co-design)한 72칩 서버에서 학습했다고 밝혔다. 이는 GB300의 대규모 활용이 본격 시작됐다는 것을 의미한다.

전문가들은 블랙웰의 초기 혼란이 엔비디아의 ‘공격적 혁신’ 전략에서 비롯됐다고 본다. 전직 엔비디아 임원은 “황 CEO는 한계를 밀어붙이는 방식을 선호하며, 오픈AI나 메타가 계획하는 규모에서 칩이 어떻게 동작할지 완벽히 예측하는 것은 현실적으로 불가능하다”라고 말했다.

하지만 앞으로 ‘베라 루빈’ 등 차세대 칩에서도 비슷한 문제가 반복될 경우, 구글 등 경쟁사에 기회가 열릴 수 있다는 지적도 나온다.