엔비디아·엑스AI, 122일 만에 시설·슈퍼컴 구축···세계 최대 슈퍼컴퓨터 ‘콜로서스’로 19일만에 훈련 시작

[테크수다 기자 도안구 eyeball@techsuda.com] 엔비디아가 엑스AI(xAI)가 구축한 슈퍼컴퓨터에 대한 내용을 공개했다. 엔비디아는 (www.nvidia.com CEO 젠슨 황)가 엔비디아(NVIDIA) 이더넷(Ethernet) 네트워킹 기술을 통해 엑스AI(xAI)가 구축한 세계 최대 AI 슈퍼컴퓨터 ‘콜로서스(Colossus)’를 가속화하고 있다고 밝혔다.

일론 머스크(Elon Musk)는 자신의 엑스 계정에서 “콜로서스는 세계에서 가장 강력한 훈련 시스템이다. 엑스AI 팀과 엔비디아, 그리고 많은 파트너, 공급업체들이 훌륭한 작업을 했다”고 말했다.

마이크로소프트와 오라클 클라우드, AWS와 구글 클라우드는 엔비디아와 협력하지만 모든 기술을 100%로 엔비디아에 의존하지 않고 있다. 특히나 네트워킹 기술의 경우 독자적인 경쟁력을 확보하고 있다. 엑스AI는 아직까지 이런 기술을 보유하고 있지 못했고 선발 AI 기업들을 따라잡기 위해서는 우선 인프라 구축에 주력해야 했기에 엔비디아의 기술을 100프로 활용한 것으로 보인다.

핵심 구성

  • 10만 개의 엔비디아 호퍼 GPU 사용
  • 엔비디아 스펙트럼-X 이더넷 네트워킹 플랫폼 적용
  • 현재 20만 GPU로 확장 진행 중

주요 성과

  • 122일 만에 시설 및 슈퍼컴퓨터 구축
  • 첫 랙 설치 후 19일 만에 훈련 시작
  • 네트워크 95% 데이터 처리량 달성

기술적 특징

  • 800Gb/s 포트 속도 지원
  • 스펙트럼-4 스위치 ASIC 기반
  • RDMA 네트워크 지원
  • 패킷 손실 없는 성능 유지

활용 분야

  • xAI의 그록(Grok) 언어 모델 훈련
  • 엑스 프리미엄 구독자용 챗봇 서비스
  • 멀티 테넌트 및 하이퍼스케일 AI 지원

주요 평가

  • 일론 머스크: "세계 최강 훈련 시스템"
  • xAI: "세계 최대·최강 슈퍼컴퓨터"
  • 엔비디아: "AI 워크로드의 신속한 처리 지원"

이전 버전보다 더 핵심적인 내용만 간추려 정리했습니다. 각 항목별로 가장 중요한 정보만 포함했습니다.

미국 테네시주 멤피스에 위치한 엑스AI의 콜로서스 슈퍼컴퓨터 클러스터는 엔비디아 스펙트럼-X(Spectrum-X™) 이더넷 네트워킹 플랫폼을 사용해 10만 개의 엔비디아 호퍼(Hopper) GPU로 구성된 대규모 시스템을 구현했다. 스펙트럼-X™ 플랫폼은 표준 기반 이더넷을 사용해 멀티 테넌트, 하이퍼스케일 AI 팩토리에 뛰어난 성능을 제공하도록 설계됐으며, 원격 직접 메모리 액세스(RDMA) 네트워크를 지원한다.

콜로서스는 세계에서 가장 큰 AI 슈퍼컴퓨터로, 엑스AI의 그록(Grok) 거대 언어 모델(Large Language Model, LLM) 제품군을 훈련하는 데 사용된다. 이 모델은 엑스 프리미엄(X Premium) 구독자를 위한 챗봇 기능을 제공하는 데도 활용된다. 현재 엑스AI는 콜로서스의 규모를 두 배로 늘려 총 20만 개의 엔비디아 호퍼 GPU로 구성하는 작업을 진행 중이다.

엔비디아와 엑스AI는 지원 시설과 최첨단 슈퍼컴퓨터를 단 122일 만에 구축했다. 일반적으로 이 정도 규모의 시스템을 구축하는 데 수개월에서 수년이 걸리는 기간을 생각하면 매우 빠른 속도이다. 첫 번째 랙이 바닥에 설치한 시점부터 훈련이 시작되기까지 단 19일이 걸렸다.

초대형 그록 모델을 훈련하는 동안 콜로서스는 전례 없는 네트워크 성능을 달성했다. 네트워크 패브릭의 세 계층 모두에서 이 시스템은 플로우 충돌로 인한 애플리케이션 지연 시간 저하나 패킷 손실이 전혀 발생하지 않았다. 또한, 스펙트럼-X 혼잡 제어를 통해 95%의 데이터 처리량을 유지했다.

표준 이더넷으로는 이러한 수준의 성능을 대규모로 달성할 수 없는데, 이는 데이터 처리량이 60%에 불과하면서 수천 건의 플로우 충돌을 일으키기 때문이다.

길라드 샤이너(Gilad Shainer) 엔비디아 네트워킹 담당 수석 부사장은 “AI는 이제 필수적인 존재가 됐으며, 향상된 성능, 보안, 확장성, 비용 효율성을 필요로 한다. 엔비디아 스펙트럼-X 이더넷 네트워킹 플랫폼은 엑스AI와 같은 혁신가들에게 AI 워크로드의 빠른 처리, 분석, 실행을 제공하고 결과적으로 AI 솔루션의 개발과 배포, 출시 시간을 단축할 수 있도록 설계됐다”고 말했다.

엑스AI 대변인은 “엑스AI는 세계에서 가장 크고 가장 강력한 슈퍼컴퓨터를 구축했다. 우리는 엔비디아의 호퍼 GPU와 스펙트럼-X를 통해 대규모 AI 모델 훈련의 한계를 뛰어넘었으며, 이더넷 표준을 기반으로 초고속화되고 최적화된 AI 팩토리를 구축할 수 있게 됐다”고 말했다.

스펙트럼-X 플랫폼의 핵심은 최대 800Gb/s의 포트 속도를 지원하는 스펙트럼 SN5600(Spectrum SN5600) 이더넷 스위치로, 스펙트럼-4(Spectrum-4) 스위치 ASIC을 기반으로 한다. 엑스AI는 전례 없는 성능을 위해 스펙트럼-X SN5600 스위치와 엔비디아 블루필드-3 슈퍼NIC(BlueField-3 SuperNIC)를 함께 사용하기로 선택했다.

AI용 스펙트럼-X 이더넷 네트워킹은 이전에는 인피니밴드(InfiniBand)에서 독점적이었던 낮은 지연 시간과 짧은 테일 레이턴시로 매우 효과적이고 확장 가능한 대역폭을 제공하는 고급 기능을 제공한다. 이러한 기능에는 엔비디아 다이렉트 데이터 배치(Direct Data Placement) 기술을 사용한 적응형 라우팅, 혼잡 제어, 향상된 AI 패브릭 가시성과 성능 격리가 포함된다. 이러한 모든 기술은 멀티 테넌트 생성형 AI 클라우드와 대규모 엔터프라이즈 환경에 필수적인 요구 사항이다.

[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
세미나