엔비디아, 대규모 클라우드 AI 컴퓨터 구축 위해 마이크로소프트와 협력
[테크수다 기자 도안구 eyeball@techsuda.com] AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 세계에서 가장 강력한 AI 슈퍼컴퓨터 중 하나를 구축하기 위해 마이크로소프트(Microsoft)와 다년간 협력한다고 밝혔다. 해당 슈퍼컴퓨터는 엔비디아(NVIDIA) GPU, 네트워킹 및 AI 소프트웨어 풀 스택과 결합된 마이크로소프트 애저(Azure)의 고급 슈퍼컴퓨팅 인프라로 기업의 대규모 최신 모델을 포함한 AI 훈련과 배포 및 확장을 지원한다.
애저의 클라우드 기반 AI 슈퍼컴퓨터에는 AI 분산 훈련 및 추론에 최적화된 강력하고 확장 가능한 ND 및 NC 시리즈 가상 머신이 포함된다. 이는 엔비디아의 고급 AI 스택을 통합한 최초의 퍼블릭 클라우드로, 수만 개의 엔비디아 A100 및 H100 GPU, 엔비디아 퀀텀-2 400Gb/s 인피니밴드(Quantum-2 400Gb/s InfiniBand) 네트워킹 및 엔비디아 AI 엔터프라이즈(Enterprise) 소프트웨어 제품군이 플랫폼에 추가됐다.
협업의 일환으로 엔비디아는 애저의 확장 가능한 가상 머신 인스턴스를 활용해 생성형 AI(Generative AI)의 발전을 연구하고 더욱 가속화할 것이다. 생성형 AI는 메가트론 튜링 NLG 530B(Megatron Turing NLG 530B)와 같은 기본 모델이 새로운 텍스트, 코드, 디지털 이미지, 비디오 또는 오디오를 생성하는 자율 학습 알고리즘의 기반이 되며 AI 분야에서 빠르게 부상하고 있는 분야이다.
또한 양사는 마이크로소프트의 딥스피드(DeepSpeed) 딥 러닝 최적화 소프트웨어의 활용성을 높이기 위해 협력할 예정이다. 애저 엔터프라이즈 고객에게는 애저에 최적화된 엔비디아의 전체 AI 워크플로우 및 소프트웨어 개발 키트 스택이 제공된다.
엔비디아 엔터프라이즈 컴퓨팅 부사장인 마누비르 다스(Manuvir Das)는 “AI 기술 발전과 산업 채택이 가속화되고 있다. 기초 모델의 혁신은 연구의 물결을 촉발시켰고, 신생 스타트업을 육성했으며, 새로운 엔터프라이즈 애플리케이션을 가능하게 했다. 마이크로소프트와의 협력은 연구원들과 기업들에게 AI의 혁신적인 힘을 활용할 수 있는 최첨단 AI 인프라와 소프트웨어를 제공할 것이다"라고 말했다.
마이크로소프트 클라우드 및 AI 그룹 수석 부사장인 스콧 거스리(Scott Guthrie)는 "AI는 기업과 산업용 컴퓨팅 전반에 걸쳐 차세대 자동화 물결을 촉진하고 있으며, 조직이 경제적 불확실성을 다루면서 더 적은 것으로 더 많은 일을 할 수 있도록 한다. 엔비디아와의 협력을 통해 마이크로소프트 애저를 사용하는 모든 기업에 최첨단 AI 기능을 제공하며, 세계에서 가장 확장성이 뛰어난 슈퍼컴퓨터 플랫폼을 구축할 수 있었다"라고 전했다.
애저의 엔비디아 컴퓨팅 및 퀀텀-2 인피니밴드를 통한 확장 가능한 최고 성능
마이크로소프트 애저의 AI 최적화 가상 머신 인스턴스는 엔비디아의 최첨단 데이터 센터 GPU로 설계됐으며, 엔비디아 퀀텀-2 400Gb/s 인피니밴드 네트워킹을 통합한 최초의 퍼블릭 클라우드 인스턴스이다. 고객은 단일 클러스터에 수천 개의 GPU를 배포해 가장 방대한 대규모 언어 모델도 교육하고, 가장 복잡한 추천 시스템을 대규모로 구축하며, 대규모로 생성 AI를 활성화할 수 있다.
현재 애저 인스턴스는 엔비디아 A100 GPU와 함께 엔비디아 퀀텀 200Gb/s 인피니밴드 네트워킹을 제공한다. 미래에는 엔비디아 퀀텀-2 400Gb/s 인피니밴드 네트워킹 및 엔비디아 H100 GPU와 통합될 예정이다. 애저의 고급 컴퓨팅 클라우드 인프라, 네트워킹 및 스토리지와 결합된 이러한 AI 최적화 제품은 모든 규모의 AI 교육과 딥 러닝 추론 워크로드에 대해 확장 가능한 최고 성능을 제공한다.
AI 개발 및 구축 가속화
해당 플랫폼은 마이크로소프트 딥스피드와 엔비디아 AI 엔터프라이즈 소프트웨어 제품군을 포함한 광범위한 AI 애플리케이션과 서비스를 지원할 예정이다.
마이크로소프트 딥소프트는 엔비디아 H100 트랜스포머 엔진(H100 Transformer Engine)을 활용한다. 이를 통해 다른 애플리케이션 중에서 대규모 언어 모델, 생성 AI 및 컴퓨터 코드 작성에 사용되는 트랜스포머 기반 모델을 가속화한다. 이 기술은 8비트 부동 소수점 정밀도 기능을 딥스피드에 적용해 16비트 연산 처리량의 2배인 트랜스포머용 AI 계산을 획기적으로 가속화한다.
전 세계적으로 채택된 엔비디아 AI 플랫폼 소프트웨어인 엔비디아 AI 엔터프라이즈는 엔비디아 A100 GPU를 사용하는 마이크로프트 애저 인스턴스에서 인증되고 지원된다. 엔비디아 H100 GPU를 사용하는 애저 인스턴스에 대한 지원은 향후 소프트웨어 릴리스에 추가될 예정이다.
음성 AI용 엔비디아 리바(Riva)와 엔비디아 모피어스(Morpheus) 사이버 보안 애플리케이션 프레임워크를 포함하는 엔비디아 AI 엔터프라이즈는 데이터 처리 및 AI 모델 훈련에서 시뮬레이션과 대규모 배포에 이르는 AI 워크플로우의 각 단계를 간소화한다.
[테크수다 기자 도안구 eyeball@techsuda.com]