[GTC 2023] AWS, 2만 개 엔비디아 H100 GPU 인프라 구축···앤트로픽·코히어·허깅페이스·스태빌리티AI 협력 강화


[테크수다 기자 도안구 eyeball@techsuda.com] "AWS와 엔비디아는 12년이 넘는 긴 시간 동안 협력을 통해 AI/머신러닝, 그래픽, 게이밍, HPC 등 다양한 애플리케이션을 위한 대규모 비용 효율적 GPU 기반 솔루션을 온디맨드 방식으로 제공해 왔다. AWS는 세대를 거듭할 때마다 확장성의 한계를 뛰어넘는 GPU 기반 인스턴스를 제공해 온 독보적인 경험을 보유하고 있다. 현재 많은 고객들이 머신러닝 트레이닝 워크로드를 1만 개 이상의 GPU로 확장하고 있다. 2세대 EFA에서는 P5 인스턴스를 2만 개 이상의 엔비디아 H100 GPU로 확장함으로써 스타트업부터 대기업에 이르는 다양한 고객이 즉시 슈퍼컴퓨터 기능을 활용할 수 있다."


아담 셀립스키(Adam Selipsky) AWS  CEO는 엔비디아와 대규모 머신 러닝 모델 훈력과 생성형 AI 애플리케이션 구축 협력에 대해서 이렇게 의미를 부여했다.


AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 아마존웹서비스(Amazon Web Services, AWS)와 함께 대규모 언어 모델(LLM)과 생성형 AI 애플리케이션 개발을 위한 협력을 진행한다고 밝혔다.



이번 협력에는 최대 20 엑사플롭(exaFLOPS)의 컴퓨팅 성능을 제공하는 엔비디아 H100 텐서 코어(Tensor Core) GPU와 AWS의 최첨단 네크워킹 및 확장성을 기반으로 하는 차세대 Amazon Elastic Compute Cloud(EC2) P5 인스턴스가 사용되며, 이를 통해 세계 최대 규모의 딥러닝 모델을 구축하고 훈련할 전망이다.


P5 인스턴스는 3,200Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공하는 AWS의 2세대 Elastic Fabric Adapter(EFA) 네트워킹을 활용하는 최초의 GPU 기반 인스턴스로, 고객들은 EC2 울트라클러스터(UltraCluster)에서 최대 2만 개의 H100 GPU를 확장해 AI용 슈퍼컴퓨터급 성능에 온디맨드 방식으로 액세스할 수 있다.


젠슨 황(Jensen Huang) 엔비디아 설립자 겸 CEO는 "때마침 가속 컴퓨팅과 AI가 등장했다. 가속 컴퓨팅은 비용과 전력을 절감하면서도 기능 속도를 향상시킴으로써 기업들이 적은 자원으로도 보다 많은 일을 할 수 있도록 지원한다. 생성형 AI는 기업들이 제품과 비즈니스 모델을 재구상하고, 혁신에 휩쓸리는 것이 아니라 스스로 혁신을 일으켜야 함을 일깨워줬다. AWS는 오랜 파트너이자 엔비디아 GPU를 제공한 최초의 클라우드 서비스 제공업체다. 양사의 전문성, 규모, 네트워크를 결합해 고객들을 지원할 수 있게 돼 기쁘다. 고객들은 가속 컴퓨팅과 생성형 AI를 활용해 앞으로의 엄청난 기회를 활용할 수 있을 것”이라고 말했다.


새로운 슈퍼컴퓨팅 클러스터


새로운 P5 인스턴스는 AI 및 HPC 인프라 제공을 위해 AWS와 엔비디아의 10년 넘게 이어진 협력을 기반으로 구축됐다. P2, P3, P3dn 및 P4d(e) 인스턴스를 포함한 과거 4번의 협업을 바탕으로 하는 P5 인스턴스는 엔비디아 GPU를 탑대한 AWS의 5세대 제품으로, CG1 인스턴스를 시작으로 엔비디아 GPU를 처음 배포한 지 약 13년 만에 출시됐다.


P5 인스턴스는 질의 응답, 코드 생성, 비디오 및 이미지 생성, 음성 인식 등 가장 까다롭고 컴퓨팅 집약적인 생성형 AI 애플리케이션을 비롯해 갈수록 복잡해지는 대규모 언어 모델 및 컴퓨터 비전 모델의 훈련과 추론 실행에 매우 적합하다.


더불어 기업과 스타트업 모두가 AI 기반 혁신을 시장에 출시할 수 있도록 확장 가능하고 안전한 방식으로 설계됐으며, 단일 EC2 인스턴스에서 16페타플롭(petaFLOPs)의 혼합 정밀도 성능, 640GB의 고대역폭 메모리, 3,200Gbps 네트워킹 연결(이전 세대 대비 8배 증가)을 지원하는 8개의 엔비디아 H100 GPU를 갖췄다. P5 인스턴스의 향상된 성능은 머신 러닝 모델 훈련 시간을 최대 6배까지 가속화해 훈련 시간을 며칠에서 몇 시간으로 단축시킴으로써 복잡한 대규모 모델의 훈련에 이상적이다.


또 추가된 GPU 메모리는 고객이 보다 크고 복잡한 모델을 훈련시키는 데 도움이 된다. P5 인스턴스는 이전 세대에 비해 머신러닝 모델 훈련 비용을 최대 40%까지 절감할 것으로 예상되는데, 이는 유연성이 떨어지는 클라우드 서비스나 고가의 온프레미스 시스템에 비해 큰 효율성을 제공할 수 있다.


아마존 EC2 P5 인스턴스는 클라우드에서 최고 성능의 컴퓨팅, 네트워킹, 스토리지로 구성된 초대형 클러스터 EC2 울트라클러스터에 배포된다. 각 EC2 울트라클러스터는 세계에서 가장 강력한 슈퍼컴퓨터 중 하나로, 고객들이 가장 복잡한 멀티노드 머신러닝 훈련 및 분산형 HPC 워크로드를 실행할 수 있도록 지원한다. 이들은 AWS EFA로 구동되는 페타비트 규모의 논블로킹(non-blocking) 네트워킹을 특징으로 한다.


AWS EFA는 아마존 EC2 인스턴스용 네트워크 인터페이스로, AWS에서 높은 수준의 노드 간 통신이 필요한 애플리케이션을 구동할 수 있도록 지원한다. EFA의 맞춤형 운영 체제(OS) 바이패스 하드웨어 인터페이스와 엔비디아 GPU다이렉트(GPUDirect) RDMA와의 통합은 지연 시간을 줄이고 대역폭 활용률을 높여 인스턴스 간 통신 성능을 향상킨다. 이는 수백 개의 P5 노드에서 딥 러닝 모델의 훈련을 확장하는 데 핵심적이다.


P5 인스턴스 및 EFA를 사용하면 머신러닝 애플리케이션은 NCCL(NVIDIA Collective Communications Library)을 통해 최대 2만 개의 H100 GPU까지 확장할 수 있다. 그 결과, 고객들은 온프레미스 HPC 클러스터의 애플리케이션 성능은 물론 AWS의 온디맨드 탄력성과 유연성 또한 모두 누릴 수 있다.


이러한 최첨단 컴퓨팅 기능 외에도 오브젝트 스토리지용 아마존 S3, 고성능 파일 시스템용 아마존 FSx, 딥 러닝 애플리케이션 구축, 트레이닝 및 배포용 아마존 세이지메이커(SageMaker) 등 업계 내 가장 광범위하고 심층적인 서비스 포트폴리오 또한 사용 가능하다.


해당 기능으로 객체 저장, 고성능 파일 시스템 및 딥 러닝 애플리케이션 구축, 훈련 및 배포 등 작업을 할 수 있다. P5 인스턴스는 가까운 시일 내 제한된 미리 보기 형태로 제공될 예정이다. 여기에서 액세스를 요청할 수 있다.


새로운 EC2 P5 인스턴스를 사용하면 앤트로픽(Anthropic), 코히어(Cohere), 허깅페이스(Hugging Face), 핀터레스트(Pinterest), 스태빌리티AI(Stability AI)와 같은 고객들이 대규모 머신러닝 모델을 구축하고 훈련시킬 수 있다. 한편 추가 세대의 EC2 인스턴스를 통한 협업은 스타트업, 엔터프라이즈, 연구자들이 머신러닝 요구 사항을 충족하기 위해 매끄럽게 확장할 수 있도록 도움을 줄 수 있다.


앤트로픽은 신뢰할 수 있고 해석 가능하며 조정 가능한 AI 시스템을 구축한다. 이들은 공익적, 상업적 가치를 창출할 수 있는 많은 기회를 가지고 있다.


톰 브라운(Tom Brown) 앤트로픽 공동 설립자는 "앤트로픽은 신뢰할 수 있고 해석 가능하며, 조정 가능한 AI 시스템을 구축하기 위해 노력하고 있다. 오늘날의 대규모 일반 AI 시스템은 상당한 이점을 제공할 수 있지만, 예측이 어렵고 신뢰할 수 없으며 불투명할 수 있다는 단점이 있다. 우리의 목표는 이러한 문제들을 해결하고 사람들이 유용하게 사용할 수 있는 시스템을 배포하는 것이다. 앤트로픽은 딥 러닝 연구의 기초 모델을 구축하는 세계에서 몇 안 되는 단체 중 하나다. 딥 러닝 연구의 기초 모델은 매우 복잡하며, 이러한 최첨단 모델을 개발하고 훈련하려면 해당 모델을 대규모 GPU 클러스터에 효율적으로 분산시켜야 한다. 우리는 현재 아마존 EC2 P4 인스턴스를 광범위하게 사용하고 있으며, 곧 출시될 P5 인스턴스에도 큰 기대를 걸고 있다. P5 인스턴스는 P4d 인스턴스에 비해 상당한 가성비(가격 대비 성능 이점)을 제공할 것으로 기대되며, 차세대 대규모 언어 모델 및 관련 제품을 구축할 때 대규모로 사용할 수 있을 것"이라고 말했다.


언어 AI 분야의 선두주자 코히어는 모든 개발자와 기업들이 데이터를 안전하게 보호하면서 세계 최고 수준의 자연어 처리(natural language processing, NLP) 기술로 놀라운 제품을 개발할 수 있도록 지원한다.


코히어의 에이단 고메즈(Aidan Gomez) CEO는 "코히어는 모든 기업이 언어 AI의 힘을 활용해 자연스럽고 직관적인 방식으로 정보를 탐색, 생성, 검색 및 조치할 수 있도록 앞장서고 있다. 더불어 정보를 각 고객에게 가장 적합한 데이터 환경에서 여러 클라우드 플랫폼에 배포할 수 있도록 지원한다. 엔비디아 H100을 탑재한 아마존 EC2 P5 인스턴스는 코히어의 최첨단 대규모 언어 모델 및 생성형 AI 기능을 결합해 비즈니스가 더욱 빠르게 성장하고 확장할 수 있는 컴퓨팅 파워를 제공할 것이다”라고 말했다.


허깅 페이스는 우수한 머신 러닝을 대중화하겠다는 사명을 가지고 있다. 허깅페이스 공동 창립자 겸 CTO 줄리앙 쇼몽(Julien Chaumond)은 "허깅페이스는 머신 러닝 분야에서 가장 빠르게 성장하는 머신 러닝 오픈 소스 커뮤니티로, 현재 NLP, 컴퓨터 비전, 생물학, 강화 학습 등을 위한 플랫폼에서 15만 개 이상의 사전 훈련 모델과 25,000개 이상의 데이터 세트를 제공하고 있다. 허깅페이스는 대규모 언어 모델 및 생성형 AI 분야의 커다란 발전에 발맞춰 AWS와 함께 미래의 오픈 소스 모델을 구축하고 기여하고자 노력하고 있다. EFA가 포함된 울트라클러스터에서 아마존 세이지메이커를 통해 대규모 아마존 EC2 P5 인스턴스를 사용하여 모두를 위한 새로운 기반 AI 모델의 제공을 가속화할 수 있기를 기대한다"고 말했다.


오늘날 전 세계 4억 5,000만 명 이상의 사람들이 핀터레스트 플랫폼을 사용해 시각적 영감을 얻고 있다.  자신의 취향에 맞는 제품을 쇼핑하고, 오프라인에서 실행할 수 있는 아이디어를 찾고, 영감을 불어넣는 크리에이터를 발견하는 것이다. 핀터레스트 수석 아키텍트 데이비드 셰이큰(David Chaiken)은 "우리는 P3 및 최신 P4d 인스턴스와 같은 AWS GPU 인스턴스를 활용해 플랫폼 전반에 걸쳐 딥 러닝을 광범위하게 사용하고 있다. 아울러 업로드 된 수십억 장의 사진을 라벨링하고 분류하는 작업에도 활용하고 있으며, 비주얼 검색 기능을 통해 사용자가 영감을 받은 내용을 직접 현실에서 실행할 수 있도록 돕는 기능을 제공하고 있다. 엔비디아 H100 GPU, EFA 및 울트라클러스터가 탑재된 아마존 EC2 P5 인스턴스를 사용해 제품 개발을 가속화하고 고객에게 새로운 공감형 AI 기반 경험을 제공할 수 있기를 기대하고 있다"고 말했다.


멀티모달(multimodal) 오픈소스 AI 모델 개발 및 배포의 선두주자인 스태빌리티AI는 공공 및 민간 부문 파트너와 협력해 차세대 인프라를 전 세계 고객들에게 제공하고 있다. 에마드 모스타크(Emad Mostaque) 스태빌리티AI CEO는 "우리의 목표는 최신 AI의 접근성을 극대화해 전 세계의 창의성과 혁신에 영감을 불어넣는 것이다. 우리는 지난 2021년 AWS와 파트너십을 맺고 아마존 EC2 P4d 인스턴스를 활용해 잠재적 텍스트 투 이미지(text-to-image, TTI) 확산 모델인 스테이블 디퓨전(Stable Diffusion)을 최초로 구축했다. 이는 모델 훈련 시간을 몇 달에서 몇 주로 단축하는 효과를 제공한다. 차세대 오픈 소스 생성형 AI 모델을 개발하고 새로운 방식으로 확장하는 과정에서 2세대 EC2 울트라클러스터에서 아마존 EC2 P5 인스턴스를 사용할 것이다. P5 인스턴스는 모델 훈련 시간을 최대 4배 단축해 더 빠르고 저렴하게 첨단 AI를 제공할 수 있을 것이다"라고 말했다.


확장 가능하고 효율적인 AI를 위한 새로운 서버 설계


H100 출시를 앞두고 열, 전기, 기계 분야의 전문성을 갖춘 엔비디아와 AWS 엔지니어링 팀은 GPU를 활용해 대규모로 AI를 제공하는 서버를 설계하기 위해 협력했다. 특히 이 과정에서 AWS 인프라의 에너지 효율성에 중점을 뒀다. GPU는 일반적으로 특정 AI 워크로드에서 CPU보다 에너지 효율이 20배 더 높으며, LLM의 경우 H100가 CPU에 비해 최대 300배 높은 효율성을 보인다.


엔비디아와 AWS가 공동으로 작업할 내용에는 시스템 방열 설계, 통합 보안 및 시스템 관리, AWS 니트로(Nitro) 하드웨어 가속 하이퍼바이저를 통한 보안, AWS 커스텀 EFA 네트워크 패브릭을 위한 엔비디아 GPU다이렉트(Direct) 최적화 개발 등이 포함된다.


양사는 서버 최적화에 중점을 두고 진행한 작업을 기반으로 차세대 시스템 설계, 냉각 기술 및 네트워크 확장성 향상을 위한 서버 설계에 대한 협업을 개시한다.


[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!