[Oracle Cloud World 2024]오라클, 제타스케일 클라우드 컴퓨팅 클러스터 제공
[테크수다 기자 도안구 eyeball@techsuda.com] 오라클이 엔비디아 블랙월(NVIDIA Blackwell) 플랫폼으로 가속화된 최초의 제타스케일 클라우드 컴퓨팅 클러스터를 발표했다. 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure : OCI)는 현재 클라우드에서 가장 큰 AI 슈퍼컴퓨터의 주문을 받고 있으며, 최대 13만 1072개의 엔비디아 블랙웰 GPU를 제공할 수 있다고 전했다.
마헤쉬 티아가라얀(Mahesh Thiagarajan) 오라클 클라우드 인프라스트럭처, 보안 및 개발자 서비스 부문 총괄 부사장은 "우리는 가장 광범위한 AI 인프라 제공 업체 중 하나이며, 클라우드에서 가장 까다로운 AI 워크로드를 실행하는 고객들을 지원하고 있습니다"라고 전하고 "오라클의 분산 클라우드를 통해 고객들은 최고 수준의 데이터 및 AI 주권을 유지하면서 원하는 곳에 클라우드 및 AI 서비스를 배포할 수 있는 유연성을 갖게 됩니다"라고 강조했다.
- 새로운 AI 슈퍼컴퓨터를 통해 클라우드 최대 규모의 NVIDIA GPU 제공
- 최대 규모: 131,072개의 NVIDIA GPU
- AI 구축, 훈련, 추론 지원
제타스케일 컴퓨팅 클러스터
- 최초의 제타스케일 클라우드 컴퓨팅 클러스터 발표
- 공급: 최대 131,072개의 NVIDIA Blackwell GPU
- 최대 성능: 2.4 제타FLOPS
- OCI 슈퍼클러스터의 구성요소
- NVIDIA H100/H200 Tensor Core GPU
- OCI Compute Bare Metal
- ConnectX-7 NIC, ConnectX-8 SuperNIC 네트워크
- 초저지연 RoCEv2, HPC 스토리지 선택 옵션
GPU 및 네트워크 성능
- H100 GPU
- 최대 16,384개의 GPU 확장 가능
- 최대 65 ExaFLOPS 성능 제공
- 네트워크 처리량: 13Pb/s
- H200 GPU
- 최대 65,536개 GPU 확장 가능
- 최대 260 ExaFLOPS 성능 제공
- 네트워크 처리량: 52Pb/s
고객 활용 사례
WideLabs
- OCI에서 포르투갈어 최대 규모 LLM 훈련
- 브라질의 AI 주권 요구사항 준수
- NVIDIA H100 GPU 활용
- Oracle Kubernetes Engine: GPU 가속 컨테이너 관리
Zoom
- AI 개인 비서 Zoom AI Companion에 OCI 주권 기능 활용
- 지역 데이터 로컬 보관 지원
- 사우디아라비아 AI 주권 요구사항 지원
총평
오라클은 전례 없는 규모의 AI 컴퓨팅 능력 증가를 통해 다양한 산업 분야에서 혁신을 지원하며, 고객들에게 데이터 주권 및 고성능 클라우드 컴퓨팅 인프라를 제공
Additional Resources
- Learn more about OCI Supercluster
- Read more about Oracle’s sovereign AI approach
- Learn more about NVIDIA and Oracle expanding access to accelerated computing
[테크수다 기자 도안구 eyeball@techsuda.com]
오라클, 첫 제타스케일 클라우드 컴퓨팅 클러스터 제공
새로운 AI 슈퍼컴퓨터, 클라우드 최대 규모로 최대 131,072개의 NVIDIA GPU를 제공하여 고객들이 대규모로 AI를 구축, 훈련, 추론할 수 있도록 지원
오라클 클라우드월드, 라스베가스 - 2024년 9월 11일
NVIDIA Blackwell 플랫폼
오라클은 오늘 NVIDIA Blackwell 플랫폼으로 가속화된 최초의 제타스케일 클라우드 컴퓨팅 클러스터를 발표했습니다. Oracle Cloud Infrastructure(OCI)는 현재 클라우드에서 가장 큰 AI 슈퍼컴퓨터의 주문을 받고 있으며, 최대 131,072개의 NVIDIA Blackwell GPU를 제공할 수 있습니다.
"우리는 가장 광범위한 AI 인프라 제공 업체 중 하나이며, 클라우드에서 가장 까다로운 AI 워크로드를 실행하는 고객들을 지원하고 있습니다," 라고 OCI의 수석 부사장인 Mahesh Thiagarajan이 말했습니다. "오라클의 분산 클라우드를 통해 고객들은 최고 수준의 데이터 및 AI 주권을 유지하면서 원하는 곳에 클라우드 및 AI 서비스를 배포할 수 있는 유연성을 갖게 됩니다."
세계 최초의 제타스케일 컴퓨팅 클러스터
OCI는 현재 클라우드에서 가장 큰 AI 슈퍼컴퓨터의 주문을 받고 있으며, 최대 131,072개의 NVIDIA Blackwell GPU를 제공하여 전례 없는 2.4 제타FLOPS의 최대 성능을 제공합니다. OCI 슈퍼클러스터의 최대 규모는 Frontier 슈퍼컴퓨터보다 3배 이상, 다른 하이퍼스케일러보다 6배 이상의 GPU를 제공합니다. OCI 슈퍼클러스터는 OCI Compute Bare Metal, ConnectX-7 NIC 및 ConnectX-8 SuperNIC 또는 NVIDIA Quantum-2 InfiniBand 기반 네트워크를 통한 초저지연 RoCEv2, 그리고 HPC 스토리지 선택 옵션을 포함합니다.
OCI 슈퍼클러스터는 NVIDIA H100 또는 H200 Tensor Core GPU 또는 NVIDIA Blackwell GPU를 탑재한 OCI Compute로 주문할 수 있습니다. H100 GPU를 탑재한 OCI 슈퍼클러스터는 최대 16,384개의 GPU로 확장 가능하며, 최대 65 ExaFLOPS의 성능과 13Pb/s의 집계 네트워크 처리량을 제공합니다. H200 GPU를 탑재한 OCI 슈퍼클러스터는 65,536개의 GPU로 확장되어 최대 260 ExaFLOPS의 성능과 52Pb/s의 집계 네트워크 처리량을 제공하며 올해 말에 사용 가능할 예정입니다. NVIDIA GB200 NVL72 수냉식 베어메탈 인스턴스를 사용하는 OCI 슈퍼클러스터는 NVLink와 NVLink Switch를 사용하여 최대 72개의 Blackwell GPU가 단일 NVLink 도메인에서 129.6 TB/s의 집계 대역폭으로 서로 통신할 수 있게 합니다. 2025년 상반기에 출시될 NVIDIA Blackwell GPU는 5세대 NVLink, NVLink Switch, 클러스터 네트워킹을 통해 단일 클러스터에서 원활한 GPU-GPU 통신을 가능하게 할 것입니다.
"기업, 연구자, 국가들이 AI를 사용한 혁신을 위해 경쟁하는 가운데, 강력한 컴퓨팅 클러스터와 AI 소프트웨어에 대한 접근이 중요합니다," 라고 NVIDIA의 하이퍼스케일 및 고성능 컴퓨팅 부문 부사장인 Ian Buck이 말했습니다. "오라클의 광범위하게 분산된 클라우드에서 NVIDIA의 풀스택 AI 컴퓨팅 플랫폼은 전례 없는 규모의 AI 컴퓨팅 능력을 제공하여 전 세계적으로 AI 노력을 발전시키고 모든 곳의 조직들이 연구, 개발, 배포를 가속화할 수 있도록 도울 것입니다."
WideLabs와 Zoom과 같은 고객들은 강력한 보안 및 주권 제어 기능을 갖춘 OCI의 고성능 AI 인프라를 활용하고 있습니다.
WideLabs, OCI에서 포르투갈어 최대 규모의 LLM 중 하나를 훈련
브라질의 응용 AI 스타트업인 WideLabs는 OCI에서 브라질 최대 규모의 LLM 중 하나인 Amazonia IA를 훈련하고 있습니다. 그들은 알츠하이머 환자들로부터 수집한 데이터를 기반으로 전기 내용을 생성하여 중요한 기억을 보존하는 데 도움을 주는 bAIgrapher라는 애플리케이션을 개발했습니다.
WideLabs는 Oracle Cloud 상파울루 리전을 사용하여 AI 워크로드를 실행함으로써 민감한 데이터가 국경 내에 남아있도록 보장합니다. 이를 통해 WideLabs는 AI 기술이 배포되고 운영되는 위치를 제어할 수 있어 브라질의 AI 주권 요구사항을 준수할 수 있습니다. WideLabs는 NVIDIA H100 GPU가 탑재된 OCI AI 인프라를 사용하여 LLM을 훈련시키며, Oracle Kubernetes Engine을 사용하여 OCI의 RDMA 기반 클러스터 네트워킹으로 연결된 OCI Compute로 구성된 OCI 슈퍼클러스터 전반에 걸쳐 GPU 가속 컨테이너를 프로비저닝, 관리, 운영합니다.
"OCI AI 인프라는 우리의 LLM 훈련 및 실행에 가장 효율적인 솔루션을 제공합니다," 라고 WideLabs의 CEO인 Nelson Leoni가 말했습니다. "OCI의 규모와 유연성은 우리가 의료 분야와 기타 주요 분야에서 계속 혁신을 이어나가는 데 있어 매우 중요합니다."
Zoom, 생성형 AI 어시스턴트에 OCI의 주권 기능 활용
선도적인 AI 우선 협업 플랫폼인 Zoom은 OCI를 사용하여 추가 비용 없이 제공되는 회사의 AI 개인 비서인 Zoom AI Companion을 위한 추론을 제공합니다. Zoom AI Companion은 사용자가 이메일과 채팅 메시지를 작성하고, 회의와 채팅 스레드를 요약하며, 동료들과의 브레인스토밍 중에 아이디어를 생성하는 등의 작업을 돕습니다. OCI의 데이터 및 AI 주권 기능은 Zoom이 고객 데이터를 해당 지역에 로컬로 보관하고 사우디아라비아의 AI 주권 요구사항을 지원하는 데 도움이 될 것이며, OCI의 솔루션은 초기에 이 지역에서 출시될 예정입니다.
"Zoom AI Companion은 유료 계정을 가진 고객들에게 추가 비용 없이 제공되는 최첨단 생성형 AI 기능으로 조직들의 업무 방식을 혁신하고 있습니다," 라고 Zoom의 AI 책임자인 Bo Yan이 말했습니다. "OCI의 AI 추론 기능을 활용함으로써 Zoom은 낮은 지연 시간으로 정확한 결과를 제공할 수 있어, 사용자들이 원활하게 협업하고, 쉽게 소통하며, 생산성과 효율성, 잠재력을 전례 없이 향상시킬 수 있도록 지원합니다."
엔비디아에서 제공한 보도자료
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr)가 오라클(Oracle)과 함께 기업을 위한 AI와 데이터 처리 가속화를 지원한다고 밝혔다.
기업들은 AI 워크로드를 지원하고 데이터 처리를 가속화하기 위해 점점 더 강력한 컴퓨팅을 찾고 있다. 이를 통해 얻은 효율성은 AI 훈련과 미세 조정에 대한 투자 대비 더 나은 수익과 AI 추론을 위한 향상된 사용자 경험으로 이어질 수 있다.
지난 9일(현지시간) 미국 라스베이거스에서 열린 오라클 클라우드월드(Oracle CloudWorld) 콘퍼런스에서 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrasturcutre, OCI)는 엔비디아 블랙웰(Blackwell) 플랫폼으로 가속화된 최초의 제타스케일 OCI 슈퍼클러스터(Supercluster)를 발표했다. 이는 기업이 10만 개 이상의 엔비디아 최신 GPU를 사용해 차세대 AI 모델을 훈련하고 배포할 수 있도록 지원한다.
OCI 슈퍼클러스터를 통해 고객은 다양한 엔비디아 GPU 중에서 필요에 따라 선택할 수 있으며, 온프레미스, 퍼블릭 클라우드, 소버린 클라우드(sovereign cloud) 등 어디에나 배포할 수 있다. 내년 상반기에 출시될 예정인 블랙웰 기반 시스템은 최대 131,072개의 블랙웰 GPU를 RoCEv2 또는 엔비디아 퀀텀-2 인피니밴드(Quantum-2 InfiniBand) 네트워킹용 엔비디아 커넥트X-7 NIC(ConnectX-7 NIC)으로 확장해 클라우드에 2.4제타플롭의 놀라운 AI 컴퓨팅을 제공할 수 있다.
오라클은 이번 행사에서 생성형 AI 애플리케이션을 지원하는 엔비디아 GB200 NVL72 수냉식 베어메탈 인스턴스도 미리 선보였다. 이 인스턴스는 퀀텀-2 인피니밴드를 통해 대규모 훈련이 가능하며, 확장된 72-GPU 엔비디아 NV링크(NVLink) 도메인 내에서 수조 개의 매개변수 모델을 실시간으로 추론할 수 있다. 이 도메인은 단일 대형 GPU처럼 작동할 수 있다.
올해 OCI는 NV링크와 NV링크 스위치(NVLink Switch)를 통해 엔비디아 HGX H200을 제공할 예정이다. 이는 단일 베어메탈 인스턴스에 8개의 엔비디아 H200 텐서 코어(Tensor Core) GPU를 연결하고, RoCEv2 클러스터 네트워킹을 통해 엔비디아 커넥트X-7 NIC로 65,536개의 H200 GPU까지 확장될 수 있다. 이 인스턴스는 대규모 실시간 추론을 제공하고 훈련 워크로드를 가속화하려는 고객에게 제공된다.
또한 OCI는 중급 AI 워크로드, 엔비디아 옴니버스(Omniverse)와 시각화를 위한 엔비디아 L40S GPU 가속 인스턴스의 정식 출시에 대한 소식도 발표했다.
단일 노드부터 멀티 랙 솔루션까지, 오라클의 엣지 오퍼링(edge offering)은 연결되지 않은 원거리에서도 엔비디아 GPU로 가속화된 엣지에서 확장 가능한 AI를 제공한다. 예를 들어, 오라클의 로빙 엣지 디바이스(Roving Edge Device) v2를 사용한 소규모 배포는 이제 최대 3개의 엔비디아 L4 텐서 코어 GPU를 지원한다.
기업들은 엔비디아 기반 OCI 슈퍼클러스터를 사용해 AI 혁신을 추진하고 있다. 예를 들어, 파운데이션 모델 스타트업인 레카(Reka)는 엔터프라이즈 에이전트 개발을 위한 고급 멀티모달 AI 모델을 개발하는 데 클러스터를 사용하고 있다.
레카의 공동 설립자 겸 CEO인 다니 요가타마(Dani Yogatama)는 “엔비디아와 OCI 기술로 구축된 레카의 멀티모달 AI 모델은 복잡한 세상을 파악하기 위해 읽고, 보고, 듣고, 말할 수 있는 차세대 엔터프라이즈 에이전트의 역량을 강화한다. 엔비디아 GPU 가속 인프라를 통해 우리는 매우 큰 모델과 광범위한 컨텍스트를 쉽게 처리하는 동시에 클러스터 수준에서 효율적인 확장을 위한 고밀도와 저밀도 훈련을 구현할 수 있다”고 말했다.
생성형 AI 기반 오라클 데이터베이스 워크로드 가속화
오라클 자율운영 데이터베이스(Oracle Autonomous Database)는 고객이 오라클 자율운영 데이터베이스에서 데이터 처리 워크로드를 가속화할 수 있도록 오라클 머신 러닝 노트북에 대한 엔비디아 GPU 지원을 확보하고 있다.
양사는 오라클 클라우드월드에서 현재와 미래에 어떻게 엔비디아 가속 컴퓨팅 플랫폼을 사용해 성성형 AI 검색의 핵심 구성 요소인 검색 증강 생성(retrieval-augmented generation, RAG) 파이프라인을 가속화할 수 있는지 보여주는 3가지 기능을 시연했다.
첫 번째 데모에서는 오라클 자율운영 데이터베이스 서버리스 내에서 직접 대량 벡터 임베딩을 가속화해 엔터프라이즈 데이터를 AI에 효율적으로 가져오는 데 엔비디아 GPU를 사용하는 방법을 소개했다. 이러한 벡터는 오라클 데이터베이스 23ai의 AI 벡터 검색(AI Vector Serarch)을 사용해 검색할 수 있다.
두 번째 데모에서는 엔비디아 GPU, 엔비디아 래피즈 cuVS(RAPIDS cuVS), 오라클이 개발한 오프로드 프레임워크를 사용해 벡터 그래프 인덱스 생성을 가속화하는 기술실증(proof-of-concept) 프로토타입을 선보였다. 이는 효율적인 벡터 검색을 위한 인덱스를 구축하는 데 필요한 시간을 크게 단축한다.
세 번째 데모에서는 사용이 간편한 추론 마이크로서비스 세트인 엔비디아 NIM이 다양한 모델 크기와 동시성 수준에서 텍스트 생성과 번역 사용 사례에 대한 생성형 AI 성능을 어떻게 향상시킬 수 있는지를 설명했다.
이러한 새로운 오라클 데이터베이스 기능과 데모는 기업이 오라클 데이터베이스에 저장되거나 관리되는 정형, 비정형 데이터에 생성형 AI를 도입하는 데 엔비디아 GPU를 어떻게 사용할 수 있는지 보여준다.
전 세계 소버린 AI를 지원하는 엔비디아와 오라클
엔비디아와 오라클은 협력을 통해 전 세계에 소버린 AI 인프라를 제공함으로써 정부와 기업의 데이터 레지던시 요구 사항을 해결하고 있다.
브라질에 위치한 스타트업 와이드랩스(Wide Labs)는 브라질 포르투갈어를 위한 최초의 거대 언어 모델(large language model, LLM) 중 하나인 아마조니아 IA(Amazônia IA)를 개발했다. 이들은 데이터 주권을 보장하기 위해 OCI의 브라질 데이터센터에서 엔비디아 H100 텐서 코어 GPU와 엔비디아 네모(NeMo) 프레임워크를 사용해 아마조니아 IA의 훈련과 배포를 진행했다.
와이드랩스의 CEO인 넬슨 레오니(Nelson Leoni)는 “소버린 LLM을 개발함으로써 브라질 국경 내에서 데이터를 처리하는 서비스를 고객에게 제공함으로써 아마조니아 IA가 독보적인 시장 지위를 확보할 수 있게 됐다. 우리는 엔비디아 네모 프레임워크를 사용해 아마조니아 IA를 성공적으로 훈련했다”고 말했다.
컨설팅 서비스와 시스템 솔루션을 제공하는 일본의 글로벌 선도 기관 노무라종합연구소(Nomura Research Institute)는 엔비디아 GPU가 탑재된 OCI의 알로이(Alloy) 인프라를 사용하고 있다. 이를 통해 금융 규제와 데이터 주권 요건에 따라 운영되는 LLM을 통해 금융 AI 플랫폼을 강화하고 있다.
커뮤니케이션과 협업 서비스를 제공하는 기업인 줌(Zoom)은 현지 데이터 요건 준수를 지원하기 위해 OCI의 사우디아라비아 데이터센터에 엔비디아 GPU를 사용할 예정이다.
또한 지리공간 모델링 회사인 RSS-하이드로(RSS-Hydro)는 자사의 홍수 매핑 플랫폼에서 디지털 트윈을 사용해 일본 구마모토 지역의 홍수 영향을 시뮬레이션해 기후 변화의 영향을 완화하는 방법을 시연하고 있다. 해당 플랫폼은 엔비디아 옴니버스 플랫폼을 기반으로 하고, OCI의 L40S GPU로 구동된다.
이들 외에도 수많은 국가와 조직이 엔비디아와 OCI를 기반으로 자국 AI 애플리케이션을 구축하고 배포해 소버린 AI 인프라를 바탕으로 경제 회복력을 높이고 있다.
엔비디아와 오라클과 함께하는 엔터프라이즈급 AI
기업은 OCI의 확장 가능한 클라우드 솔루션과 함께 NIM 마이크로서비스와 엔비디아 cuOpt 등의 엔비디아 소프트웨어를 배포해 OCI에서 작업 자동화를 가속화할 수 있다. 이러한 솔루션을 통해 기업은 코드 생성과 경로 최적화와 같은 복잡한 작업을 수행하는 생성형 AI를 빠르게 도입하고 에이전트 워크플로우를 구축할 수 있다.
오라클 클라우드 마켓플레이스에서 제공되는 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼에는 엔비디아 cuOpt, NIM, 래피즈 등이 포함된다.
오라클 클라우드월드 속 엔비디아
엔비디아는 오라클 클라우드월드 2024(CloudWorld 2024)에서 오라클과의 협업을 통해 전 세계 조직에 AI와 가속화된 데이터 처리를 제공하는 방법을 소개했다.
이번 행사에서는 ‘엔비디아의 가속 컴퓨팅 플랫폼으로 AI 성능 활용하기’라는 주제의 솔루션 기조연설을 비롯해 기술 데모 등도 함께 진행했다.