[AWS 리인벤트 2023] ARM 기반 ‘그래비톤4’·AI 학습용 ‘트레이니움2’ 공개 ∙∙∙엔비디아 젠슨 황 CEO도 깜짝 등장


[테크수다 기자 도안구 eyeball@techsuda.com] 클라우드  사업자간 경쟁이 반도체 경쟁인 걸 다시 한번 확인하는 자리였다.


클라우드 사업자 중 독자적인 반도체 칩을 설계한 후 실제 서비스에 가장 먼저 적용했던 나섰던 아마존웹서비스(Amazon Web Services, 이하 AWS)는 AWS의 연례 컨퍼런스 ‘AWS 리인벤트 2023(AWS re:Invent 2023)’에서 차세대 자체 설계 칩 제품군인 AWS 그래비톤4(AWS Graviton4)와 AWS 트레이니움2(AWS Trainium2)를 발표했다.


AWS의 그래비톤 프로세서는 높은 수준의 에너지 효율성과 함께 고성능을 제공하는 Arm 아키텍처를 기반으로 한다. 2018년 처음 버전을 선보인 후 2년마다 신제품을 선보였다. 하지만 이번 버전은 지난해 출시 후 1년 만에 등장했다. 그만큼 클라우드 사업자간 경쟁이 반도체 경쟁인 만큼 역량을 집중하고 있다.


AI 시장이 클라우드 사업자의 명운을 좌지우지할 정도라는 점에서 AI 학습용 칩도 선보였다. 공개된 2세대 트레이니움2 칩은 1세대 트레이니움 칩보다 최대 4배 빠른 트레이닝 속도를 제공하도록 설계되었다. 최대 10만 개의 칩으로 구성된 EC2 울트라클러스터에 배포할 수 있어 대규모 언어 모델(LLM)과 기타 기초 모델(FM)을 단시간에 학습할 수 있으며, 에너지 효율도 2배 가까이 개선할 수 있다.


이런 행보는 AWS가 첫 주인공이면서 가장 앞서 나가고 있다. 구글이 TPU 칩을 만들어 AI 분야에 적용하고 있다. 최근 빅3 클라우드 사업자 중 마지막으로 독자칩을 공개했다. 애저 마이아 100이라는 AI 칩과 애저 코발트 100이라는 ARM 기반 서버칩을 만들었다. AWS는 2014년 이스라엘 스타트업 '안나푸르나'를 인수하면서 독자적인 칩 확보에 나섰다.


이번에 선보인 그래비톤4와 트레이니움2는 머신러닝(ML) 트레이닝과 생성형 AI 애플리케이션을 포함한 광범위한 고객 워크로드에 대한 개선된 가격 대비 성능과 에너지 효율성을 제공한다. AWS는 각 칩 세대마다 더 나은 가격 대비 성능과 에너지 효율을 제공하며, 고객에게 AMD, 인텔(Intel), 엔비디아(NVIDIA)와 같은 타사의 최신 칩이 포함된 칩/인스턴스 조합 외에도 다양한 선택권을 제공해 거의 모든 애플리케이션 또는 워크로드를 아마존 EC2(Amazon EC2)에서 실행할 수 있도록 지원한다.


AWS 그래비톤4


  • 그래비톤4는 기존 그래비톤3 프로세서 대비 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 많은 메모리 대역폭을 제공해 아마존 EC2에서 실행되는 워크로드에 최고의 가격 대비 성능과 에너지 효율성을 제공한다.
  • 트레이니움2는 1세대 트레이니움 칩 대비 최대 4배 빠른 학습 속도를 제공하도록 설계됐으며, 최대 10만 개의 칩으로 구성된 EC2 울트라클러스터(UltraClusters)에 배포할 수 있어 파운데이션 모델(FM)과 대규모 언어 모델(LLM)을 단시간에 학습시키고 에너지 효율성을 최대 2배까지 향상시킨다.


데이비드 브라운(David Brown) AWS 컴퓨팅 및 네트워킹 부문 부사장은 "실리콘은 모든 고객 워크로드의 기반이 되며, 이는 AWS의 핵심 혁신 분야다”라며 “고객에게 중요한 실제 워크로드에 집중해 칩을 설계함으로써 AWS는 고객에게 가장 진보한 클라우드 인프라를 제공할 수 있게 됐다. 그래비톤4는 불과 5년 만에 출시한 4세대 칩으로서 광범위한 워크로드를 위해 지금까지 개발한 칩 중 가장 강력하고 에너지 효율적이다. 생성형 AI에 대한 관심이 급증함에 따라 트레이니움2는 고객이 더 낮은 비용으로 더 빠르게, 그리고 더 높은 에너지 효율로 ML 모델을 훈련할 수 있도록 지원할 것”이라고 말했다.


그래비톤4, 광범위한 워크로드에 대한 가격 대비 성능과 에너지 효율성의 기준 향상


현재 AWS는 전 세계적으로 150개 이상의 다양한 그래비톤 기반 아마존 EC2 인스턴스 유형을 대규모로 제공하고 있다. 또한 200만 개 이상의 그래비톤 프로세서를 구축했고, 상위 100대 EC2 고객을 포함해 5만 개 이상의 고객이 애플리케이션의 가격 대비 성능 최적화를 위해 그래비톤 기반 인스턴스를 사용하고 있다.


데이터독(Datadog), 디렉티비(DirecTV), 디스커버리(Discovery), 포뮬러 1(Formula 1), 넥스트롤(NextRoll), 닐슨(Nielsen), 핀터레스트(Pinterest), SAP, 스노우플레이크(Snowflake), 스프링클(Sprinklr), 스트라이프(Stripe), 젠데스크(Zendesk) 등의 고객은 데이터베이스, 분석, 웹 서버, 배치 처리, 광고 서비스, 애플리케이션 서버, 마이크로서비스 등 광범위한 워크로드를 실행하는 데 있어 그래비톤 기반 인스턴스를 사용한다


고객이 더 큰 규모의 인메모리 데이터베이스 및 분석 워크로드를 클라우드로 가져올수록 컴퓨팅, 메모리, 스토리지 및 네트워킹 요구 사항은 증가한다. 따라서 이러한 까다로운 워크로드를 실행하는 동시에 비용을 관리하기 위해서는 더 높은 성능과 더 큰 인스턴스 크기가 필요하며, 워크로드가 환경에 미치는 영향을 줄이기 위해 보다 에너지 효율적인 컴퓨팅 옵션을 원하는 고객의 선호를 충족해야 한다.


그래비톤은 아마존 오로라(Amazon Aurora), 아마존 엘라스티캐시(Amazon ElastiCache), 아마존 EMR(Amazon EMR), 아마존 메모리DB(Amazon MemoryDB), 아마존 오픈서치(Amazon OpenSearch), 아마존 RDS(Amazon RDS), AWS 파게이트(AWS Fargate), AWS 람다(AWS Lambda)등 AWS 관리형 서비스에서 지원되므로 해당 서비스 사용자에게 그래비톤의 이점인 우수한 가격 대비 성능을 제공할 수 있다.


그래비톤4 프로세서는 기존 그래비톤3보다 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 큰 메모리 대역폭을 제공한다. 아울러 그래비톤4는 모든 고속 물리적 하드웨어 인터페이스를 완전히 암호화해 보안성을 높인다. 그래비톤4는 메모리에 최적화된 아마존 EC2 R8g 인스턴스로 제공돼 고객이 고성능 데이터베이스, 인메모리 캐시, 빅데이터 분석 워크로드의 실행을 개선할 수 있도록 지원한다. R8g 인스턴스는 기존 세대 R7g 인스턴스보다 최대 3배 더 많은 vCPU와 3배 더 많은 메모리로 더 큰 인스턴스 크기를 제공한다. 고객은 이를 통해 더 많은 양의 데이터 처리, 워크로드 확장, 결과 도출 시간 개선, 총 소유 비용 절감을 달성할 수 있다. 그래비톤4 기반 R8g 인스턴스는 현재 프리뷰 버전으로 제공되며, 향후 몇 달 내에 정식 출시될 예정이다.


트레이니움2의 EC2 울트라클러스터, 클라우드에서 최고 수준의 성능과 에너지 효율 갖춘 AI 모델 트레이닝 인프라 제공을 목표로 설계


AWS Trainium2


오늘날 새롭게 떠오르는 생성형 AI 애플리케이션의 기반이 되는 FM과 LLM은 방대한 데이터 세트를 기반으로 학습된다. 이러한 모델을 통해 고객은 텍스트, 오디오, 이미지, 비디오, 심지어 소프트웨어 코드를 포함한 다양한 신규 콘텐츠를 생성해 사용자 경험을 완전히 새롭게 재구현 할 수 있다.


최신의 FM과 LLM은 수천억 개에서 수조 개에 이르는 파라미터를 포함하므로 수만 개의 ML 칩에 걸쳐 확장할 수 있는 안정적인 고성능 컴퓨팅 용량을 필요로 한다. AWS는 이미 최신 엔비디아 GPU, 트레이니움, 인퍼런시아2(Inferentia2) 등 ML 칩이 탑재된 가장 광범위하고 심층적인 아마존 EC2 인스턴스 선택지를 제공하고 있다.


현재 데이터브릭스(Databricks), 헬릭손(Helixon), 머니 포워드(Money Forward), 아마존 서치(Amazon Search) 팀을 비롯한 고객들은 대규모 딥 러닝 모델을 학습시키는데 트레이니움을 사용하며, 높은 성능, 확장성, 안정성, 저비용의 등의 이점을 경험하고 있다. 하지만 고객들은 최고 수준의 속도를 자랑하는 가속 인스턴스를 사용하고 있음에도 불구하고 점점 더 정교해지는 모델을 더 낮은 비용으로 더 빠르게 학습시키는 동시에 에너지 사용량을 줄일 수 있는 성능과 규모를 갖춘 제품을 필요로 한다.


트레이니움2 칩은 최대 수조 개의 파라미터를 보유한 FM 및 LLM의 고성능 트레이닝을 위해 제작되었다. 트레이니움2는 1세대 트레이니움 칩에 비해 최대 4배 빠른 학습 성능과 3배 더 많은 메모리 용량을 제공하는 동시에 에너지 효율(와트당 성능)을 최대 2배까지 개선할 수 있도록 설계됐다. 트레이니움2는 단일 인스턴스에 16개의 트레이니움 칩이 포함된 아마존 EC2 Trn2 인스턴스로 제공될 예정이다.


Trn2 인스턴스는 AWS 엘라스틱 패브릭 어댑터(EFA) 페타비트급 네트워킹과 상호 연결되어 고객이 차세대 EC2 울트라클러스터에서 최대 10만 개의 트레이니움2 칩을 규모에 맞게 확장해 최대 65 엑사플롭의 컴퓨팅을 제공하고 슈퍼컴퓨터급 성능에 온디맨드 방식으로 액세스할 수 있도록 지원한다. 이로써 고객은 기존에는 몇 달이 소요되던 3,000억 개 파라미터 규모 LLM의 학습을 단 몇 주 만에 수행할 수 있다. Trn2 인스턴스는 훨씬 더 낮은 비용으로 최고 수준의 스케일아웃(Scale-out) ML 학습 성능을 제공함으로써 고객이 생성형 AI의 차세대 발전을 가속화하고 실현할 수 있도록 지원한다.


책임감 있는 생성형 AI 배포를 선도하는 앤트로픽(Anthropic)은 신뢰할 수 있고 해석 가능하며 조정 가능한 AI 시스템을 개발하는 AI 안전 및 연구 회사로 2021년부터 AWS의 고객이다. 앤트로픽은 최근 유용하며, 무해하며, 정직한 AI 어시스턴트인 클로드(Claude)를 출시했다. 톰 브로우(Tom Brow) 앤트로픽 공동 창립자는 "클로드는 아마존 베드록(Amazon Bedrock)에서 출시된 이후 AWS 고객들로부터 빠른 속도로 채택되고 있다"며, "앤트로픽은 AWS와 긴밀히 협력하여 트레이니움 칩을 사용한 미래 기반 모델을 개발하고 있다. 트레이니움2는 대규모 모델 구축 및 학습에 유용하게 활용될 것이며, 일부 주요 워크로드에서 1세대 트레이니움 칩보다 최소 4배 이상 빠를 것으로 예상한다”고 말했다.


그는 이어 “AWS와의 협력은 앤트로픽의 최첨단 AI 시스템과 AWS의 안전하고 신뢰할 수 있는 클라우드 기술을 함께 사용할 수 있게 함으로써 모든 규모의 조직이 새로운 가능성을 열 수 있게 지원할 것”이라고 설명했다.


포춘(Fortune) 500대 기업의 50% 이상과 컴캐스트(Comcast), 콘데 나스트(Condé Nast)를 포함한 전 세계 1만 개 이상의 조직이 데이터, 분석, AI를 통합하기 위해 데이터브릭스를 사용하고 있다. 나빈 라오(Naveen Rao) 데이터브릭스 생성형 AI 부문 부사장은 "수천 명의 고객이 AWS에서 데이터브릭스를 구현했으며, 모자이크ML(MosaicML)을 사용해 다양한 사용 사례에 대해 FM을 사전 학습하고 미세 조정하고 서비스를 제공할 수 있게 됐다”며, "AWS 트레이니움은 모자이크 MPT(MosaicMPT) 모델을 훈련하는 데 필요한 규모와 고성능을 낮은 비용으로 제공한다. 차세대 모자이크 MPT 모델을 학습시킬 시 트레이니움2는 모델을 더욱 빠르게 구축할 수 있게 해 고객이 자체 생성형 AI 애플리케이션을 더 빠르게 시장에 출시할 수 있도록 전례 없는 규모와 성능을 제공할 수 있게 된다”고 말했다.


데이터독은 조직 전반에 걸쳐 완벽한 가시성을 제공하는 통합 가시성 및 보안 플랫폼이다. 로렌트 베르나일(Laurent Bernaille) 데이터독의 수석 엔지니어는 "데이터독에서는 수만 개의 노드를 운영하므로 성능과 비용 효율성의 균형을 맞추는 것이 매우 중요하며, 때문에 이미 아마존 EC2 노드의 절반을 그래비톤에서 실행하고 있다"며, "그래비톤4 기반 인스턴스를 통합하는 것은 원활하게 진행되었으며, 즉시 성능이 향상되는 것을 확인할 수 있었다. 그래비톤4의 정식 출시가 매우 기대된다”고 말했다.


에픽은 선도적인 인터랙티브 엔터테인먼트 회사이자 3D 엔진 기술 제공업체다. 에픽은 3억 5,000만 개 이상의 계정과 25억 명의 유저 연결망을 보유한 세계 최대 규모의 게임 중 하나인 포트나이트(Fortnite)를 운영하고 있다. 로만 비신틴(Roman Visintine) 에픽 수석 클라우드 엔지니어는 "AWS 그래비톤4 인스턴스는 지금까지 테스트한 것 중 가장 빠른 EC2 인스턴스이며, 가장 경쟁이 치열하고 지연 시간에 민감한 워크로드에서 뛰어난 성능을 제공한다"며, "그래비톤4을 사용해 유저 경험을 개선하고 포트나이트 내에서의 가능성을 확장할 수 있기를 기대한다”고 말했다.


허니콤은 엔지니어링 팀이 이전에는 해결할 수 없었던 문제를 발견하고 해결할 수 있도록 지원하는 통합 가시성 플랫폼이다. 리즈 퐁-존스(Liz Fong-Jones) 허니콤 CTO는 "AWS 그래비톤4 기반 R8g 인스턴스를 평가하게 돼 매우 기쁘다”며, "최근 테스트에서 Go 기반 오픈텔레메트리(OpenTelemetry) 데이터 수집 워크로드에서 그래비톤3 기반 C7g/M7g/R7g 인스턴스에 비해 그래비톤4 기반 R8g 인스턴스에서 복제본이 25% 더 적게 필요했으며, 중앙값 지연 시간은 20%, 99번째 백분위수 지연 시간은 10% 개선되었다. 그래비톤4 기반 인스턴스가 대중에 공개되면 더욱 유용하게 활용될 것으로 기대한다"고 말했다.


SAP 클라우드 네이티브 인메모리 데이터베이스인 SAP 하나(SAP HANA) 클라우드는 SAP 비즈니스 기술 플랫폼(SAP BTP)의 데이터 관리 모델이다. 유르겐 뮐러(Juergen Mueller) SAP SE의 CTO 겸 이사회 멤버는 "고객들은 핵심적 비즈니스 프로세스와 차세대 인텔리전트 데이터 애플리케이션을 클라우드에서 실행하기 위해 SAP 하나 클라우드를 활용하고 있다"며, "SAP 하나 클라우드를 AWS 그래비톤 기반 아마존 EC2 인스턴스로 마이그레이션하는 과정에서 이미 분석적 워크로드에 대해 최대 35% 향상된 수준의 가격 대비 성능을 확인했다. 앞으로 몇 달 동안 그래비톤4이 우리의 공동 고객에게 제공하는 이점을 확인할 수 있을 것으로 기대한다”고 말했다.



한편, 이날 행사에서는 젠슨 황 엔비디아 CEO가 깜짝 등장했다. 두 회사는 H200 공급을 통한 서비스 구축에 나선다. 또 엔비디아가 자체 만든 시스템인 DGX도 공급한다. 마이크로소프트와 오라클클라우드인프라스트럭처, 구글클라우드는 이미 관련 협력을 단행하면서 각사의 데이터센터에 DGX를 도입해 서비스를 공급할 수 있도록 했다. AWS가 마지막으로 이를 승인하면서 엔비디아 입장에서도 마지막 산을 넘었다. AI 분야 GPU와 AI 칩 확보 경쟁이 그 어느 때보다 치열한 상황에서 어쩌면 너무나 당연한 협력이라고 볼 수 있다.


[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
세미나