[AWS re:Invent 2024] AWS가 생성형 AI를 지원하기 위해 인프라를 엔지니어링하는 4가지 방법

[테크수다 기자 도안구 eyeball@techsuda.com] 클라우드 분야 선두 기업 아마존웹서비스(AWS : Amazon Web Services)가 클라우드 행사인 AWS 리인벤트 2024를 개최했습니다. AWS는 차세대 인공지능(AI)을 지원하고 에너지 효율성을 더욱 개선하며 지속적인 고객 혁신을 뒷받침하기 위한 새로운 데이터 센터 구성 요소도 발표했습니다.

프라사드 칼야나라만(Prasad Kalyanaraman) AWS 인프라 서비스 부문 부사장은 "AWS는 전 세계 고객을 위한 가장 성능과 복원력이 뛰어나고, 안전하고 지속 가능한 클라우드를 구축하기 위해 끊임없이 인프라를 혁신하고 있다"며 "이러한 데이터센터 기능은 에너지 효율성이 향상되고 새로운 워크로드를 유연하게 지원한다는 점에서 중요한 진전을 의미한다. 하지만 더욱 흥미로운 점은 이러한 기능들이 모듈식으로 설계되어 기존 인프라를 액체 냉각 및 에너지 효율성을 위해 개조할 수 있어 생성형 AI 애플리케이션을 지원하고 탄소 발자국을 줄일 수 있다는 것"이라고 말했다.

관련 글이 올라왔길래 클로드 3.5 소넷과 딥엘을 활용해 기사를 번역하고 정리했습니다. 원문을 꼭 참고해주세요.

4 ways AWS is engineering infrastructure to power generative AI
From networking innovations to changes in data center design, AWS continues to optimize its infrastructure to support generative AI at scale.

네트워킹 혁신부터 데이터 센터 설계의 변화에 이르기까지, AWS는 대규모의 생성형 AI를 지원하기 위해 인프라를 지속적으로 최적화하고 있습니다.

개인과 기업이 새로운 기술을 사용해 의사 결정을 개선하고, 고객 경험을 변화시키며, 창의성과 혁신을 촉진함에 따라, 생성적 인공 지능(AI)은 하룻밤 사이에 우리의 세상을 변화시켰습니다. 하지만 생성형 AI를 지원하는 기본 인프라는 하루아침에 구축된 것이 아니라 수년간의 혁신의 결과물입니다.

AI와 머신러닝(ML)은 Amazon이 25년 이상 집중해 온 분야로, 쇼핑 추천 및 포장 결정과 같은 일상적인 기능을 주도하고 있습니다. Amazon Web Services(AWS)에서는 모든 개발자, 데이터 과학자, 전문 실무자에게 ML을 제공하여 고객에게 이러한 지식을 제공하는 데 주력해 왔습니다. 이제 AI는 AWS에서 수십억 달러의 매출을 올리는 사업이 되었습니다. 아디다스, 뉴욕증권거래소, 화이자, 라이언에어, 도요타 등 다양한 산업 분야의 10만여 고객이 AWS AI와 ML 서비스를 사용해 고객 경험을 재창조하고 있습니다. 또한 많은 선도적인 생성형 AI 모델이 AWS에서 학습되고 실행됩니다.

이 모든 작업은 데이터 센터, 글로벌 네트워크, 맞춤형 AI 칩을 비롯한 AWS의 글로벌 인프라가 뒷받침하고 있습니다. 15년 이상 대규모 데이터 센터와 12년 이상 GPU 기반(그래픽 처리 장치) 서버를 구축해 왔기 때문에 기존 AI 인프라에 대한 방대한 공간을 확보하고 있습니다.

세상이 빠르게 변화함에 따라 AWS는 강력한 인프라 기반을 지속적으로 조정하고 개선하여 대규모의 생성형 AI를 지원하는 새로운 혁신을 제공하고 있습니다. 이를 위한 네 가지 방법을 소개합니다.

1.

저지연, 대규모 네트워킹 제공

생성형 AI 모델을 효율적으로 학습하고 실행하려면 방대한 양의 데이터가 필요합니다. 모델이 크고 복잡할수록 학습 시간이 길어집니다. 학습 시간이 길어지면 운영 비용이 증가할 뿐만 아니라 혁신도 느려집니다. 기존 네트워크는 생성형 AI 모델 학습에 필요한 짧은 지연 시간과 대규모를 충족하기에 충분하지 않습니다.

우리는 고객을 위해 네트워크 지연 시간을 줄이고 성능을 개선하기 위해 끊임없이 노력하고 있습니다. 우리의 접근 방식은 네트워크 인터페이스 카드부터 톱 오브 랙 스위치, 데이터센터 네트워크, 인터넷 연결 라우터 및 백본 라우터에 이르기까지 스택의 모든 계층에 대해 자체 네트워크 장치와 네트워크 운영 체제를 구축했다는 점에서 독보적입니다. 이러한 접근 방식을 통해 고객을 위한 보안, 안정성, 성능 개선에 대한 통제력을 강화할 수 있을 뿐만 아니라 남들보다 빠르게 혁신에 나설 수 있습니다.

예를 들어, 2019년에 우리는 Amazon EC2 인스턴스에 운영 체제 우회 기능을 제공하는 AWS에서 맞춤형으로 구축한 네트워크 인터페이스인 Elastic Fabric Adapter(EFA)를 도입했습니다. 이를 통해 고객은 높은 수준의 노드 간 통신이 필요한 애플리케이션을 대규모로 실행할 수 있습니다. EFA는 AWS에서 특별히 설계한 고성능, 저지연 네트워크 전송 프로토콜인 확장 가능한 신뢰할 수 있는 데이터그램(SRD)을 AWS용으로 사용합니다.

최근에는 생성형 AI 워크로드를 위한 새로운 네트워크를 제공하기 위해 발 빠르게 움직였습니다. 2020년에 구축된 1세대 UltraCluster 네트워크는 서버 간 지연 시간이 8마이크로초로 4,000개의 그래픽 처리 장치(GPU)를 지원했습니다. 새로운 네트워크인 UltraCluster 2.0은 지연 시간을 25% 줄이면서 20,000개 이상의 GPU를 지원합니다. 이 네트워크는 단 7개월 만에 구축되었으며, 자체 맞춤형 네트워크 장치와 소프트웨어에 대한 장기적인 투자가 없었다면 이러한 속도는 불가능했을 것입니다. 내부적으로는 초당 수십 페타비트의 처리량과 10마이크로초 미만의 왕복 시간을 제공하기 때문에 UltraCluster 2.0을 “10p10u” 네트워크라고 부릅니다. 새로운 네트워크는 모델 훈련 시간을 15% 이상 단축합니다.

2.

데이터센터의 지속적인 에너지 효율 개선

AI 모델을 학습하고 실행하는 것은 에너지 집약적일 수 있으므로 효율성 노력이 매우 중요합니다. AWS는 환경에 미치는 영향을 줄이기 위해 효율적인 방식으로 비즈니스를 운영하기 위해 최선을 다하고 있습니다. 이는 지역사회와 지구를 위해 옳은 일일 뿐만 아니라 AWS의 비용 절감에도 도움이 되며, 이러한 비용 절감분을 고객에게 전가할 수 있습니다. 수년 동안 AWS는 인프라 전반의 에너지 효율성을 개선하는 데 주력해 왔습니다. 몇 가지 예를 들면 다음과 같습니다:

- 데이터 센터 냉각 시스템의 냉각 매체의 수명과 공기 흐름 성능 최적화.

- 고급 모델링 방법을 사용하여 데이터센터가 구축되기 전에 데이터센터의 성능을 파악하고 랙과 데이터홀에 서버를 배치하는 방법을 최적화하여 전력 활용을 극대화합니다.

- 저탄소 콘크리트와 강철을 사용하고 백업 발전기를 수소 처리된 식물성 기름으로 전환하는 등 탄소 집약도가 낮은 데이터 센터를 구축합니다.

Accenture의 새로운 연구에 따르면 이러한 노력이 성과를 거두고 있습니다. 이 연구에 따르면 AWS의 인프라는 온프레미스보다 최대 4.1배 더 효율적이며, AWS에서 최적화하면 탄소 발자국을 최대 99%까지 줄일 수 있다고 합니다. 하지만 전력 수요가 증가함에 따라 여기서 멈출 수는 없습니다.

AI 칩은 고속으로 수학적 계산을 수행하므로 ML 모델에 매우 중요합니다. 또한 다른 유형의 칩보다 훨씬 더 많은 열을 발생시키므로 칩당 1,000와트 이상의 전력을 필요로 하는 새로운 AI 서버는 수냉식 냉각이 필요합니다. 그러나 일부 AWS 서비스는 액체 냉각이 필요하지 않은 네트워크 및 스토리지 인프라를 활용하므로 이러한 인프라를 액체로 냉각하는 것은 에너지의 비효율적인 사용이 될 수 있습니다. AWS의 최신 데이터센터 설계는 최적화된 공랭식 솔루션과 엔비디아 그레이스 블랙웰 슈퍼칩과 같은 가장 강력한 AI 칩셋을 위한 액체 냉각 기능을 원활하게 통합합니다. 이러한 유연한 멀티모달 냉각 설계를 통해 기존 워크로드를 실행하든 AI/ML 모델을 실행하든 성능과 효율성을 극대화할 수 있습니다. 저희 팀은 랙 레이아웃부터 전기 배전, 냉각 기술에 이르기까지 데이터센터를 설계하여 컴퓨팅 수요에 관계없이 지속적으로 에너지 효율을 높일 수 있도록 합니다.

3.

기본부터 탄탄한 보안

고객이 생성형 AI를 도입할 때 가장 많이 듣는 인프라 관련 질문 중 하나는 매우 민감한 데이터를 보호하는 방법입니다. 보안은 저희의 최우선 과제이며, 저희의 모든 작업에는 보안이 기본으로 포함되어 있습니다. 저희 인프라는 연중무휴 24시간 모니터링되며, 데이터가 물리적 경계를 벗어나 인프라 위치 간에 이동할 때는 기본 네트워크 계층에서 암호화됩니다. 모든 클라우드가 동일하게 구축되는 것은 아니기 때문에 AI에 중점을 두고 AWS로 이전하는 기업이 점점 더 많아지고 있습니다.

. AI 인프라 보안에 대한 접근 방식은 세 가지 핵심 원칙을 기반으로 합니다: 1) 인프라 운영자로부터 AI 데이터의 완전한 격리, 즉 인프라 운영자가 AI 모델 가중치 및 모델로 처리된 데이터와 같은 고객 콘텐츠와 AI 데이터에 액세스할 수 없어야 함, 2) 고객이 AI 데이터를 자신으로부터 격리, 즉 고객 자체 사용자 및 소프트웨어에서 데이터에 액세스할 수 없어야 함, 3) 인프라 통신 보호, 즉 ML 가속기 인프라의 장치 간 통신이 보호되어야 함. 이 세 가지 원칙은 다음과 같습니다.

2017년에는 처리 중 무단 액세스로부터 고객의 코드와 데이터를 보호하는 AWS Nitro 시스템을 출시하여 안전한 AI 인프라의 첫 번째 원칙을 충족했습니다. 두 번째 원칙은 AWS Nitro Enclaves와 AWS 키 관리 서비스(AWS KMS) 간의 통합 솔루션으로 충족됩니다. 고객은 니트로 엔클레이브와 AWS KMS를 통해 자신이 소유하고 제어하는 키를 사용해 민감한 AI 데이터를 암호화하고, 해당 데이터를 원하는 위치에 저장하며, 추론을 위해 암호화된 데이터를 격리된 컴퓨팅 환경으로 안전하게 전송할 수 있습니다. 이 과정에서 데이터는 암호화되어 EC2 인스턴스의 자체 사용자 및 소프트웨어로부터 격리되며, AWS 운영자는 이 데이터에 액세스할 수 없습니다. 이전에는 니트로 엔클레이브가 CPU에서만 작동했습니다. 최근에는 이 Nitro 엔드투엔드 암호화 흐름을 ML 가속기 및 GPU와의 최고 수준의 통합을 포함하도록 확장하여 세 번째 원칙을 충족할 계획을 발표했습니다.

4.

AWS AI 칩

생성형 AI를 구동하는 칩은 모델을 얼마나 빠르고, 저렴하게, 지속 가능하게 학습하고 실행할 수 있는지에 영향을 미치는 매우 중요한 요소입니다.

AWS는 AWS Trainium 및 AWS Inferentia를 포함한 자체 AI 칩을 설계합니다.이러한 전용 칩은 뛰어난 가격 대비 성능을 제공하며, 생성형 AI 모델을 학습하고 실행하는 데 있어 에너지 효율을 높여줍니다. AWS 트레이니움은 ML 모델 트레이닝 속도를 높이고 비용을 최대 50%까지 낮추도록 설계되었으며, AWS 인퍼런시아는 추론에 최적화된 다른 동급의 다른 Amazon EC2 인스턴스보다 최대 40% 더 나은 가격 성능으로 모델이 더 빠르고 저렴한 비용으로 추론을 생성할 수 있게 해줍니다. 다른 대안에 비해 가격 대비 성능이 뛰어나기 때문에, 저희 AI 칩에 대한 수요는 상당히 높습니다. 트레니움2는 3세대 AI 칩으로 올해 말 출시될 예정입니다. Trainium2는 1세대 Trainium 칩보다 최대 4배 빠른 학습 속도를 제공하도록 설계되었으며, 최대 10만 개의 칩으로 구성된 EC2 UltraCluster에 배포할 수 있어 기초 모델과 대규모 언어 모델을 단시간에 학습하는 동시에 에너지 효율성을 최대 2배까지 향상시킬 수 있습니다.

또한, AWS는 NVIDIA, Intel, Qualcomm, AMD를 비롯한 파트너와 협력하여 클라우드에서 가장 광범위한 ML 및 생성 AI 애플리케이션용 가속기 세트를 제공합니다. 그리고 고객에게 더 나은 가격 대비 성능을 제공하는 차세대 AWS 설계 칩을 제공하기 위해 혁신을 계속할 것입니다.

AI 붐 속에서 기업은 비용을 절감하고 고성능을 보장하기 위해 적합한 컴퓨팅 인프라를 선택하는 것이 중요합니다.AWS는 고객에게 머신 러닝 애플리케이션 구축 및 확장을 위한 가장 안전하고 성능이 뛰어나며 비용 효율적이고 에너지 효율적인 인프라를 제공하게 된 것을 자랑스럽게 생각합니다.

****** ***** *****

참고로 AWS, AI 지원 및 에너지 효율성 향상을 위한 새로운 데이터센터 구성 요소 발표 글도 관련 분야를 이해하는데 도움이 될거 같습니다.

AWS는 차세대 인공지능(AI)을 지원하고 에너지 효율성을 더욱 개선하며 지속적인 고객 혁신을 뒷받침하기 위한 새로운 데이터 센터 구성 요소를 발표했습니다.

더 많은 고객이 생성형 AI를 사용하고 용량 수요가 증가함에 따라 몇 가지 새로운 기능이 AWS의 새로운 데이터 센터에 전 세계적으로 구현될 예정이며, 많은 구성 요소가 이미 기존 데이터 센터에 배포되어 있습니다.

새로운 구성 요소에는 전력, 냉각 및 하드웨어의 발전이 결합되어 있습니다. 여기에는 다음이 포함됩니다:

  • 간소화된 전기 및 기계 설계로 전체 에너지 소비를 줄이면서 장애 위험을 최소화합니다.
  • 냉각, 랙 설계 및 제어 시스템의 혁신으로 AWS가 고객 워크로드에 대해 사이트당 12% 더 많은 컴퓨팅 성능을 제공하는 동시에 동일한 양의 컴퓨팅 용량을 제공하는 데 필요한 전체 데이터 센터 수를 줄일 수 있게 됩니다.
  • 에너지 효율성 및 지속 가능성을 위한 업그레이드: 보다 효율적인 냉각 시스템으로 기계 에너지 소비를 최대 46%까지 줄이고, 데이터센터 건물 외피 콘크리트의 탄소 함유량을 업계 평균 대비 최대 35%까지 줄이며, 재생 가능한 디젤(화석 디젤에 비해 연료 수명 주기 동안 온실가스 배출량을 최대 90%까지 줄일 수 있는 생분해성 무독성 연료)로 가동할 수 있는 백업 발전기를 도입합니다.

AWS는 2025년 초 미국에서 모든 구성 요소를 갖춘 새로운 데이터 센터의 건설을 시작할 예정입니다.

[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!