[마이크로소프트 이그나이트 2023] 베일 벗은 AI∙ ARM 기반 반도체 그리고 엔비디아∙AMD 협력

[테크수다 기자 도안구 eyeball@techsuda.com] 클라우드 경쟁은 이제 AI 인프라 경쟁으로 자연스럽게 이어지고 있다. 이런 흐름은 전문 업체와 협력을 단행하면서 동시에 자체 무기를 가지고 운신의 폭을 넓히는 전략을 자연스럽게 구사할 수 있게 한다.

마이크로소프트는 이그나이트 2023에서 자사가 오랫동안 준비한 비장의 반도체 2종을 선보였다. 마이크로소프트 애저 마이아와 마이크로소프트 애저 코발트가 그 주인공이다. AI 분야 학습과 추론 시장을 겨냥한 자체 설계 반도체와 또 하나는 ARM 기반 네이티브 칩으로 클라우드 워크로드의 성능과 전력 효율성에 최적되었다.

마이크로소프트 애저 마이아(Microsoft Azure Maia)는 AI 기술 가속화를 위해 설계된 칩으로, 오픈AI 모델, 빙, 깃허브 코파일럿, 챗GPT와 같은 AI워크로드에 대한 클라우드 기반 학습 및 추론을 수행하도록 설계됐다.
마이크로소프트 애저 코발트(Microsoft Azure Cobalt)는 암(Arm) 아키텍처를 기반으로 한 클라우드 네이티브 칩이다. 다양한 종류의 작업을 수행하는 워크로드의 성능, 전력 효율성을 최적화한다.

https://youtu.be/AHSboyXhjyw?si=He_drp12bFu_TC4K

사티아 나델라 마이크로소프트 회장 겸 이사회의장은 "이 칩은 실리콘 선택, 소프트웨어, 서버부터 랙 및 냉각 시스템에 이르기까지 모든 것을 포함하는 인프라 시스템을 제공하기 위한 마지막 퍼즐 조각으로, 내부 및 고객 워크로드를 염두에 두고 최적화할 수 있도록 처음부터 끝까지 설계되었습니다"라고 말했다.

새롭게 선보인 칩은 2024년 초부터 마이크로소프트의 데이터센터에서 서비스 되며 처음에는 마이크로소프트 코파일럿(Microsoft Copilot) 또는 애저 오픈AI 서비스(Azure OpenAI Service)와 같은 서비스를 구동할 예정이다. 이 칩은 효율적이고 확장 가능하며 지속 가능한 컴퓨팅 성능에 대한 폭발적인 수요와 최신 클라우드와 AI 혁신을 활용하고자 하는 고객의 요구를 충족하기 위해 업계 파트너의 다양한 제품군에 합류할 예정입니다.

함께 진화하는 하드웨어 및 소프트웨어
이 회사의 새로운 마이아 100 AI 액셀러레이터는 Microsoft Azure에서 실행되는 가장 큰 내부 AI 워크로드 중 일부를 지원한다. 또한 OpenAI는 Azure 마이아에 대한 피드백을 제공했으며, 대모 언어 모델에 맞게 조정된 인프라에서 OpenAI의 워크로드가 실행되는 방식에 대한 마이크로소프트의 심층적인 인사이트는 향후 마이크로소프트의 설계에 도움이 되고 있다.

마이아 100은 시리즈의 1세대로, 1,050억 개의 트랜지스터가 탑재되어 5nm 공정 기술에서 가장 큰 칩 중 하나다. 마이아 100의 혁신은 실리콘, 소프트웨어, 네트워크, 랙 및 냉각 기능 전반에 걸쳐 이루어졌다. 이를 통해 Azure AI 인프라는 GPT와 같은 획기적인 AI의 요구 사항을 충족하도록 맞춤화된 엔드투엔드 시스템 최적화를 갖추게 된다.

마이크로소프트 클라우드에서 대규모 언어 모델 학습과 추론을 위해 마이크로소프트가 최초로 설계한 마이크로소프트 애저 마이아 100 AI 액셀러레이터. 이미지 제공: 마이크로소프트

샘 알트먼(Sam Altman) 오픈AI CEO는 "마이크로소프트와 처음 파트너 관계를 맺은 이래로 우리는 모델과 전례 없는 교육 요구 사항을 위해 모든 계층에서 애저의 AI 인프라를 공동 설계하기 위해 협력해 왔습니다."라고 전하고 "마이크로소프트가 마이아 칩에 대한 설계를 처음 공유했을 때 매우 기뻤고, 함께 협력하여 모델을 개선하고 테스트했습니다. 이제 마이아를 통해 실리콘까지 최적화된 애저(Azure)의 엔드투엔드 AI 아키텍처는 더 뛰어난 성능의 모델을 학습하고 고객에게 더 저렴한 모델을 제공할 수 있는 길을 열어줍니다"라고 소감을 전했다.

애저 마이아 팀을 이끄는 브라이언 해리(Brian Harry) 마이크로소프트 기술 펠로우는 마이아 100 AI 액셀러레이터는 또한 애저 하드웨어 스택을 위해 특별히 설계되었다고 전했다. 그는 이러한 수직적 통합(칩 설계를 Microsoft의 워크로드를 염두에 두고 설계된 더 큰 AI 인프라와 일치시키는 것)을 통해 성능과 효율성을 크게 향상시킬 수 있다고 말했다.

마이크로소프트 애저 코발트 100 CPU는 마이크로소프트 클라우드를 위해 마이크로소프트가 최초로 개발한 CPU

하드웨어 제품 개발 담당 부사장인 웨스 맥컬러프는 코발트 100 CPU는 에너지 효율적인 칩 설계의 일종인 Arm 아키텍처를 기반으로 하며 클라우드 네이티브 제품에서 더 높은 효율성과 성능을 제공하도록 최적화되었다고 설명했다. Arm 기술을 선택한 것은 마이크로소프트의 지속 가능성 목표에서 핵심적인 요소였다. 마이크로소프트는 데이터센터 전체에서 "와트당 성능"을 최적화하는 것을 목표로 하며, 이는 기본적으로 소비되는 각 에너지 단위당 더 많은 컴퓨팅 성능을 얻는 것을 의미한다.

시리즈의 첫 번째 세대인 코발트 100은 64비트 128코어 칩으로, 현재 세대의 Azure Arm 칩에 비해 최대 40% 향상된 성능을 제공하며 Microsoft Teams 및 Azure SQL과 같은 서비스를 구동하고 있다.

미국 워싱턴주 퀸시에 있는 데이터센터에 있는 이 서버는 Microsoft Azure 코발트 100 CPU로 구동되는 최초의 서버랙. Microsoft의 John Brecher 사진.

칩에서 데이터센터에 이르는 맞춤형 하드웨어
2016년 이전에는 마이크로소프트 클라우드의 대부분의 계층을 기성품으로 구입했다. 그런 다음 마이크로소프트는 자체 서버와 랙을 맞춤 구축하기 시작해 비용을 절감하고 고객에게 보다 일관된 경험을 제공하기 시작했다. 시간이 지남에 따라 실리콘이 가장 중요한 요소가 되었다. 이미 경쟁사인 AWS와 구글은 자체칩을 기반으로 AI와 워크로드 업무를 지원하고 있다.

마이크로소프트는 자체 맞춤형 실리콘을 구축할 수 있게 됨에 따라 특정 품질을 목표로 삼고 칩이 가장 중요한 워크로드에서 최적의 성능을 발휘하도록 보장할 수 있게 되었다. 테스트 프로세스에는 다양한 주파수, 온도와 전력 조건에서 각 칩이 최고 성능을 발휘하는 방식을 결정하고, 실제 마이크로소프트 데이터센터에서 경험할 수 있는 것과 동일한 조건과 구성에서 각 칩을 테스트하는 것이 포함된다.

마이크로소프트는 오늘 공개된 실리콘 아키텍처는 냉각 효율을 향상시킬 뿐만 아니라 현재 데이터센터 자산의 사용을 최적화하고 기존 설치 공간 내에서 서버 용량을 최대화할 수 있다고 밝혔다.

예를 들어, 마이아 100 서버 보드의 고유한 요구 사항을 수용할 수 있는 랙은 존재하지 않았다. 그래서 마이크로소프트는 이를 처음부터 새로 만들었다. 이 랙은 일반적으로 회사의 데이터센터에 있는 것보다 더 넓다. 이렇게 확장된 설계는 AI 워크로드의 고유한 요구 사항에 필수적인 전원 및 네트워킹 케이블을 위한 충분한 공간을 제공한다.

워싱턴주 레드몬드에 있는 Microsoft 연구소의 열 챔버 내부에 있는 마이아 100 AI 가속기와 그 '조수'를 위해 맞춤 제작된 랙. 사이드킥은 자동차 라디에이터처럼 작동하여 액체를 랙에 순환시켜 AI 워크로드의 계산 수요를 처리할 때 칩을 냉각시킨다. Microsoft의 John Brecher 사진.

마이크로소프트는 최신 세계 슈퍼컴퓨터 상위 500대 목록에서 애저(Azure)가 퍼블릭 클라우드에서 가장 강력한 슈퍼컴퓨터이자 3위를 차지했다고 밝혔다. 사티아 나델라 마이크로소프트 CEO 겸 이사회 의장은 "이 소식은 뉴스가 되었죠. 뉴스가 되지 않은 건 우리가 슈퍼컴퓨터 전체를 제출하지 않았다는 것입니다. 슈퍼컴퓨터의 일부만 제출했습니다. 그래서 퍼블릭 클라우드로는 유일하게 3위를 차지하게 되어 매우 기쁩니다"라고 웃었다.

한편, 마이크로소프트는 미드레인지 AI 트레이닝 및 제너레이티브 AI 추론을 위해 더 뛰어난 성능, 안정성 및 효율성을 제공하는 NVIDIA H100 텐서 코어 GPU용으로 제작된 새로운 NC H100 v5 가상 머신 시리즈의 프리뷰를 출시했다.

또한 마이크로소프트는 지연 시간 증가 없이 더 큰 규모의 모델 추론을 지원하기 위해 2024년에 최신 NVIDIA H200 텐서 코어 GPU를 제품군에 추가할 예정이다. 또 마이크로소프트 애저에 AMD MI300X 가속 가상 머신을 추가할 것이라고 발표했다. AMD MI300 가상 머신은 광범위한 AI 모델 학습 및 생성 추론을 위한 AI 워크로드 처리를 가속화하도록 설계되었으며, AMD의 최신 GPU인 AMD Instinct MI300X를 탑재한다.

사티아 나델라 회장은 "업계 파트너의 칩 및 하드웨어 에코시스템에 퍼스트 파티 실리콘을 추가함으로써 마이크로소프트는 고객에게 가격 및 성능 면에서 더 많은 선택권을 제공할 수 있을 것"이라고 말했다.

[테크수다 기자 도안구 eyeball@techsuda.com]