스와미 시바수브라마니안 AWS 머신러닝 부사장 "본질적으로 중요한 것은 모델을 구축하는 방식"···보겔스 AWS CTO 대담


[테크수다 기자 도안구 eyeball@techsuda.com] AI 대전에 클라우드 1위 기업 아마존웹서비스(AWS)도 뛰어들었다. 마이크로소프트와 구글의 AI 대결은 곧 클라우드 인프라와 AI 생태계 구축 이슈기 때문에 AWS의 참전은 당연하다.



AWS의 입장을 살펴볼 수 있는 AWS 두 리더의 대담이 있었다. 보너 보겔스(Werner Vogels) AWS CTO와 스와미 시바수브라마니안(Swami Sivasubramanian) AWS 데이터베이스, 분석, 머신러닝 부문 부사장이 주인공이다.


https://youtu.be/dBzCGcwYCJo


대담 내용을 오픈AI ChatGPT 에게 정리했다.


  • 머신러닝은 빠르게 발전하고 있으며, 제너레이티브 AI와 대규모 언어 모델이 뉴스와 대화를 지배하고 있습니다.
  • 방대한 양의 데이터로 학습된 기초 모델을 사용하는 것은 머신 러닝 기술의 주요 변화입니다.
  • 기초 모델을 사용하면 상황에 맞는 학습과 미세 조정이 가능하므로 작업별 모델을 더 쉽게 구축할 수 있습니다.
  • 정량화 및 증류와 같은 기술과 학습 및 추론을 위한 맞춤형 실리콘을 사용하면 프로덕션에서 대규모 모델을 실행하는 데 드는 비용을 절감할 수 있습니다.
  • 제너레이티브 AI를 접근 가능하고 책임감 있게 사용하려면 지속적인 개발과 사용 중인 데이터와 생성된 응답에 대한 신중한 고려가 필요합니다.


AWS가 두 리더의 대담을 정리한 글을 올려놨길래 Deepl.com을 통해 전문을 번역해 이곳에 소개한다. 오역이 있으니 반드시 원문을 확인하시기 바란다.


An introduction to generative AI with Swami Sivasubramanian | All Things Distributed


지난 몇 달 동안 제너레이티브 AI와 이를 가능하게 하는 기반 기술에 대한 관심이 폭발적으로 증가했습니다. 많은 사람들의 집단 의식에 퍼져나가면서 이사회부터 학부모-교사 회의에 이르기까지 다양한 논의가 활발하게 이루어지고 있습니다. 소비자는 이를 사용하고 있으며, 기업은 그 잠재력을 어떻게 활용할지 고민하고 있습니다. 하지만 머신러닝은 갑자기 등장한 것이 아니라 수십 년 전부터 연구되어 왔습니다. 사실 머신 러닝은 Amazon에서 아주 오랫동안 잘 해온 작업입니다. Amazon 리테일 사이트의 개인화, 주문 처리 센터의 로봇 제어, Alexa의 의도 인식 및 음성 합성 개선에 머신 러닝이 사용됩니다. 머신 러닝은 Amazon의 DNA입니다.


지금의 위치에 도달하기까지 몇 가지 중요한 발전이 있었습니다. 첫 번째는 클라우드였습니다. 클라우드는 딥 러닝에 필요한 방대한 양의 컴퓨팅과 데이터를 제공한 핵심 요소입니다. 다음으로 패턴을 이해하고 학습할 수 있는 신경망이 있었습니다. 이를 통해 이미지 인식에 사용되는 것과 같은 복잡한 알고리즘이 가능해졌습니다. 마지막으로 트랜스포머가 도입되었습니다. 입력을 순차적으로 처리하는 RNN과 달리 트랜스포머는 여러 시퀀스를 병렬로 처리할 수 있어 학습 시간을 획기적으로 단축하고 인간의 지식을 이해하고 시를 쓰거나 코드를 디버그하는 등의 작업을 수행할 수 있는 더 크고 정확한 모델을 생성할 수 있습니다.


저는 최근 AWS에서 데이터베이스, 분석 및 머신 러닝 서비스를 이끌고 있는 제 오랜 친구인 Swami Sivasubramanian과 이야기를 나눴습니다. 그는 최초의 Dynamo를 구축하는 데 중요한 역할을 했으며, 이후 Amazon DynamoDB를 통해 NoSQL 기술을 세상에 선보였습니다. 대화를 나누면서 제너레이티브 AI의 광범위한 환경, 대규모 언어 및 기초 모델에 대한 접근성을 높이기 위해 Amazon에서 하고 있는 일, 그리고 마지막으로 맞춤형 실리콘이 어떻게 비용을 절감하고, 학습 속도를 높이며, 에너지 효율성을 높이는 데 도움이 되는지에 대해 많은 것을 배웠습니다.


아직은 초기 단계이지만 스와미의 말처럼 앞으로 몇 년 안에 대규모 언어 및 기반 모델은 모든 애플리케이션의 핵심 부분이 될 것입니다. 빌더들이 이 기술을 사용하여 어떻게 혁신하고 어려운 문제를 해결할지 기대가 됩니다.

생각해보면 17년 전, 스와미가 입사한 첫날에 제가 스와미에게 간단한 두 가지 과제를 주었던 것이 엊그제 같습니다: Amazon의 규모와 필요에 맞는 데이터베이스를 구축하는 것, 그리고 회사의 데이터 전략을 재검토하는 것입니다. 그는 야심찬 첫 만남이었다고 말합니다. 하지만 저는 그가 훌륭한 일을 해냈다고 생각합니다.

------------------------------------------------------------------------------------------------------------------


이 트랜스크립션은 흐름과 가독성을 위해 가볍게 편집되었습니다.


***


베르너 보겔스: 스와미, 우리는 오래 전으로 거슬러 올라갑니다. 아마존에 입사한 첫날을 기억하시나요?


스와미 시바수브라마니안: 당시만 해도 아마존은 소매업체나 전자상거래 사이트로 알려져 있었기 때문에 박사 과정 학생이 아마존에 입사하는 것은 흔한 일이 아니었죠.


WV: 저희는 무언가를 만들고 있었는데, 학자로서는 상당히 파격적인 출발이었죠. 박사 과정 학생에게는 확실히 그랬죠. 생각에서 실제로 어떻게 구축할 수 있을까?


그래서 DynamoDB를 세상에 내놓으셨고, 그 이후로 다른 데이터베이스도 꽤 많이 내놓으셨죠. 하지만 지금은 AI와 머신 러닝도 담당하고 계십니다. 그렇다면 교수님이 생각하는 AI의 세계는 어떤 모습인가요?


SS: 이러한 데이터베이스와 분석 서비스를 여러 개 구축한 후, 말 그대로 AI와 기계 학습을 통해 데이터를 활용할 수 있다는 점에 매료되었습니다.


머신 러닝 기술 자체만 보면 크게 보면 새로운 기술은 아닙니다. 사실 딥 러닝에 관한 최초의 논문은 30년 전에 작성된 것 중 일부입니다. 하지만 그 논문들에서도 딥 러닝이 대규모로 채택되려면 실제로 성공하기 위해서는 엄청난 양의 컴퓨팅과 방대한 양의 데이터가 필요하다고 명시적으로 언급했습니다. 이것이 바로 클라우드가 딥 러닝 기술의 힘을 실제로 발휘할 수 있게 해준 것입니다. 그래서 6~7년 전쯤에 머신 러닝 조직을 시작하게 되었는데, 머신 러닝, 특히 딥 러닝 스타일의 기술을 과학자의 손에서 일반 개발자의 손으로 가져가고 싶었기 때문입니다.


WV: 아마존(소매업체)의 초창기 시절을 생각해보면, 유사점과 추천 기능 등이 오늘날 사용되고 있는 것과 동일한 알고리즘이었나요? 거의 20년 전의 일입니다.


SS: 머신 러닝은 알고리즘의 복잡성과 사용 사례의 적용 가능성 측면에서 엄청난 성장을 거듭해 왔습니다. 초기의 알고리즘은 선형 알고리즘이나 그라디언트 부스팅과 같이 훨씬 더 단순했습니다.


지난 10년 동안은 신경망이 실제로 패턴을 이해하고 학습할 수 있는 능력을 한 단계 발전시킨 딥러닝이 모든 이미지 기반 또는 이미지 처리 알고리즘의 근간이 되었습니다. 그리고 다양한 종류의 신경망 등을 통한 개인화도 가능합니다. 그리고 이것이 다른 것에 비해 놀라운 정확도를 가진 Alexa의 발명으로 이어졌습니다. 신경망과 딥 러닝은 정말 한 단계 발전한 것입니다. 그리고 그 다음 큰 단계는 오늘날 머신 러닝에서 일어나고 있는 일입니다.


WV: 요즘에는 제너레이티브 AI, 대규모 언어 모델, 기초 모델에 관한 이야기가 많이 나옵니다. 이것이 핵분열 알고리즘과 같은 작업 기반과 다른 점은 무엇인가요?


SS: 한 걸음 물러나서 이러한 모든 기초 모델, 대규모 언어 모델을 살펴보면 수십억 개는 아니더라도 수억 개의 파라미터로 학습된 대규모 모델입니다. 컨텍스트를 제공하기 위해 매개변수는 ML 알고리즘이 데이터 세트에서 학습해야 하는 내부 변수와 같습니다. 이제 이해를 돕기 위해... 갑자기 일어난 이 큰 일은 무엇일까요?


몇 가지가 있습니다. 첫째, 트랜스포머가 큰 변화를 가져왔습니다. 트랜스포머는 신경망 기술의 일종으로, 이전 버전인 RNN이나 다른 여러 신경망보다 확장성이 뛰어납니다. 그렇다면 이것은 무엇을 의미할까요? 왜 갑자기 이런 변화가 일어났을까요? 확장성이 뛰어나서 훨씬 더 빠르게 훈련할 수 있고, 이제 많은 하드웨어와 많은 데이터를 투입할 수 있기 때문입니다. 이제 실제로 전체 월드와이드웹을 크롤링하여 이러한 종류의 알고리즘에 입력하고 실제로 인간의 지식을 이해할 수 있는 모델을 구축할 수 있습니다.


WV: 그렇다면 이전에 우리가 가지고 있었고 이미 잘하고 있던 작업 기반 모델을 이러한 기초 모델을 기반으로 구축할 수 있나요? 작업별 모델이 여전히 필요한가요?


SS: 업무 기반 특정 모델에 대한 필요성은 사라지지 않을 것입니다. 하지만 본질적으로 중요한 것은 모델을 구축하는 방식입니다. 한 언어에서 다른 언어로 번역하거나 코드를 생성하는 등의 작업에는 여전히 모델이 필요합니다. 하지만 지식의 전체 코퍼스인 기초 모델을 사용하면 엄청난 양의 데이터가 필요하기 때문에 이제 얼마나 쉽게 구축할 수 있는지는 본질적으로 큰 변화입니다. 이제 실제로 이를 기반으로 구축하고 구체적인 예제를 통해 미세 조정하기만 하면 됩니다.


예를 들어, 채용 회사를 운영하면서 모든 이력서를 수집하여 색인을 검색할 수 있는 표준 형식으로 저장하고 싶다고 생각해 보세요. 이 모든 작업을 수행하기 위해 사용자 정의 NLP 모델을 구축하는 대신, 이제 이 형식의 입력 이력서와 여기에 출력 이력서의 몇 가지 예가 포함된 기초 모델을 사용하면 됩니다. 이제 몇 가지 구체적인 예제만 제공하면 이러한 모델을 미세 조정할 수도 있습니다. 그러면 기본적으로 모든 작업이 완료됩니다.


WV: 과거에는 데이터에 라벨을 붙이는 작업이 대부분이었죠.


SS: 맞습니다.


WV: 그럼 이 특별한 경우에는 이러한 파운데이션 모델을 사용하면 라벨링이 더 이상 필요하지 않나요?


SS: 본질적으로 그렇습니다. 그렇기도 하고 아니기도 하죠. 이런 것에는 항상 뉘앙스가 있습니다. 하지만 이러한 대규모 모델이 주목할 만한 이유는 라벨이 지정되지 않은 많은 데이터로 학습할 수 있다는 점입니다. 실제로는 사전 학습 단계라고 부르는 단계를 거치는데, 이 단계에서는 일반적인 크롤링 데이터나 코드 데이터, 위키백과 등 다양한 데이터 세트와 같은 월드 와이드 웹에서 데이터 세트를 수집하는 것이 기본입니다. 그런 다음 실제로는 레이블을 지정하지 않고 있는 그대로 공급합니다. 하지만 물론 개인 식별 정보나 부정적인 내용, 혐오 발언 등을 제거하기 위해 데이터를 정제하는 위생 처리 단계를 거쳐야 합니다. 그런 다음 실제로 많은 수의 하드웨어 클러스터에서 학습을 시작합니다. 이러한 모델을 훈련하려면 실제로 수천만 달러가 소요될 수 있기 때문입니다. 마지막으로 모델에 대한 개념을 얻은 다음 추론이라는 다음 단계를 거치게 됩니다.


비디오에서 객체 감지를 예로 들어 보겠습니다. 지금 기초 모델에서 보는 것보다 더 작은 모델이 될 것입니다. 그런 모델을 실행하는 데 드는 비용은 얼마인가요? 지금은 수천억 개의 매개 변수가 있는 모델이 매우 크기 때문입니다.


SS: 네, 좋은 질문입니다. 왜냐하면 이러한 모델을 훈련하는 것에 대해서는 이미 많은 논의가 이루어지고 있지만, 예측을 위해 이러한 모델을 실행하는 데 드는 비용, 즉 추론에 대해서는 거의 논의가 이루어지지 않고 있기 때문입니다. 이는 실제 프로덕션을 위해 런타임에 실제로 배포하는 사람이 거의 없다는 신호입니다. 그러나 실제로 프로덕션에 배포하고 나면 이러한 모델을 실행하는 데 비용이 매우 많이 든다는 사실을 깨닫게 될 것입니다. 바로 이 지점에서 몇 가지 중요한 기술이 실제로 작동합니다. 첫째, 이러한 대규모 모델을 구축한 후 프로덕션 환경에서 실행하려면 대규모로 실행할 수 있고 경제적인 방식으로 실행할 수 있도록 몇 가지 작업을 수행해야 합니다. 몇 가지를 말씀드리겠습니다. 하나는 정량화라고 부르는 것입니다. 다른 하나는 증류라고 부르는 것으로, 수천억 개의 매개 변수에 대해 학습된 대형 교사 모델을 더 작은 세분화된 모델로 증류하는 것입니다. 매우 추상적인 용어로 말하지만 이것이 바로 이러한 모델의 본질입니다.


WV: 그래서 저희는 이를 지원하기 위해 맞춤형 하드웨어를 구축합니다. 일반적으로 이것은 모두 GPU 기반이며, 이는 에너지를 많이 소비하는 고가의 짐승입니다. 커스텀 실리콘 모자를 사용하면 비용과 탄소 발자국 측면에서 훨씬 더 저렴하게 만들 수 있습니다.


SS: 커스텀 실리콘의 경우, 앞서 언급했듯이 교육 비용이 매우 비싸고 대규모로 실행하는 데에도 비용이 많이 들기 때문에 이러한 기초 모델에서 비용이 큰 문제가 되고 있습니다. 실제로 플레이그라운드를 구축하여 소규모로 채팅 봇을 테스트할 수 있지만 그렇게 큰 문제는 아닐 수 있습니다. 하지만 핵심 비즈니스 운영의 일부로 대규모 배포를 시작하면 이러한 것들이 합산됩니다.


AWS에서는 트레이닝을 위한 맞춤형 실리콘에 투자하여 Tranium과 추론 기능을 갖춘 Inferentia를 사용했습니다. 이러한 모든 것들은 실제로 어떤 운영자가 이러한 예측 결정을 내리고 있는지, 또는 예측 결정에 관여하고 있는지 그 본질을 이해하고 핵심 실리콘 수준과 소프트웨어 스택 수준에서 최적화할 수 있는 방법입니다.


WV: 비용도 사용되는 에너지를 반영하는 것이기 때문에 본질적으로 비용을 지불하는 것이라면, 지속 가능성 관점에서 볼 때 범용 GPU에서 실행하는 것보다 훨씬 더 중요하다는 것을 알 수 있습니다.


WV: 최근 이에 대한 대중의 관심이 매우 높습니다. 과대 광고처럼 느껴지기도 하죠. 이것이 향후 애플리케이션 개발을 위한 진정한 기반이 될 수 있을까요?


SS: 우선, 우리는 머신러닝과 함께 매우 흥미로운 시대에 살고 있습니다. 매년 하는 말이지만, 올해는 더욱 특별합니다. 대규모 언어 모델과 기초 모델을 통해 사람들이 별도의 팀을 구성하여 작업별 모델을 구축할 필요가 없는 수많은 사용 사례를 구현할 수 있기 때문입니다. ML 모델 개발 속도가 실제로 빨라질 것입니다. 하지만 실제로 모든 사람이 이러한 모델에 더 쉽게 액세스할 수 있도록 하지 않으면 향후 몇 년 내에 원하는 최종 상태에 도달할 수 없을 것입니다. 이것이 바로 우리가 초기에 머신 러닝을 통해 Sagemaker에서 했던 일이며, Bedrock과 그 모든 애플리케이션에서도 해야 할 일입니다.


하지만 다른 기술과 마찬가지로 과대 광고 주기는 가라앉겠지만, 앞으로 몇 년 안에 모든 애플리케이션의 핵심적인 부분이 될 것이라고 생각합니다. 그리고 제너레이티브 AI의 맥락에서 사람들이 고려해야 할 사항이 훨씬 더 많기 때문에 근거에 입각한 방식으로, 그러나 책임감 있는 방식으로 이루어질 것입니다. 어떤 종류의 데이터에서 학습하여 실제로 어떤 반응을 생성할까요? 또한 얼마나 진실한가? 이러한 것들이 바로 우리가 고객에게 실제로 도움을 줄 수 있는 부분입니다.


WV: 지금이 머신 러닝 분야에서 가장 흥미로운 시기라고 말씀하셨는데, 내년에는 어떤 시기가 될까요?


[테크수다 기자 도안구 eyeball@techsuda.com]