[GTC 2023] 엔비디아 젠슨 황, 오픈AI 공동 창립자 수츠케버와 대담

도안구

2023년 3월 25일

[테크수다 기자 도안구 eyeball@techsuda.com] AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 엔비디아(NVIDIA) 창립자 겸 CEO인 젠슨 황(Jensen Huang)이 GTC 2023에서 오픈AI(OpenAI) 공동 설립자인 일리야 수츠케버(Ilya Sutskever)와 함께 현대 AI가 어떻게 시작됐고, 현재 위치는 어디인지, 앞으로 나아가야 할 방향은 무엇인지에 대해 노변 담화를 진행했다고 발표했습니다.

이 대담은 수츠케버가 공동 설립한 연구 회사인 오픈AI에서 지금까지 가장 강력한 AI 모델인 GPT-4를 출시한 다음 날 녹화됐다.

일리야 수츠케버는 캐나다 토론토 대학에서 딥러닝 분야 선구자인 지오프 힌튼 교수를 만난 후 2012년 알렉스 크리제브스키(Alex Krizhevsky)와 알렉스넷(AlexNet) 모델을 만든 장본인이다. 이후 스탠포드대학에서 박사 후 과정을 거치고 회사를 창업했다. 그 후 구글이 이 회사를 인수한 후 구글 브레인 팀에서 3년간 일했다.

알파고 프로젝트에도 참여한 것으로 알려진 그는 이후 오픈AI에 공동 설립자로 참여했다.

그들은 GPT-4와 챗GPT(ChatGPT)를 포함한 그 이전 버전에 대해 자세히 이야기했다. 이 생성형 AI 모델은 출시된 지 몇 달 밖에 되지 않았지만 이미 역사상 가장 인기 있는 컴퓨터 애플리케이션이 됐다.

두 사람은 수억 명의 사용자의 상상력을 사로잡고 있는 심층 신경망의 기능, 한계, 내부 작동 방식에 대해 이야기를 나눴다.

수츠케버는 "챗GPT와 비교했을 때 GPT-4는 여러 측면에서 상당한 개선이 이루어졌으며 새 모델은 텍스트뿐만 아니라 이미지도 읽을 수 있다"고 언급했다.

그는 "향후 버전에서는 [사용자]가 응답으로 다이어그램을 돌려받을 수도 있을 것"이라며 질문에 답변했다.

GPT의 내막

젠슨 황은 "챗GPT가 하나의 큰 언어 모델이라는 오해가 있지만, 그 안에는 여러 시스템이 존재한다"라고 말했다.

이러한 복잡성을 반영하듯 수츠케버는 오픈AI가 두 단계의 학습을 사용한다고 말했다.

첫 번째 단계는 일련의 다음 단어를 정확하게 예측하는 데 중점을 둔다. 수츠케버는 "신경망이 학습하는 것은 텍스트를 생성한 과정의 일부이며, 이는 세상을 투영한 것"이라고 말했다. 더불어 그는 "두 번째는 가드레일을 포함해 우리가 원하는 것을 신경망에 전달하여 더 신뢰할 수 있고 정확해지도록 하는 것"이라고 덧붙였다.

창조의 순간에 함께

오늘날 현대 AI의 소용돌이치는 중심에 서 있지만, 수츠케버는 AI의 탄생에도 함께했다.

2012년, 수츠케버는 대규모 데이터 세트로 훈련된 심층 신경망의 힘을 최초로 보여준 사람 중 한 명이다. 학술 경연 대회에서 AI의 선구자인 지오프 힌튼(Geoff Hinton)과 알렉스 크리제브스키(Alex Krizhevsky)와 함께 시연했던 알렉스넷(AlexNet) 모델은 인간보다 더 빠르게 이미지를 인식했다.

젠슨 황은 이들의 연구를 AI의 빅뱅이라고 불렀다.

황은 그 결과가 "매우 큰 차이로 기록을 깼고 여기에 불연속성이 있다는 것이 분명했다"라고 말했다.

병렬 처리가 지닌 힘

이러한 혁신 중 일부는 GPU를 통해 모델에 적용한 병렬 처리에서 비롯됐다.

수츠케버는 "GPU에 매우 적합한 이미지넷 데이터 세트와 컨볼루션 신경망 덕분에 전례 없는 속도로 기존에 없던 새로운 것을 훈련시킬 수 있었다”고 말한다.

초기 작업은 토론토 대학교 실험실에서 몇 대의 지포스 GTX 580 GPU로 실행됐다. 오늘날에는 마이크로소프트 애저(Microsoft Azure) 클라우드 서비스에서 수만 대의 최신 엔비디아 A100와 H100 텐서 코어(Tensor Core) GPU가 챗GPT(ChatGPT)와 같은 모델에 대한 학습 및 추론을 처리한다.