오라클, MySQL 히트웨이브에 생성형 AI 기능 탑재···"데이터베이스 내 AI 구현" 선언
[테크수다 기자 도안구 eyeball@techsuda.com] 데이터베이스와 데이터레이크 기업들의 거대언어모델(LLM) 탑재 행보에 오라클(Oracle)도 가세했다. 이미 데이터브릭스와 스노우플레이크가 자체 LLM을 선보이는 와중에 오라클도 MySQL 히트웨이브에 LLM을 탑재, AI를 구현하겠다고 발표했다.
https://blogs.oracle.com/mysql/post/announcing-the-general-availability-of-heatwave-genai
오라클은 자체 LLM을 만들지는 않고 코히어(Cohere)와 메타가 제공하는 LLM을 서비스할 수 있도록 했고 그 이외의 LLM을 확대하겠다고 밝혔다. 고객들이 개발한 LLM도 역시 탑재할 수 있다. 오라클은 여기서 한발 더 나아가 자사 데이터베이스 영역에 오픈소스로 공개된 메타의 라마3나 프랑스 미스트랄AI에서 공개한 LLM을 최적화 적용하고 있다고 공개했다.
데이터베이스 시장의 선두주자 오라클이 자사의 MySQL 서비스인 '히트웨이브(HeatWave)'에 생성형 AI 기능을 통합했다고 발표했다. 이번 발표는 데이터베이스 업계 최초로 인-데이터베이스 대규모 언어 모델(LLM)과 자동화된 벡터 저장소를 지원하는 것으로, 기업들의 AI 도입을 크게 가속화할 것으로 예상된다.
니푼 아가르왈(Nipun Agarwal) 오라클 MySQL 데이터베이스 및 히트웨이브 개발 부문 수석 부사장은 "히트웨이브 생성형 AI는 데이터베이스 내에서 AI 기능을 완전히 통합해 제공함으로써 기업들이 더욱 쉽고 빠르게 AI를 활용할 수 있도록 했다"고 밝혔다.
히트웨이브 생성형 AI의 주요 특징은 다음과 같다:
- 인-데이터베이스 LLM은 생성형 AI 애플리케이션의 개발을 간소화하고, 개발 비용을 절감한다. 고객은 외부 LLM 선정 및 통합의 복잡성 없이도 생성형 AI의 이점을 누릴 수 있고, 다양한 클라우드 제공업체 데이터센터의 LLM 가용성에 대해 걱정할 필요도 없다. 인-데이터베이스 LLM은 고객이 히트웨이브 벡터 저장소(HeatWave Vector Store)를 활용해 데이터 검색, 콘텐츠 생성 및 요약, 검색증강생성(RAG) 등을 수행할 수 있게 해 준다. 또한 고객은 오토ML과 같은 기타 내장형 히트웨이브 기능을 생성형 AI와 결합해 보다 풍성한 애플리케이션을 구축할 수 있다. 히트웨이브 생성형AI는 OCI 생성형 AI 서비스(OCI Generative AI Service)에도 통합되어 있으므로, 고객은 최고의 LLM 제공업체들이 제공하는 사전 훈련된 기본 모델을 활용할 수 있다.
- 자동화된 인-데이터베이스 벡터 저장소는 고객이 데이터를 별도의 벡터 데이터베이스로 이동하거나, AI 전문성을 갖추지 않고도 생성형 AI를 자사의 비즈니스 문서와 함께 사용할 수 있도록 지원한다. 객체 저장소에서의 문서 검색, 파싱1 (parsing), 고도로 병렬화 되고 최적화된 임베딩 생성, 벡터 저장소에 대한 임베딩 삽입 등 벡터 저장소 및 벡터 임베딩 생성을 위한 모든 과정이 자동화되어 있으며, 데이터베이스 내에서 수행되므로 히트웨이브 벡터 저장소의 효율성과 쉬운 활용을 보장한다. RAG용 벡터 저장소는 이 모델들이 보다 정확하고 유관한 답변 제공을 위해 적절한 맥락을 바탕으로 전문 데이터를 검색할 수 있도록 하여 LLM의 환각 문제 해결에도 도움을 준다.
- 확장 벡터 처리는 일정한 정확도를 유지하면서 신속한 의미 검색 결과를 제공한다. 히트웨이브는 새로운 네이티브 벡터 데이터 유형 및 거리 함수의 최적화된 구현을 지원하여 고객이 표준 SQL을 통해 의미 쿼리를 수행할 수 있도록 한다. 인-메모리 하이브리드 열 형식 표현 및 히트웨이브의 확장 아키텍처는 벡터 처리가 니어 메모리2 대역폭에서 실행되고, 최대 512 히트웨이브 노드에서 병렬화 될 수 있게 한다. 그 결과 고객의 질문에 대한 답을 신속히 제공할 수 있게 된다. 또한 사용자는 의미 검색과 기타 SQL 연산자를 결합하여 여러 테이블을 다양한 문서로 조인하고, 모든 문서 전반에서 유사성 검색을 수행할 수 있다.
- 히트웨이브 챗(HeatWave Chat)은 마이SQL 쉘(MySQL Shell)용 비주얼 코드 플러그인으로 히트웨이브 생성형AI를 위한 그래픽 인터페이스를 제공하며, 개발자들이 자연어 또는 SQL로 질문을 할 수 있게 지원한다. 이 통합 레이크하우스 네비게이터(Lakehouse Navigator)는 사용자가 객체 스토리지로부터 파일을 선택하고 벡터 저장소를 생성할 수 있도록 지원한다. 사용자는 데이터베이스 전반에서 검색을 수행하거나, 검색 영역을 폴더로 제한할 수도 있다. 히트웨이브는 질문 내역, 소스 문서 인용 및 LLM 프롬프트를 바탕으로 컨텍스트를 유지 관리한다. 이는 상황별 대화를 용이하게 하고, 사용자가 LLM이 생성한 답변의 출처를 검증할 수 있게 해 준다. 컨텍스트는 히트웨이브에서 유지 관리되며, 히트웨이브를 사용하는 모든 애플리케이션에서 사용 가능하다.
아가르왈 수석부사장은 "히트웨이브 생성형 AI의 가장 큰 장점은 단순성"이라고 강조했다. 기존 AI 애플리케이션 개발 과정이 복잡했던 것에 비해, 히트웨이브는 단 두 번의 API 호출만으로 벡터 저장소 생성과 LLM 활용이 가능하다는 것이다.
비용 면에서도 히트웨이브는 경쟁 우위를 주장했다. 오라클에 따르면 히트웨이브는 스노우플레이크 대비 25% 저렴하면서 30배 빠른 성능을, 데이터브릭스 대비 6분의 1 수준의 비용으로 15배 빠른 성능을 제공한다고 밝혔다.
특히 이번 생성형 AI 기능은 기존 히트웨이브 사용자들에게 추가 비용 없이 제공된다는 점이 주목된다.
스티븐 지바닉(Steve Zivanic) 오라클 데이터 AI와 애널리틱스 그룹 부사장은 "우리는 모든 고객과 모든 데이터에 대해 AI 사용을 민주화하고자 한다"며, "AI가 풍부한 데이터 처리 플랫폼의 고유한 부분이 될 것"이라고 설명했다.
오라클은 이번 발표가 다양한 산업 분야에 혜택을 줄 것으로 예상했다. 특히 비정형 데이터를 많이 다루는 은행, 보험, 의료 분야에서 큰 이점을 얻을 수 있을 것으로 전망했다. 예를 들어, 은행은 PDF 형태의 거래 내역서를 쉽게 처리할 수 있고, 보험사는 레거시 문서를 효율적으로 관리할 수 있게 된다.
한편, 이번 발표에서 제기된 주요 우려 사항들에 대해 오라클은 다음과 같이 답변했다:
데이터 프라이버시: 히트웨이브는 기업의 민감한 데이터를 LLM 학습에 사용하지 않고, 벡터 저장소의 결과만을 입력으로 사용한다. 이를 통해 데이터 유출 위험을 최소화한다.
환각 현상: 검색 증강 생성(RAG) 기술을 사용해 LLM의 환각 현상을 크게 줄였다고 밝혔다.
에너지 효율성: CPU만을 사용하므로 GPU 대비 에너지 효율성이 높다. 또한 오라클은 2025년까지 클라우드 데이터센터의 100% 재생에너지 사용, 2050년까지 탄소 중립 달성을 목표로 하고 있다.
벤더 종속성: 히트웨이브는 AWS(Amazon Web Service), 마이크로소프트 애저(Microsoft Azure) 등 다양한 클라우드 환경에서 실행 가능하며, 고객이 원할 경우 다른 데이터베이스로의 전환도 가능하다고 밝혔다.
오라클의 이번 발표는 데이터베이스와 AI의 융합이 가속화되는 현 시점에서 큰 의미를 갖는다. 기업들이 별도의 AI 인프라 구축 없이도 기존 데이터베이스 환경에서 고급 AI 기능을 활용할 수 있게 됨으로써, AI 도입의 진입 장벽이 크게 낮아질 것으로 예상된다.
다만 한국어 지원과 관련해서는 아직 개선의 여지가 있어 보인다. 오라클은 현재 LLAMA 3모델을 기반으로 하고 있어 한국어를 지원하지만, 영어에 비해 정확도가 다소 떨어진다고 인정했다. 하지만 LLM 기술의 빠른 발전 속도를 고려할 때 수개월 내에 이 격차가 줄어들 것으로 전망했다.
결론적으로, 오라클의 히트웨이브 생성형 AI는 데이터베이스와 AI의 경계를 허물고 기업들의 AI 활용을 가속화할 수 있는 혁신적인 제품으로 평가된다. 향후 실제 기업 환경에서의 성능과 효과, 그리고 경쟁사들의 대응이 주목된다.
[테크수다 기자 도안구 eyeball@techsuda.com]