[OCW 2023] 오라클, 벡터 스토어·신규 생성형 AI 기능으로 MySQL 히트웨이브 혁신 지속

도안구

2023년 9월 26일

[테크수다 기자 도안구 eyeball@techsuda.com] 오라클의 에드워드 스크리븐(Edward Screven) 최고기업아키텍트(Chief Corporate Architect)는 "오늘 발표된 MySQL 히트웨이브의 새로운 기능들은 시급한 고객 데이터, 분석, AI 관련 문제들을 해결하기 위한 오라클의 여정에 새겨질 또 하나의 중요한 이정표다"라며 "오라클은 지금까지 업계 최고의 가성비를 갖춘 실시간 데이터 분석, 자동화된 머신러닝, 레이크하우스, 멀티클라우드 등의 기능들을 히트웨이브에 추가해 왔다. 새롭게 추가되는 벡터 스토어 및 생성형 AI 기능은 고객사가 LLM 모델을 활용해 보유 데이터와 상호 작용하고, 비즈니스에 필요한 정확한 답변을 도출할 수 있는 직관적 방법을 제공한다"라고 말했다.

https://youtu.be/bjTG3TMKOOM

오라클이 오늘 MySQL 히트웨이브(MySQL HeatWave)의 대규모 업데이트를 발표했다.

MySQL 히트웨이브는 단일 MySQL 데이터베이스 서비스를 통해 트랜잭션 처리, 실시간 분석 기술, 머신러닝, 데이터 레이크 쿼리, 머신러닝 기반 자동화 등의 기능을 모두 이용할 수 있는 클라우드 서비스다. 오라클의 분산형 클라우드 전략의 핵심인 MySQL 히트웨이브는 OCI 및 아마존 웹 서비스(Amazon Web Services)에서 기본적으로 이용 가능하며, 애저용 오라클 데이터베이스 서비스(Oracle Database Service for Azure)의 일환으로도 이용할 수 있다.

또한 OCI 전용 리전을 사용중인 고객의 데이터센터에서도 이용 가능하다.

신규 업데이트 사항에는 벡터 스토어 지원, 생성형 AI, 신규 데이터베이스 내 머신러닝 기능, MySQL 오토파일럿(MySQL Autopilot) 개선사항, 새로운 히트웨이브 레이크하우스(HeatWave Lakehouse) 기능, 자바스크립트(JavaScript) 지원, JSON 쿼리 가속화, 신규 분석 연산자 지원을 비롯한 다양한 개선사항들이 포함된다.

현재 비공개 프리뷰 버전으로 제공되는 벡터 스토어를 통해 고객은 자체 데이터에 대규모 언어 모델(LLM)을 적용함으로써 공개된 데이터만으로 학습한 모델보다 정확한 답변을 얻을 수 있다. 또한, 고객은 생성형 AI 및 벡터 스토어 기능을 통해 MySQL 히트웨이브와 자연어로 상호 작용하고, 히트웨이브 레이크하우스에 저장된 다양한 파일 형식의 문서들을 효율적으로 검색할 수 있다.

다양한 데이터 유형 및 소스를 대상으로 분석, 트랜잭션 처리, 머신러닝, 생성형 AI 관련 작업들을 수행하는 고객사를 지원하기 위해 다양한 MySQL 호환 워크로드 및 비(非) MySQL 워크로드를 위한 기능들이 MySQL 히트웨이브에 추가됐다.

생성형 AI 및 벡터 저장소(비공개 프리뷰 기능)

벡터 저장소는 PDF를 비롯한 다양한 포맷의 문서들을 수집하고, 인코더 모델을 통해 생성된 임베딩 형식으로 저장한다. 사용자 쿼리가 입력되면 벡터 저장소는 저장된 임베딩과 임베딩된 쿼리에 대한 유사성 검색을 수행해 가장 유사한 문서를 식별한다. 식별한 문서로 LLM에 입력된 프롬프트를 보강함으로써 추후 질문자의 의도에 더욱 부합하는 답변을 제공한다.

MySQL 히트웨이브 오토ML(AutoML)

MySQL 히트웨이브는 완전히 자동화된 모델 학습용 파이프라인을 갖춘 데이터베이스 내 머신러닝 기능을 제공한다. 따라서 고객은 별도의 머신러닝 서비스로 데이터를 이동할 필요 없이 MySQL 히트웨이브에 저장된 데이터를 사용해 머신러닝 학습, 추론, 설명을 쉽고 안전하게 진행할 수 있다. 다음은 새롭게 추가되는 히트웨이브 오토ML 관련 기능 목록이다.

히트웨이브 레이크하우스 지원: 이제 고객은 히트웨이브 오토ML을 통해 MySQL 데이터베이스에 저장된 데이터와 더불어 객체 스토리지에 저장된 데이터를 바탕으로 학습, 추론, 설명 작업을 수행하고, 훨씬 더 광범위한 데이터를 머신러닝에 사용할 수 있다.
텍스트 열(column) 지원: 텍스트 열 단위로 이상 징후 탐지, 예측, 분류, 회귀, 추천 시스템과 같은 머신러닝 작업을 수행할 수 있도록 지원함으로써 고객사가 히트웨이브 오토ML을 적용할 수 있는 데이터 코퍼스의 범위가 더욱 넓어졌다.
향상된 추천 시스템: 히트웨이브 오토ML용 베이지안 개인화 순위(Bayesian Personalized Ranking, BPR) 지원이 추가돼 암시적 피드백(과거 구매, 브라우징 행동) 및 명시적 피드백(평점, 좋아요)을 모두 고려해 개인화된 추천을 생성할 수 있다. 예를 들어, 데이터 분석가는 이제 해당 추천 시스템을 활용해 특정 사용자가 좋아할 만한 품목, 특정 품목을 좋아할 만한 사용자, 각 품목이 받게 될 등급 등을 미리 예측할 수 있다.
학습 진행 상황 모니터링: 이제 고객은 히트웨이브 오토ML을 사용해 모델 학습의 진행 상황을 모니터링함으로써 보다 효율적으로 리소스를 관리할 수 있다.

MySQL 오토파일럿

MySQL 오토파일럿은 머신러닝 기반 자동화 기술을 사용해 데이터베이스 튜닝에 대한 전문 지식 없이도 데이터베이스 성능 및 확장성을 개선할 수 있는 MySQL 히트웨이브의 기본 제공 기능이다. 쿼리가 실행될 때마다 학습해 다음 쿼리 실행 계획을 개선한다. MySQL 오토파일럿의 최신 개선 사항은 다음과 같다.

MySQL 오토파일럿 인덱싱(제한적 제공): 워크로드가 증가할수록 많은 시간이 소요되기 마련인 고객의 OLTP 워크로드에 대한 최적의 인덱스 생성 및 유지 관리 작업의 필요성을 제거한다. MySQL 오토파일럿은 머신러닝을 통해 개별 애플리케이션 워크로드에 대한 예측을 수행하고 고객이 테이블에서 생성 또는 삭제해야 하는 인덱스를 자동으로 결정함으로써 OLTP 처리량을 최적화한다. 또한, 오토파일럿 인덱싱은 인덱스를 실제로 생성하거나, 사용자의 테넌시에서 컴퓨트 또는 스토리지 오버헤드를 발생시키지 않고도 해당 기능이 추천한 인덱스를 실제로 적용했을 시 기대되는 기능 향상 수준을 사전에 예측할 수 있다.
자동 압축: 고객사가 각 열에 대한 최적의 압축 알고리즘을 결정할 수 있도록 지원한다. 보다 빠른 데이터 압축 및 압축 해제를 통해 로드 및 쿼리 성능 향상에 기여한다. 고객은 메모리 사용량을 줄임으로써 최대 25%의 비용을 절감할 수 있다.
적응형 쿼리 실행: 쿼리 실행이 시작된 후 고객의 쿼리 실행 계획 최적화를 지원해 임시 쿼리 성능을 최대 25% 향상시킨다. 쿼리의 부분 실행에서 얻은 정보를 사용해 데이터 구조 및 시스템 리소스를 조정하고, 이후 런타임 시 실제 데이터 배포를 기반으로 각 히트웨이브 노드에 대한 쿼리 실행을 독립적으로 최적화한다.
자동 로드 및 언로드(unload): 오토파일럿은 애플리케이션 워크로드에서 사용 중인 열을 히트웨이브에 자동으로 로드하고, 쿼리된 적이 없거나 거의 없는 테이블은 자동으로 언로드한다. 고객은 이 기능을 통해 인적 개입 없이 자동으로 로드 및 언로드 작업을 수행해 메모리를 확보하고 비용을 절감할 수 있다.

MySQL 히트웨이브 추가 개선 사항

자바스크립트 지원(제한적 제공): 고객이 자바스크립트에서 스토어드 프로시저(stored procedure) 및 함수를 작성하고 MySQL 히트웨이브에서 실행할 수 있도록 지원한다. 이를 통해 개발자는 풍부한 애플리케이션 로직을 자바스크립트로 보다 간단하게 작성하고, MySQL 데이터베이스 안에서 프로그램을 실행해 높은 성능을 확보할 수 있다. 데이터가 데이터베이스에서 클라이언트로 전송되지 않고, 코드가 그랄VM(GraalVM) 런타임에서 적시에 컴파일되므로 자바스크립트 애플리케이션의 성능을 향상시킬 수 있다.
JSON 가속화: 이제 개발자와 DBA는 MySQL 데이터베이스에 저장된 JSON 문서의 실시간 분석에 히트웨이브를 활용해 쿼리 속도를 대폭 향상시킬 수 있다.
신규 분석 연산자: 큐브(CUBE), 하이퍼 로그(Hyper Log), 퀄리파이(Qualify), 테이블(Table) 샘플 등의 신규 분석 연산자 지원이 추가돼 보다 많은 고객사 워크로드를 MySQL 히트웨이브로 마이그레이션할 수 있다.
MySQL 히트웨이브로의 대량 수집: CSV 파일에서 데이터를 대량으로 로드하는 동안 인덱스 하위 트리를 병렬 구축하는 기능을 통해 고객사가 아마존 오로라(Amazon Aurora) 대비 10배 향상된 데이터 수집 성능을 활용할 수 있도록 지원한다. 데이터를 더 빨리 쿼리하고, 데이터 로딩에 사용되던 시스템 리소스를 훨씬 더 빠르게 재확보할 수 있어 고객의 비용도 절감된다.

낸드 리서치(NAND Research)의 스티브 맥도웰(Steve McDowell) 수석 분석가 겸 창립 파트너는 "MySQL 히트웨이브 엔지니어링 팀은 AI 및 머신러닝 관련 혁신에 더욱 박차를 가하고 있다."라며 "이제 오라클의 고객사는 데이터베이스 및 오브젝트 스토리지의 데이터를 함께 사용해 완전 자동화된 방식으로 머신러닝 모델을 학습시킬 수 있다. 또한 새로운 생성형 AI 및 벡터 스토어 기능을 통해 자연어를 사용해 히트웨이브와 상호 작용하고, 공개 데이터 외에도 자체적으로 보유한 엔터프라이즈 데이터를 함께 활용해 자사의 사업 목적에 맞는 보다 정확한 답변을 얻을 수 있게 됐다. 고객사마다 선호하는 LLM을 선택해 사용할 수 있는 유연성은 MySQL 히트웨이브 엔지니어링 팀의 개방적이고 협업적인 접근법을 잘 나타낸다."라고 말했다.

추가 자료