[오라클 클라우드 월드 2022] MySQL 히트웨이브 레이크하우스 출시ㆍㆍㆍ 스노우플레이크ㆍAWS 와 데이터레이크 경쟁 본격화


[테크수다 기자 도안구 eyeball@techsuda.com] 오라클도 데이터레이크(Datalake) 경쟁에 발을 담갔다. 데이터레이크는 대량의 데이터를 원래 형태로 수집하고 저장하는 중앙 집중식 저장소다. 정형에서 반정형, 비정형 등 모든 유형의 데이터를 수용하면서 주목을 받고 있다.


이 시장은 오라클 출신들이 주축이 되어 만든 스노우플레이크와 데이터레이크 개념을 선보였던 데이터브릭스를 비롯해 AWS와 MS Azure 등 서비스로 제공하고 있다. 스노우플레이크와 데이터레이크는 멀티 클라우드 환경에서 사용할 수 있게 하면서  해당 클라우드 사업자들이 제공하는 데이터레이크와 경쟁하면서 협력하는 모습이다.


오라클은 신규 MySQL 히트웨이브 레이크하우스(MySQL HeatWave Lakehouse)를 발표하면서 이 치열한 시장에 참전했다.



에드워드 스크레븐(Edward Screven) 오라클 최고기업아키텍트(Chief Corporate Architect)는 "MySQL 히트웨이브는 수년 간에 걸친 연구와 한단계 더 나아간 개발 과정의 결과물이라 할 수 있다. 이제 우리는 이러한 결과를 가지고 모든 MySQL 고객이 마주한 더 큰 과제를 해결하기 위해 혁신을 이루어 나가고 있다. 실제로 MySQL 히트웨이브 레이크하우스는 올해만해도 세번째로 공개된 MySQL 히트웨이브 주요 발표 제품이다"라며 "데이터베이스 외부에 저장된 데이터가 크게 증가하고 있는 상황에서 MySQL 히트웨이브 레이크하우스를 사용하면 고객은 오브젝트 스토리지에 있는 데이터에서 히트웨이브의 모든 혜택을 누릴 수 있다. MySQL 히트웨이브는 이제 트랜잭션 처리, 데이터 웨어하우스 및 데이터 레이크를 아우르는 애널리틱스, ETL(추출, 변환, 로드)이 필요 없는 머신러닝 기술을 위해 멀티 클라우드 환경에서 단일 통합 서비스를 제공한다. 이러한 통합 서비스를 통해 MySQL 히트웨이브는 성능, 자동화 및 비용을 대폭 개선함으로써 다른 클라우드 데이터베이스 서비스와는 더 차별화된 서비스를 제공한다”라고 말했다.


해당 제품은 AWS의 오로라(Aurora) 및 레드시프트(Redshift) 백업 자료뿐만 아니라 CSV, 파케이(Parquet)와 같은 다양한 파일 형식으로 오브젝트 스토리지(Object storage)에서 수백 테라바이트(TB)의 데이터를 처리하고 쿼리를 생성할 수 있도록 지원한다. MySQL 히트웨이브 포트폴리오는 단일 MySQL 데이터베이스 내에서 트랜잭션 처리, 분석, 머신러닝 및 머신러닝 기반 자동화를 결합할 수 있는 유일한 클라우드 서비스이며, 이번에 출시된 MySQL 히트웨이브 레이크하우스는 해당 제품군에 새롭게 추가된 최신 제품이다.


대규모 병렬 확장이 가능한 MySQL 히트웨이브 아키텍처를 기반으로, MySQL 히트웨이브 레이크하우스는 업계 표준 벤치마크에서 보여주듯이 타 클라우드 데이터베이스 서비스 대비 훨씬 더 뛰어난 쿼리 처리 및 데이터 로드 성능을 제공한다. 또한, 단일 쿼리에서 고객은 MySQL 데이터베이스에서 트랜잭션 데이터 쿼리를 구성하고 표준 MySQL 신택스(Syntax)를 사용하여 오브젝트 스토리지의 데이터와 결합할 수 있다. 오라클은 성능을 더욱 개선하고 MySQL 히트웨이브 레이크하우스 사용이 용이한 신규 MySQL 오토파일럿(MySQL Autopilot) 기능도 발표했다. MySQL 히트웨이브 레이크하우스는 현재 베타 버전으로 시험 사용이 가능하고 2023년 상반기에 정식 출시될 예정이다.


타사 제품 및 온프레미스(사내구축형) 환경에서 마이그레이션한 고객은 마케팅 분석 특히 광고 캠페인 성과의 실시간 분석 그리고 효과적인 캠페인 계획을 위한 고객 데이터 분석 등 다양한 목적을 위해 MySQL 히트웨이브를 사용해오고 있다. 자동차, 통신, 소매, 하이테크 및 의료 산업을 선도하는 기업들도 타사 제품에서 마이그레이션해 온 바 있다.


마크 페이퍼마스터(Mark Papermaster) AMD 최고기술책임자(CTO)는 "오라클과의 협력을 지속하며 최신 MySQL 히트웨이브 레이크하우스를 함께 지원할 수 있게 되어 매우 기쁘다. 해당 제품은 AMD EPYC 기반의 오라클 클라우드 인스턴스에서 실행될 수 있도록 최적화되었으며 AMD의 프로세서들의 혁신적인 기능을 활용할 수 있다.”라며, “AMD와 오라클 엔지니어링 팀은 협업을 통해 놀라운 MySQL 솔루션을 탄생시켰다. 이는 더욱 뛰어난 확장성을 제공하고 단일 MySQL 데이터베이스 내에서 트랜젝션 처리, 애널리틱스, 머신러닝, 머신러닝 기반 자동화를 실행할 수 있는 성능을 갖추었다.”고 말했다.


또한, 오라클은 새로운 레이크하우스 벤치마크를 발표해 MySQL 히트웨이브 레이크하우스와 MySQL 오토파일럿의 새로운 혁신적인 역량을 소개했다.


론 웨스트폴(Ron Westfall) 퓨처럼 리서치(Futurum Research) 수석 애널리스트 겸 리서치 디렉터는 "MySQL 히트웨이브 레이크하우스는 획기적인 속도로 400TB 클라우드 데이터베이스 벤치마크라는 새로운 영역을 개척하여 경쟁을 더욱 촉진하고 있다."라며 "MySQL 히트웨이브 레이크하우스는 처리 용량과 컴퓨팅 역량 면에서 히트웨이브를 비약적으로 발전시켰다. 32TB와 64개 노드에서 400TB와 512 노드에 이르기까지 타사를 가볍게 뛰어넘는 성능과 가격대비 성능으로 제공한다. 한편, 여타 클라우드 데이터베이스 기업들은 데이터베이스 내 컨버전스와 멀티 클라우드에서 제공되는 MySQL 히트웨이브에 맞수를 두지 못하고 있다. 400TB의 MySQL 히트웨이브 레이크하우스와 겨루기는 어렵다.”라고 말했다.



오라클은 벤처마크 테스트 결과도 공개했고 관련 내용은 깃허브에도 올려놨다.



쿼리 성능은 스노우프레이크 보다 17배 빠르고 아마존 레드쉬프트보다 6배 빠르다고 주장했다. 또 오브젝트 스토리지에서 MySQL 히트웨이브레이크하우스로 데이터를 로드하는 경우 400TB TBC-H 워크로드의 상황에서 아마존 레드쉬프트보다 8배 빠르고 스노우 플레이크보다 2.7배 빠르다고 밝혔다.


MySQL 히트웨이브 레이크하우스의 혁신적인 새로운 기능


  • 더 큰 데이터 용량 및 표준 MySQL 신택스: MySQL 히트웨이브 레이크하우스를 사용하여 최대 400TB의 데이터 쿼리를 생성할 수 있으며 히트웨이브 클러스터는 512개 노드로 확장 가능하다. 데이터 쿼리에 표준 MySQL 신택스 사용도 가능하다.
  • 동일한 성능 및 압축 기능: MySQL 히트웨이브는 10TB 및 30TB TPC-H 벤치마크에서 보여주듯 MySQL 데이터베이스 내부 또는 오브젝트 스토리지에 저장된 데이터에 대해 동일한 쿼리 성능을 제공한다. 또한 가능한 압축 양과 노드당 처리할 수 있는 데이터 양은 두 인스턴스에서 동일하다.
  • 다양한 파일 형식 지원: MySQL 히트웨이브 레이크하우스 사용시 고객은 CSV 및 파케이(Parquet)와 같은 다양한 파일 형식으로 저장된 데이터뿐만 아니라 AWS의 오로라 및 레드시프트 백업 자료를 로드하고 처리할 수 있다. 이를 통해 고객은 데이터가 MySQL 데이터베이스에 저장되지 않더라도 MySQL 히트웨이브의 이점을 활용할 수 있다. 쿼리 성능은 데이터가 저장되는 파일 형식에 관계없이 동일하다.
  • MySQL에서 데이터 쿼리를 생성하고 이를 오브젝트 스토리지의 데이터와 결합할 수 있는 기능: MySQL 히트웨이브 레이크하우스를 사용하는 고객은 MySQL 데이터베이스에 저장된 OLTP 데이터로 쿼리를 생성하고 이를 오브젝트 스토리지에 저장된 데이터와 결합할 수 있다. OLTP 데이터에 대한 모든 변경 사항은 실시간으로 업데이트되고 쿼리 결과에 반영된다.



MySQL 히트웨이브 레이크하우스의 새로운 MySQL 오토파일럿 기능


MySQL 오토파일럿은 MySQL 히트웨이브용 머신러닝 기반 자동화 기능을 제공한다. 자동 프로비저닝자동 쿼리 계획 개선과 같은 기존 MySQL 오토파일럿 기능이 MySQL 히트웨이브 레이크하우스에서 개선되어 데이터베이스 관리의 간접비용이 절감되고 성능은 향상되었다. 또한, MySQL 히트웨이브 레이크하우스에서는 다음과 같이 다양한 새로운 MySQL 오토파일럿 기능을 사용할 수 있다.


  • 자동 스키마 추론: 오토파일럿은 데이터베이스의 데이터 유형에 파일 데이터를 매핑하는 과정을 자동으로 추론한다. 따라서 고객은 MySQL 히트웨이브 레이크하우스에서 쿼리를 생성할 각각의 새로운 파일에 매핑을 수동으로 지정할 필요가 없어 시간과 노력을 절약할 수 있다.
  • 적응형 데이터 샘플링: 오토파일럿은 지능적으로 오브젝트 스토리지의 파일 일부를 샘플링하여 데이터 액세스는 최소화하면서 정확한 통계를 수집한다. MySQL 히트웨이브는 이러한 통계를 사용하여 쿼리 계획을 생성 및 개선하고 최적의 스키마 매핑을 결정하는 등 다양한 목적을 위해 사용된다.
  • 자동 로드: 오토파일럿은 데이터를 분석하여 MySQL 히트웨이브로의 로드 시간을 예측하고 데이터 유형의 매핑을 결정하며 로드 스크립트를 자동으로 생성한다. 사용자는 데이터베이스 스키마 및 테이블에 대한 파일 매핑을 수동으로 지정할 필요가 없다.
  • 적응형 데이터 흐름: MySQL 히트웨이브 레이크하우스는 기본 오브젝트 스토리지의 성능에 맞게 조정된다. 따라서 MySQL 히트웨이브는 기본 클라우드 인프라에서 사용 가능한 최대 성능을 제공하여 전반적인 성능, 가격 대비 성능 및 가용성을 개선할 수 있다.


MySQL 히트웨이브의 추가적인 기능 향상


오라클은 머신러닝에서 VS 코드 플러그인에 이르기까지 MySQL 히트웨이브의 향상된 다양한 기능을 발표했다. MySQL 히트웨이브의 데이터베이스 내 머신러닝 기능은 예측 모델을 지원하도록 더욱 강화되었다. MySQL 히트웨이브에 최적화된 새로운 머신러닝 설명 기술도 추가되었다. 이제 데이터 과학자는 알고리즘 선택, 기능 선택, 점수 지표 및 설명 기법을 포함하여 자동화된 히트웨이브 ML(HeatWave ML) 학습 파이프라인의 다양한 단계에 영향을 줄 수 있다. 히트웨이브 ML은 고객이 머신러닝 모델을 히트웨이브로 가져올 수 있도록 향상되었다.


새로운 다중 엔진 하이퍼그래프 쿼리 옵티마이저(Hypergraph query optimizer)는 복잡한 쿼리의 성능을 더욱 향상시키며 결합(Join) 순서를 지정할 필요가 없다. 영역 맵(Zone Map)이 추가되어 MySQL 히트웨이브를 사용하여 더 광범위한 쿼리 세트를 가속화한다. 또한 MySQL용 VS 코드 플러그인이 MySQL 히트웨이브 기능을 지원하도록 향상되었다.


분산형 클라우드를 위한 제품


MySQL 히트웨이브는 OCI, AWS와 이제 마이크로소프트 애저(Azure)까지 포함하여 여러 클라우드에서 사용할 수 있다. 데이터베이스 업무의 퍼블릭 클라우드 이동을 원치 않는 기업은 OCI 전용 리전을 통해 온프레미스에서도 사용할 수 있다. 또한 고객은 온프레미스의 MySQL OLTP 애플리케이션 데이터를 MySQL 히트웨이브에 복제하여 실시간에 가까운 분석을 수행할 수 있다. MySQL 히트웨이브는 항상 MySQL 데이터베이스의 최신 버전을 활용하고 있다.


[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!