빅쿼리 이어 빅레이크도 AWS·MS Azure에 올리는 구글···데이터 플랫폼 멀티 클라우드 전략
[테크수다 기자 도안구 eyeball@techsuda.com] 구글 클라우드가 데이터 클라우드 시장을 주도하기 위한 유연한 행보를 이어가고 있다. 구글은 빅쿼리를 AWS와 마이크로소프트 애저(Auzre)에서도 가능하도록 빅쿼리 옴니를 선보인 데 이어 정형 데이터 분석 시스템과 비정형 데이터 분석 시스템을 단일 플랫폼에서 모두 제공하는 빅레이크(BigLake)를 선보였다.
이 서비스 역시 구글클라우드는 기본으로 제공되면서 빅쿼리 옴니가 가동되는 AWS와 MS 애저 위에서도 사용할 수 있다. 데이터 분석을 위한 기반 플랫폼 전체를 구글 클라우드가 주도하겠다는 뜻을 분명히 한 셈이다. 구글 빅쿼리의 강점을 최대한 활용하면서 고객들이 요구하는 멀티 클라우드 환경 지원에 적극 대응하고 있다.
구글 클라우드가 ‘데이터 클라우드 서밋' 미디어 브리핑에서 데이터 분석, 비즈니스 인텔리전스(BI), 인공지능(AI), 데이터베이스 포트폴리오 전반의 데이터 클라우드 기술 혁신과 신규 파트너 프로그램을 발표했다.
이번에 발표한 주요 기술 혁신은 ▲빅레이크(BigLake) ▲스패너 체인지 스트림(Spanner change stream) ▲버텍스 AI 워크벤치(Vertex AI Workbench) ▲루커용 커넥티드 시트(Connected Sheets for Looker) 등으로, 기업이 데이터와 데이터 워크로드의 한계를 극복하고 데이터의 도달 범위를 확장해 데이터의 가치를 빠르게 실현할 수 있도록 지원한다.
제한없는(limitless) 데이터 클라우드를 구현하는 ‘빅레이크’와 ‘스패너 체인지 스트림’
구글 클라우드는 데이터 레이크와 데이터 웨어하우스를 통합한 데이터 레이크 스토리지 엔진 빅레이크(BigLake)를 프리뷰 버전으로 발표했다. 서로 다른 데이터 레이크와 웨어하우스에서 데이터를 관리할 경우 사일로(silo)가 발생하기 쉽고, 특히 데이터 이동 시 리스크와 비용이 높아진다. 데이터의 제한을 없애는 빅레이크를 활용하면 기존의 스토리지 형식이나 시스템에 관계없이 데이터를 분석할 수 있다. 기업은 소스에서 데이터를 복제하거나 이동할 필요가 없어 비용 절감 및 효율성 향상의 이점을 누릴 수 있다.
빅레이크는 델타레이크로 고객에게 다가서고 있는 데이터브릭스의 전략과 유사하다.
구글 클라우드의 빅레이크는 데이터 레이크와 데이터 웨어하우스를 통합한 ‘데이터 레이크 스토리지 엔진’으로, 기업이 오픈소스 분석 엔진과 멀티 클라우드 스토리지 시스템을 활용할 수 있도록 지원한다. 빅레이크를 활용하면 기존의 스토리지 형식이나 시스템에 관계없이 데이터를 분석할 수 있으며, 소스에서 데이터를 복제하거나 이동할 필요가 없어 비용 절감 및 효율성 향상의 이점을 누릴 수 있다.
빅레이크는 빅쿼리(BigQuery)의 엔터프라이즈 데이터 웨어하우스 성능을 데이터 레이크 스토리지로 확장했다는 점에서 타 사 대비 차별화된 경쟁력이 있다는 게 구글 클라우드 측의 설명이다.
구글 클라우드 고객은 빅쿼리를 활용해 (정형 및 비정형 데이터를 모두 포함한) 페타바이트급의 대규모 데이터를 안전하고 유연한 환경에서 실시간으로 분석할 수 있다. 또한 데이터 엔지니어링 기능을 데이터 사이언스 환경에 직접 손쉽게 통합할 수 있고, 버텍스 AI를 활용해 80%이상 더 적은 코드로 5배 더 빠르게 머신러닝(ML) 모델을 개발할 수 있다.
빅레이크는 데이터 레이크하우스(데이터브릭스)의 기능을 모두 지원하면서 추가로 빅쿼리의 고성능 스토리지 및 빅쿼리 옴니(BigQuery Omni) 기반의 멀티 클라우드 데이터 분석도 제공한다. 빅쿼리ML 활용, 버텍스 AI와의 손쉬운 통합으로 스마트 분석이 가능해 비전문가라도 SQL 기반으로 누구나 쉽게 AI/ML 서비스를 구축할 수 있다. 즉, 빅쿼리의 모든 혁신적인 기술을 활용할 수 있다는 점이 구글 클라우드 빅레이크의 가장 큰 강점이라고 할 수 있다.
김정훈 구글 클라우드 데이터 애널리틱스 스페셜리스트는 "지향점은 두 회사가 동일하다고 볼 수 있습니다. 하지만 빅레이크는 빅쿼리의 기술과 그간 쌓은 경험들이 그대로 확장된 것으로 보시면 됩니다. 깊이와 지원 폭에서 차이가 있죠"라고 밝혔다.
국내외 많은 기업들은 데이터의 급증과 이를 처리하려는 세부 기술들의 등장과 빠른 업그레이드, 멀티 클라우드 환경에서 전체 데이터 플랫폼에 대한 가시성 확보와 안정적인 접근과 통제 등으로 고민해 왔다. 또 전통적인 정형 데이터 분석인프라인 데이터웨어하우스와 비정형과 반정형 데이터의 처리, AI 활용을 위한 인프라 등이 또 다시 사일로 형태로 구축되고 관리되면서 이를 하나의 플랫폼으로 통합할 수 있는지 해법을 찾아왔다.
황경태 구글 클라우드 커스터머 엔지니어링 매니저는 "구글의 빅레이크는 이에 대한 해법입니다"라고 말했다.
구글 클라우드는 지난 10년간 빅쿼리가 이뤄낸 혁신을 데이터 레이크로 확장함으로써 유연하고 비용 효율적인 개방형 레이크 하우스 아키텍처를 구현해냈다. 빅레이크는 기업이 아파치 스파크(Apache Spark)와 같은 오픈소스 처리 엔진을 비롯해, 구글 클라우드 서비스와 파케이(Parquet) 등 오픈파일 형식을 아우르는 API 인터페이스를 통해 세분화된 액세스 제어 역량을 갖출 수 있도록 지원한다.
트위터(Twitter)는 빅쿼리와 함께 빅레이크의 스토리지 기능을 이용해 데이터 제한 없이 트위터 사용자의 플랫폼 사용 현황과 콘텐츠 선호도를 파악하고 있다. 그 결과, 초당 3백만 개 이상의 집계를 실행하는 광고 파이프라인을 통해 매일 수 조 건에 달하는 이벤트와 관련된 콘텐츠를 제공할 수 있게 되었다.
빅레이크는 빅쿼리 옴니가 설치된 곳에서도 사용가능하다고 구글클라우드 측은 밝혔지만 한국 리전에 정확히 두개 서비스가 올라오는 시기에 대해서는 밝히지 않았다. 빅쿼리 옴니 고객인 이마트는 미국 AWS 리전에 올라온 구글 빅쿼리 옴니에서 데이터 분석 테스트를 진행하고 있다고 밝힌 바 있다.
다만 빅쿼리 옴니의 경우 올해 내 한국 서울 리전에서도 사용할 수 있을 것이라고 전했따.
구글 클라우드가 빅레이크 또한 멀티 클라우드 전략을 내세우면서 데이터 클라우드 플랫폼 시장에서 구글클라우드의 경쟁력은 더욱 뛰어날 것으로 보인다. 구글 클라우드가 멀티 클라우드 전략을 펴는 것과는 반대로 AWS나 마이크로소프트 애저의 경우 데이터 플랫폼에 대해 경쟁 클라우드 사업자에 제공하지는 않고 있다.
한편, 구글클라우드는 스패너 체인지 스트림(Spanner change stream) ▲버텍스 AI 워크벤치(Vertex AI Workbench) ▲루커용 커넥티드 시트(Connected Sheets for Looker) 등도 선보였다.
스패너 체인지 스트림(Spanner change stream)은 구글 클라우드 데이터베이스인 스패너(Spanner)에 새롭게 추가된 기능으로, 고객은 데이터베이스에서 삽입, 업데이트, 삭제 등의 변경 사항을 실시간으로 추적할 수 있다. 고객은 스패너에서 빅쿼리로 변경 사항을 쉽게 복제하고 Pub/Sub을 사용해 다운스트림 애플리케이션 동작을 실행시키거나, 컴플라이언스 준수를 위해 구글 클라우드 스토리지(Google Cloud Storage)에 변경 사항을 저장할 수 있다. 이를 통해 항상 최신 상태의 데이터에 액세스하고 실시간으로 분석을 수행할 수 있다. 최대 99.999% 가용성을 지원하며 초당 최대 20억 건 이상의 요청을 처리하는 스패너는 체인지 스트림 기능의 추가로 한 단계 더 향상된 데이터 처리 역량을 지원할 수 있게 됐다.
데이터 워크로드의 한계를 극복하는 ‘버텍스 AI 워크벤치’
구글 클라우드는 보다 빠른 AI 모델 개발과 손쉬운 유지보수를 지원하는 버텍스 AI 워크벤치를 정식 출시했다. 버텍스 AI 워크벤치는 데이터 및 머신러닝 시스템을 단일 인터페이스로 제공해 모든 팀이 데이터 분석, 데이터 사이언스, 머신러닝 전반에 걸쳐 공통된 툴셋을 사용할 수 있도록 지원한다. 버텍스 AI 워크벤치는 구글 클라우드의 빅쿼리, 서버리스 스파크(Serverless Spark) 및 데이터프록(Dataproc)과 네이티브 통합이 가능하며 기존 노트북 환경 대비 5배 빠르게 머신러닝 모델을 개발, 학습 및 배포할 수 있도록 지원한다.
버텍스 AI를 이용하면 주기적으로 모델을 업데이트할 수 있는데, 많은 양의 모델을 관리하는 것은 기업에 여전히 어려운 일이다. 구글 클라우드는 모델 유지보수 관리를 보다 간소화할 수 있도록 버텍스 AI 모델 레지스트리(Vertex AI Model Registry)에 신규 ML옵스(MLOps) 기능을 프리뷰 버전으로 선보였다. 버텍스 AI 모델 레지스트리는 빅쿼리 ML 모델을 포함한 머신러닝 모델의 탐색, 사용 및 관리를 위한 중앙 저장소를 제공한다. 데이터 사이언티스트가 모델을 공유하고 앱 개발자가 이를 사용하는 것이 한층 쉬워져, 조직은 데이터에 기반해 실시간으로 의사결정을 내릴 수 있고 변화하는 시장 상황에 민첩하게 대응할 수 있다.
데이터의 도달 범위를 확장하는 ‘루커용 커넥티드 시트’
이외에도 구글 클라우드는 통합형 BI 플랫폼인 루커용 커넥티드 시트(Connected Sheets for Looker)와 데이터 스튜디오(Data Studio)에서 루커 데이터 모델에 접근을 지원하는 기능을 발표했다. 이제 루커 익스플로어(Looker Explore), 구글 스프레드시트(Google Sheets) 또는 데이터 스튜디오의 드래그 앤 드롭(drag-and-drop) 인터페이스를 사용해 원하는 방식으로 데이터를 활용할 수 있다. 기업은 통합된 구글 클라우드 BI 플랫폼을 이용해 모든 사용자가 보다 쉽게 데이터에 액세스하고, 새로운 데이터세트와 연산을 통합하며, 동료들과 원활히 협업할 수 있다. 이를 통해 데이터에 기반한 통찰력을 확보해 혁신을 추진하고 현명한 의사결정을 내릴 수 있다.
데이터 클라우드 파트너사와 협력 강화
구글 클라우드는 견고한 파트너 생태계를 통해 고객의 데이터 혁신을 지원하고 있다. 현재 700개 이상의 소프트웨어 파트너사가 구글의 데이터 클라우드를 이용해 애플리케이션을 구현하고 있다. 블룸리치(Bloomreach), 에퀴팩스(Equifax), 엑사빔(Exabeam), 퀀텀 메트릭(Quantum Metric) 및 줌인포(ZoomInfo) 등 여러 파트너사들이 빅쿼리 기반 구축(Built with BiqQuery) 이니셔티브를 기반으로 데이터 클라우드 기능을 이용하며 전담 엔지니어링 팀, 공동 마케팅 및 시장 출시와 관련한 지원을 제공받고 있다.
구글 클라우드의 고객들은 빅쿼리와 같은 제품에 긴밀하게 통합되고 최적화된 파트너 솔루션을 원한다. 이러한 고객 수요에 대응하고자 구글 클라우드는 구글 클라우드 레디 - 빅쿼리(Google Cloud Ready - Big Query) 프로그램을 발표했다. ‘구글 클라우드 레디 - 빅쿼리’ 프로그램은 파이브트란(Fivetran), 인포매티카(Informatica), 태블로(Tableau) 등 파트너 솔루션이 핵심 기능 및 상호호환성 요건을 만족하는 지 검증한다. 이를 통해 고객은 새로운 툴을 평가하는 데 소요되는 시간을 상당히 절감할 수 있다. 이미 25곳 이상의 파트너사가 ‘구글 클라우드 레디 - 빅쿼리’ 프로그램 인증을 받았다.
마지막으로, 구글 클라우드는 고객이 온프레미스 및 기타 클라우드 환경에서 구글 클라우드의 관리형 데이터베이스 서비스로 빠르고 원활하게 이전할 수 있도록 지원하는 데이터베이스 이전 프로그램(Databases Migration Program)을 발표했다. 해당 프로그램에는 도구 정비, 리소스 및 딜로이트(Deloitte)와 같은 협력사의 전문 역량은 물론 데이터베이스 이전 비용을 상쇄할 수 있도록 구글에서 제공하는 인센티브가 포함된다.
구글 클라우드는 데이터 및 분석 분야의 선두 기업들과 파트너십을 지속적으로 강화하고 있다. 데이터브릭스(Databricks), 파이브트란(Fivetran), 몽고DB(MongoDB), 네오포제이(Neo4j), 레디스(Redis)를 포함한 주요 파트너사 모두 구글 클라우드 고객을 위한 새로운 기능을 발표하고 있다.
장화진 구글 클라우드 코리아 사장은 “오늘날 데이터의 양과 유형, 워크로드, 그리고 사용자까지 폭발적으로 증가하면서 전통적인 데이터 아키텍처로 데이터가 가진 진정한 가치를 실현하는 것은 어려워졌다”라며, “구글 클라우드는 오늘 발표한 데이터 클라우드의 기술 혁신을 통해 클라우드 환경에서 데이터의 원활한 활용을 지원하고, 고객이 데이터 기반의 비즈니스 가치를 실현함으로써 성공적인 디지털 트랜스포메이션을 추진할 수 있도록 최선을 다할 것”이라고 말했다. [테크수다 Techsuda]