[AWS re:Invent 2022] 5가지 DB·분석 기능 발표


[테크수다 기자 도안구 eyeball@techsuda.com] 아마존웹서비스(Amazon Web Services, 이하 AWS)는 AWS 리인벤트(AWS re:Invent) 행사에서 데이터베이스와 분석 포트폴리오의 5가지 새로운 기능을 발표했다.


신규 기능은 고객이 페타바이트 규모의 데이터를 더 빠르고 쉽게 관리 및 분석할 수 있게 한다. 아마존 도큐먼트DB(Amazon DocumentDB, MongoDB와 호환 가능), 아마존 오픈서치 서비스(Amazon OpenSearch Service), 아마존 아테나(Amazon Athena)의 이번 신규 기능으로 고객은 대규모의 고성능 데이터베이스 및 분석 워크로드를 보다 쉽게 ​​실행할 수 있다.


또한 AWS는 데이터 레이크와 데이터 파이프라인에서 데이터 품질을 자동으로 관리하는 AWS 글루(AWS Glue)의 새로운 기능을 발표했다. 마지막으로 아마존 레드시프트(Amazon Redshift)는 이제 여러 AWS 가용 영역(AZ)에서 고가용성 구성을 지원한다. 오늘 발표는 고객이 데이터 워크로드에 적합한 도구에 접근하고 대규모로 운영하며 가용성을 높일 수 있도록 지원함으로써 고객이 AWS에서 데이터를 최대한 활용할 수 있도록 지원한다. AWS를 사용해 데이터의 가치를 창출하는 자세한 방법은 aws.amazon.com/data에서 확인할 수 있다.



스와미 시바수브라마니안(Swami Sivasubramanian) AWS 데이터베이스, 분석, 머신러닝 부문 부사장은 "데이터는 본질적으로 동적이며, 데이터를 최대한 활용하려면 고객의 니즈에 따라 확장할 수 있고 현재와 미래의 모든 유형의 사용 사례를 수용할 수 있는 엔드 투 엔드 데이터 전략이 필요하다"며 “고객이 양과 유형이 늘어나고 있는 데이터를 최대한 활용할 수 있도록 돕기 위해 우리는 가장 광범위하고 심층적인 데이터베이스 및 분석 서비스 세트를 제공하기 위해 노력하고 있다. 오늘 발표된 새로운 기능은 고객이 더 쉽게 데이터를 쿼리(query), 관리, 확장하여 더 빠르게 데이터에 기반한 의사 결정을 내릴 수 있게 한다”라고 말했다.


오늘날 조직은 점점 더 많은 소스(디지털 미디어, 온라인 트랜잭션, 커넥티드 디바이스 등)에서 페타바이트 또는 엑사바이트 규모의 데이터를 생성하고 저장한다. 이러한 데이터의 가치를 극대화하기 위해, 고객은 모든 데이터 워크로드와 애플리케이션에 적합한 도구에 대한 액세스는 물론, 데이터의 양과 속도가 증가함에 따라 대규모로 안정적으로 수행할 수 있는 기능을 제공하는 엔드 투 엔드 데이터 전략이 필요하다.


AWS는 고객의 엔드 투 엔드 데이터 전략 설계를 지원하기 위해 업계에서 가장 포괄적인 데이터 서비스 및 솔루션 세트를 제공한다. 여기에는 관계형 데이터베이스용 아마존 오로라(Amazon Aurora)와 문서 데이터베이스용 아마존 도큐먼트DB와 같이 고객의 가장 중요한 사용 사례에 최적화된 완전관리형 데이터베이스가 포함된다. 또한 검색과 분석 워크로드(실시간 애플리케이션 모니터링, 로그 분석, 웹사이트 검색 등)를 위한 아마존 오픈서치 서비스, 대화형 분석을 위한 아마존 아테나, 데이터 통합을 위한 AWS 글루, 데이터 웨어하우징을 위한 아마존 레드시프트와 같이 고객이 데이터에서 귀중한 통찰력을 얻는 데 도움이 되는 광범위한 분석 서비스가 포함되어 있다. 오늘의 발표는 고급 기능이 포함된 이러한 서비스를 고도화한다.


  • ‘아마존 도큐먼트DB 엘라스틱 클러스터(Amazon DocumentDB Elastic Cluster)’는 초당 수백만 건의 쓰기로 페타바이트 규모의 애플리케이션을 지원한다. 아마존 도큐먼트DB는 빠르고 확장 가능하며 가용성이 높고 완전 관리형이기 때문에 수만 명의 고객이 아마존 도큐먼트DB를 사용하여 문서 워크로드를 실행하고 있다. 각 아마존 도큐먼트DB 노드는 최대 64 테비바이트의 데이터까지 확장할 수 있고 초당 수백만 건의 읽기 요청을 지원할 수 있지만, 극도로 까다로운 워크로드를 가진 일부 고객은 초당 수백만 건의 쓰기를 지원하고 페타바이트 데이터를 저장하기 위해 이러한 한계 이상으로 확장할 수 있는 기능을 필요로 한다. 이러한 고객들은 이전에는 수동으로 데이터를 배포하고 여러 아마존 도큐먼트DB 노드에서 용량을 관리해야 했다. 아마존 도큐먼트DB 엘라스틱 클러스터를 사용하면 고객은 몇 분 안에 단일 데이터베이스 노드의 한계 이상으로 확장하여 초당 수백만 건의 읽기, 쓰기를 지원하고 최대 2페타바이트의 데이터를 저장할 수 있다. 워크로드 수요가 증가함에 따라 아마존 도큐먼트DB 엘라스틱 클러스터는 분산 스토리지 시스템을 활용하여 대규모 데이터 세트를 여러 노드에 자동으로 나눈다. 이를 통해 고객은 사용자 지정 코드를 작성하여 데이터 세트를 배포하고 노드 전체에서 수동으로 용량을 관리할 필요가 없다. 기본 인프라는 자동으로 관리되므로 고객은 데이터베이스 클러스터를 프로비저닝, 확장 또는 관리할 필요 없이, 필요에 따라 용량을 쉽게 확장할 수 있다. 아마존 도큐먼트DB 엘라스틱 클러스터에 대한 자세한 내용은amazon.com/documentdb/features/#elastic_clusters에서 확인할 수 있다.
  • ‘아마존 오픈서치 서버리스(Amazon OpenSearch Serverless)’는 검색 및 분석 워크로드를 자동으로 확장한다. 웹사이트 검색과 실시간 애플리케이션 모니터링 등의 사용 사례를 지원하기 위해 수만 명의 고객이 아마존 오픈서치 서비스를 사용한다. 이러한 워크로드 중 다수는 사용량이 갑작스럽고 간헐적으로 급증하는 경향이 있어 용량 계획을 어렵게 만든다. 아마존 오픈서치 서버리스는 오픈서치 인프라를 자동으로 프로비저닝, 구성, 확장하여 예측할 수 없고 간헐적인 워크로드에 대해서도 빠른 데이터 수집과 밀리초 쿼리 응답을 구현한다. 아마존 오픈서치 서버리스를 사용하면 데이터 수집, 검색 리소스가 독립적으로 확장되므로 성능에 영향을 주지 않고 작업을 동시에 실행할 수 있다. 아마존 오픈서치 서버리스를 사용하는 고객은 로그 데이터 이해, 이상 징후 식별, 검색 관련성 순위 확인을 위해 기본 제공되는 데이터 시각화를 포함한 아마존 오픈서치 서비스 기능과 함께 서버리스 혜택(자동 프로비저닝, 온디맨드 확장, 종량제 요금 등)을 이용할 수 있다. 아마존 오픈서치 서버리스에 대한 자세한 내용은amazon.com/opensearch-service/features/serverless에서 확인할 수 있다.
  • ‘스파크를 위한 아마존 아테나(Amazon Athena for Apache Spark)’는 대화형 분석을 가속화해 1초 안에 작업을 시작한다. 서버리스 대화형 쿼리 서비스인 아마존 아테나는 표준 SQL 인터페이스를 사용하는 아마존 심플 스토리지 서비스(아마존 S3)에서 페타바이트 데이터를 쿼리하는 가장 쉽고 빠른 방법 중 하나다. 많은 고객이 주로 사용되는 언어 프레임워크(자바, 스칼라, 파이썬, R 등)를 지원하는 빅데이터 워크로드용 오픈소스 처리 프레임워크인 아파치 스파크를 사용할 때도 이와 동일한 사용 편의성을 기대한다. 개발자는 아파치 스파크의 빠른 쿼리 속도와 사용 편의성을 즐기지만, 쿼리를 실행할 때마다 자체 아파치 스파크 인프라를 설정, 관리, 확장하는 데 시간을 투자하고 싶어하지 않는다. 이제 스파크를 위한 아마존 아테나를 사용하면 고객이 직접 리소스를 프로비저닝, 구성, 확장할 필요가 없다. 대화형 아파치 스파크 애플리케이션은 1초 이내에 시작되며 AWS의 최적화된 스파크 런타임을 사용하여 오픈소스보다 빠르게 실행된다. 아마존 아테나는 다른 AWS 서비스와 통합되어 있으므로, 고객은 여러 소스에서 데이터를 쿼리하고 복잡한 분석을 위해 함께 계산을 연결하고 결과를 시각화할 수 있다. 스파크를 위한 아마존 아테나는 애플리케이션 수요에 따라 필요한 리소스를 자동으로 결정하고 필요에 따라 확장하므로, 고객은 실행한 쿼리에 대해서만 비용을 지불한다. 스파크를 위한 아마존 아테나는amazon.com/athena/spark에서 시작할 수 있다.
  • ‘AWS 글루 데이터 퀄리티(AWS Glue Data Quality)’는 데이터 최신성, 정확성, 무결성을 자동으로 모니터링하고 관리한다. 수십만 명의 고객이 AWS 글루를 사용하여 최신 데이터 파이프라인을 비용 효율적으로 쉽고 빠르게 구축, 관리한다. 조직은 데이터 레이크와 데이터 파이프라인에 있는 정보의 데이터 품질(데이터의 최신성, 정확성, 무결성)을 모니터링하여 분석 또는 머신 러닝 애플리케이션에 사용하기 전에 고품질인지를 확인해야 한다. 그러나 효과적인 데이터 품질 관리는 시간이 많이 걸리고 복잡한 프로세스로, 데이터 엔지니어가 데이터에 대한 자세한 통계를 수집하고, 해당 통계를 기반으로 수동으로 데이터 품질 규칙을 식별하며, 수천 개의 데이터 세트와 데이터 파이프라인에 적용하는 데 며칠을 소비해야 한다. 이러한 규칙이 구현되면 데이터 엔지니어는 데이터의 오류나 변경 사항을 지속적으로 모니터링하여 그에 따라 규칙을 조정해야 한다. AWS 글루 데이터 퀄리티는 아마존 S3 데이터 레이크와 AWS 글루 데이터 파이프라인의 데이터 품질을 자동으로 측정, 모니터링, 관리하여 데이터 분석과 규칙 식별 시간을 며칠에서 몇 시간으로 단축한다. AWS 글루 데이터 퀄리티는 고객 데이터 세트(최소값, 최대값, 히스토그램, 상관 관계 등)에 대한 통계를 계산하고, 이를 사용하여 데이터 최신성, 정확성, 무결성을 보장하는 규칙을 자동으로 추천한다. 고객은 데이터가 변경될 때 주기적으로 실행되도록 AWS 글루 데이터 퀄리티를 예약하여 데이터를 자동으로 분석하고 관련성을 보장하기 위해 품질 규칙에 대한 변경을 제안할 수 있다. 데이터 엔지니어는 코드를 작성하지 않고도 품질 문제가 발생했을 때 사용자에게 알림을 전송하거나 데이터 파이프라인을 중지할 수 있다. AWS 글루 데이터 퀄리티 대한 자세한 내용은amazon.com/glue/features/data-quality에서 확인할 수 있다.
  • 아마존 레드시프트는 다중 AZ 배포를 지원한다. 수만 명의 AWS 고객이 매일 아마존 레드시프트를 사용하여 엑사바이트 규모의 데이터를 공동으로 처리하고 있다. 이러한 고객의 목표 수행에 필수적인 워크로드를 지원하기 위해 아마존 레드시프트는 자동 백업과 몇 분 안에 클러스터를 다른 AZ로 재배치하는 기능과 같이 가용성과 안정성을 높이는 기능을 제공한다. 현재, 많은 데이터베이스는 기본-대기(primary-standby) 복제 모드를 사용하여 단일 데이터베이스가 라이브 트래픽을 받는 고가용성을 지원하고, 교체가 필요할 경우 대기 복사본이 라이브 버전에서 데이터를 복제한다. 이러한 기능을 기반으로 구축된 아마존 레드시프트는 이제 데이터 손실 위험을 최소화하면서 빠른 복구를 지원하는 고가용성 구성을 제공한다. 아마존 레드시프트 다중 AZ를 사용하면, 클러스터가 여러 AZ에 배포되고 모든 리소스를 사용하여 읽기, 쓰기 쿼리를 처리하므로 활용도가 낮은 대기 복사본이 필요하지 않으며 고객을 위한 가격 대비 성능이 극대화된다. 다중 AZ 데이터 웨어하우스는 여전히 하나의 엔드포인트가 있는 단일 아마존 레드시프트 데이터 웨어하우스로 관리되므로, 비즈니스 연속성을 유지하기 위해 애플리케이션을 변경할 필요가 없다.


[테크수다 기자 도안구 eyeball@techsuda.com]



관련 기사


[AWS re:Invent 2022] 세이지메이커를 위한 8가지 신규 기능 발표 – 테크수다 (techsuda.com)


[AWS re:Invent 2022] 서플라이 체인 발표 – 테크수다 (techsuda.com)


[AWS re:Invent 2022] 5가지 DB·분석 기능 발표 – 테크수다 (techsuda.com)


[AWS re:Invent 2022] ARM 기반 그래비톤 칩으로 비용과 성능 모두 잡는다ㆍㆍㆍ인텔ㆍAMDㆍ엔비디아 정조준 – 테크수다 (techsuda.com)