오픈소스 빅데이터 DW엔진 아파치 타조 0.2 공개

tajo-gruter


지난 3월 글로벌 오픈소스 재단인 아파치의 인큐베이팅 프로젝트로 채택된 ‘타조 (http://tajo.incubator.apache.org)’ 0.2 버전이 드디어 공개됐다.


타조 개발팀은 26일 오픈소스 빅데이터 웨어하우스 솔루션 타조 0.2를 공개했다고 밝혔다.


이번 버전은 그동안 네이버 개발자 행사인 DeView 2013과 미국 실리콘밸리 하둡 사용자 그룹 행사(Bay Area Hadoop User Group meetup) 등에서 소개되어 큰 관심을 받았던 타조의 첫 공식 릴리즈라는 점에서 주목된다.


타조는 하둡에 저장된 대량의 데이터를 SQL 질의를 이용해 분석하는 SQL-on-Hadoop 계열의 솔루션으로, 대규모 배치 작업과 실시간 인터랙티브 분석에 모두 사용할 수 있는 장점을 타조 프로젝트의 리더인 그루터 최현식 박사는 “다양한 유형의 데이터와 질의에서 테스트한 결과, 타조가 하이브보다 평균 3배 이상 빠르며 일부 질의에 대해서는 수십배 이상 빠른 성능을 낸다”고 설명했다.


실제로 SK텔레콤에서는 올해부터 타조를 빅데이터 분석 솔루션으로 활용하고 있다. SK텔레콤에서는 타조를 도입한 후 하이브를 사용했을 때 보다 평균 3.7배 성능이 향상되고, 데이터 처리에 투입됐던 작업량의 70%를 줄일 수 있었다고 DeView 2013 행사에서 발표했다.


이후 지속적인 개선 결과 최근 테스트에서는 하이브의 18배까지 성능을 끌어 올렸다.


현재 빅데이터 웨어하우스 솔루션 시장에는 아파치 하이브를 비롯해 클라우데라 임팔라, 호튼웍스 스팅거, 아파치 드릴, EMC HAWQ, 페이스북의 프레스토 등 다양한 SQL-on-Hadoop 솔루션들이 경쟁하고 있다.


최 박사에 따르면 치열한 경쟁 구도에서도 타조가 내세우는 장점은 실무 환경에서 요구되는 확장성과 내고장성(폴트 톨로런트)을 지원하면서도 빠른 수행 속도를 제공하는 것이다.


일례로 임팔라, 프레스토 등의 쿼리 엔진은 메모리 기반으로 처리하여 빠른 속도를 제공하지만, 중간 데이터를 디스크에 저장하지 않기 때문에 메모리 크기를 넘어서는 큰 작업을 처리할 수 없고 오류 발생시 질의를 처음부터 다시 실행해야 하는 단점이 있다.


반면 타조는 내고장성, 확장성을 지원하는 아키텍쳐로 설계됨에도 불구하고 유연한 자체 분산처리 엔진과 진보된 데이터베이스 기술을 적용하여 이 트레이드 오프 관계를 극복하고 성능을 크게 향상시켰다.


타조는 하이브가 사용하는 느린 속도의 맵리듀스(MapReduce) 대신 자체 분산 처리 엔진을 사용하고, 각 노드 및 디스크들의 부하와 성능 차이를 고려하여 동적으로 작업을 할당하는 기능을 적용함으로써 큰 폭의 성능 개선을 이루었다. 또한 비용 기반(Cost Based)으로 조인 순서를 결정하는 기능, 질의 실행 중 수집한 통계 정보를 이용하여 이후의 실행 계획을 동적으로 최적화하는 기능 등 데이터베이스 분야의 고급 성능 향상 기법들을 적용하여 성능을 끌어 올렸다.


그루터 권영길 대표는 "엔터프라이즈 환경에 요구되는 대규모 데이터 처리와 실시간 인터랙티브 분석을 하나의 솔루션으로 해결할 수 있다는 점이 타조의 큰 장점”이라고 전하고 “타조는 표준 SQL을 지원할 뿐만 아니라 대부분의 하이브 질의도 그대로 사용할 수 있어, 하이브를 대체하는 빅데이터 DW 솔루션이 될 것으로 기대하고 있다”라고 밝혔다.


그는 또 “기업은 타조의 도입으로 비용 대비 효과 뿐 아니라 대용량 데이터 처리에 애로사항이었던 속도 문제를 해결함으로써 속도 문제 때문에 하둡 도입을 주저하던 기업들에게 실질적인 도움을 주어 빅데이터 분석 활성화에 큰 도움이 될것"이라고 덧붙였다.


한편, 타조 개발팀은 더욱 다양한 SQL을 지원하고 테이블 파티셔닝, JDBC, 하이브 메타 스토어 호환 등의 기능을 추가한 새 버전을 12월 중 출시할 예정이다.




Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event from Gruter Corp

Newsletter
디지털 시대, 새로운 정보를 받아보세요!