갈 길 먼 티맥스의 빅데이터 플랫폼 도전장
티맥스소프트(대표 남정곤, www.tmaxsoft.com)와 관계사인 데이터베이스 업체인 티베로(대표 장인수, www.tibero.com)가 '하둡(Hadoop)'을 품에 안고 빅데이터 플랫폼 시장에 도전장을 내밀었습니다.
두 회사는 ‘티맥스데이 2013’ 행사에서 빅데이터 통합 솔루션인 ‘인피니티(Infini*T)’를 통해 빅데이터 시대를 선도하겠다고 밝혔죠. 인피니티는 데이터 수집(InfiniLink 6.0), 처리(InfiniCache 2.0), 저장(Tibero 6)과 분석·활용(InfiniData 3.0)으로 이어지는 전체의 빅데이터 라이프사이클을 아우르는 빅데이터 통합 플랫 솔루션입니다.
이번 행사에는 티맥스 박대연 CTO가 기조연설했죠. 그는 티맥스가 글로벌 기업들과 대등한 기술력을 갖추고 있음을 확인하며, 기업은 ‘인피니티(Infini*T)’를 통해 빅데이터에 내재된 정보를 활용하여 비즈니스 역량을 극대화하고 빅데이터 시대의 핵심 경쟁 우위를 확보해 나갈 수 있음을 설명했습니다.
이번 발표에서 주목받는 건 메모리와 HDD를 모두 지원하는 '티베로 6'과 RDB와 HDFS를 하나의 장비 안에 넣도록 설계된 인피니티데이터 3.0입니다. 최근 주목받는 SQL On Hadoop에 대한 설명도 자세히는 아니지만 인피니티데이터 3.0 안에 제공할 계획이라는 설명도 있습니다. 행사장에 못가본 관계로 몇가지 질문 사항을 티맥스 측에 이메일로 보냈고, 박상영 티베로연구소장과 전화인터뷰도 진행했습니다.
제 개인적인 소감은 늦은 감이 없지 않지만 하둡을 끌어안으면서 이 시장에 발을 담그고 있다는 것만으로 의미를 부여해 볼 수는 있을 것 같습니다. 잘하고 못하고는 별개로 말이지요. 국내 많은 RDB 관련 솔루션 업체들이 '하둡' 생태계에 대해서 너무나 늦게 대응하고 있다고 지적했었는데 최근 앞다퉈 이를 지원하겠다고 한 것만은 분명 환영할 일입니다. 문제는 '잘' 할 수 있느냐의 문제겠지요.
다만 아쉬운 대목은 기사 앞에서 등장하는 티맥스 측에서 보낸 보도자료의 한 문구에 있는 것 같습니다. 빅데이터 관련해 티맥스측은 '솔루션'이라고 밝혔습니다. 아무것도 아닌 듯한 이 말이 왠지 모르게 걸립니다. 하둡 생태계는 '플랫폼' 영역인데 패지키 형태의 '솔루션'으로 바라보고 있다는 해석이 가능하기 때문입니다. 기자의 오버이기를 바랄 뿐입니다.
한가지 더 아쉬운 대목은 아직 제품이 출시되지 않았다는 사실입니다. 핵심 제품은 2014년 1분기에 출시됩니다. 몇몇 제품들은 연말에나 나올 예정입니다. 해외 글로벌 DB 업체들도 하둡과 관련해서는 전문 업체와 손을 잡고 있습니다. EMC 같은 회사는 SQL On Hadoop 관련해서 독자적인 행보를 보이고 있습니다. 티맥스소프트는 전문 업체와 손을 잡기보다는 스스로 이 모든 걸 해내겠다고 밝힌 것이죠.
RDB 시장에서 소기의 성과를 기록하고 있는 티맥스소프트와 티베로가 '하둡' 기반 빅데이터 플랫폼 시장에서 제대로 해낼 수 있기를 기대해보겠습니다.
다음은 일문일답.
1. 명확한 출시 시점이 언제인가
인피니링크6.0, 인피니캐시2.0는 2013년 말, 인피니데이타3.0, 티베로6는 2014년 초에 출시할 예정입니다.
2. 인피니데이타 3.0의 경우 한 노드 안에 RDB와 HDFS가 같이 존재한다고 되어 있다. 비정형/반정형 데이터는 그 양이 얼마나 늘어날 지 모른다. 그럼 RDB 라이선스도 기하급수적으로 늘어나는 구조로 보인다. 수백 노드로 늘어나면 고객들에게 비용적으로 부담이 될 것 같은데.
인피니데이타는 2.0부터 무제한 수평적 확장을 목표로 개발해 왔습니다. 공유 디바이스가 없는 구조이기 때문에 가능합니다. 실제 연구소 테스트는 100대까지 진행해 보았고, 성능의 선형 증가를 확인하였습니다. 추가 테스트를 위하여 향후 클라우드 환경에서 노드 수를 늘려가며 테스트할 예정입니다. 인피니데이타는 현재 코어 정책을 채택하고 있으며, 노드 수 만큼 라이선싱합니다. 또한 데이터 크기단위의 가격정책도 고객이 선택할 수 있도록 고려하고 있습니다. 이로써 고객이 운영환경에 맞게 라이선스 정책을 선택할 수 있도록 계획입니다.
3. 이런 구조를 가져간 이유는
하둡과 RDB를 별도로 넣다가 연결하다보면 네트워크 분야에서 병목이 발생한다. 이 문제를 해결하기 위해서 하나로 묶었다. 로컬 머신에서 정형, 비정형, 반정형 모두 처리할 수 있도록 했다. 모 고객의 경우 유휴 장비들을 폐기하지 않고 여기에 인피니티데이터를 얹어 재활용할 수 있는 지 검토하고 있다. 다양한 고객 상황에 맞는 '레퍼런스 아키텍처' 중심으로 접근할 계획이다. 하드웨어 구성과 관련해서도 전문 업체들과 협력해 나갈 계획이다.
3. 하둡 HDFS는 아파치 하둡 버전 어떤 걸 사용할 계획인가
stable version인 1.2.1을 사용하고 있습니다.
4. SQL On Hadoop 도 제공하겠다고 밝혔다. 오픈소스를 활용하나 아니면 직접 개발하나
SQL on Hadoop 은 인피니데이타에서 수행되는 SQL에서 타겟을 HDFS file과 HBase Table로 할 수 있도록 하는 기능입니다. 오픈소스는 아니고, 인피니데이타에서 새롭게 개발된 기능입니다. 유저가 수행한 SQL의 대상에 Hadoop API를 이용하여 접근하도록 변환하는 기능입니다. full pipeline으로 동작해 M/R보다 성능이 월등히 좋습니다. 또한 데이터 locality를 파악하여 네트워크를 최소한으로 사용하도록 동작하게 됩니다. 하둡 분야에서 일한 인력과 DB 분야에서 10년 넘게 일한 인력들이 함께 하고 있습니다.
5. 하둡 관련 인원이 지난해 중반에 참여한 걸로 알고 있다. 인력들은 얼마나 보강이 되어 있나
현재 하둡 개발 경력이 있는 개발자가 3명 추가 되었고, 10월중에 한명 더 추가 예정입니다. 대부분 실 환경에서 하둡을 이용한 빅데이터 시스템 개발 경험이 있습니다.
6. DB의 경우 알티베이스처럼 하이브리드 전략을 구사하시겠다는 건가
메인메모리 데이터베이스가 80년대 중반에 탄생한 이후 꾸준히 그 한계인 확장성을 어떻게 극복할 것인가 하는 논의가 있어왔습니다. 그 결과 90년대 말과 2000년대 초에 메모리와 디스크를 모두 스토리지로 사용 가능한 하이브리드 개념이 생겨나고 많은 시도가 있었습니다. 알티베이스도 그 결과물 중의 하나입니다.
하지만, 수 많은 시도들의 결과 성공적으로 주류 시장에 안착한 제품은 거의 없습니다. 그 이유로는 메모리와 디스크를 통합하여 처리하는 엔진 개발의 난이도가 큽니다. 또, 디스크와 메모리 양 쪽에 모두 탑 레벨의 기술을 확보하여야 하는데 그런 기술을 확보하기도 쉽지 않습니다.
알티베이스의 경우는 통합 처리 엔진이라기보다는 각각의 개별 엔진을 하나로 묶어 놓은 형태이고, 메모리 데이터베이스 엔진 기술은 뛰어나지만 디스크 데이터베이스 엔진 기술은 상대적으로 많이 뒤쳐져서 고객 입장에서 하이브리드의 장점을 제대로 누릴 수 없는 상태입니다.
티베로 6은 통합 엔진, 통합 질의 최적화 부분에 많은 연구를 진행하였고, 이 부분이 Tibero 6의 핵심 경쟁력이라고 생각합니다.