산업 전반에 걸쳐 데이터의 사용이 급증하고 이에 따른 대용량의 정형 및 비정형 데이터의 볼륨을 저장하고 손쉽게 저장하는 데이터 저장 관리로 불리는 데이터 레이크 관리의 필요성이 대두되고 있다. 그간 기업들은 데이터 레이크 구축에 많은 시간을 소비했지만 평균 6-12개월의 주기로 효용 가치가 떨어지고, 급변하는 비즈니스 환경에서 실제 도움이 되지 못했다. 또 소프트웨어 가격이 하락해도 엔지니어링 가격은 급격하게 증가하고, 구축된 데이터 레이크의 효용성을 느끼지 못하는 고객의 마음을 돌리지도 못했다.

분석 솔루션 기업 한국테라데이타는 아파치하둡(Apache Hadoop), 아파치 스파크(Apache Spark), 아파치 나이파이(Apache NiFi)와 같은 최신 오픈소스를 기반으로 하는 데이터 레이크(data lake) 관리 소프트웨어 플랫폼 ‘카일로(Kylo)’를 업계 최초로 선보였다.

테라데이타의 후원 하에 아파치 2.0 라이선스 기반으로 제공되는 오픈소스 프로젝트인 카일로(Kylo)는 자회사 ‘씽크 빅 애널리틱스(Think Big Analytics)’의 경험 축적에서 얻어진 코드를 발전시켜 향후 기업들이 데이터 레이크 구축 시에 높은 효율성과 유연성을 제공하게 될 것이다.

테라데이타는 데이터 레이크에서 쌓아온 경험을 바탕으로 기업들이 부딪치는 공통적인 과제를 해결하기 위해 카일로 프로젝트에 참여해왔다. 여러 산업의 데이터 레이크 구축 경험을 바탕으로 한 카일로는 파이프 라인 개발 및 공통의 데이터 관리 작업을 통합해 효율화시켰다. 이로써 시간 단축, 사용자 채택 증가, 개발자 생산성 향상 등으로 기업의 문제를 해결했다.

또한, 카일로를 사용하면 코딩이 필요 없으며, 셀프 서비스 데이터 수집 및 데이터 랭글링(wrangling)을 위한 직관적인 사용자 인터페이스를 제공해 개발 과정을 가속화시킬 수 있고 재사용이 가능한 템플릿을 통해 생산성을 향상시킬 수 있다.

테라데이타 최고제품책임자(CPO)이자 수석 부사장인 올리버 레츠버그(Oliver Ratzesberger)는 “카일로는 데이터 레이크 관리 분야에서 처음 시도된 오픈소스 프로젝트로 빅데이터, 분석, 오픈소스 소프트웨어에 대한 테라데이타의 비전을 보여준다. 테라데이타는 상용 소스와 오픈소스에 대한 효율적인 혼용 방안에 대해 잘 알고 있으며, 두 가지 장점을 모두 활용하고 있다. 테라데이타는 모든 사용자들을 위해 상용소스 및 오픈소스 환경을 개선하고,앞으로도 고객들이 오픈소스 소프트웨어를 선택적으로 사용할 수 있도록 새로운 접근 방식을 제시할 것이다"고 말했다.

이향선기자 hslee@nextdaily.co.kr

저작권자 © 넥스트데일리 무단전재 및 재배포 금지