디지털타임스

 


장정욱 데이터브릭스 한국지사장 "멀티클라우드 기반 데이터레이크하우스는 이미 대세"

프린트 페이스북 트위터 카카오스토리
장정욱 데이터브릭스 한국지사장 "멀티클라우드 기반 데이터레이크하우스는 이미 대세"
장정욱 데이터브릭스코리아 대표가 기자간담회에서 데이터레이크하우스에 대해 발표하고 있다. 데이터브릭스 제공



"데이터 사일로와 벤더 종속을 해소할 수 있고, 전통적인 데이터 관리부터 최신 AI(인공지능)·ML(머신러닝) 수요까지 모두 소화할 수 있는, 현재 시장에서 가장 앞선 아키텍처가 데이터레이크하우스라고 생각합니다."

장정욱 데이터브릭스코리아 지사장은 29일 국내에서 처음 개최한 오프라인 기자간담회에서 자사 데이터 플랫폼에 대해 이같이 소개했다. 멀티클라우드상의 데이터 엔지니어링부터 데이터 사이언스까지 단일한 개방형 플랫폼 기반으로 수행할 수 있다는 강점을 내세웠다.

데이터브릭스는 기존 DW(데이터웨어하우스)와 데이터레이크를 결합한 '데이터레이크하우스' 분야를 개척한 기업으로 평가받는다. 지난해 매출 10억달러(약 1조3000억원)를 기록했고 포춘 500대 기업 절반 이상을 포함한 9000개 조직을 고객사로 확보했다. 아파치 스파크, 델타레이크, ML플로우 개발 주역들이 모여 세운 만큼 오픈소스 생태계와도 긴밀한 관계를 이어가며, 무료 커뮤니티 버전은 전세계 15만개사에서 사용하고 있다.

데이터브릭스에 따르면, 많은 기업들이 겪는 데이터 복잡성 문제는 한 조직에서도 너무 많은 플랫폼과 서로 다른 도구를 사용하기 때문에 발생한다. DW, 데이터레이크, 오케스트레이션, BI(비즈니스인텔리전스), 스트리밍데이터, 거버넌스 등까지 각각에 대한 데이터 이동·중복 문제로 성능뿐 아니라 비용효율도 떨어지고 벤더 종속 문제도 불거진다. 여러 CSP(클라우드서비스제공사)의 서비스를 이용하는 멀티클라우드가 보편화되면서 이런 문제도 점차 심화된다.

데이터브릭스의 클라우드 기반 데이터 플랫폼은 배치(batch) 또는 스트리밍 형태로 수집되는 대량의 정형·비정형 데이터를 처리하기 위한 기존의 복잡한 아키텍처를 단순화시킨다. 오픈소스 및 개방형 표준을 기반으로 구축돼 벤더에 종속되는 위험요소를 피하고 유연성을 확보할 수 있도록 돕는다. 데이터 엔지니어 및 기존 BI부터 AI·ML을 포함한 데이터 사이언티스트까지 통합된 거버넌스 프레임워크에서 데이터 접근·활용이 이뤄진다. 고객이 AI모델을 자체 구축할 수 있도록 돌리(Dolly)라는 언어모델도 최근 공개했다.

지난해 4월 설립된 데이터브릭스코리아는 클루커스, 메가존클라우드, LG CNS, 데이터다이나믹스, 엠클라우드브리지, 한화시스템 등 주로 MSP(관리형서비스제공사)들과 파트너십을 맺고 시장 공략에 나섰다. 이로써 아모레퍼시픽, 무신사, 데브시스터즈, G마켓, 핀다, 이마트24, 메조미디어 등을 고객사로 확보했다. 올해도 국내에서 멀티클라우드를 위한 데이터 플랫폼으로서 인지도를 높이면서 시장 공략 속도를 높인다는 방침이다.

장 지사장은 "데이터레이크하우스는 더 낮은 비용과 더 빠른 혁신을 가능케 한다. 통합되고 개방된 환경으로 고객들이 데이터 포워드 비즈니스를 실현할 수 있도록 지원하겠다"면서 "올해에는 가장 신뢰할 수 있는 데이터 플랫폼으로 자리매김하기 위해 레퍼런스를 확보하고 파트너 생태계와 관련 투자도 확대할 계획"이라고 말했다.팽동현기자 dhp@dt.co.kr




[ 저작권자 ⓒ디지털타임스, 무단 전재 및 재배포 금지 ]