IT Solutions

아마존, 구글도 앞다퉈 투자! '데이터브릭스'의 비결은?

2021. 3. 29. 09:30

데이터브릭스(Databricks)는 자사를 ‘데이터 + AI 회사’라고 말합니다. 데이터브릭스의 소프트웨어는 기업들이 가진 대량의 데이터를 신속하게 처리하고 분석합니다. 또한 데이터가 인공지능(AI) 모델 적용에 준비될 수 있도록 지원하고 있습니다.


지난 2월 초, 데이터브릭스는 AWS, 알파벳의 벤처 조직인 캐피탈G, 세일즈포스 벤처스, 마이크로소프트 등 주요 클라우드 벤더들이 대거 참여한 가운데, Series G 라운드 투자(10억 달러)를 받았습니다. 이 회사는 마이크로소프트로부터 작년 2월에 Series E라운드(2억 5,000만 달러)와 10월에는 Series F 라운드(4억 달러)를 이미 투자받기도 했습니다. 이처럼 데이터브릭스는 IPO 바로 전 라운드에서 클라우드 Top 3(아마존, 구글, 마이크로소프트)의 투자를 모두 받은 전례 없는 기업으로 큰 주목을 받았습니다. 이같은 투자는 데이터브릭스가 기업 데이터 관리를 지원하는 클라우드 소프트웨어 회사 스노우플레이크(Snowflake)처럼 성장의 기회를 지녔다고 여겼기 때문으로 분석됩니다.


특히 글로벌 1위 클라우드 사업자인 아마존은 그동안 후기 단계 스타트업 투자에 소극적인 경향을 보여왔는데요. 이런 점을 감안하면 데이터브릭스에 대한 투자는 더욱 주목되는 투자 행보임에 틀림이 없습니다. 데이터브릭스의 CEO 알리 고드시는 “Series G 라운드 자금 유치의 원동력은 클라우드 기업들과의 파트너십이다”며 “이들 클라우드 기업들과 데이터브릭스는 공생 관계에 있다”고 말했습니다. 또한 “클라우드에 있는 대부분의 데이터가 기본적으로 데이터 레이크에 있을 것으로 판단한다”면서 “자사는 더 많은 것들을 구동하기 위한 솔루션을 구축해 가는 가운데 이번에 확보한 투자금 10억 달러 중 8억 달러로 M&A 기회를 탐색할 예정”이라고 밝혔습니다.


데이터브릭스는 기업들이 다량의 데이터를 저장하는 ‘하둡’ 기술의 대안으로 ‘아파치 스파크(Apache Spark)’ 버전의 실행을 지원하면서 더욱 두각을 나타냈습니다. 이 기술은  세일즈포스 소유의 태블로와 같은 데이터 시각화 소프트웨어에서 탐색을 위해 데이터를 정리하는 데에 도움이 될 수 있는데요. 데이터브릭스의 소프트웨어는 간단한 실행 방법으로 기업들이 데이터를 configuring 및 업데이트하는 것에 대해 걱정할 필요가 없게 합니다. 뿐만 아니라, 기업들이 인공지능 모델을 배포하는 것에도 많은 도움을 주고 있습니다.

 

 

데이터브릭스를 이해하기 위해서는 먼저 데이터 관리 영역에서 해결하고자 하는 이슈가 무엇인지, 이를 어떻게 해결했는지 살펴볼 필요가 있습니다. 데이터브릭스에 따르면 데이터 분석가, 데이터 과학자, 인공지능 전문가들은 업무에 사용할 수 있는 고품질의 최신 데이터가 부족하다는 사실에 많이 실망하는 것으로 나타났습니다. 이러한 좌절감 중 일부는 포춘 500대 기업에서 흔히 볼 수 있는 ‘2계층 데이터 아키텍처’의 단점 때문인데요.


이러한 아키텍처는 데이터 분석가에게 거의 불가능한 선택 옵션을 제공합니다. 이는 데이터 레이크에서 실시간성은 높지만 신뢰할 수 없는 데이터를 사용하고, 데이터 웨어하우스에서 고품질의 데이터이지만 오래된 데이터를 사용해야 하기 때문이죠. 뿐만 아니라 데이터 웨어하우징 솔루션이 가진 폐쇄된 포맷으로 인해 고품질 데이터 소스에서 오픈소스 데이터 분석 프레임워크를 사용하기란 매우 어려운 상황입니다.


하지만 데이터브릭스의 레이크 하우스(lakehouse) 아키텍처는 데이터 레이크 바로 위에 데이터 웨어하우스 계층이 가진 높은 안정성, 성능의 이점을 제공합니다. 궁극적으로 웨어하우스 계층을 제거함으로써 복잡성, 비용, 운영 오버헤드를 줄여줍니다. 동시에 레이크 하우스는 실시간 스트리밍과 배치 처리의 효율적이고 쉽고 안정적인 병합을 지원하는데요. 이로 인해 항상 최신의 데이터가 분석에 활용되도록 보장한다는 장점을 지니죠.

레이크 하우스의 비전 (출처: Databricks Slideshare)  


데이터브릭스는 데이터 웨어하우스의 구조화된 분석 이점을 저비용의 클라우드 기반 데이터 레이크에 저장되어 있는 데이터로 가져오는 전략을 취합니다. 엔터프라이즈 데이터 아키텍처의 간소화를 추구하는 것인데요. 데이터브릭스는 레이크 하우스 스토리지 레이어의 일부로 델타 레이크(Delta Lake)를 활용합니다. 또한 고급 분석 워크로드를 확장하는 데 ML프로우(MLflow)를 활용합니다.


레이크 하우스 개념의 핵심 요소 중 하나는 구조화된 트랜잭션 계층입니다. 데이터브릭스는 2019년 4월 델타 레이크의 출시와 함께 자사의 ‘유니파이드 애널리틱스 플랫폼(Unified Analytics Platform)’에 트랜잭션 기능을 추가했습니다. 유니파이드 애널리틱스 플랫폼은 AWS나 마이크로소프트의 애저(Azure) 클라우드 스토리지에 있는 데이터에 대해, 스파크 기반의 데이터 처리를 의미합니다. 최근 데이터브릭스는 대규모 데이터셋을 저장 및 분석하기 위한 자사의 소프트웨어가 구글 클라우드에서도 제공될 것이라고 밝힌 바 있습니다. 이에 데이터브릭스 고객들은 자신의 빅데이터 애플리케이션을 마이크로소프트 애저, 아마존, AWS 뿐만 아니라, 구글 클라우드에서도 실행할 수 있게 됐습니다.


2020년 7월, 데이터브릭스는 쿼리 가속화를 위한 보완적인 고성능 쿼리 엔진인 델타 엔진(Delta Engine)을 제공하면서 레이크 하우스 포트폴리오를 강화하기도 했습니다. 이후 2020년 11월에는 SQL Analytics를 출시해 데이터 분석가가 데이터 레이크에서 직접 표준 SQL 쿼리를 보다 쉽게 실행할 수 있게 했습니다. 이를 통해 기업들은 태블로나 마이크로 소프트 파워 BI 등의 비즈니스 인텔리전스 도구를 데이터 저장소에 쉽게 연결할 수 있게 됐습니다. SQL Analytics는 여러 면에서 데이터브릭스가 구축해 온 레이크 하우스의 개념을 실현하는 제품이라 볼 수 있습니다.

최근 출시된 제품군인 SQL Analytics (출처: Databricks)


데이터브릭스는 광고/마케팅 기술, 에너지/유틸리티, 엔터프라이즈/소프트웨어, 금융 서비스, 게임, 헬스케어, 미디어/엔터테인먼트, 연방정부, 리테일/소비재 및 생명과학 등 다양한 산업에 걸쳐 내 6,000곳 이상의 고객사를 확보하고 있습니다. 데이터브릭스 CEO 알리 고드시는 “고객사 대부분이 델타 엔진과 델타 레이크를 사용하여 레이크 하우스를 구축했다”고 언급했습니다.
 


매장 내에서 모바일 채널에 이르기까지 옴니채널 소비자 트렌드가 가속화됨에 따라 과거 10년에 걸쳐 달성되었던 이커머스 판매량 증가가 단 10주 만에 일어났습니다. 때문에 리테일러는 빠르게 변화하는 소비자 행동에 신속히 대응하고, 새로운 데이터와 분석적인 접근을 통해 보다 탄력적인 공급망을 구축해야 하는 과제에 놓이게 됐습니다. 즉, 리테일러는 생존과 성장을 위해 종전의 데이터 사일로를 없애고, 정형/반정형/비정형 등 모든 형태의 데이터에서 실행가능한 통찰력을 도출해야 하는 상황입니다.


데이터브릭스는 이러한 리테일러가 당면한 과제 앞에서, 데이터 수집에서부터 데이터 쿼리에 이르기까지 빅데이터 및 분석을 위한 유니파이드 데이터 애널리틱스 플랫폼을 제공했습니다. 덕분에 스타벅스, H&M, CVS 파머시 등을 고객사로 확보했습니다. 스타벅스는 데이터브릭스를 통해 수요를 대규모로 예측할 수 있었으며, H&M은 AI 기반으로 공급망 운영을 간소화했습니다. 약국 체인 사업자인 CVS는 매일 800만 명의 고객에게 개인화된 경험을 제공했습니다.

 

리테일 산업 내, 비즈니스 인텔리전스(BI)와 머신러닝(ML)을 위한 데이터 레이크의 제공가치 (출처: Databricks)

 

 

스타벅스에서 데이터는 매우 중요합니다. 전 세계 3만개 이상의 매장에서 수십억 개의 트랜잭션 데이터 포인트가 생성되고, 해당 데이터들이 데이터 기반 혁신과 운영 개선을 촉진하는 데 활용할 수 있기 때문입니다. 스타벅스는 데이터브릭스를 활용해 전사적으로 활용할 수 있는 통합 데이터 및 분석 인프라를 한곳에 구축함으로써, 페타바이트 규모의 빠른 데이터 파이프라인을 구축했습니다. 이를 통해 재고 관리를 개선하고 새로운 제품 및 서비스 혁신을 실현할 수 있는 머신러닝 모델을 신속하게 구축할 수도 있었죠.


2020년 6월에 개최된 <Spark + AI Summit 2020 컨퍼런스> 세션에서 스타벅스의 데이터 분석 및 엔지니어링 이사인 비시 수브라마니안은 데이터 기반의 의사결정을 지원하기 위해 자사가 데이터브릭스의 델타 레이크와 스파크를 어떻게 활용했는지를 설명했습니다. 구체적으로 스타벅스는 마이크로소프트 애저 및 데이터브릭스의 델다 레이크를 기반으로 하는 ‘브류키트(BrewKit)’이라는 자체 데이터 분석 플랫폼을 구축했는데요. 델타 레이크를 통해 과거 데이터와 라이브 데이터 집계를 함께 구축할 수 있게 됐다고 합니다. 이로써 스타벅스는 매장 파트너들에게 히스토리와 현재 시간을 기반으로 한 실시간 인사이트를 제공할 수 있게 됐습니다.
 

(출처: Databricks Slideshare)


스타벅스의 전략적 관점은 데이터 수집을 일상화하는 것으로 변화했습니다. 이에 스타벅스의 팀과 구성원들은 데이터를 A지점에서 B지점으로 이동시키는 방법에 집중하기보다 가치 창출이라는 비즈니스 본연의 문제에 집중할 수 있게 됐습니다.
 
탈중개화, 변덕스러운 청중, 고객의 시간, 지갑을 열기 위한 새로운 경쟁 등이 미디어 엔터테인먼트 산업 내 오래된 비즈니스 모델을 파괴했습니다. 또한 디지털 콘텐츠가 이러한 변혁을 촉발했죠. 이 가운데 실시간 온디맨드 세계의 니즈를 충족하고 고객이 원하는 방식으로 고객을 참여시키는 기업만이 성공할 수 있게 됐습니다.


데이터브릭스는 미디어 산업 내 컴캐스트, 라이엇게임즈, 쇼타임 등을 고객사로 확보하고 있습니다. 미국 최대 케이블/인터넷 제공 사업자인 컴캐스트는 데이터브릭스를 통해 음성 기반 서비스에 대한 고객의 참여율을 높였습니다. 그리고 리그 오브 레전드의 개발사인 라이엇게임즈는 6,700만 명의 게이머들에게 맞춰진 개인화된 경험을 제공할 수 있었죠. 바이어컴CBS 산하의 케이블TV 채널인 쇼타임은 개별 고객에게 콘텐츠 프로그램과 가격 구성이 끼치는 영향에 대한 이해를 기반으로 고객 이탈을 방지했습니다.


미디어 산업 내, Data 분석과 AI에 대한  통합적인 접근법을 통해 데이터 기반의 혁신을 가속화 (출처: Databricks)


컴캐스트는 미국에서 가장 큰 케이블/인터넷 제공 사업자로 3,000만 명의 고객에게 서비스를 제공하고 있습니다. 지난 몇 년간 머신러닝/자연어 처리를 활용하여 고객 경험을 혁신해 왔는데요. 지난 2015년 X1 보이스 리모트를 출시하고, 2019년에 약 2,000만 대 보급했으며, 2018년 기준으로 약 80억 건의 보이스 쿼리가 발생했습니다. 고객들은 시청하고 싶은 콘텐츠를 찾거나 최신의 뉴스나 스포츠 결과를 알고 싶거나, 집을 제어하고 청구서를 확인할 때 X1 보이스 리모트를 사용합니다. 서비스 이용 시의 문제 해결에 있어서도 자연어를 활용하고 있습니다.

컴캐스트의 X1 보이스 리모트 작동 방식 (출처: Databricks)


이러한 고객의 다양한 쿼리/애플리케이션이 가진 공통점이 있습니다. 이를 지원할 머신러닝 모델을 생성 및 운영하기 위해서는 효율적이고 탄력적으로 매일 단위의 수많은 테라바이트(TB) 규모의 데이터를 수집할 필요가 있다는 사실입니다. 또한 새로운 아이디어를 빠르게 탐색할 수 있는 머신러닝 플랫폼이 필요합니다. 동시에 결과값으로 도출된 머신러닝 모델을 대규모의 프로덕션 환경에 자동적으로 배포할 수 있어야 합니다.

 

머신러닝 모델을 대규모로 구축해야 하는 과제(위) 해결방안(아래) (출처: Databricks)


컴캐스트는 과거 효율적인 데이터 처리에 어려움을 겪었습니다. 분석을 위해 세션화해야 하는 페타바이트 규모의 방대한 데이터와 복구하기 어려운 복잡한 데이터 파이프라인, 전 세계의 데이터 과학자들이 서로 다른 스크립팅 언어로 작업하는 데서 발생하는 데이터 과학 협업의 어려움, 수동적이고 느린 ML 모델 관리, 최신 툴과 모델을 사용하는 개발 팀과 입증된 인프라 배포를 원하는 운영팀 간의 마찰 때문이었는데요. 그러나 데이터브릭스의 기술로 페타바이트 규모의 데이터 분석을 할 수 있는 고성능 데이터 파이프라인을 구축했습니다. 그리고 100여 개 모델의 수명주기를 쉽게 관리하여 음성인식 및 머신러닝 기반의 혁신적인 시청자 경험을 만들 수 있었습니다. 이로 인해 컴캐스트는 데이터 처리를 위한 전체 컴퓨팅 비용을 10배 절감했고, 인프라 관리를 위한 Devops 리소스가 90% 감소했습니다. 더불어 데이터의 배포 시간을 수 주에서 수 분으로 감소시킬 수 있었습니다.

‘레이크 하우스'라는 용어로 대표되는 현재의 데이터 관리 혁신은 데이터 웨어하우스가 가진 데이터 구조/관리 기능을 데이터 레이크의 저렴한 스토리지와 결합하도록 설계된 환경이라고 요약할 수 있습니다.


스노우플레이크와 같은 데이터 웨어하우스 플레이어는 저장과 컴퓨팅 비용을 분리하여 모든 데이터를 데이터 웨어하우스에 저장하는 것과 관련된 비용을 크게 줄이고 있습니다. 반면 데이터브릭스와 같은 데이터 레이크 플레이어는 데이터 레이크 바로 위에 데이터 웨어하우스 계층이 가진 높은 안정성, 성능 이점을 제공합니다. 궁극적으로 웨어하우스 계층을 제거함으로써 복잡성, 비용, 운영 오버헤드를 줄이고 있는 것이죠. 


방대한 데이터로부터 인사이트를 얻고자 하는 현 시대에, 올해는 데이터 사일로가 가진 문제점을 해결하고, 엔터프라이즈 데이터 아키텍처를 간소화해가려는 이들 사업자의 노력과 성장이 더욱 주목받을 것으로 예측됩니다.

 

[출처]

VentureBeat(https://venturebeat.com/2021/02/01/databricks-raises-1-billion-funding-round-at-28-billion-valuation/)
CNBC(https://www.cnbc.com/2021/02/01/amazon-alphabet-salesforce-back-databricks-at-28-billion-valuation.html?recirc=taboolaintern)
Databricks Blog (https://databricks.com/blog/2021/02/04/how-lakehouses-solve-common-issues-with-data-warehouses.html)
Databricks Slideshare(https://www.slideshare.net/databricks/the-future-of-data-science-and-machine-learning-at-scale-a-look-at-mlflow-delta-lake-and-emerging-tools)
TechCrunch (https://techcrunch.com/2020/11/12/databricks-launches-sql-analytics-builds-itself-a-lake-house/)
Databricks Product (https://databricks.com/product/sql-analytics)
Databricks Reports (https://databricks.com/wp-content/uploads/2020/12/Retail-Databricks-One-Sheet-w-Case-Studies.pdf)
Databricks Slideshare (https://www.slideshare.net/databricks/operationalizing-big-data-pipelines-at-scale)
techtarget (https://searchdatamanagement.techtarget.com/news/252485230/Databricks-debuts-Delta-Engine-built-on-top-of-Spark-30)
Databricks Customer (https://databricks.com/customers/starbucks)
Databricks Reports (https://databricks.com/wp-content/uploads/2020/08/Databricks-for-ME-one-pager.pdf)
Databricks Session (https://databricks.com/session/winning-the-audience-with-ai-comcasts-journey-to-building-an-agile-data-and-ai-platform-at-scale)
Databricks Customer (https://databricks.com/customers/comcast)

 

글ㅣ LG CNS 정보기술연구소 기술전략팀 (*Collaborated with ROA Intelligence)

 

* 해당 콘텐츠는 저작권법에 의해 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다. 

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

 

Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

위로