IT Insight

무야호~스노우플레이크 데이터웨어하우스,그만큼 혁신적인 거지

2021. 3. 31. 09:30

지난해 가장 주목받은 테크 IPO 중 하나였던 스노우플레이크(Snowflake)는 ‘데이터 클라우드’라는 이름으로 자사의 비전을 내세우고 있습니다. 이번 콘텐츠에서는 데이터 산업에서 핫한 기업, 스노우플레이크의 비전과 서비스에 대해 자세히 알아보도록 하겠습니다.

 

스노우플레이크 서비스 소개 (출처: Snowflake YouTube 채널)

 

스노우플레이크가 상장 당시 공개했던 S-1의 설명에 의하면, 데이터 클라우드는 스노우플레이크의 고객, 파트너, 데이터 공급자들이 데이터 사일로(Data Silo) 문제를 극복하는 것은 물론, 안전하고 잘 관리할 수 있도록 한 방식입니다. 이는 데이터셋의 가치를 추출할 수 있도록 하는 생태계를 의미합니다.

 

이때 데이터 사일로란, 각 부서나 사업 단위, 브랜치별로 데이터를 별도의 솔루션이나 애플리케이션에 저장하여 관리하면서, 조직 간 데이터가 일치하지 않게 하는 현상을 말하는데요. 이처럼 데이터가 사일로화될 경우 어떤 일이 발생할까요? 일단, 데이터 간 단절로 인해 데이터로부터 제대로 된 인사이트를 도출하는 것이 어려워집니다. 예를 들어, 마케팅팀의 데이터와 서플라이체인팀의 데이터, 파이낸스팀의 데이터가 서로 사일로화되어 있다면, 실제 상황과는 동떨어진 부적절한 마케팅 메시지가 도출될 가능성이 높은 것이죠.

 

데이터 사일로를 시각화한 모습  (출처: Barclays Research)  

 

스노우플레이크의 데이터 클라우드 생태계의 기술적 근간인 클라우드 데이터 플랫폼은 이 같은 데이터 사일로 문제와 더불어, 기업들이 데이터 사일로 해결에 사용하던 전통적 데이터 웨어하우스의 문제까지 해결할 수 있다는 점을 강점으로 내세우고 있습니다.

 

스노우플레이크가 가장 큰 장점으로 소개하는 것은 클라우드 네이티브한 아키텍처가 적용됐다는 점입니다. 바클레이스 리서치(Barclays Research) 역시 스노우플레이크가 엔터프라이즈 데이터 웨어하우스(EDW, Enterprise Data Warehouse)를 클라우드로 가져옴으로써 EDW 시장의 현대화를 선도한다고 평가하고 있습니다. 특히, 데이터 웨어하우스를 구성하는 세 가지 레이어 중 스토리지와 컴퓨팅을 분할함으로써 여러 유저들에게 전용 리소스를 온디맨드로 할당했는데요. 덕분에 레이턴시 없이 여러 유저들이 데이터셋에 안정적으로 동시 접속할 수 있습니다. 이로써 기존 EDW의 속도와 안정성 문제를 해결하는 데 크게 기여했다는 평을 받고 있죠.

 

온프레미스에서 운용되는 전통 EDW(위)와 스노우플레이크 클라우드 데이터 플랫폼(아래) 비교 (출처: Barclays Research)

 

스노우플레이크가 2014년 무렵에 사용했던 ‘클라우드 데이터 웨어하우스(Cloud Data Warehouse)’라는 용어 대신, ‘클라우드 데이터 플랫폼’이라는 용어를 채택한 것은 주목할 만합니다. 이는 기존 데이터 웨어하우스의 약점으로 꼽혀 온 반정형 데이터 처리 문제까지 해결할 수 있음을 강조하기 위한 것인데요. 스노우플레이크는 이러한 장점을 앞세우기 위해 자사 S-1에서 기존의 레거시 DB와 레거시 DB의 문제 해결을 위해 도입한 빅데이터 아키텍처의 한계를 아래와 같이 명시했습니다.

 

 

이에 반해 클라우드 데이터 플랫폼은 클라우드 네이티브한 아키텍처의 채택으로, 퍼블릭 클라우드가 가진 확장성(scalability)와 퍼포먼스를 그대로 구현할 수 있습니다. 또한, 스토리지와 컴퓨팅 레이어의 분리를 통해 복수의 유저와 유즈케이스가 동시적으로 컴퓨팅 리소스에 즉각적으로 액세스할 수 있습니다.

 

아울러 최적화 기술을 이용해 사전에 데이터를 수동으로 조직화(organize)하는 과정 없이도 원하는 결과 도출에 필요한 데이터만을 효과적으로 액세스할 수 있도록 했습니다. 이로써 가격 대비 성능(price-performance)을 높이는 한편, 플랫폼을 서비스 형태로 이용할 수 있도록 하는 등 기반 인프라를 관리하는 데 필요한 비용과 시간, 리소스를 절감할 수 있습니다. 

 

스노우플레이크의 클라우드 데이터 플랫폼 (출처: Snowflake 홈페이지)

 

스노우플레이크가 강조하는 또 다른 하나는 자사 플랫폼을 적용하는 고객의 수가 많아질수록 고객과 파트너, 데이터 공급사들 간에 더 많은 데이터가 심리스하고 안전하게 공유할 수 있다는 점입니다. 이렇게 형성된 생태계가 바로 스노우플레이크가 비전으로 내세운 데이터 클라우드(Data Cloud)인데요. 스노우플레이크는 위의 과정을 통해 발생하는 강력한 네트워크 효과가 데이터 클라우드의 핵심 성장 동력이 될 것으로 내다보고 있습니다.

 

스노우플레이크의 데이터 클라우드 비전 (출처: Snowflake S-1)

 

실제로도 많은 고객들이 이미 스노우플레이크를 이용하고 있습니다. 2020년 7월 31일 기준, 스노우플레이크의 고객 수는 3,117곳인데요. 이는 전년도의 1,547곳 대비 두 배 이상 증가한 수치입니다. 이 중 7곳이 포춘 10(Fortune 10)기업, 146 곳이 포춘 500(Fortune 500) 기업으로 대형 고객의 수도 상당한 것으로 밝혀졌으며, 주요 고객으로는 캐피탈 원(Capital One), 소니(Sony), 어도비(Adobe), 맥케슨(McKesson) 등이 있습니다.

 

지난해 12월에는 뉴욕 증시 상장 이후 처음으로 분기 실적을 공개하기도 했는데요. 당시 자사 고객 수가 3,554곳이라고 밝혔으며, 이 중 12개월 기준 지출 금액이 100만 달러 이상인 고객은 65곳에 달한다고 알려졌습니다.

 

매출 성장 역시 인상적인 수준입니다. S-1에 의하면 2020년 1월에 종결된 회계연도에 전년 동기대비 150% 급증한 2억 6,470만 달러의 매출을 기록한 것으로 나타났습니다. 또한 2020년 2월부터 7월까지 6개월간 전년도 같은 기간 대비 132.7% 증가한 매출을 기록하는 등, 최근까지도 고속성장을 유지하고 있는 점 역시 스노우플레이크의 강점이라고 할 수 있습니다.

 

한편, 2020년 회계연도 3분기에는 전년 동기대비 119% 상승한 1억 5,960만 달러를 기록한 것으로 나타났습니다. 또 다른 주요 지표인, Remaining performance obligations[RPO, 유예된 매출(deferred revenue) 혹은 취소 불가능한 계약 금액(non-cancelable contracted amounts) 등]는 전년 동기대비 240% 증가한 9억 2,790만 달러를 기록했습니다. 또한, 기존 고객으로부터의 매출 발생 정도를 나타내는 순 매출 재귀율(net revenue retention rate)은 162%로, 고객들의 로열티 역시 상당히 높은 편입니다.

 

스노우플레이크의 매출 성장(2020년 7월 31일 종결된 회계연도 2분기 기준)  (출처: Snowflake S-1)

 

 

이 같은 스노우플레이크의 성장세는 코로나 19로 인해 많은 기업들이 온프레미스에서 클라우드로의 전환을 가속화함에 따라 앞으로도 계속해서 이어질 전망입니다. 올해 4월, CEO 프랭크 슬루트먼(Frank Slootman)은 “많은 기업들이 원격 근무를 위한 준비를 본격적으로 추진하면서, 헬스케어 업체뿐만 아니라 다양한 산업군의 CTO들이 자사 서비스에 관심을 보이는 이메일을 보냈다”라고 언급하기도 했죠.

 

지난해 9월, IPO를 앞두고 워렌 버핏의 버크셔 해서웨이(Berkshire Hathaway)와 세일즈포스 (Salesforce)가 사모를 통해 각각 2억 5,000만 달러 상당의 주식을 매입한 것 역시 스노우플레이크와 스노우플레이크가 대표하는 클라우드 기반 데이터 아키텍처 비즈니스의 성장 가능성을 높이 평가하는 결과라고 볼 수 있습니다.  

 

스노우플레이크는 최근 웨비나를 통해 공개된 펩시코(Pepsico)의 케이스 스터디를 통해 리테일 & CPG 영역에서 자사 플랫폼을 어떤 식으로 활용할 수 있는지를 상세히 공개했는데요.

 

이번 웨비나에서 스노우플레이크는 자사 플랫폼을 통해 CPG 업체들이 1st Party 데이터, 2nd Party 데이터, 그리고 3rd Party 데이터까지 심리스하고 안전하게 액세스하고 공유할 수 있다고 강조했습니다.

 

참고로 1st Party 데이터란 내부의 세일즈, 마케팅, CRM, 상품 카탈로그 데이터 등을 말합니다. 계속해 파트너 및 리테일러들의 서플라이체인 및 로지스틱스 데이터, 카테고리 매니지먼트 인사이트, 기타 리테일 Raw data 등을 2nd Party 데이터라 볼 수 있으며, 판매량 증대 및 적절한 전략 수립에 활용할 수 있는 기호 및 날씨, 매장 방문 트래픽, 온오프라인 구매, 컨수머 데모그래픽, 코로나 19 상황 등은 3rd Party 데이터로 분류할 수 있습니다.

 

 

CPG 비즈니스들의 스노우플레이크 이용 예시 (출처: Snowflake)

 

데이터를 공유하는 방법은 데이터 익스체인지(Data Exchange)와 스노우플레이크 데이터 마켓플레이스, 두 가지로 나뉩니다. 전자의 경우, 초청 기반으로 특정 그룹의 사용자들과 데이터 공유를 할 수 있는 기능인데요. Data Exchange에 파트너 및 리테일러를 초청함으로써 이들과 데이터를 스노우플레이크 계정을 통해 주고받을 수 있습니다.

 

반면, 스노우플레이크 데이터 마켓플레이스는 각종 3rd Party 데이터들을 디스커버하고 추가로 구매하여 이용할 수 있습니다. 해당 데이터가 데이터 공급사의 스노우플레이크 계정으로부터 구매자의 스노우플레이크 계정으로 바로 쿼리를 진행할 수 있는 상태로 진행되기 때문에, 높은 실시간성과 편의성을 자랑하죠. 이 중 후자는 스노우플레이크가 자사 비전으로 제시한 데이터 클라우드(Data Cloud)로서의 특징을 특히 잘 보여주는데요. 이는 사용자 수가 많아질수록 스노우플레이크 데이터 마켓플레이스를 통해 스노우플레이크 내에서 다이렉트하게 액세스 가능한 데이터의 종류와 양이 증가하기 때문입니다.

 

 

(출처: Snowflake)
스노우플레이크의 두 가지 데이터 공유 방식 (출처: Snowflake)

 

펩시코는 광고 ROI(Return On Investment)를 측정하기 위해 인하우스로 개발한 ROI Engine을 Snowflake 인프라 상에서 운용하고 있다고 밝혔습니다. ROI Engine은 TV, 온라인 동영상, 소셜미디어, 디스플레이 및 서치, 이커머스, 지면, 빌보드를 비롯한 아웃도어 광고 등 각종 광고 매체 데이터와 판매량, 가격, 프로모션 등 세일즈 데이터, 날씨, 계절성, 거시경제지표, 유가 등 외부적 요인에 대한 데이터를 포함합니다. 총 40개 이상의 소스로부터 인사이트를 창출하는데요.

 

이를 모두 스노우플레이크 인프라를 이용해 효과적으로 관리하고 있죠. 또한, 펩시코는 스노우플레이크의 강점으로 ROI Engine의 데이터를 원본 데이터의 이동이나 손상 없이도 자사 내부 이커머스 팀을 비롯해 외부 파트너들과 즉시 쿼리를 실행할 수 있는 상태로 안전하게 실시간으로 공유할 수 있는 점을 꼽았습니다.

 

아울러 펩시코는 스노우플레이크를 통해 전 세계 다른 지역에 위치한 리전 및 서로 다른 벤더의 클라우드 플랫폼 간에도 데이터가 안전하게 공유될 수 있다고 전했습니다. 펩시코를 비롯한 CRM 및 리테일 사업자들의 경우, 비즈니스가 글로벌하게 분포해 있는 경우가 많습니다. 때문에 각종 데이터가 여러 리전에 나누어져 저장되어 있고, 또한 이 같은 규모의 사업자들은 복수의 퍼블릭 클라우드를 혼합하여 사용하는 경우가 많죠. 이런 특성을 지닌 펩시코는 서로 다른 퍼블릭 클라우드의 다른 지역 리전간 데이터 공유를 지원하는 스노우플레이크의 플랫폼이 대단히 유니크하며 유용하다고 밝혔습니다.

 

 

서로 다른 리전 간의 데이터 공유 (출처: Snowflake)  

 

피자헛(Pizza Hut) 역시 스노우플레이크의 고객사 중 하나입니다. 피자헛은 기존의 온프레미스 데이터 웨어하우스 인프라로는 폭증하는 데이터 수요에 따라갈 수 없다는 문제를 겪고 있었는데요. 특히 미국 NFL의 슈퍼볼 때가 그랬습니다. 슈퍼볼은 주문이 가장 많이 몰리는 기간 중 하나로 통상대비 데이터 수요가 최대 3배까지도 증가하는데요. 스케일러빌리티에 제한이 많은 온프레미스 데이터 웨어하우스의 한계로 인해, 해당 기간에 통합적인 실시간 애널리틱스를 추출하는 것이 사실상 불가능했죠.

 

이를 해결하기 위해 도입된 것이 바로 스노우플레이크의 데이터 클라우드입니다. 피자헛은 PoC(proof of concept) 테스트를 거쳐 스노우플레이크를 도입했고, 그 결과 2020년 슈퍼볼 때는 통합적이며 거의 실시간에 가까운 비즈니스 애널리틱스를 도출해낼 수 있었습니다.

 

이에 대해 피자헛 엔터프라이즈 데이터 서비스팀의 시니어 매니저인 파이잘 케이피(Faisal Kp)는 "스노우플레이크를 적용한 뒤 경영적인 판단에도 데이터를 이용할 수 있게 됐다"며 “특히 일 년 중 가장 바쁜 날인 슈퍼볼 당일에 이 같은 변화가 빛을 발했다”라고 밝혔는데요. 스노우플레이크의 데이터 파이프라인이 각종 시스템으로부터 데이터를 추출해 대시보드에 입력함으로써 임원들이 대시보드를 통해 핵심 지표를 모니터링하고, 이에 따라 리소스 배치를 효과적으로 조정할 수 있었다고 하네요.

 

아울러 피자헛은 스노우플레이크 데이터 마켓플레이스에 대해서도 언급했습니다. 스노우플레이크 데이터 마켓플레이스를 통해 날씨와 지오로케이션(geolocation) 데이터 소스를 받아와 애널리틱스에 활용했다고 하는데요. 이를 통해 고객의 구매와 이들 변수간의 관계를 분석하고, 이에 따라 타겟 마케팅을 최적화할 수 있었다는 것이 피자헛의 설명입니다.

 

테일러 메이드(TaylorMade), 보스(Bose), 뉴발란스(New Balance) 등을 고객으로 거느린 스폰서 광고 애널리틱스 플랫폼 업체 후킷(Hookit) 역시 스노우플레이크의 고객입니다. AI를 기반으로 스폰서 광고의 퍼포먼스를 분석하고 가치를 평가해 주는 플랫폼인 Sponsorship Analytics and Valuation Platform을 운영하는 후킷은 50만 개의 스포츠 선수, 팀, 인플루언서 계정에 올라오는 소셜 포스트 30억 개를 분석하여 스폰서십 ROI를 극도화할 수 있도록 돕는 업체인데요.

이 업체는 빅데이터 애널리틱스 및 AI를 전면에 내세운 업체임에도 온프레미스 레거시 데이터 아키텍처가 증가하는 고객 수요를 따라가지 못하는 문제를 호소한 바 있습니다. 서로 독립적인 일련의 큐(queue)에 의존하는 후킷의 자체 데이터 모델은 지속적으로 운영팀이 이를 지켜보며 수동으로 큐를 토글링(toggling) 해야 하는 방식이기 때문에 상당한 시간이 소요된 것인데요.

 

예를 들어 후킷의 스폰서십 예측 큐는 데이터 범위를 90일로 제한했음에도 실행되는 데 최소 10분 이상이 걸렸습니다. 이로 인해 고객에게 신규 레포트를 제때 전달하지 못했고, 워크데이 기준으로 수일간 딜레이가 발생하는 비율이 70%에 달했습니다.

 

이를 해결하기 위해 후킷은 AWS 상에서 스노우플레이크를 적용했습니다. 자사 평가 엔진을 스노우플레이크 쿼리 형태로 전환함으로써 매일 밤 5억 개의 소셜 포스팅이 자동으로 재평가되도록 할 수 있었는데요. 후킷의 자체 아키텍처상에서 10분이 소요되던 쿼리의 경우, 스노우플레이크에서는 20초 안에 완료할 수 있었죠. 쿼리 런타임이 무려 30배가량이나 개선된 것입니다. 이처럼 대규모 데이터셋 쿼리, 신규 리포트 생성, 인사이트 도출 시간을 획기적으로 줄임으로써 후킷은 거의 100%에 가깝게 정시에 고객에게 리포트를 제공하게 되는 성과를 낼 수 있었습니다. 더 이상 이 지표를 트래킹하지 않을 정도로 정시성이 개선된 것이죠.

 

 

스노우플레이크를 이용한 쿼리 가속화 (출처: Snowflake YouTube 채널)

 

또한 내부 지원 티켓의 수는 88%, 보고된 버그의 수는 57% 감소했으며, 인프라 비용 역시 약 40% 절감되는 성과를 냈습니다. 이에 크게 만족한 후킷은 자사 데이터 애플리케이션의 API 레이어도 스노우플레이크로 이전하기로 결정했다고 밝힌 상황입니다.

 

제조 영역의 고객사 중 세멕스(CEMEX)는 멕시코의 건설 자재 제조사로서, 2019년 기준 65곳 이상의 시멘트 공장을 운영하며 9,300만 톤의 시멘트를 생산합니다. 세멕스의 IT팀은 기존 레거시 온프레미스 데이터 웨어하우스 이용 당시, IT팀에 대한 지나친 의존을 가장 큰 문제로 꼽았는데요. 멕시코, 미국, 중앙아시아, 유럽, 아시아, 중동 아프리카 등 리전마다 데이터 웨어하우스 인프라를 관리하는데 전담 IT팀이 할당됐어야 했을 정도였습니다. 또한 매월 월말 보고로 인해 데이터가 몰리면서 보틀넥 현상으로 인해 퍼포먼스가 현저히 저하한다는 점 역시 문제가 됐죠.

 

이를 해결하고자 세멕스는 클라우드 데이터 플랫폼의 데이터 레이크 서비스와 데이터 웨어하우스 솔루션을 모두 적용했습니다. 자사 필드 오퍼레이션 데이터와 고객 데이터를 38개 데이터 모델로 구축한 것인데요. 이를 통해 정형 데이터와 반정형 데이터를 모두 클라우드 데이터 플랫폼에 저장하여 관리하는 통합적인 데이터 전략을 수립했습니다. 이에 더해 OTC(Order to cash) 워크플로우를 자동화하고, 온라인 주문을 실시간 트래킹하는 디지털 플랫폼 세멕스 Go를 론칭했죠. 세멕스 Go에서 발생하는 모든 데이터 역시 스노우플레이크를 통해 저장하여 리포팅, 고객 대시보드, 애널리틱스 등을 지원하도록 했습니다.

 

Data Lake 를 통해 정형 데이터뿐 아니라 반정형 데이터까지 지원하는 스노우플레이크 (출처: Snowflake)  

 

클라우드 데이터 플랫폼을 적용한 결과, 세멕스는 “거의 무제한적인 스토리지를 필요할 때마다 즉각적으로 이용할 수 있게 됐다”며 만족감을 드러냈습니다. 특히 사용량에 따라 과금이 되는 방식이기 때문에, 운영 비용에 대해 완전히 투명하게 들여다볼 수 있다는 점을 큰 장점으로 꼽기도 했습니다. 현재 세멕스 Go의 경우, 세멕스 반복 구매 고객(recurring customer)의 90%가 이용 중으로, 21개국에서 연 50만 건 이상의 결제와 250만 건 이상의 딜리버리를 처리하는 데 사용되고 있는데요. 이는 스노우플레이크가 제공하는 스케일러빌리티와 안정성의 수준을 짐작케 하는 부분이라 할 수 있습니다.

 

작년 10월 LG CNS는 클라우드 기반 데이터 역량 확보를 위해 스노우플레이크와 파트너십을 체결했습니다. 이에 앞서 데이터 분석 환경 고도화 차원에서 스노우플레이크의 성능을 검증하기 위한 PoC를 진행해서 성능 및 인프라 비용 측면에서 우수함이 확인됐습니다. LG CNS는 스노우플레이크 기술에 대한 자격을 갖춘 전문가와 다양한 실제 적용 사례 확보를 통해 기술 전문성을 갖추고 있습니다. 

 

[출처]

SEC(https://www.sec.gov/Archives/edgar/data/1640147/000162828020013010/snowflakes-1.htm)

Snowflake(https://investors.snowflake.com/news/news-details/2020/Snowflake-Reports-Financial-Results-for-the-Third-Quarter-of-Fiscal-2021/default.aspx)

Snowflake(https://resources.snowflake.com/case-study/hookit-revalues-500-million-social-posts-30x-faster-with-snowflake?_ga=2.49871462.1577386486.1613632087-986481144.1612750595)

Snowflake(https://resources.snowflake.com/case-study/cemex-enabling-a-data-strategy-for-a-building-materials-platform-with-a-snowflake-data-lake)

Snowflake(https://resources.snowflake.com/webinars-thought-leadership/how-pepsico-builds-modern-in-house-digital-capabilities-with-the-data-cloud)

Snowflake(https://resources.snowflake.com/case-study/the-snowflake-data-cloud-enables-pizza-hut-to-accelerate-decision-making-during-the-super-bowl)

Barclays Research, <Snowflake Computing : The Rise of a Data Platform; Initiate at EW> Equity Research, 2020.10.12.

 

글ㅣ LG CNS 정보기술연구소 기술전략팀 (*Collaborated with ROA Intelligence)

 

* 해당 콘텐츠는 저작권법에 의해 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다. 

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

 

 

Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

  1. Favicon of https://ddangcoobird.tistory.com BlogIcon 땅꾸새 2021.03.31 10:01 신고  댓글주소  수정/삭제  댓글쓰기

    앜ㅋㅋㅋㅋ 제목 미쳤에욬ㅋㅋ

위로