IT Insight

4차 산업혁명을 가능하게 하는 원동력, 데이터 분석과 활용

2017.10.17 09:30

4차 산업혁명을 이끄는 원동력으로 하드웨어와 소프트웨어를 나눈다면, 아마 소프트웨어에서 가장 큰 원동력은 AI와 빅데이터일 것입니다. 더구나, 4차 산업혁명의 정의를 “판단을 사람이 아닌 기계가 대체하는 세상”으로 정의한다면, AI와 빅데이터가 4차 산업혁명의 핵심에 있다고 하겠습니다. 


4차 산업혁명 붐이 일어나기 전에도 데이터 수집과 분석은 기업 내에서 많이 주목하는 분야였습니다. 그러나 LG CNS가 2011년에 빅데이터 사업 부문을 만들고 본격적으로 데이터를 활용하여 가치를 창출하고자 하는 노력을 시작할 때만 해도 이러한 활동에 대한 가치를 크게 인정하는 분위기가 아니었습니다. 


오히려 각종 고객 정보 유출로 인한 사고가 발생하던 시기였기 때문에 기업 내에서 데이터를 분석한다는 사실을 곱게 받아들이지 않았습니다. 사실 구글이나 페이스북 등 글로벌 기업은 하고 있었음에도 말이죠. “빅데이터 사업 부문이 빅데이터 분석을 하고 있다는 사실을 외부에 알리지 마라”라는 웃지 못할 지침이 내려지기도 했으니까요.



지금은 분위기가 완전히 달라져서 데이터와 알고리즘 및 기술의 결합으로 얼마나 큰 부가가치를 창출할 수 있는지 어렴풋하게나마 공감대가 형성된 것으로 보입니다. 그리고, AI와 빅데이터는 4차 산업혁명의 원동력이며 동시에 기반 기술이 되리라는 것도 쉽게 부정할 수 없습니다.


4차 산업혁명을 눈앞에 둔 지금 우리가 할 수 있는 일은 각자의 회사에서 가지고 있는 데이터를 활용하여 다양한 부가가치를 창출하고자 하는 노력입니다. 다행히 요즘은 엄청나게 많은 오픈소스 프로그램들이 쏟아져 나와서 조금의 관심만 있으면 이러한 활동이 어렵지 않습니다. 하지만 기술이 어떻게 가치 있고 빛나게 하는가는 단순 적용하는 것과는 또 다른 문제이고, 오늘은 여기에 관해서 이야기하고자 합니다.


데이터 분석을 위해서는 비즈니스 요구사항을 정의하고 서비스를 기획하는 역량, 데이터를 적당히 가공하고 알고리즘을 적용하는 역량, 데이터와 알고리즘의 특성 기반으로 서비스화를 할 수 있는 기술 역량 등 크게 세 가지 역량이 필요합니다.


데이터 분석으로 그동안 큰 재미를 보지 못했다고 생각한다면, 위의 세 가지 중에서 한가지 역량을 가지지 못한 경우가 많습니다. 특히 비즈니스 영역에 있는 사람이 머신러닝 알고리즘이나 기술을 이해하지 못하여 단순한 교차 분석, 트렌드 분석 정도를 시도하고 성과를 내지 못하는 경우가 제일 많았던 것 같습니다. 


이런 분들을 위해서, 실질적인 성과를 내기 위한 첫 번째로 고객 이해 관점에서 데이터를 수집하고 선별하는 노하우를 살펴보고, 두 번째는 선별된 데이터를 활용하여 서비스를 만드는 과정을 가장 간단한 추천 시스템을 기반으로 이야기해보고자 합니다.



 “오늘의 나와 내일의 나는 다르다.” - 시간에 따라 변화하는 고객 성향을 파악하라.

정확한 프로모션 타깃 고객을 선정하는 것은 매우 어렵습니다. 행사를 진행하다 보면 쿠폰이나 가격 할인에 민감하게 반응할 것이라 예상한 고객이 전혀 반응하지 않는 경우가 종종 발생합니다. 그리고 이는 프로모션 실패와 기업의 매출 감소로 이어집니다.

타깃 고객을 선정하는 데 실패하는 대표적인 원인은 바로 시간에 따라 고객 성향이 변한다는 사실을 간과했기 때문입니다. 가장 대표적인 예가 “20대 여성은 A 화장품을 구매할 가능성이 클 것이다.”처럼 인구통계학적인 변수로 고객의 성향을 가정한 경우입니다. 20대 여성의 서로 다른 성향을 모두 동일하다고 가정했기 때문에, 이 때는 다양한 구매 행동과 경험을 고려하지 않는 단순한 매스 마케팅만이 가능할 것입니다.

그러나 고객의 구매 성향은 시간에 따라 변화합니다. 매장별로 제품 가격을 비교하며 100원이라도 저렴한 매장을 찾아다니는 고객이 때로는 가격이 1,000원이나 높은 가격의 매장에서 제품을 구매하기도 합니다. 왜 이런 현상이 발생할까요?

이는 고객의 구매 환경과 이전 구매 경험이 구매 행동에 영향을 미치기 때문입니다. 고객은 누구나 가격에 대한 심리적 기준을 갖고 있습니다. 그리고 이 심리적 기준, 준거 가격에 근거하여 상품의 가격이 높고 낮은지 판단합니다.

고객만의 심리적인 가격 기준은 다양한 과거 경험에 의해 변화합니다. 이전에 어떤 가격으로 제품을 구매하였는지, 프로모션은 적용했는지, 진열된 유사 제품의 가격은 어떤지 등에 따라 가격에 대한 심리적 기준은 높아질 수도, 낮아질 수도 있습니다. 변화하는 기준에 따라 1,000원의 가격 변화가 크다고, 혹은 작다고 생각할 수 있는 것입니다.


구매 성향은 내 안에 있는 다섯 가지 감정에 따라 변하기도 하죠. 


이렇듯 고객 각자가 갖고 있는 가격에 대한 심리적 기준은 가격 변화에 대한 민감도를 결정합니다. 이것은 고객의 심리적인 가격 수준을 파악할 수 있다면 앞으로의 가격 변화에 대해 고객이 얼마나 민감하게 반응할지 예측할 수 있다는 것을 의미합니다. 그렇기에 우리는 고객의 행동 데이터로 실시간 변화하는 고객의 심리적인 가격 수준과, 그에 따라 결정되는 가격 민감도까지 예측할 수 있어야 합니다. 가격 변화에 대한 민감도가 높은 고객을 타깃으로 하여 프로모션을 진행하는 것, 이것이 가격 프로모션 성공의 핵심 열쇠이기 때문입니다.


고객의 과거 행동을 기반으로 고객 성향을 정의하는 것은 전혀 새로운 개념이 아닙니다. 이는 같은 성별, 나이를 가진 고객은 같은 성향과 행동 패턴을 보일 것이라는 가정과 유사합니다. 다만, 가변적인 고객의 성향을 반영하기 위해 성별, 나이와 같은 인구통계 변수가 고객 행동 변수로 바뀐 것일 뿐이죠.



 “연령, 성별은 쓰레기 데이터다.” - 고객의 인구통계 정보보다는 고객 행동 정보가 중요하다.

물론 인구통계 변수만을 활용하여 고객의 성향과 행동을 예측하는 경우도 있습니다. 특히 기업 내부에 고객의 행동 데이터가 없을 때 이와 같은 접근 방법은 유의미합니다. 그러나 이처럼 불변하는 인구통계 변수만을 활용하는 경우 실시간으로 변화하는 고객의 구매 성향을 예측하기는 어렵습니다.

l 넷플릭스 제품 부문 담당 부사장 토드 옐린(Todd Yellin) (출처: 넷플릭스)


“연령, 성별, 지역 데이터요? 쓰레기통에나 던져버리죠.[각주:1]”  넷플릭스의 부사장 토드 옐린의 말입니다. 이는 고정 불변하는 변수로는 고객의 성향을 정의할 수 없다는 넷플릭스의 관점을 단적으로 나타냅니다. 


넷플릭스는 연령, 성별 등과 같은 인구 통계 데이터보다는 실시간으로 변화하는 고객의 시청 이력에 따라 고객의 취향을 정의합니다. 그리고 이 취향 프로필에 맞는 제품을 고객에게 우선적으로 추천합니다. 이의 경우 미국 뉴올리언스에 사는 고객과 인도 뉴델리에 사는 고객이 같은 취향 프로필을 가질 수 있습니다. 


물론 지역도, 언어도 다르므로 시청 가능한 영상 목록은 매우 다를 수도 있지만 말이죠. 이렇듯 실시간으로 변화하는 고객의 성향을 정확히 파악하기 위해 누가 언제 어떤 행동을 했는지에 대한 행동 데이터의 중요성은 점차 커지고 있습니다.


l 360도 고객 데이터 Cube (최종적으로 하나의 고객 행동 당 하나의 이력 데이터가 쌓이겠죠.)



 “(너가 누군지) 말하지 않아도 알아요~” - 비식별 데이터 역시 활용이 가능하다.

기업에 쌓이는 모든 데이터가 어떤 고객의 데이터인지 식별이 가능(이하 식별 데이터)하다면 더할 나위 없이 좋겠지만, 실제로는 그렇지 않습니다. 어쩌면 기업이 더 많이 갖고 있는 데이터는 식별되지 않은 고객 데이터(이하 비식별 데이터)일지도 모릅니다. 우리는 때때로 인터넷 서핑 도중 우연히 어떤 사이트에 접속하거나, 정보만 탐색하고 사이트를 빠져나가는 경우도 있습니다. 이때 우리의 행동 데이터는 기업 내부에 쌓이지만, 누가 이러한 행동을 했는지 식별하기는 어렵습니다.

그러나, 이와 같은 비식별 데이터도 활용 가능합니다. 식별 데이터와 비식별 데이터를 연결할 수 있기 때문입니다. 먼저 식별 데이터를 기반으로 “A라는 행동을 보이는 고객은 B를 좋아한다”라는 행동별 고객 성향을 정의합니다. (고객 성향을 일반화할 수 있을 만큼, 충분한 고객 데이터를 보유하고 있다는 가정 하에 말이죠.) 그리고 식별되지 않은 고객일지라도 A라는 동일한 행동을 보이면, B를 좋아한다고 예측하는 것입니다.

만약 특정 행동(영상 시청)을 기준으로 고객의 성향(선호 장르, 배우 등)을 정의할 수 있다면, 이후에도 같은 행동을 보이는 고객을 동일한 성향을 가지는 고객군으로 분류할 수 있습니다. “지금 부산행 영화 정보를 유심히 탐색하는 당신! 우리는 당신이 누군지 모르지만, 당신은… 좀비 스릴러물을 좋아하거나 연예인 공유를 좋아하는 분이겠죠?”라고 추측하는 것처럼 말이죠.

좀 더 구체적인 예를 들어 화장품A 정보 화면에서 20초 이상 체류하였으며, 제품의 상세 사진을 2번 이상 클릭한 고객의 40%가 제품을 구매하였다고 가정해 보겠습니다. 이때 마케터는 20초 이상 체류하고 제품의 상세 사진을 2번 이상 클릭한 모든 고객에게 실시간으로 쿠폰을 제공하거나, 이러한 행동 패턴을 보인 다른 고객이 관심을 보인 또 다른 제품을 추천하여 cross-selling을 유도할 수도 있습니다. 동일한 행동 패턴을 보인 고객은 동일한 성향을 가질 것이라는 가정 하에서 말입니다.


 데이터를 활용한 서비스 기획 - 추천 서비스 예시

이렇게 수집한 데이터로 다양한 분석을 진행할 수 있습니다. 이번 연재에서는 그 중 추천 서비스를 중심으로 간략하게 이야기해보고자 합니다.

상품 추천이든, 콘텐츠 추천이든 가장 생각하기 쉬운 것은 가장 인기 있는 상품별 가장 인기 있는 리스트(Top N)일 것입니다. 그리고 연령•성별 Top N을 추천하는 것도 예전에는 많이 사용되었습니다. 하지만, 앞에서 이야기한 것과 같이 연령•성별 데이터는 그다지 고객의 취향을 알아맞히는 데에 도움이 되지 않습니다. 왜냐하면, 유통, 미디어 등 영역의 고객 소비 패턴은 파격 할인, 최신 개봉 등의 외부 영향으로 인해 상품 및 콘텐츠에 대한 인기도가 극단적인 좌 쏠림 현상을 띄게 되는 경우가 많기 때문입니다. 일반적으로 이러한 현상을 ‘Long Tail’이라고 부릅니다. 

l Long Tail 법칙


예를 들면 20, 30, 40대 남성의 인기 영화를 집계했는데, 최상위권에 포진해 있는 영화는 모두 ‘부산행’과 ‘곡성’이라면, 추천리스트의 차별성을 확보할 수가 없죠. 실제 추천 프로젝트를 수행해보면 훨씬 더 치우친 분포를 마주하게 되는 일이 허다합니다. 연령 혹은 성별을 기준으로 그룹을 나누어 분포를 보더라도 유난히 인기 있는 일부 항목의 순위는 크게 변동이 생기지 않으며, 추천 자체가 무의미해지는 결과가 많이 발생합니다. 


하지만, 첫 사용자나 휴면 사용자와 같이 사용자의 성향을 알 수 있는 데이터가 없는 경우에는 연령•성별과 같은 최소한의 고객 데이터만으로 추천하는 방식도 여전히 유효합니다. 추천 분석에 있어 이러한 문제를 Cold Start Problem이라고 칭합니다. 추운 겨울, 자동차 엔진에 시동을 잘 걸기 위해서는 일정 온도 이상이 되어야 하는 것처럼, 추천 엔진의 경우에도 분석이 원활히 이뤄지려면 일정량 이상의 데이터가 확보되어야 합니다.


l 사진의 자동차는 충분한 예열이 필요해 보입니다(출처: YUSP)


이러한 Cold Start 대상의 Top N 추천 서비스는 분석 서버 등에 대한 특별한 투자를 필요로 하지 않으며, 간단한 SQL Query 만으로도 구현이 가능합니다.


충분한 이력이 확보된 고객이라면, 다양한 기계 학습 알고리즘을 활용해 고객을 분석하고 이해하는데 활용할 수 있습니다. Top N 방식의 추천은 Long Tail의 Head 영역에서 다수의 추천이 발생하는데요. 


대부분의 개인화 추천 알고리즘은, 위와 반대로 Long Tail 영역에서 고객이 좋아할 법한 상품을 추천하는 것에 집중하고 있습니다. 고객이 잘 몰랐지만, 좋아할 법한 의외의 추천을 하는 것에 의미를 두는 것이지요. 가장 흔히 사용되는 협업 필터링, SVD 등의 알고리즘이 있으며 이와 같은 알고리즘은 모두 ‘고객의 취향 분석’을 근간으로 합니다. 


고객 시선 강탈의 중요 요소 ‘빅데이터 추천 시스템

http://blog.lgcns.com/1282


l 유저 간 유사도: 유저 1과 2는 유사한 취향을 갖고 있을 가능성이 높습니다


위와 같은 개인화 추천 기법은 매우 효과적입니다. 특정 Segment가 아닌 개별 고객에게 모두 다른 추천을 제공할 수 있으며 일 단위 배치로 매일 새롭게 업데이트해줄 수만 있다면 지속적으로 변화하는 고객의 취향도 반영할 수가 있기 때문이죠. 


하지만 아침에는 주로 예능을 보고 저녁에는 영화를 보는 고객이 있다면, 어떠한 현상이 벌어질까요? 비가 오는 날에는 클래식 음악을 듣고, 화창한 날에는 EDM을 주로 드는 고객에게는 음악이 추천될까요? 고객의 취향은 단순히 누적되는 것이 아니며, 일관적으로 변화하지도 않습니다. 


따라서 기업들은 어제와 오늘, 혹은 상황에 따른 이력 데이터를 다르게 인식할 수 있는 다양한 기법을 연구하고 있습니다. 가장 최근의 서비스 사용 이력 데이터는 높은 가중치를 주고, 과거 데이터에 낮추는 방식을 활용 하거나(Koren 2006), 사용 이력 데이터를 상황에 대한 차원을 추가(Zhen et al. 2008) 하여, 출퇴근시 듣는 음악, 집에서 듣는 음악 등으로 나누는 방법 등이 이미 많은 분야에 활용되고 있습니다.


l 다차원 CF (Zhen et al. 2008): 차원이 추가된 경우에는 차원 축소 등의 기법이 활용됩니다.


이처럼 알고리즘은 더욱 정확한 ‘취향 저격’을 위해 끊임없이 진보하고 있습니다. 하지만 기술적으로 진보한 알고리즘과 효과적인 알고리즘은 구분되어야 합니다. 알고리즘의 복잡도와 연산량이 증가할수록 연구개발 및 분석설비 투자에 대한 부담이 증가하고, 서비스의 종류, 데이터의 상황, 판매하는 상품 등에 따라 결과가 너무나도 달라지기 때문입니다. 


따라서 기본적인 형태의 알고리즘을 우선 적용하고 차츰 모델을 발전시키고 알고리즘을 다양화해 나가는 방식의 접근이 필요합니다. 이를 위해 서비스 적용 후의 A•B Test와 알고리즘에 대한 지속적인 튜닝이 필수적으로 병행되어야 합니다.


l 이외에도 딥러닝 기반으로 시각 자료를 분석하여 추천하는 방법과 같은 다양한 추천 방법이 있습니다.

(출처: https://www.linkedin.com/pulse/deep-learning-based-large-scale-visual-recommendation-diego)


이번 포스팅은 유용한 데이터를 뽑아내고 알고리즘을 결합하여 서비스를 기획하는 데 있어서 중요한 점에 대해서 살펴보았습니다. 최근 많은 알고리즘과 그것들을 활용할 수 있는 오픈소스 기반의 기술들이 많이 선보이고 있습니다. 더불어 많은 분이 머신러닝이나 딥러닝의 활용에 관심을 가지고 있다는 것은 분명히 긍정적인 현상입니다.


하지만, 기술이 어떻게 가치 있고 빛나게 하는가는 또 다른 문제이고, 이것은 기술을 자체를 적용하는 능력을 기르는 것보다 훨씬 더 많은 경험과 노하우가 필요한 분야임을 알아야 할 필요가 있습니다. 다음에는 인간의 두뇌를 대신할 수 있을까? 라는 주제로 인공지능의 트렌드와 향후 발전 방향에 대해서 이야기해보도록 하겠습니다.


글 | LG CNS 엔트루컨설팅 컨버전스전략그룹


* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

  1. “Geography, age, and gender? We put that in the garbage heap.” [본문으로]
저작자 표시 비영리 변경 금지
신고
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS
위로