CNS Story

Data가 말을 거는 세상, 바야흐로 Big Data 시대! - 데이터 사이언티스트(Data Scientist)를 소개합니다 -

2014. 7. 14. 11:24


 

모르는 번호로 오는 전화를 ‘누구지?’ 하고 받아보면 역시나 광고전화였던 경험이 있을 것입니다. 그런데, 이렇게 걸려오는 광고 전화가 내 근황을 알고, 이를 해결하는 상품과 서비스를 팔려고 한다는 것은 정말 신기한 일입니다. 이런 생각을 하다 보면 얼마 전 온라인 쇼핑몰 회원가입 창에서 적을까 말까 했던 항목들도 떠오르죠. 사은품을 준다는 말에 주소와 연락처를 남기거나, ‘모두 동의’ 체크에 살짝 숨어 있는 ‘제 3자 광고 동의’ 항목이 머리를 스쳐가기도 합니다. 


이른바 빅데이터 시대에는 온라인 상에 남긴 나의 작은 족적들이 모여 나를 대변하는 데이터가 되고, 이러한 데이터가 실시간으로 분석되어 나에게 말을 겁니다. 그런데 광고들은 이런 데이터를 어떻게 개개인에 맞춤화하고, 필요한 정보를 전달하는 걸까요? 이는 누군가가 개개인의 정보를 모으고, 적절히 가공하여, 먹기 좋게 디스플레이하기 때문에 가능한 일입니다. 


한가지 예를 들면, 음악에서는 연주에 필요한 악기를 선별하고 멋진 화음을 만들어 내도록 하는 ‘마에스트로’가 반드시 필요하죠. Data 역시 각각의 소리를 가진 악기에 비유할 수 있는데요. 이쯤 되면 눈치 채셨지요? 네 맞습니다. 오늘은 빅데이터 시대의 마에스트로, 데이터 사이언티스트(Data Scientist)를 소개하겠습니다.

 

데이터 사이언티스트는 누구일까요? 2012년 12월, 하버드 비즈니스 리뷰(Harvard Business Review)의 Data Scientist에 대한 기사에 따르면 데이터 사이언티스트를 ‘21세기 가장 섹시한 직업[각주:1]’ 이라고 표현하고 있습니다. 그 이유는 온라인 상에 축적되는 데이터의 양이 점차 방대해 짐에 따라, 이제는 그 속에 가치를 찾아내는 역할이 중요해졌기 때문이죠. 현 시점에서 데이터 사이언티스트의 중요성이 얼마나 높아지고 있는지 가늠케 하는 표현입니다. IT 분야의 대표적 리서치 기관인 The Gartner Group에서는 Data Scientist를 아래와 같이 정의하고 있습니다. 


“Data Scientist는 복잡한 비즈니스 문제를 모델링하고, 인사이트를 도출하며, 통계학, 알고리즘, 데이터 마이닝 그리고 시각화 기법 등을 통해 그 속에서 기회를 찾아내는 사람이다. 그리고 이와 같은 고급분석(Advanced Analytics) 기술에 더해, 용량이 크고 다양한 유형의 Dataset을 다루는데 능숙하고, 특정한 목적 혹은 컴퓨팅 환경의 데이터베이스 아키텍처를 수립할 수 있으며, 분석 결과를 이해 관계자들과 커뮤니케이션 할 수 있어야 한다. 하지만 비즈니스 문제를 모델링하고 Data를 이해하는데 도움이 되는 특정 산업 영역에 대한 지식이 반드시 필요한 것은 아니다.”


가트너의 이러한 정의를 정리하면 다음과 같습니다. 데이터 사이언티스트란 문제 식별 및 모델링에서부터 데이터 저장, 처리, 분석 그리고 활용까지 데이터와 관련된 전 업무 가치사슬(Value Chain)[각주:2]  상에서 전문 지식과 역량을 보유한 사람을 말합니다. 그야말로, 데이터 계의 히어로라 할 수 있습니다. 위의 정의에서 우리는 중요한 두 가지 특징을 알 수 있습니다. 첫째, ‘용량이 크고 다양한 유형의 데이터 셋(Dataset)을 다루는데 능숙’하다는 것과 둘째, ‘분석 결과를 이해 관계자들과 커뮤니케이션 할 수 있어야 한다’는 것입니다. 이 두 가지 요소가 데이터 사이언티스트라는 역할이 새롭게 주목 받고 있는 배경인 동시에, 기존의 데이터 분석가들과 구분되는 차별화된 요소라고 할 수 있습니다.


① 데이터 사이언티스트(Data Scientist)의 출현 배경

데이터 사이언티스트에 대한 관심 커진 가장 큰 이유는 역시 빅데이터의 출현입니다. 빅데이터의 특성 상, 저장되는 데이터 유형이 다양하고 그 크기 역시 과거와 비할 수 없을 만큼 커졌습니다. 이런 데이터를 처리하기 위한 S/W 및 H/W 역시 기존과는 완전히 다른 기술이 적용되는데요.  이에 따라, 빅데이터 분석을 수행하는 인력에게 요구되는 업무능력(skill-set) 역시 확대/변경 되고 있습니다. 


예를 들어, 스트리밍 데이터, 이미지, 동영상 파일 등을 분석에 활용하고자 한다면 기존의 관계형 DB 처리 기술이 아닌, 분산 병렬 처리를 지원하는 하둡 파일 시스템(Hadoop File System)과 NoSQL을 사용할 수 있어야 합니다. 혹은, 분석 시나리오에 대한 검증을 위해 ‘R’과 같은 분석 툴로 직접 분석 엔진 프로토타입을 개발할 수 있어야 합니다. 빅데이터로 인해 발생한 이러한 변화는 기존의 BI(Business Intelligence) 분석가, 통계 전문가에게 요구되던 업무 범위를 넘어섭니다. 그래서 이러한 역할을 수행할 수 있는 새로운 인원에 대한 수요가 발생한 것입니다. 바로 데이터 사이언티스트(Data Scientist)의 등장입니다.


② Data Scientist의 차별화 요소 : ' Business & Communication'

이미 오래 전부터 기업에는 데이터를 분석하고 결과를 리더에게 리포팅하는 역할을 수행하는 직무가 있었습니다. 이러한 직무를 부르는 명칭은 조직마다 다를 수 있지만, 일반적으로 비즈니스 분석가, 데이터 분석가/아키텍처 혹은 BI 분석가라는 직함을 가지고 있습니다. 이들의 역할은 기업 내 데이터를 식별하여 저장, 처리하고 주요 리포트를 작성/생성하여 보고하는 업무를 담당합니다. 


그러면 일반적으로 말하는 비즈니스 분석가와 데이터 사이언티스트의 차이는 무엇일까요?

데이터 사이언티스트라고 해서 기존의 데이터 분석가와 다른 역할을 수행하는 것은 아닙니다. 앞서 설명했듯, 데이터 자체의 특성이 빅데이터로 변화함에 따라 요구되는 기술이 달라진 것이죠. 하지만, 데이터 사이언티스트에게는 또 다른 관점에서 필요한 요구 조건이 있습니다. 바로 비즈니스 문제해결을 위한 적극적인 참여와 조직원들 간의 활발한 커뮤니케이션입니다. 


과거와는 달리, 현재의 관리자들은 의사결정 시 정확한 데이터에 근거한 분석/예측 결과를 요구하며, 이에 대한 인사이트를 데이터 사이언티스트로부터 얻기를 원합니다. 단순히 과거의 추세나 통계적 지표 수치를 보고 받고 참고하는 것이 아니라, 데이터 사이언티스트가 포함된 분석팀이 수립한 비즈니스 모델링을 바탕으로 결과를 예측하고자 합니다. 따라서, 이러한 요구를 충족하는 데이터 사이언티스트가 되기 위해서는 비즈니스 환경, 제약조건에 대한 높은 이해가 필요하고, 조직 내 여러 부서 구성원들과 원활한 협업을 수행할 수 있어야 합니다. 이와 같은 역할 변화에 대한 요구는 가트너에서 수행한 데이터 사이언티스트 구인 목록(Job Listing) 조사 결과[각주:3] 에서도 확인할 수 있습니다. 주요한 특징은 다음과 같습니다.


● 데이터 사이언티스트는 개별적으로 업무를 수행하는 기존의 통계 분석가와는 달리 팀에 소속되어 활동한다.

● 데이터 사이언티스트는 빅데이터에 대한 분석을 해야 한다.

● 데이터 사이언티스트의 주요 기술능력(Skill-set)은 기계학습(Machine Learning),

   컴퓨팅 그리고 알고리즘이다.

● 데이터 사이언티스트는 원활한 커뮤니케이션을 해야 한다.


③ 데이터 사이언티스트(Data Scientist)의 핵심 역량

그러면, 데이터 사이언티스트가 갖추어야 할 핵심 역량은 어떤 것들이 있을까요? 다음의 내용은 LG CNS에서 도출한 Advanced Analytics 핵심 역량을 보고한 자료를 기반으로 작성되었는데요. 그 내용이 데이터 사이언티스트에게 요구되는 것과 유사하여 일부 수정하여 소개합니다.


 핵심 역량

 설명

빅데이터(Big Data) 

확보 및 처리 역량

 

 - 데이터 정의: 고객의 니즈 및 요구 사항으로부터 분석 요건을 정의하고 

   Input Data를 도출

 - 데이터 확보: 분석에 필요한 Input 데이터를 확보를 위해 

   조직 내/외부에서 데이터를 수집

 - 데이터 분석/처리: 빅데이터 분석 처리를 위해 적합한 기술을 선정하고 적용



 Proactive Analytics

 역량


 

 - 분석 요건 정의: 고객의 니즈 및 요구 사항으로부터

   분석 요건을 정의하고 분석 절차를 설계

 - 분석 모델 설계: 분석 요건 에 적합한 모델과 알고리즘을 설계

 - 분석 솔루션 개발: 분석 요건 및 절차에 적합한 솔루션을 개발

 - 분석 결과 타당성 검증: 분석 모델 및 솔루션을 비즈니스 가치 중심으로 검증


 New Biz Delivery 

역량

 

 - 분석 결과 설득: 분석 결과로부터 비즈니스 인사이트 도출/제공

 - 사업 기회 인지: 사업 현황에 따라 사업 개발 및 영업 활동 검증



 



지금까지 Data Scientist의 출현 배경부터 역량까지 살펴보았는데요. 구슬이 서 말이라도 꿰어야 보배라고... Data Scientist에 대해 아무리 설명을 해본다 한들 실제로 Data Scientist의 직무를 수행하는 사람의 생생한 목소리를 듣는다면, 좀 더 깊이 있게 이해할 수 있겠죠. 그래서 인터뷰를 준비했는데요. 현재 LG CNS에서 Data Scientist로 종횡무진 활약하고 있는 양준열 대리님을 만나보겠습니다. 


ㅣ 양준열 대리님! 인터뷰 시작에 앞서 간단한 자기 소개 부탁 드려요.

안녕하세요, LG CNS의 양준열 대리입니다. 저는 통계학으로 학사, 석사 학위를 마치고 2011년 LG CNS에 입사하여 지금은 Advanced Analytics(AA) 조직에서 통계분석 모델링 업무를 수행하고 있는데요. 정확한 직무명이 Data Scientist는 아니지만, 그와 동일한 역할을 가지고 있습니다. 입사 후, 여러 고객사를 대상으로 분석모델 수립 및 결과 분석과 같은 업무를 수행하고 있지요. 


ㅣ 21세기 가장 섹시한 직업을 갖고 계신데요, 그게 외모와는 상관이 없군요. ^^

귀여운 상 아닌가요.^^ 많은 분들이 Data Scientist에 관심을 가지고 계신데요. 회사 내에서도 제가 하는 일을 가끔 궁금해 하고, 그 덕분에 이런 인터뷰 기회도 생겼네요. Data Scientist가 가장 섹시한 직업이라고 불리는 이유는 가치 없는 정보라 판단되었던 회사 내의 다양한 정보를 분석해 비즈니스적으로 의미 있는 결과물을 만드는 직무를 긍정적으로 표현한 것이라 생각되는데요. 달리 생각해보면, 음… 뇌가 섹시하다고 할 수도 있겠네요.^^ 물론 농담입니다.


ㅣ 주위에서 Data Scientist를 자주 만날 기회가 없다 보니, 궁금해 하는 분들이 많습니다. Data Scientist를 어떻게 설명할 수 있을까요?

제가 생각하는 Data Scientist는 사실(Fact) 기반으로 사고하는 사람입니다. 예를 들어, 아침에 입고 나갈 옷을 고를 때 일기 예보를 확인한다거나, 음식을 주문하기 전에 관련 블로그를 꼼꼼히 챙겨보는 사람들이 있죠. 이런 사람이라면 Data Scientist의 기본적인 자질을 갖췄다고 할 수 있습니다. 즉, 특정 문제를 해결하기 위해 데이터를 활용(분석)하여 합리적인 결과물(의사결정사항, 솔루션)을 만들어 내는 사람이 Data Scientist입니다.


ㅣ Data Scientist로서 수행하셨던 프로젝트 중에 가장 기억에 남는 것이 있다면 소개 해주세요.

가상 계측(Virtual Metrology)이라는 분석 프로젝트가 기억에 남는데요. 가상계측 분석이란 제품의 생산 공정 상에서 발생하는 데이터를 통해 완성된 제품의 상태를 미리 예측하고 불량을 방지하는 것을 목표로 합니다. 통계적으로 여러 가지 예측 기법들을 사용해서 실제 검사 기기의 오차 수준까지 정교하게 예측해 내야 했기에 굉장히 어려운 프로젝트였습니다. 분석 모델을 개발하는 것에서부터 어떤 데이터를 활용해야 할지 결정하는 것도 아주 까다로운 일입니다. 그리고, 분석 결과가 실무에서 제대로 활용될 수 있도록 계속해서 고객과 커뮤니케이션 해야 하죠. 그럼에도 불구하고, 같은 프로젝트 팀원 및 고객들과의 심도 깊은 논의와 협업을 통해 완성도 높은 분석 모델을 개발해 낼 수 있었습니다. 그리고, 그 결과가 현재도 실제 업무에 적용되어 사용되고 있기에 큰 보람을 느끼고 있습니다.


ㅣ 최근 핫한 직업인만큼, Data Scientist를 목표로 계신 분들이 많이 있을 텐데요. 마지막으로 Data Scientist가 되기 위해서 어떤 것을 준비해야 할지 조언을 부탁 드립니다.

앞서 이야기 했듯, Data Scientist는 데이터를 기반으로 의사결정을 내릴 줄 알아야 합니다. 그러기 위해서는 먼저 데이터를 이해할 수 있는 능력을 키워야겠죠. 학문적으로 본다면 통계학을 공부하면 데이터를 보는 역량을 키울 수 있겠죠. 많은 분들께서 통계학을 어려워하시는데, 수식에 얽매이기 보다 데이터를 다루는 통계적 흐름을 이해하는 것이 중요합니다. 

개인적으로 ‘통계학 리스타트’ 라는 책을 추천해드리며 이 책을 참고하시면 좀 더 쉽게 통계학을 이해하실 수 있을 것 같네요. 

또, Data Scientist는 직접 프로그래밍도 할 수 있어야 합니다. 여러 통계 프로그램 중 최근 가장 많이 사용되고 있고, 초심자가 익히기에도 큰 어려움이 없는 R을 한번쯤 사용해 보시길 추천해 드립니다. 하지만, 앞서 언급한 통계적 지식이나 스킬보다는 데이터 속에서 답을 찾아내기 위한 호기심과 끈기, 문제 해결에 대한 열정이 Data Scientist의 가장 필수적인 역량입니다.


지금까지 LG CNS의 Data Scientist인 양준열 대리님과 이야기 나누어 보았는데요. 도움이 되셨나요? Data Scientist라는 직업이 이제 생소하지만은 않죠? 우리 생활 속에서 Data Scientist의 활약이 더욱 기대됩니다. 


글ㅣLG CNS 스마트 블로거


  1. Data Scientist: The Sexiest Job of the 21st Century, HBR, 2012 [본문으로]
  2. 경제 용어로 기업활동에서 부가가치가 생성되는 과정을 말함 [본문으로]
  3. Emerging Role of the Data Scientist and the Art of Data Science, Gartner, 2012 [본문으로]
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

  1. Favicon of https://anunmankm.tistory.com BlogIcon 버크하우스 2014.07.14 11:29 신고  댓글주소  수정/삭제  댓글쓰기

    잘 보고 갑니다. 오늘도 좋은 하루 되세요. ^^

  2. BlogIcon 통계학과 2014.07.15 16:27  댓글주소  수정/삭제  댓글쓰기

    통계학과 재학중인 학생입니다.
    빅데이터 관련된 직업을 찾고 있었는데, 정말 많은 도움이 되었습니다!!
    잘보고 갑니다!

위로