IT Solutions/Big Data

SRA와 함께라면 당신도 데이터 분석 전문가!

2016.03.29 09:15



최근 화두가 되고 있는 인공지능 알파고가 탄생한 배경에는 빅데이터의 발전이 있다는 사실 알고 계셨나요? 빅데이터를 저장할 수 있는 하드웨어의 성능뿐만 아니라 빅데이터 분석 기법의 발전까지 가세하여 오늘날 놀라운 수준의 인공지능 발전이 가능해졌다고 할 수 있습니다. 


LG CNS에는 이러한 빅데이터 분석을 더욱 효과적으로 할 수 있는 SRA(Smart R Analytics)라는 데이터 분석 솔루션이 있습니다. SRA는 이름에서 알 수 있듯이 R을 기반으로 한 분석 솔루션인데요. 오늘은 ‘LG CNS SRA’에 대해 여러분께 소개해 드리려고 합니다.



우선 SRA를 설명하기에 앞서 R에 대한 설명이 필요할 것 같은데요. 데이터 분석을 경험해 보신 분이라면 R언어에 대해 들어보셨을 것입니다. 데이터 분석에 관심을 가지고 시작해 보시려는 분들도 R언어에 대해서 알아두면 도움이 될 것 같습니다.

 

 R언어란?

 

R은 1996년 뉴질랜드 오클라드 대학의 통계학과 교수인 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)에 의해 처음으로 프리웨어 패키지로 세상에 공개되었습니다. 


R언어는 특히 통계학자들에게 인기가 많았는데요. 그 이유는 데이터 분석에 필요한 수많은 빌트인(built-in)된 기능들을 제공해 주었기 때문입니다. 예를 들어 데이터를 조작하고(organizing data), 정보를 분석하기 위한 연산(calculation) 및 데이터 셋(data set)에 대한 그래픽 표현(graphical representation) 기능 등을 제공해 주는 것이죠. 


그러나 최근에는 통계학자뿐만 아니라 데이터 분석을 하고자 하는 모든 사람들에게 R언어가 인기를 끌고 있는데요. 어떤 설문 조사 결과를 확인해 보더라도 R언어가 상위권에 있습니다. 

(참조:http://blog.revolutionanalytics.com/2015/11/new-surveys-show-continued-popularity-of-r.html)


l Top 20 skills of a data scientist (출처: revolutionanalytics 블로그)


l R Usage (출처: revolutionanalytics 블로그)

 

 R언어, 인기 있는 이유는?

 

분석가(통계학자, 엔지니어, 사회학자, 과학자)들이 R을 사랑하는 가장 큰 이유는 무엇일까요? 그것은 감히 CRAN(https://cran.r-project.org) 때문이라고 말씀드릴 수 있습니다. CRAN은 R을 위한 다양한 패키지들(코드들)과 관련 문서들을 저장하고 업데이트 해주는 FTP/Web 서버 네트워크 입니다. 이를 통해서 다양한 분석에 사용하는 패키지들을 받아서 사용할 수 있습니다. 현재 기준(2016년 3월)으로 CRAN에 등록되어 있는 패키지가 8,000여 개가 넘는다고 합니다. 


분석하는 사람 입장에서 이렇게 수많은 패키지들을 자유롭게 사용하고, 수정하고, 다양한 업무에 활용할 수 있다는 것이 매력적이지 않을 수 없는데요. 패키지의 종류도 분석을 위한 통계 알고리즘에서부터 특정 업무에 특화된 알고리즘까지 다양합니다. 


l CRAN (출처: https://cran.r-project.org)


이처럼 R이 지난 20여 년 간 인기를 끌고 있지만, 사용자로부터 다양한 쓴 소리를 듣고 있는 것도 사실인데요. 무엇보다도 배우기가 쉽지 않다는 것입니다.

(참조: http://r4stats.com/articles/why-r-is-hard-to-learn)


아무래도 SAS, SPSS와 같은 GUI 분석 툴에 익숙한 사용자의 경우 R언어는 불편할 수 밖에 없습니다. R의 막강한 파워를 가진 패키지들을 사용하기 위해서는 Programming을 통해서만 활용할 수 있기 때문이죠. 


초보자들은 R의 Programming 환경에 대해 부담을 느낄 수 밖에 없는데요. 초보자 입장에서 R을 처음 접할 때 아무런 GUI 인터페이스 없이 덩그러니 shell 창을 보게 되면, 어떻게 패키지를 찾아서, 설치하고, 실행할지 매우 막막하기 때문입니다. 


기업 환경에서 살펴볼까요? 한 기업의 분석가가 R언어를 사용해 어떤 문제를 파악하여 특정 데이터를 발견하고, 분석해서 해결할 수 있는 분석 모델을 만들었다고 가정해 봅시다. 


사실 대부분의 분석 과정 중에 반복되는 일련의 과정들이 있습니다. 데이터를 잘라내고, 붙이고, 변환하는 등의 일들이 그런 것들입니다. 이런 일(task)들은 공통화 시켜서 여러 분석가들과 공유한다면 업무 효율을 높일 수 있습니다. 또한 특정 분석 작업을 주기적으로 실행해야 한다면, 스케줄 등록을 통해 실행 관리해야 합니다. 


물론 이 모든 작업들을 R 언어 안에서 programming으로 처리할 수 있겠지만, 그에 따른 비용이 만만치 않을 것입니다. 


산업 분야별로 특화된 작업들이 있는 경우는 어떻게 해야 할까요? 예를 들어 보험과 신용카드 회사의 콜 센터에서 고객의 의견을 분석해 상품을 개발하고자 할 때, 대화 내용을 자연어 텍스트 분석을 통해 데이터로 활용하거나, 고객들이 원하는 상품에 대한 각종 통계로 변환하여 재가공해야 합니다. 이런 분석을 위한 모든 것을 R 언어만으로 만들어야 한다면 얼마나 힘이 들까요? 

 

 SRA, R의 부족함을 알다.

 

‘LG CNS SRA’는 이러한 R 언어의 장점을 최대한으로 이용하고, 단점을 극복하여 엔터프라이즈 환경에서도 사용 가능하도록 한 분석 솔루션입니다. 


기존의 R은 다양한 통계와 분석 함수를 보유하고 있고 오픈소스이기 때문에 최신 분석 알고리즘 활용이 가능하다는 장점이 있습니다. 하지만 메모리 기반 분석으로 대용량의 데이터를 분석하는 것은 어려울 수 있습니다. 


이러한 단점을 개선해 만든 SRA는 대용량 데이터 분석이 가능하며 외부 연계 및 확장에 대한 유연성도 확보했습니다. 또한 비정형 데이터 분석 기능도 보유하고 있습니다. 



l SRA 특징


SRA는 다양한 데이터소스(DB, Text, HDFS) 형태의 데이터를 불러와 전처리(변환, 수정, 삭제 등)를 위한 미리 정의된 분석 컴포넌트로 work-flow 기반 처리를 할 수 있습니다. 이는 분석 초보자들도 쉽게 사용할 수 있다는 의미이며, 분석 업무를 설명하거나 인수 인계할 때, 보다 직관적으로 이해하고 관리할 수 있다는 장점이 있습니다. 더불어 R언어로 이미 작성되어 있는 스크립트가 있다면 ‘SRA R-User-Defined’ 컴포넌트를 통해 SRA의 컴포넌트들과 함께 추가로 사용할 수 있습니다. 


그 밖에도 사용자별 권한 제한 기능•스케줄링•시스템 자원 모니터링•외부 API를 통한 연계 등 엔터프라이즈 환경에서 필요한 기능들을 제공합니다. 이러한 장점들 때문에 많은 산업 분야에서 SRA가 사용되고 있으며, 고객들에게 좋은 반응을 얻고 있습니다.


l SRA 시스템 운영화면

 

 SRA 향후 가능성 및 방향성

 

SRA는 여기서 그치지 않고 향후에는 R 기반의 분석 툴에 Python, Julia와 같은 다양한 분석 언어를 지원하고, 여러 분석 엔진들과의 결합할 수 있는 ‘분석 플랫폼’으로 진화해 갈 예정입니다. LG CNS SRA를 통해 더욱 편리한 빅데이터 분석을 경험해 보세요.

 

글 ㅣ 빅데이터분석컨설팅팀



* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


저작자 표시 비영리 변경 금지
신고
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS
위로