IT Solutions/Big Data

금융 정보계에 HIA 도입의 필요성, Why?

2016.05.24 09:30


금융 정보계는 전사에서 발생하는 모든 업무 데이터를 통합하여 통합 분석 View를 제공하고, 이를 기반으로 다양한 사용자 계층별로 분석 목적에 맞는 데이터를 제공하는 역할을 수행하고 있는데요. 


빅데이터(Bigdata) 환경이 도래함에 따라 데이터의 양이 폭발적으로 증가하고, 데이터의 유형도 RDBMS(Relational Data Base Management System) 중심의 정형 데이터뿐만 아니라 각종 로그 데이터, 음성 데이터 등 비정형 데이터까지 분석할 필요가 생겼습니다.

 

l 금융 정보계의 발전 방향


기술적으로는 오픈 소스 기반의 Hadoop 기술들이 성숙되어감에 따라 오픈 소스라는 불안감을 불식시키고 전사에서 활용 가능한 수준으로 발전하고 있어, 기존 정보계가 가지고 있는 한계(고가의 시스템, SW라이센스 유지 비용, 성능 확장 등)를 극복하는 대안이 되고 있습니다.

[Hadoop에 대한 설명은 ‘Advanced Analysis를 구현하는 기본요소 Hadoop 프레임워크(http://blog.lgcns.com/61)’ 참조]

 

 빅데이터 활용 분야



세계적인 리서치 그룹인 Gartner에 따르면 빅데이터가 마케팅•영업 증대, 운영•재무성과 개선, 신규 상품•서비스 혁신, 정보의 직간접 판매, 위험•사기 감소 등 5가지 측면에서 활용 가능하다고 합니다.

 

l 출처: Gartner Sym 2013


이미 다양한 산업에서 빅데이터 성공사례들이 나오고 있으며, 해외 금융 분야에서도 언론, 세미나, 빅데이터 벤더들의 사례 소개 등을 통해 공유되고 있습니다. 국내에서도 빅데이터 사례들이 하나둘씩 회자되고 있지만, 자세히 들여다보면 업무 범위가 한정적이거나 일회성 이벤트에 활용하는 등 사용하는 데이터가 부분적이어서 기존에 구축된 DW•BI 시스템처럼 전사 차원의 업무 요구를 만족시키는 수준은 아닙니다.

 

 HIA(Hybrid Information Architecture)의 개념


전사 관점의 빅데이터 시스템을 구축하기 위해서는 기존의 정보계와 빅데이터 환경을 수용할 수 있는 환경과 균형과 조화가 필수적인데, 이런 환경을 지원해주는 아키텍처가 HIA(Hybrid Information Architecture)입니다.


2014년 Gartner에서는 Logical DW(Data Warehouse)라는 아키텍처를 제시하며 HIA로 DW 인프라가 확대될 것으로 예측하고 관련 시장도 지속 성장할 것으로 예측하였습니다.

 

l 출처: Gartner Logical Data Warehouse

 

Oracle에서는 BDA(Big Data Appliance), Microsoft에서는 Analytic Platform System, Teradata에서는 Unified Data Warehouse 등의 아키텍처를 제시하며 HIA를 지원하고 있습니다. 일부 금융권에서는 HIA 기반의 시스템을 구축 중이거나 구체적인 구축 계획을 수립 중입니다.

 

l 출처: Oracle

 

l 출처: Microsoft


국내 금융권의 빅데이터 트렌드를 살펴보겠습니다. 


CRM(Customer Relationship Management) 측면에서 VOC(Voice Of Customer) 분석 시스템 구축하거나 머신 러닝을 통한 고객 거래 데이터를 분석하여 세분화된 추천 시스템을 구축하고, 은행의 수신•여신 규모에 따라 고객을 세분화하여 적합한 금융 상품을 추천하고 있으며, 각종 로그 데이터를 분석하여 사내의 통합 보안 시스템을 구축하고 있습니다. 


보험에서는 기존의 FDS(Fraud Detection System) 시스템을 머신 러닝과 통계적 기법을 적용하여 개선하는 사업 등이 추진되고 있습니다. 인프라 측면에서 Hadoop 플랫폼을 도입하여 기존에 축적되지 않던 비정형 데이터들을 미래 활용을 위해 축적하는 사업도 진행하고 있습니다. 


현 단계에서는 기존 DW•BI 환경에서 HIA 환경으로 넘어가는 과도기적인 단계로 기존 정보계에 대한 의존도가 높으며, Hadoop 환경에 대해서는 검증 단계이거나 Pilot 형태로 적용하여 기능, 성능, 보안 등을 확인합니다.


 HIA 구성도와 상세 설명


DW Platform과 Hadoop Platform을 통합한 HIA는 Data Source, Data Collect, Data Store, Data Analysis로 구성됩니다.

 

실선 화살표: Batch Data Flow,  점선 화살표: Interactive Data Flow

1) Large Data: Structured Big Data. 기존의 DW DBMS에 저장하기 어려운 대량의 데이터. 예) 통신의 CDR(Call Data Record), 제조업 라인의 Machine-Generating 데이터, IoT 센서 데이터 등


실선으로 표시되는 데이터 흐름은 주로 야간 배치를 이용하여 대량의 데이터를 전송•적재하는 것을 의미하며, 점선은 Data Store에 저장된 데이터를 조회하거나 참조하는 데이터 흐름입니다.


A, B, C, D, E의 의미는 아래와 같습니다.

 

  1. ETL 도구, Sqoop, Flume을 이용한 데이터 수집

  2. DW Platform과 Hadoop Platform간 데이터 인터페이스

  3. DW Platform 데이터를 Hadoop Platform으로 아카이빙

  4. 데이터 가상화. 이기종 혹은 분산된 다양한 DB의 데이터를 물리적 통합 없이
    하나의 DB 처럼 활용하는 기법

  5. OLAP, 데이터 시각화, 리포팅 툴을 활용한 데이터 분석


각 구성요소를 자세히 살펴보면, 기존의 운영시스템(운영계, 기간계, 계정계, 사무계, 사무처리계 등)의 구조화된 데이터는 ETL(Extraction Transformation Load) 도구를 이용하여 DW Platform으로 수집합니다. Hadoop Platform으로 수집은 Hadoop Eco System에서 제공하는 도구(Sqoop, Flume 등)들을 활용합니다. ETL 도구에서도 비구조적 데이터를 수집하는 방법을 제공합니다.


DW Platform에서 필요한 비구조적 데이터는 분석에 필요한 수준으로 요약하거나 Hadoop 환경에서 분산 병렬 처리된 데이터 결과들을 DW Platform으로 적재하여 분석에 활용하도록 합니다. Hadoop Platform에서도 DW Platform의 데이터가 필요할 수 있습니다. 


DW Platform에는 전사 조직, 고객, 상품 등에 대한 마스터 데이터가 정비되어 있고, 운영시스템에서 발생한 상세 레벨의 데이터들도 있으므로 Hadoop Platform에서 데이터 처리할 때 이런 데이터들을 활용할 수 있습니다. 


또 DW Platform에는 대용량의 데이터가 있으므로 데이터 수명 주기에 따라 사용도가 낮은 데이터들은 백업 시스템이나 ILM(Information Lifecycle Management) 시스템으로 아카이빙을 합니다. 이 때 Hadoop Platform을 DW Platform의 아카이빙 시스템으로 활용도 가능합니다.


Data Virtualization(데이터 가상화)은 물리적으로 데이터를 보유하는 것이 아니라 활용에 필요한 데이터를 DW Platform과 Hadoop Platform으로부터 가져와서 분석에 활용이 가능하게 합니다. 그러나, 대용량 데이터 처리가 필요한 경우나 데이터 표준화 수준이 낮을 경우에는 다른 대안을 검토할 필요도 있습니다.


Analytics Platform은 OLAP(On-Line Analytical Process), Data Visualization(데이터 시각화), EIS(Executive Information System), MIS(Management Information System), Reporting 도구 등을 활용하여 데이터 분석을 지원합니다.


 HIA 적용 사례를 통한 금융권 적용 방안


금융분야는 아니지만 제조업과 통신업에 적용된 사례를 통해 금융권으로의 적용 가능성을 확인해 보고자 합니다. 다수의 사례들이 있지만 Gartner에서 조사한 운영 및 재무성과 개선 영역에 대한 2가지 사례를 공유해 보겠습니다.


먼저 테이프로 관리하던 과거 이력 데이터를 Hadoop 시스템을 아카이빙으로 활용한 사례입니다. 공정 프로세스상에서 발생하는 대량의 데이터를 상용 RDBMS에서 보관하기에는 고비용이어서 3개월 이후의 데이터는 테이프로 보관하고 필요 시 테이프의 데이터를 복구하여 서비스하였습니다. 


그러나, 필요한 데이터를 테이프로부터 복구하고 분석하여 대응하기에는 10여일 이상이 필요하여 적시 대응이 어려웠습니다. 이런 과거 이력 데이터들을 Hadoop 시스템에 적재한 후 바로 조회를 할 수 있도록 하여 과거 품질에 대한 데이터를 1일 이내에 조회할 수 있게 되었습니다. 더불어 과거 이력 데이터 분석에 대한 업무 효율성과 연계 분석까지 가능한 기반을 마련하였습니다.

 

l 장기 데이터 보관 Hadoop 도입 전과 후


l 장기 데이터 아카이빙 시스템으로 Hadoop 도입 효과


이번엔 대용량 데이터를 이용해 과금처리 배치 작업을 Hadoop 환경에서 구현한 통신 사례를 살펴보겠습니다. CDR(Call Data Record)은 통화를 하거나 문자를 송수신하는 경우 발생하는 기본 데이터입니다. CDR을 기초로 통화 시간을 계산하고 문자 송수신 건수를 계산하여 고객별로 과금을 하게 됩니다. 


기존에는 DW 시스템을 이용하여 과금 계산 배치 프로그램을 수행하였으나, 시간이 오래 걸리고 배치 작업 시 CPU와 메모리를 많이 필요로 하여 다른 작업에 많은 영향을 주었습니다. 


전체 배치 프로세스 중에서 과금에 필요한 데이터만 Hadoop에 적재하고 분산 병렬 처리 배치 프로그램을 통해 배치 시간을 획기적으로 줄이고, CDR 배치 작업의 부하가 기존 DW 시스템에서 제거됨에 따라 DW 시스템의 자원에 여유가 생겨 전체 배치 작업 시간 단축과 서버 활용도를 높이는 부가적인 효과도 거두었습니다.

 

l 과금 처리를 위한 CDR 배치 작업을 Hadoop 시스템에서 실행


l CDR 배치 작업의 Hadoop 실행 효과


위 2가지 사례를 바탕으로 금융권에 적용 가능한 업무를 살펴보겠습니다. 기존 정보계에 저장하기에는 부담스러운 과거 이력 데이터들이 있으며 이런 데이터들을 상용 RDBMS에서 저장하도록 구성하기에는 많은 비용이 필요하나 Hadoop 환경을 이용하면 상대적으로 적은 비용 범위 내에서 조회 환경을 구성하게 됩니다. 


모든 금융권에는 ILM(Information Lifecycle Management) 시스템이 있습니다. ILM SW 도입 비용과 저가의 디스크로 인프라를 구축한다고 하더라도 Hadoop 보다는 고가일 것으로 예상됩니다. 따라서 ILM의 일부 역할을 Hadoop 환경으로 대체할 수 있습니다. 


야간에 실행되는 배치 프로그램을 보면 전체 Critical Path에 서 대용량의 데이터가 필요하고 업무 로직이 복잡하여 전체 배치 시간에 영향을 주는 프로그램들이 있습니다. 


이런 배치들을 Hadoop 환경으로 이관하여 작업하고 최종 결과물을 DW 시스템으로 다시 가져와서 활용한다면 전체 배치 시간을 단축할 수 있습니다. (ex. 리스트 시스템의 고객 신용 평가, CRM의 고객 등급 평가, 사기 탐지 시스템의 탐지 로직 등)


이 외에도 과거에는 활용하기 힘들었던 고객 관련 각종 로그 데이터(웹 로그, 모바일 로그, Click Stream 등)를 추가해 고객에 대한 전체적 데이터를 가지고 마케팅•영업 증대를 위해 활용 가능합니다. 그래서, 고객의 구매 이력 데이터를 머신 러닝으로 패턴을 분석하여 기존의 추천 서비스보다 세부화된 추천 서비스도 제공할 수 있습니다. 


일부 카드사에서는 파일럿으로 고객 추천 세부화에 대한 검증과 가능성을 확인하였습니다. 또한 사기와 관련 유사 패턴을 도출하여, 보험의 FDS(Fraud Detection System)의 효율을 개선한 사례도 나오고 있습니다. 그 밖에도 HIA 환경을 통해 아래와 같은 분야에서 활용이 가능합니다.

 

l HIA 기반 빅데이터 활용 분야


 HIA 도입에 따른 기대효과


HIA는 다양성, 운영비용 절감, 확장성, 신속성 측면에서 기대효과를 볼 수 있습니다.

 

l HIA 도입 효과


기대효과를 상세히 살펴 보면, 빅데이터의 기반 인프라인 Hadoop은 x86 Linux기반으로 증설 필요 시 x86서버들을 추가 연결해 주면 됩니다. 따라서, Unix기반의 상용 시스템 대비 증설에 따른 부담이 감소하고, 관련 SW들도 OSS(Open Source Software)가 많아 SW사용에 따른 라이선스 비용이 상대적으로 저렴합니다.


Hadoop 시스템의 성능은 Scale-out 방식으로 이루어집니다. 상용 서버들의 성능 향상을 위해서는 서버 내에서 메모리 증설, CPU추가, 고성능 CPU로의 교체 등을 통해 성능 향상을 꾀합니다. 이런 방식을 Scale-up이라고 합니다. 


Scale-up은 서버 내에서 이루어지므로 노후된 서버는 메모리 증설에 한계가 있으며 CPU의 단종 등으로 성능 향상에 한계가 있습니다. 반면에 Scale-out은 x86서버들을 병렬로 추가하여 병렬도를 높이는 방식으로 성능을 향상할 수 있습니다. 따라서 고성능이 필요할 경우, x86서버들을 추가해주면 원하는 성능을 얻을 수 있습니다


Hadoop 시스템은 작업 처리를 병렬로 처리하는 구조입니다. 수 억건 이상의 데이터를 다루는 경우, Hadoop 시스템의 병렬 처리 특성을 이용하면 전체 배치 시간을 단축할 수 있습니다. 예를 들어 리스크 관리 시스템에서 고객의 리스크 점수를 계산하는 프로그램이나 CRM에서 고객 신용도를 평가하는 프로그램의 경우, 모든 고객 데이터들의 실적을 기반으로 작업을 해야하므로 서버에 상당한 부하가 발생합니다. 이런 작업들은 Hadoop을 활용하면 짧은 시간 내에 완료할 수 있습니다.


빅데이터 분석 목적은 기존에 분석할 수 없었던 비구조화 데이터들의 분석입니다. 저렴한 Hadoop 인프라에 비구조화된 데이터들을 축적하고, 기존 정보계 시스템인 DW데이터들과 병합하여 분석하면, 과거에 힘들었던 새로운 관점으로 데이터 분석이 가능해집니다. 또한, 전사에서 보유하고 있는 데이터의 활용도와 효율성이 증대합니다.


 역할과 기능 검증을 넘어 본격 활용 단계로


금융권에서는 10억 미만 규모의 Pilot 프로젝트들을 통해 빅데이터에 대한 역할과 기능 검증을 하고 있으며, 일부 금융사에서는 실제 업무에 적용하여 효과를 체험하는 등 적용사례가 늘어나고 있습니다.


Hadoop 관련 기술들도 OSS(Open Source Software)라는 불안감을 불식시키는 한편 기업에서 필요로 하는 보안, 자원관리, 가용성 보장 등이 가능해지고 있으며, 메모리상에서 작동하는 Spark 기술도 발전하고 있습니다. IT 개발자들에게 가장 친숙한 언어인 SQL(Structured Query Language)을 Hadoop에서 지원하는 SQL on Hadoop 기술의 발전도 Hadoop 환경 확산에 기여하고 있습니다.


내년과 내후년에도 HIA 기반의 대형 적용사례들이 늘어날 것으로 예상되는데요. 빅데이터의 본격 활용 시대가 머지 않은 것 같습니다. 여러분도 기대해 주십시오. 


글 ㅣ LG CNS 빅데이터 사업담당



해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.




저작자 표시 비영리 변경 금지
신고
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS
위로