IT Solutions/Big Data

인공지능과 빅데이터를 위한 정보 분석 아키텍처 1편, LDW

2018.07.31 09:30

IDC는 2020년, 전 세계 데이터가 44 제타바이트에 이를 것으로 전망했습니다. 모바일, 소셜 미디어, IoT 등 디지털 기술의 발달로 데이터는 폭증하고 있는데요. 발생 데이터 80% 이상이 비정형 데이터로 그 종류도 다양합니다. 바야흐로 데이터의 빅뱅, 빅데이터 시대라 할 수 있습니다. 하지만 기존 정보 분석 환경은 정형 데이터를 기본으로 하고 있어, 다양하고 방대한 양의 데이터 처리가 어려운 실정입니다.



오픈소스의 발달로 빅데이터 처리가 가능해진 하둡(Hadoop)의 등장에 따라 저렴한 비용으로 대량의 데이터를 저장할 수 있게 되었고, 분산 병렬 처리를 지원하여 빅데이터 처리와 분석이 가능하게 되었습니다.


기업들은 이미 구축해 각종 분석에 활용하고 있는 정형 데이터 중심의 데이터 웨어하우스(Data Warehouse) 시스템과 비정형 데이터의 저장뿐 아니라 대량의 정형 데이터를 분산 병렬 처리해 분석할 수 있도록 지원해 주는 하둡 환경과의 통합을 요구하고 있는데요. 기존의 데이터 웨어하우스와 빅데이터의 핵심 기술인 하둡을 통합해 추상화한 정보 분석 아키텍처로서 가트너(Gartner)에서 제시한 개념이 로지컬 데이터 웨어하우스(Logical Data Warehouse)입니다.


 LDW(Logical Data Warehouse)의 정의


정형 데이터뿐만 아니라 비정형 데이터까지 분석 가능한 데이터 관리 아키텍처로, 기존의 EDW(Enterprise Data Warehouse)를 포함하는 상위 아키텍처입니다. 시장에서는 Hybrid DW(Data Warehouse)라고도 하며 LG CNS에서는 HIA(Hybrid Information Architecture)라고 불리고 있습니다


LDW 즉, 로지컬 데이터 웨어하우스의 등장 배경은 다음과 같습니다.


  • 스마트 환경의 도래로 개인들이 생산하는 소셜 정보, 음성, 영상, 이미지 데이터의 폭증

  • 다양한 내•외부 IoT 데이터를 연계하여 분석할 필요성 대두

  • 운영 시스템의 기능이 복잡해지고, 활용이 증가함에 따라 IT시스템으로부터 생성되는 데이터 급증

  • 각종 시스템으로부터 발생되는 대량의 로그성 데이터들을 저장하기에는 비용이 많이 필요하였으나, 저가의 디스크를 이용한 저장이 가능해지면서, 과거에는 활용하지 못하던 로그성 데이터들에 대한 활용 요구 증가

  • OSS(Open Source Software)의 성숙도가 향상되고, 분산 병렬 처리를 지원하는 다양한 소프트웨어들이 출시되면서 저렴한 비용으로 대용량 처리를 할 수 있는 기반이 갖추어짐


로지컬 데이터 웨어하우스는 기존의 데이터 웨어하우스와 다른 개념이 아니라 빅데이터 기술을 포함하는 확장된 개념으로 과거에는 비용과 처리 속도 등으로 분석하지 못하던 데이터까지 분석할 수 있도록 지원합니다.



로지컬 데이터 웨어하우스가 가지는 중요한 특징은 아래와 같습니다.


  • 비용 절감: DBMS에 저장하기에 비용이 과다한 데이터들은 오픈소스 기반의 Hadoop을 이용하여 상대적으로 저렴하게 관리가 가능하며, 하드웨어•소프트웨어 증설에 따른 비용 절감 가능

  • 분석의 적시성 확보: 대용량 데이터의 신속한 분산 병렬 처리를 통한 장시간 소요되던 배치 작업 시간을 단축하여 분석에 필요한 데이터들의 적시 제공 가능

  • 데이터 효용성 증대: 데이터 웨어하우스에서 관리되는 고품질의 정형 데이터들과 비정형 데이터를 결합하여 분석이 가능함에 따라 데이터의 효용성 증대

  • Scale-Out이 가능한 인프라 구성: 하둡 기반의 빅데이터 시스템들은 Scale-out을 통한 선형적인 성능 향상이 가능, LDW는 이런 오픈소스 기반의 기술을 활용하여 성능 확보 가능


기존 데이터 웨어하우스에 익숙한 사람들의 이해를 돕기 위해 빅데이터를 포함하는 로지컬 데이터 웨어하우스를 활용 목적, 데이터 특징, 주 사용자 및 기술 측면에서 비교해 보았습니다.


l 데이터 웨어하우스와 로지컬 데이터 웨어하우스의 비교


 LDW(Logical Data Warehouse)의 구성 요소


가트너에서는 아래와 같이 로지컬 데이터 웨어하우스의 구성 요소들을 추상화해 아래와 같이 표현합니다.


l 로지컬 데이터 웨어하우스 구성도


● Repository Management

  • 컴플라이언스 이슈나 법규, 법령 관련한 보고서들에 대한 데이터들은 고품질의 데이터가 필요하므로 세밀한 관리가 필요함

  • 정부 기관이나 상위 기관에 데이터를 제공하기 위해서는 RDBMS나 데이터 웨어하우스 전용 DBMS에 데이터를 저장하여 관리함

  • 대량으로 발생하는 센서 데이터, 비정형 데이터들은 저장 비용과 데이터 처리 성능을 고려해 Repository로 HDFS(Hadoop Distributed File System)를 사용 가능함


● Data Virtualization

  • 데이터 타입(문자, 숫자, 날짜 등), 데이터의 위치, 데이터 구조(정형, 반정형, 비정형)에 상관없이 분석에 필요한 데이터들의 Single View를 제공하는 기술  

  • 데이터는 원천에 있으면서 가상의 View를 통한 데이터 활용이 가능 

  • 대량의 데이터 처리가 필요한 경우 Data Virtualization Layer의 병목이 발생 가능할 수 있으므로 성능 개선이나 타당성에 대한 검토가 필요함


● Distributed Processing

  • 대량의 데이터에 대해 분석 작업과 질의 작업을 위해서는 하나의 서버로 처리가 불가능함 

  • 서버 자원의 분산처리, 데이터에 대한 분산 처리를 통해 대량 데이터 처리가 가능 

  • 데이터를 여러 개의 디스크로 파티션하여 저장할 수도 있음  

  • 분산 처리가 완료된 후 그 결과들은 하나로 취합되어 요청자에게 전달됨


● Metadata Management 

  • 로지컬 데이터 웨어하우스에서 활용되고 관리되는 모든 데이터의 메타 데이터들의 관리는 매우 중요함 

  • 메타 데이터의 종류는 기술적 메타 데이터, 업무적 메타 데이터, 정보 메타 데이터로 구분할 수 있음  

  • 기술적 메타 데이터는 로지컬 데이터 웨어하우스의 개별 시스템으로 발생하는 메타 데이터로 Data Virtualization에서 생성되는 메타 데이터가 예가 될 수 있음  

  • 업무적 메타 데이터는 사용자 관점에서 업무에 필요한 메타 데이터로 데이터에 대한 정의로 볼 수 있음(예, 매출에 대한 정의, 비용에 대한 정의 등)  

  • 정보 메타 데이터는 데이터의 원천에서부터 활용까지 이어지는 데이터 흐름에 대한 정보를 말함 

  • 메타 데이터는 데이터 품질관리, 마스터 데이터 관리, 데이터 거버넌스 등에 중요함


● Taxonomy•ontology resolution

  • 연관된 데이터들을 결합해서 분석하기 위해 필요한 데이터 간 연관 정보, 데이터 집합에 대한 분류 체계들을 의미함  

  • Metadata management에서 언급한 메타 데이터 분류 중 정보 메타 데이터에 해당함


● Auditing and performance services

  • 데이터 원천으로부터 데이터를 추출하여 분석 목적에 적합하도록 가공하고 repository에 저장하는 일련의 처리 작업과 이런 처리 작업의 정해진 시간에 종료하기 위한 성능 개선 작업을 말함

  • 데이터의 생성부서 최종 사용자에게 제공되는 모든 과정은 모니터링되고 각 단계에 대한 로그는 관리되어 향후 서비스 개선에 활용


● SLA management 

  • 데이터 웨어하우스의 데이터를 분석하고 질의를 하는 사용자들의 서비스 수준을 관리(분석 성능, 리포트 조회 성능, 데이터 정합성 수준 등)

  • 고품질의 로지컬 데이터 웨어하우스 데이터를 활용하는 시스템(CRM, 사기탐지, 리스크 관리, 자금세탁방지 등)에 대한 적시, 적기에 필요 데이터 제공 서비스


 LDW(Logical Data Warehouse) 아키텍처


로지컬 데이터 웨어하우스 구성도를 데이터 원천부터 활용에 이르기까지 구체적으로 정의하면 아래와 같은 연계 아키텍처로 표현할 수 있으며, 로지컬 데이터 웨어하우스는 붉은 선으로 둘러싸인 영역입니다.


l 로지컬 데이터 웨어하우스 연계 아키텍처


● Data Source

  • Smart Device로부터 발생하는 다양한 정형 비정형 데이터들과 기업 내부에서 발생하는 운영 데이터들이 대상이다.

● Data Collect

  • Data Source로부터 필요한 데이터들은 내•외부망을 통해 수집하며, 수집에 사용되는 기술은 대표적으로 ETL(Extraction, Transformation, Loading)과 CDC(Change Data Capture)가 있다.

● Data Store & Computing: 실제 LDW 영역

  • 실시간 처리나 연속적으로 수집되는 데이터들에 대해서는 Event 처리 기술을 응용하여 대응이 가능하다.
  • IoT 데이터들의 구성 항목은 업무 데이터들에 비해 단순하나, 센서 개수에 비례하여 데이터양이 폭증하므로 빅데이터 플랫폼에 저장하여 활용이 가능하다.
  • 최근에는 기업 내에서 발생하는 모든 데이터를 저장•관리하는 Data Lake가 관심을 끌고 있는데, Data Lake를 효과적으로 활용하기 위해서는 관심 대상이 되는 데이터들에 대한 거버넌스가 필수적이다. 이를 제대로 활용하기 위해서는 어떤 데이터들이 있으며, 그 데이터의 수준과 품질은 어떻게 되는지 파악을 할 수 있어야 분석할 수 있기 때문이다.
  • DW 플랫폼은 운영 시스템에서 발생하는 데이터들을 ETL을 활용하여 수집하고, 다양한 분석에 데이터들을 제공하는 역할을 담당한다. 기업 내 핵심 마스터 데이터들도 DW 플랫폼에 취합되므로, 이런 표준 데이터들은 빅데이터 플랫폼에 공유되어 활용할 수 있도록 하고, 10년 이상 된 DW 플랫폼의 데이터는 효율적인 DW 플랫폼의 저장 공간 활용을 위해 빅데이터 플랫폼을 archive 영역으로 활용이 가능하다.

● Application

  • 빅데이터 플랫폼과 DW 플랫폼에 저장•관리되는 데이터들은 다양한 영역에서 응용할 수 있다.

● Data Analysis

  • 원천으로부터 수집되어 가공된 데이터들은 고급 분석, 통계 분석 등에 활용이 가능하고 시각화 분석을 할 수 있다.



로지컬 데이터 웨어하우스의 연계 아키텍처는 다양한 활용 방안을 포괄하고 있습니다. 세부적으로 활용 유형을 정리해 보면 다음과 같습니다.


● IoT 플랫폼

  • 다양한 센서들, 스마트 디바이스로부터 발생하는 데이터 중심으로 빅데이터 플랫폼을 구성하고, 여기에 수집된 데이터들은 M2M 기반 서비스, 에너지 서비스 등 IoT 서비스 플랫폼에서 활용할 수 있다.

● Hybrid DW

  • 규모가 큰 기업들은 보고서 작성과 분석 목적으로 DW를 보유하고 있다.

● Data Analytics

  • 분석에 필요한 모든 데이터를 취합하여 제공하는 역할을 담당한다.

● Data Virtualization

  • 별도의 가상화 도구를 활용하여 실제 데이터들은 각각 두고, 필요 시점마다 데이터를 취합하여 활용할 수 있다.


l 로지컬 데이터 웨어하우스 연계 아키텍처의 활용 유형


지금까지 로지컬 데이터 웨어하우스의 개요와 특징 그리고, 로지컬 데이터 웨어하우스는 어떻게 구성되는지에 대해 알아봤습니다. 이어서 다음 시간에는 로지컬 데이터 웨어하우스의 적용 사례에 대해 알아보겠습니다.


글 l LG CNS AI빅데이터사업담당


* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.



Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS
위로