본문 바로가기

비정형 데이터

잠자는 보물, 다크 데이터 지금 사용하는 개인 컴퓨터를 살펴보면 다양한 폴더와 파일이 자리 잡고 있습니다. 폴더에 담긴 파일은 데이터입니다. 이러한 데이터 중 최근 생성한 파일, 혹은 자주 사용하는 파일 외에 얼마나 많은 데이터를 활용하고 있을까요? 폴더에는 문서 파일, 이미지 및 영상 파일, 유틸리티 프로그램을 비롯해 공간 효율을 위해 압축해둔 파일 등이 있습니다. 그런데 폴더를 보면 재생한 지 오래된 음악 파일이나, 과거의 회의 자료와 각종 문서가 그대로 쌓여 있습니다. 언제 다운로드했는지 혹은 만들었는지 기억조차 없는 파일이 있습니다. 이처럼 수많은 데이터가 저장되어 있지만 활용하지 않는 데이터를 ‘다크 데이터(Dark Data)’라고 합니다. 다크 데이터는 다른 데이터와 연결되지 않고 고스란히 남아 있습니다. 사용자조차 존.. 더보기
딥러닝, 데이터로 세상을 파악하다(1) 최근 몇 년 전부터 지금에 이르기까지 산업계에서 가장 화두가 되는 단어 중 하나는 바로 AI(Artificial Intelligence), 즉 인공지능입니다. ‘인공지능’이라 함은 넓은 의미에서는 인간의 합리적인 사고나 행동을 모방해 자동화한 프로세스를 일컫는대요. 간단하게 생각하면 숫자와 연산기호 버튼만 눌러서 자동으로 값을 계산해 주는 계산기도 일종의 인공지능이라고 볼 수 있겠습니다. 인간이 매번 필요할 때마다 일일이 셈을 계산하지 않고도 자동으로 계산을 도와주니까요. 하지만 이런 자동화 프로그램은 예전부터 있었으며, ‘인공지능’이라고 거창하게 부르지도 않았습니다. 최근에 학계와 산업계에 불고 있는 AI 열풍은 이렇게 단순히 ‘규칙의 자동화’를 지칭하는 넓은 의미의 인공지능이 아닐 겁니다. AI, M.. 더보기
인공지능 시대, 인공지능 하드웨어의 현재 상황은? 인공지능(AI)은 어느덧 일반적인 기술이 되어 이미지 인식과 음성인식 이외에도 다양한 영역으로 확산 중입니다. 인공지능 확산에 크게 기여한 요인으로는 딥러닝 알고리즘의 진화와 더불어 GPU의 활용을 들 수 있는데요. GPU는 슈퍼컴퓨터 대신에 수천 개의 코어를 한 장의 GPU 카드만으로 구동시킬 수 있도록 하여 많게는 매번 수억 번의 연산을 해야 하는 딥러닝 알고리즘의 대중화를 가능하게 했습니다. 그러나 GPU는 전력 소모가 크고 발열이 심해 디바이스에 탑재하기 어려우며 또한 CPU처럼 분산 환경을 구성하여 클라우드를 구현하기도 어렵습니다. 인공지능 하드웨어의 진화 대규모의 인식 서비스를 위해서 수백 대의 GPU 서버를 활용해야 하고, 서버 기반이기 때문에 실시간 성능에 제약이 발생하는 상황에서 이를 극.. 더보기
인공지능과 빅데이터를 위한 정보 분석 아키텍처 2편, LDW 지난 시간에는 인공지능과 빅데이터를 위한 정보 분석 아키텍처 로지컬 데이터 웨어하우스(Logical Data Warehouse)의 정의와 구성 요소에 대해 알아봤습니다. 이번 시간에는 로지컬 데이터 웨어하우스의 적용 사례와 동향에 대해 알아보겠습니다. ● 인공지능과 빅데이터를 위한 정보 분석 아키텍처: http://blog.lgcns.com/1775 LDW(Logical Data Warehouse)의 적용 사례 LDW라는 개념은 2~3년 전에 제시되었고, 다양한 활용 사례들이 있는데요. 그중에서 빅데이터 기술을 활용해 저렴한 저장 공간을 활용한 사례와 분산 병렬 처리를 이용한 배치 속도 개선 사례를 함께 알아보겠습니다. ● 데이터 아카이빙 영역으로 빅데이터 플랫폼 활용생산 공정 과정에서 발생하는 대부분 .. 더보기
인공지능과 빅데이터를 위한 정보 분석 아키텍처 1편, LDW IDC는 2020년, 전 세계 데이터가 44 제타바이트에 이를 것으로 전망했습니다. 모바일, 소셜 미디어, IoT 등 디지털 기술의 발달로 데이터는 폭증하고 있는데요. 발생 데이터 80% 이상이 비정형 데이터로 그 종류도 다양합니다. 바야흐로 데이터의 빅뱅, 빅데이터 시대라 할 수 있습니다. 하지만 기존 정보 분석 환경은 정형 데이터를 기본으로 하고 있어, 다양하고 방대한 양의 데이터 처리가 어려운 실정입니다. 오픈소스의 발달로 빅데이터 처리가 가능해진 하둡(Hadoop)의 등장에 따라 저렴한 비용으로 대량의 데이터를 저장할 수 있게 되었고, 분산 병렬 처리를 지원하여 빅데이터 처리와 분석이 가능하게 되었습니다. 기업들은 이미 구축해 각종 분석에 활용하고 있는 정형 데이터 중심의 데이터 웨어하우스(Dat.. 더보기
데이터 전처리 과정을 자동화해주는 도구, SSDP SSDP(Self Service Data Preparation)는 BI/DW에서의 데이터 전처리 도구(Data Preparation Tools)의 차세대 버전으로, 데이터 전처리 과정을 자동화 및 지능화해 주는 도구입니다. 비즈니스 사용자의 데이터 분석을 지원하는 기술인 ‘셀프서비스 BI’가 데이터 준비 절차인 ‘셀프서비스 데이터 프레퍼레이션’으로 확장된 것입니다. 가트너는 ‘SSDP는 현업 사용자가 분석을 수행할 때 다양한 원천 데이터 소스와 각종 분석 도구의 중간인 데이터 전처리 과정(데이터 탐색, 통합, 카탈로깅, 정제, 변환, 모델링 등)에서 요구되는 복잡도와 소요시간을 줄여주는 도구’라고 정의하고 있습니다. l SSDP 개요 SSDP 등장 배경 인공지능과 빅데이터의 급부상으로 인해 현업 사용자가.. 더보기
빅데이터로 선거 결과도 예측할 수 있다! 20년 전, 세계 시가총액 1위와 2위 기업은 코카콜라와 GE였습니다. 그 당시에도 IT 기업 열풍이 전 세계를 강타하고 있었지만, 마이크로소프트와 인텔 그리고 IBM 정도만이 IT 기업으로서 시가총액 상위에 이름을 올리고 있었고, 대부분 상위 기업은 당시 잘 나가는 제조업 기반 기업이었습니다. 20년이 지난 현재, 시가총액 1위와 2위 기업은 구글과 애플이 차지하고 있습니다. 애플은 20년 만에 시가총액이 약 220배가량 늘었으며, 구글은 그 당시 상장하기 전이라 순위도 없었습니다. 그 밖에 마이크로소프트, 아마존, 페이스북 등의 IT 기업이 시가총액 상위 그룹을 형성하고 있습니다. 불과 20년 만에 세계 경제를 이끌어가는 업종의 패러다임이 바뀌었다고 할 수 있습니다. l 구글에서 제공하는 빅데이터 플.. 더보기
무한 경쟁에서 살아남기 위한 열쇠, 빅데이터 최근 세계적으로 빅데이터에 대한 관심이 높아지면서 많은 기업들이 빅데이터를 이용한 새로운 비즈니스 모델 창출에 집중하고 있습니다. 빅데이터는 2011년을 기점으로 국가의 미래를 결정하는 매우 중요한 개념으로 인식되어, 주요 선진국에서는 빅데이터가 창출하는 경제적 파급효과를 앞다퉈 발표하며 이와 관련한 R&D(Research and Development)에 많은 금액을 투자하였습니다. 많은 전문가들이 빅데이터의 정의를 다양하게 내놓고 있지만, 공통적으로 이야기하는 키워드는 대용량 데이터베이스, 정형 및 비정형 데이터의 활용, 그리고 이를 이용한 새로운 가치 추출 정도로 요약해 볼 수 있습니다. 즉, 빅데이터란 대용량의 정형 및 비정형 데이터 속에서 지금까지 알지 못했던 규칙이나 패턴들을 찾아내어 새로운 가.. 더보기