본문 바로가기

BigData

돈을 부르는 빅데이터, 기업의 운명을 바꾼다 빅데이터가 새로운 부를 창출하는 무기가 되고 있습니다. 판도라, 스포티파이, 알디오 등은 개인이 한두 가지 음악만 들어도 취향을 정확히 알아내 맞춤형 음악 서비스를 제공하는데요. 음원이 디지털로 바뀌면서 LP, 카세트테이프, CD로 이어졌던 기존 음악 시장이 붕괴될 정도로 지각 변동이 일어나고 있습니다. 음원 시장, 빅데이터 시장으로 바뀌다 반면에 음원 다운로드와 유료 스트리밍 서비스는 새로운 빅데이터를 끊임없이 만들어내고 있습니다. 스포티파이, 애플 뮤직, 판도라는 빅데이터를 활용해 고객이 가장 좋아하는 콘텐츠를 예측하는 맞춤형 서비스로 음악 콘텐츠 분야 최고의 빅데이터 업체가 됐습니다. 특히 스포티파이는 ‘취향 저격’ 서비스로 세계 1위 음원 스트리밍 기업이 됐습니다. 스포티파이는 이용자가 어떤 노래.. 더보기
Big Data 속 커져가는 개인정보, 공개와 보호의 딜레마 많은 기업들은 사용자의 개인정보를 활용해 선호도를 분석하고, 분석 결과를 맞춤형 광고 및 추천 서비스 등 다양한 영역에 활용하고 있습니다. 수집, 활용하는 사용자의 정보가 많고 직접적일수록 의미 있는 정보 분석 결과를 도출할 수 있는데요. 실제로 사용자의 웹 쿠키 기록만을 가지고 복잡한 알고리즘을 통한 정보 분석보다 페이스북의 ‘좋아요’ 버튼 기록을 분석하는 것이 사용자 선호도 분석에 있어, 알고리즘의 난이도에 비해 높은 정확도를 보여준다는 것이 업계의 설명입니다. 이는 ‘좋아요’ 기록에는 일반적으로 사용자의 사회관계망(Social Network) 정보와 명시적인 의사 표현이 복합적으로 반영되어 있기 때문입니다. 그러나, 기업들의 개인정보 활용을 통한 서비스는 사용자들에게 항상 가치 있는 서비스로만 다가.. 더보기
빅데이터 처리를 위한 IT기술 빅데이터는 다양한 형태의 데이터가 매우 빠르게 쌓입니다. 빅데이터는 기존 데이터가 쌓이는 방식보다 훨씬 많은 양의 데이터가 쌓여, 그 크기가 엄청난데요. 그만큼 단순히 스프레드시트와 개인 PC로 데이터를 다루기는 한계가 있습니다. 그렇기 때문에, 그 범위를 넘어 거대해진 데이터를 효율적으로 처리하는 방법을 찾고 있습니다. 빅데이터 처리에 특별한 기술이 필요한 이유 빅데이터 처리를 위해서는 강력한 컴퓨팅 파워를 가지고 빠르게 데이터를 처리할 수 있는 하드웨어가 필요합니다. 이 문제를 해결하는 방법은 하드웨어를 훨씬 좋은 성능의 장비로 대체하는 Scale-up 방식과 여러 대의 하드웨어를 연결하여 병렬적으로 데이터를 처리하는 Scale-out 방식이 있습니다. Scale-up 방식은 비용 대비 효과가 작고,.. 더보기
빅데이터 시각화 분석 ② 지난 1편에는 데이터를 시각화하는 ‘정보 시각화 방법 다섯 가지’를 알아봤는데요. 이번 시간에는 빅데이터 시각화의 범위 및 빅데이터 시각화 절차와 도구 등에 대해 자세히 소개해 드리도록 하겠습니다. ● 빅데이터 시각화 분석 ①: http://blog.lgcns.com/1208 빅데이터 시각화의 범위 l 정보 디자인에서 빅데이터 시각화 영역 (출처: 한국데이터베이스진흥원의 데이터 분석 전문가 가이드 도서, 재구성) 앞서 언급한 대로 빅데이터 시각화는 정보 시각화에 가깝습니다. 빅데이터 시각화는 데이터를 기반으로 객관적 표현에 더 초점을 맞추는 경우가 많으므로, 정보형 메시지를 전달하기 위한 데이터 시각화와 일맥상통합니다. 반면 데이터 자체보다는 데이터를 기초로 해석된 의미의 설득형 메시지를 전달하기 위한 .. 더보기
빅데이터 시각화 분석 ① 지금 머릿 속으로 데이터 시각화를 떠올렸을 때 어떤 이미지가 보이시나요? 강의에서, 블로그에서, 책에서, 어디서든 데이터 시각화라는 단어를 보았을 때 떠오르는 그림이 있을 것입니다. 이러한 이미지들이 갖는 공통점이 있다면 무엇일까요? 그것은 바로 흥미로운 이야기를 담고 있다는 점입니다. 데이터가 전하는 이야기가 당신의 행동을 바꾸도록 설득했을 수도 있고, 새로운 정보로 통찰력을 주었을 수도, 현실의 고정관념에 질문을 던지게 했을 수도 있습니다. 크건 작건, 기사의 이미지였건 프레젠테이션 슬라이드였건 간에 자신의 이야기를 분명하고 직관적으로 전달하고 있습니다. 빅데이터 시대에 규모를 가늠할 수 없을 정도의 수많은 정보가 쏟아지면서, 누구든 이 정보들 중에서 필요한 자료들을 정리하고 다양한 분석 결과를 모두.. 더보기
하둡 기반 데이터 웨어하우스 모델링 데이터 웨어하우스(Data Warehouse)는 십 수년간 기업의 의사결정 및 분석을 위한 가장 강력한 엔터프라이즈 애플리케이션의 지위를 유지해 왔는데요. 데이터 웨어하우스를 지원하는 수많은 애플리케이션들도 함께 발전해 왔습니다. 여기에는 수많은 하드웨어와 소프트웨어 벤더들이 제공하는 전통적인 OLAP과 ETL 툴들, 데이터베이스와 서버를 통합한 데이터 웨어하우스 어플라이언스(DW Appliance)들과 인-메모리(In-Memory) 데이터베이스, 비주얼라이제이션(Visualization) 툴 등이 포함됩니다. 빅데이터와 함께 발전하고 있는 하둡 에코시스템에도 데이터 웨어하우스 구축을 위한 다양한 기술 세트가 포함되어 있습니다. 예를 들어, 아파치 하이브는 SQL을 이용하여 분산 스토리지 환경에 저장된 .. 더보기
빅데이터 시대, 자연어 기반의 빠른 검색이 온다 이제 우리는 무엇인가 궁금한 것이 있으면 하루에도 몇 번씩 구글이나 네이버의 검색을 활용하는 것이 일상이 되어버렸습니다. 너무도 많은 정보가 넘쳐나는 빅데이터 시대, 검색은 매우 편리한 도구죠. 하지만 저는 가끔씩 이런 생각을 해봅니다. '내가 입력한 단어만으로도 내가 무엇을 찾고자 하는지 이해해서, 정확히 필요한 페이지를 바로 찾아주면 안되나?’ ‘꼭 이렇게 많은 페이지를 내가 일일이 또 확인해야 하나?’ ‘단어로 바로 이해하지는 못하더라도, 질문을 입력하면 꼭 맞는 정보만 찾아주면 안되나?’ ‘제공되는 결과를 내가 원하는 형식으로 보여주면 안되나?' 이런 일이 가능하다면, 참 좋은 것 같은데 말입니다. 필요는 결과를 만들어 냅니다. 이러한 요구는 최근에 지능형 검색이라는 이름으로 연구되고 있는데요. .. 더보기
빅데이터를 친구로 만드는 첫 걸음, 바라보는 관점 바꾸기 ② 지난 글에서 짚어본 문제점에 대한 해결책으로 HBase 기반의 Big Table System을 제시했는데요. 지금부터는 그 처방과 효과에 대해 살펴보겠습니다. 조치된 빅데이터 처방 Redis와 HBase로 구성된 Data Caching System으로 Read 집중 문제를 해결하고 HBase만으로 구성된 Big Table로 Write 집중 문제를 해결합니다. ORACLE을 대치하지 않고 NoSQL과 RDBMS 각각의 장점을 융합한 Hybrid 구조입니다. Big Table은 구현되지 않았기 때문에 본 글에서 이야기 하지 않겠습니다. l Fig. 1 개선 후 아키텍처 ① 데이터의 특성 시스템의 데이터는 공통 정보와 사용자 개인화 정보 그리고 개인화 이력 정보로 나눌 수 있습니다. 공통 정보는 Master .. 더보기