IT Solutions/Big Data

빅데이터 시각화 분석 ①

2016.09.26 09:30

지금 머릿 속으로 데이터 시각화를 떠올렸을 때 어떤 이미지가 보이시나요? 강의에서, 블로그에서, 책에서, 어디서든 데이터 시각화라는 단어를 보았을 때 떠오르는 그림이 있을 것입니다. 이러한 이미지들이 갖는 공통점이 있다면 무엇일까요? 


그것은 바로 흥미로운 이야기를 담고 있다는 점입니다. 데이터가 전하는 이야기가 당신의 행동을 바꾸도록 설득했을 수도 있고, 새로운 정보로 통찰력을 주었을 수도, 현실의 고정관념에 질문을 던지게 했을 수도 있습니다. 크건 작건, 기사의 이미지였건 프레젠테이션 슬라이드였건 간에 자신의 이야기를 분명하고 직관적으로 전달하고 있습니다. 

 

 

빅데이터 시대에 규모를 가늠할 수 없을 정도의 수많은 정보가 쏟아지면서, 누구든 이 정보들 중에서 필요한 자료들을 정리하고 다양한 분석 결과를 모두가 쉽게 알아볼 수 있도록 효과적으로 전달하기 위한 방식들을 고민하고 있습니다. 


전통적인 데이터 시각화 방법은 단순히 스프레드시트를 통해 테이블로 데이터를 요약하고 결과물을 그래프로 보여주는 정도였지만, 이제는 빅데이터 속에 숨겨진 의미를 찾아 전달하고 분석 과정에 스토리텔링을 담는 등 다양한 시각화의 기술이나 방법이 연구되고 있습니다.

 

 정보 시각화


빅데이터 시각화(Big Data Visualization)는 빅데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하여 전달하는 과정을 말하는 것으로 분석에서 나타난 정보를 효과적으로 전달하는 것입니다. 따라서 빅데이터 시각화를 이해하기 위해서는 정보 시각화(Information Visualization)를 먼저 이해해야 합니다. 


정보 시각화는 보통 대규모 수량•비수량 데이터를 색채, 통계(도표, 그래프 등), 이미지 등을 활용해서 시각적으로 표현하는 것을 의미합니다. 정보의 시각화 방법으로는 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 그리고 공간 시각화가 있습니다. 


이렇게 다양한 시각화 방법을 통해 보는 사람의 흥미를 유발하고, 정보를 습득하는 시간을 단축 시켜 빠른 상황 판단을 도울 수 있습니다. 또한 정보를 빠르게 확산시킬 수 있고, 한 번 보고도 자료를 오래 기억할 수 있으며, 무엇보다도 정보에 대해 효과적으로 커뮤니케이션 할 수 있습니다.


l 정보 시각화 방법 (출처: 네이선 아우(Nathan Yau)의 비주얼라이즈 디스 도서)


① 시간 시각화

 

우리는 매일의 일상 속에서 시간을 봅니다. 시간은 컴퓨터에도, 시계에도, 휴대폰에도, 눈에 보이는 많은 곳에 있는데요. 시계가 없더라도 일어나야 할 시간과 잠들어야 할 시간을 스스로 느끼고 있을만큼 시간에 대한 데이터는 우리에게 매우 자연스럽습니다. 시계열 데이터(Time series data), 즉 시간에 관련된 데이터의 가장 특징은 트렌드(Trend) 경향성입니다. 


시간이 흐름에 따라 사람들의 생각이 바뀌고, 인구분포도 변하며, 사업은 확장됩니다. 이러한 변화가 얼마나 있었는지 측정해서 기록하면 시계열 데이터가 되는데요. 변화의 패턴을 찾으려면 개별적인 데이터보다 전체 그림을 볼 수 있어야 합니다. 한 가지 구간의 값에 대해서만 의미를 말하기 보다 전후 관계를 감안하면 더 의미있는 이야기를 전달할 수 있습니다.

 

l 사람들은 언제 가장 많이 헤어질까 (출처: TED_David McCandless - The beauty of data visualization)


그 예로 페이스북의 상태 정보 데이터를 추출하여 사람들의 이별 시기를 분석한 라인 차트를 볼 수 있습니다. 봄과 겨울에 가장 이별을 많이 하며, 만우절과 여름휴가 기간에 평소보다 더 많이 이별하는 경향이 있습니다. 


계절이 아닌, 요일별로 분석해보면 어떨까요? 고통스러운 주말을 보내다가 매주 월요일이면 페이스북 상태를 ‘깨짐’, ‘헤어졌음’으로 바꾼다는 흥미로운 사실도 확인해 볼 수 있습니다. 


시간 시각화는 이렇게 큰 그림과 디테일 모두를 간과해서는 안됩니다. 특별한 이벤트로 인한 예외적인 경우는 있는가, 유난히 눈에 띄는 구간이 있는가, 급격한 변화(증가나 감소 지점)가 있는가, 일정한 규칙이 있는가 등 데이터 분석가의 안목과 판단이 필요합니다.

 

② 분포 시각화

 

분포 데이터(proportional data)도 시계열 데이터와 비슷합니다. 다만 분포 데이터의 구분 단위는 시간이 아니라 분류, 세부 분류, 가짓수입니다. 분포 데이터에서 말하는 가짓수는 가능한 선택이나 결과들을 의미합니다. 분포 데이터의 일반적인 특성은 최대(Maximum), 최소(Minimum), 전체 분포(Overall distribution)입니다. 


한 끼 식사의 칼로리 분포 데이터를 표현하려 한다면, 먹은 음식 중에서 가장 많은 칼로리를 섭취한 음식과 가장 적은 칼로리를 섭취한 음식이 최대, 최소에 해당합니다. 칼로리가 지방, 단백질, 탄수화물 등의 여러 영양소에서 골고루 섭취되고 있는가, 어느 한 영양소에 의존적으로 섭취되고 있는 것은 아닌가를 확인할 때 전체 분포를 보게 됩니다.

 

l 전세계 빌리언 달러 지출 분포 (출처: TED_David McCandless - The beauty of data visualization)

 

위의 그림은 맥락을 모르면 무의미한 도표지만, 의미를 알게 되면 수십억 단위의 지출 규모가 어떤 규모로, 어떠한 동기로 발생했는지 알 수 있는 트리맵 차트입니다. 크기는 지출 규모를, 색상은 지출 동기를 나타내며 보라색은 분쟁, 빨간색은 기부, 녹색은 소득을 나타냅니다. 


석유 수출국 기구(OPEC)는 매년 7,900억 달러의 소득을 얻고 있지만 기후 변화를 위한 기금은 겨우 30억 달러에 불과합니다. 이라크 전쟁 비용은 현재 3조 달러에 해당하며, 세계 금융 위기로 전 세계가 지고 있는 빚은 11조 9천억 달러입니다. 


또한 지출 동기간 비교를 해보았을 때는 분쟁과 소득의 지출 규모가 거의 유사하다는 사실을 직관적으로 확인할 수 있습니다. 이와 같이 트리맵 차트를 활용하면 사각형의 크기를 통해 분포 정보를 파악하고, 색깔을 통해 세부 분류 간의 분포 비교 분석이 가능합니다.

 

③ 관계 시각화

 

통계학(Statistics)은 데이터 간의 관계를 찾는 학문입니다. 집단 간의 어떤 유사점이 있는가? 집단 내부의 소집단에는? 통계학의 관계 중에 가장 널리 알려진 관계라면 단연 상관관계(Correlation)가 있습니다. 


상관관계란, 이를테면 키와 몸무게 같은 관계(일반적으로 키가 크면 체중도 큰 경향이 있음)를 말합니다. 


하지만 우리네 일상이 그렇듯(반드시 키가 크다고 해서 체중이 크지 않은 경우도 있음) 데이터의 관계는 단순히 선형 관계가 아닌, 더 많은 옵션과 비선형 관계 패턴에 의해 얼마든지 더 복잡해질 수 있습니다. 어려운 이론은 이제 그만 잊고 바로 시각화 분석을 통해 확인해보겠습니다.

 

l 미국의 주별 살인, 범죄 발생 빈도 (출처: https://goo.gl/FufbhD)

 

관계 시각화를 가장 잘 보여주는 그림은 버블 차트입니다. 위의 예시는 미국의 주별 범죄 발생 빈도 데이터를 활용해서 표현했으며, 총 네 가지 변수 간의 관계를 한 눈에 파악할 수 있습니다. x축은 인구 10만 명당 살인자 수이고 y축은 인구 10만 명당 절도범 수에 해당하며, 원의 크기는 미국의 각 주별 인구 수이고 색깔은 각 주별 범죄 횟수에 해당합니다. (빨간색일수록 범죄가 상대적으로 많이 발생하며 파란색일수록 상대적으로 적게 발생함) 


일반적으로 우리는 인구가 많은 주에 살인자나 절도범의 수가 많을 것이라고 생각합니다. 대개 그렇지만 텍사스나 캘리포니아, 플로리다처럼 인구 규모가 큰 주가 그래프의 오른쪽 상단(절도범 수와 살인자 수가 많은 구역)에 위치하는 반면, 인구 규모가 작은 루이지애나, 메릴랜드는 훨씬 더 오른쪽에 있습니다. 


이처럼 인구와 범죄자 수의 관계는 예외적인 경우가 있습니다. 반면 절도범이 많은 지역에 대체로 살인자도 많다는 것은 차트의 선형 관계(왼쪽 아래에서 오른쪽 위로 향하고 있음)를 보게 되면 반박하기 어려워 집니다.


십만 건 이상 미국의 주별 범죄 발생 빈도 데이터를 활용하여 그린 단 한 장의 버블 차트 화면을 통해 다양한 관점의 분석이 가능합니다. 이것은 정보 시각화라는 것이 일종의 지식 압축이라는 것을 말해주고 있습니다. 


수많은 데이터로부터 도출된 방대한 지식과 정보를 작은 공간에 압축해 놓은 것입니다. 현재 다양한 시각화 분석 툴들을 활용하여 이러한 버블 차트를 인터랙티브하게(다른 시점이나 다른 관점으로 즉시 변경하여) 분석하거나 애니메이션화하는 것이 가능해지면서 더 빠른 분석과 의사결정이 가능해졌습니다.

 

④ 비교 시각화

 

하나의 변수로 비교하는 것은 매우 쉽습니다. 어떤 집은 다른 집보다 평수가 넓고, 어떤 고양이는 다른 고양이보다 무게가 많이 나갑니다. 간단합니다. 비교해야 할 변수가 둘이 되면 좀 더 어렵긴 하겠지만, 비교가 불가능하진 않습니다. 


한 집은 평수가 더 넓은 반면 더 좁은 화장실이고, 이 고양이는 저 고양이보다 더 무겁지만 털이 더 짧습니다. 이제 분류해야 할 대상이 백 개의 집, 백 마리의 고양이면 어떻게 해야 할까요? 비교해야 할 변수가 더 늘어나서 침실의 수, 마당의 크기, 관리비도 함께 비교해야 한다면 어떻게 해야 할까요? 


결과적으로 비교해야 할 대상의 숫자에 비교하려는 변수의 숫자를 곱한 만큼의 단위 비교 목록을 일일이 체크해야 합니다. 생각만 해도 머리가 아파집니다.

 

l 2008~2009시즌 기준 최고의 NBA 선수 기록 (출처: https://goo.gl/AlT7sa)

 

위의 예제는 2008년의 NBA 농구 선수의 통계 데이터를 활용하여 표현한 히트맵 차트입니다. x축은 선수의 퍼포먼스 항목에 해당하며 y축은 선수의 이름이고, 색깔은 점수입니다. 히트맵은 분석 항목이 많은 만큼 분석에 앞서 시작점을 정해야 합니다. 


위의 차트는 농구에서 가장 중요한 기록인 득점(세 번째 열의 Point)을 분석의 시작점으로 정하고 내림차순으로 정렬했습니다. 첫 줄의 드웨인 웨이드가 가장 높은 득점 기록을 가지고 있고, 마지막 줄의 네이트 로빈슨이 가장 낮은 득점 기록을 가지고 있습니다. 


이러한 분석 시작점을 기준으로 다른 기록 수치의 차이점이나 유사성을 탐색해 볼 수 있습니다. 또한 최고의 리바운드를 기록한 드와이트 하워드와 최고의 어시스트를 기록한 크리스 폴과 같은 특이점 데이터도 쉽게 발견할 수 있습니다.


히트맵의 장점은 전체 데이터를 한 눈에 볼 수 있다는 것입니다. 갖고 있는 데이터가 몇 개의 변수로 구성되었더라도 서로를 분류하거나 단위에 따라 나누어 예외 범위를 찾아낼 수 있습니다. 


서로 완전히 다른 득점률을 기록한 두 농구 선수의 그 밖의 기록 수치가 유사할 수도 있습니다. 차이를 찾아야 할 필요도 있지만, 동시에 유사성 관계도 확인해 볼 수 있는 것이 비교 시각화입니다. 아주 숙련된 스포츠 해설자들처럼 말입니다.

 

⑤ 공간 시각화

 

지도는 직관성을 폭넓게 활용한 시각화의 한 분야입니다. 내비게이션이 발달하고, 길 찾기 어플을 통해 모르는 장소에서도 능숙하게 길을 찾을 수 있는 요즘, 지도는 우리에게 매우 친숙한 시각화 도구입니다. 지도를 읽는 방법은 통계 그래프를 읽는 방법과 대단히 비슷합니다. 


지도의 한 위치를 다른 위치와 비교해보는 것은 관계 시각화 산점도(Scatter) 차트와 유사합니다. 다만 산점도와 달리 지도는 그래프의 x, y 좌표 대신 위도와 경도를 사용하여 좌표를 점으로 정의합니다. 지도상에서 A 지점과 B 지점의 연결 관계는 거리 혹은 이동 시간으로 측정이 가능합니다.


지금까지 그랬듯이 모든 데이터에 시간을 도입하면 매우 흥미롭게 변합니다. 하나의 지도는 시간상의 한 순간만을 반영하고 있지만, 여러 장의 지도를 통해 시간의 여러 단면을 표현할 수 있습니다. 애니메이션 혹은 다른 시점으로의 변경을 통해 특정 지역의 부동산 시세 변화나 인구 성장 비율 등을 살펴볼 수 있습니다.

 

l 대한민국 행정구역별 인구현황 (버블 차트)

 

위의 예제는 시각화 분석 툴을 활용하여 대한민국 행정구역별 인구 현황을 버블 차트로 표현한 자료입니다. 행정구역별 위치 자료에 매출의 규모를 원의 크기로, 인구 수를 원의 색깔로 반영하여 표현했습니다. 


앞서 확인한 관계 시각화의 버블 차트와 달리 점의 위치가 지역 정보를 가지고 있다는 것에서 차이가 있습니다. 인구가 밀집(원의 크기가 큰) 지역의 경우 매출이 높게(원의 색깔이 빨갛게) 표현됨에 따라 인구가 많은 특별시와 광역시의 매출이 높다는 결론을 직관적으로 얻을 수 있습니다. 


동일한 한 장의 지도 차트에서 특정 연도나 성별을 선택하여 시점에 따른 경향이나 그룹별 차이 또한 즉시 확인해 볼 수 있습니다.

 

l 대한민국 행정구역별 인구현황 (코로플레스 차트)

 

지도상에서 표시하는 점은 단지 한 위치만을 표시하는 데 그칩니다. 또한 좌표가 밀집한 구역에서는 점이 모여 있어 가독성을 해치게 됩니다. 도시, 주, 국가, 대륙은 일정한 경계를 갖고 있기 때문에 점이 아닌 영역을 활용하여 데이터를 표현할 수 있습니다. 


이렇게 영역별로 색상을 구분하여 지도에 표시하는 그래프를 코로플레스(Choropleth) 차트라고 합니다. 대신 버블 차트와 달리 색깔로만 데이터를 표현할 수 있기 때문에 한가지 지표에만 집중해서 분석해야 합니다.


다음 시간에는 빅데이터 시각화의 범위 및 빅데이터 시각화 절차와 도구 등에 대해 자세한 내용을 소개해 드리도록 하겠습니다.


글 | LG CNS 빅데이터사업담당



해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.




저작자 표시 비영리 변경 금지
신고
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS
위로