20년 전, 세계 시가총액 1위와 2위 기업은 코카콜라와 GE였습니다. 그 당시에도 IT 기업 열풍이 전 세계를 강타하고 있었지만, 마이크로소프트와 인텔 그리고 IBM 정도만이 IT 기업으로서 시가총액 상위에 이름을 올리고 있었고, 대부분 상위 기업은 당시 잘 나가는 제조업 기반 기업이었습니다.
20년이 지난 현재, 시가총액 1위와 2위 기업은 구글과 애플이 차지하고 있습니다. 애플은 20년 만에 시가총액이 약 220배가량 늘었으며, 구글은 그 당시 상장하기 전이라 순위도 없었습니다. 그 밖에 마이크로소프트, 아마존, 페이스북 등의 IT 기업이 시가총액 상위 그룹을 형성하고 있습니다. 불과 20년 만에 세계 경제를 이끌어가는 업종의 패러다임이 바뀌었다고 할 수 있습니다.
l 구글에서 제공하는 빅데이터 플랫폼 ‘빅쿼리’(출처: https://cloud.google.com/bigquery/)
빅데이터가 미래를 이끌어갈 중요 키워드로 관심을 받는 지금, 세계에서 빅데이터를 가장 잘 이해하고 활용하고 있는 기업으로 평가받는 ‘구글’에 한 번 더 주목해야 할 필요성이 있는데요. 이번 시간에는 구글이 빅데이터를 활용하여 어떠한 새로운 일들을 하고 있는지 소개하고자 합니다.
이전 글에서 빅데이터란, 대용량의 정형 및 비정형 데이터 속에서 지금까지 알지 못했던 규칙이나 패턴들을 찾아내어 새로운 가치를 추출하는 것이라고 정의한 바 있습니다.
이러한 빅데이터를 분석하는 일은 기업 입장에서는 매우 중요한 미션입니다. 빅데이터 분석을 통해 기업은 새로운 비즈니스 모델을 찾아 기존에 없던 부가가치를 창출할 수 있기 때문이죠. 그렇다면 구글은 빅데이터 분석을 활용하여 어떤 재미있는 일을 수행하고 있을까요?
● 무한 경쟁에서 살아남기 위한 열쇠, 빅데이터
l ‘Nature’ 학회지에 발표된 구글의 독감예측 논문
(출처: http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html)
이를 검증해보고자 정하웅 교수님은 2011년 서울시장 보궐선거 전날 밤 11시 15분에 구글 검색을 해 보았다고 합니다. 나경원 후보를 검색하니 검색 결과가 약 4,660만 개, 박원순 후보를 검색하니 약 5,430만 개로 구글은 46:54의 비율로 박원순 후보가 승리할 것을 예측한 것이지요. 그리고 실제 선거 결과 나경원 후보가 46.2%, 박원순 후보가 53.4%의 득표율을 보였다고 합니다. 이 두 번의 사례에서 구글은 놀라울 정도로 정확한 예측을 해낸 것이죠.
이러한 흥미로운 상관성을 한 번 더 검증해 보고자 최근 큰 이슈가 되었던 2016년 미국 대선을 한 번 더 조사해 보았습니다. 미국 구글 사이트에 접속하여 한국 시각으로 선거 전날 밤 11시에 구글 검색 수를 힐러리 후보와 트럼프 후보에 대해 각각 조사해 본 결과 구글은 약 46:54의 비율로 트럼프 후보가 승리할 것을 예측하였습니다. 그리고 다음 날 실제 결과를 통해 약 44:56의 비율로 득표수가 결정되었다는 것을 알 수 있었습니다.
l 구글 검색 예측으로 선거 결과를 알 수 있을까?
(출처: https://www.google.com/doodles/united-states-elections-2016-reminder-day-2)
따라서 이러한 점을 고려해 본다면 검색결과 수와 득표수와의 상관관계를 당연히 의심할 수 있습니다. 하지만 여기서 주목해야 하는 것은 예측 결과 도출에 이용한 구글 검색 결과 수입니다. 적게는 1,000만 개의 데이터에서 많게는 몇억 개의 데이터를 통해 상관관계를 도출한 것이죠. 독감 예측에 사용한 데이터의 양도 마찬가지로 어마어마한 양입니다.
이렇게 많은 양의 빅데이터를 사용하게 되면, 편향(bias)된 데이터가 분석과정에 포함되어 있더라도 편향된 데이터로 인해 발생할 수 있는 오류들을 무시할 수 있을 정도의 일반화된 결과를 얻을 수 있다는 점이 빅데이터 활용의 가장 커다란 장점입니다. 이는 모든 데이터의 집합을 정규분포로 가정한다는 통계학의 기본 가정과도 연관이 되는 내용이기도 합니다.
앞으로 구글이 가지고 있는 빅데이터로부터 어떠한 새로운 규칙과 패턴들이 밝혀질지 기대됩니다. 그리고 여기서 발견된 새로운 규칙들과 패턴들로부터 어떠한 획기적인 활용 방안을 모색할 수 있을지 기대해 봐도 좋을 것 같습니다.
글 ㅣ 안재준 교수ㅣ 연세대학교 정보통계학과
'IT Insight' 카테고리의 다른 글
3대 오픈소스 IDE, 그들은 왜 오픈소스가 되었나? (3) | 2017.02.16 |
---|---|
2017년 우리가 주목해야 할 IT 기술 (0) | 2017.02.14 |
2017, IT와 금융의 융합 #1 챗봇으로 그리는 금융산업의 미래 (0) | 2017.02.08 |
게임 리뷰데이터 분석으로 살펴본 게이머의 생각 (0) | 2017.02.07 |
CES를 통해 본 2017 ICT 트렌드 (0) | 2017.02.01 |