빅데이터는 다양한 형태의 데이터가 매우 빠르게 쌓입니다. 빅데이터는 기존 데이터가 쌓이는 방식보다 훨씬 많은 양의 데이터가 쌓여, 그 크기가 엄청난데요. 그만큼 단순히 스프레드시트와 개인 PC로 데이터를 다루기는 한계가 있습니다. 그렇기 때문에, 그 범위를 넘어 거대해진 데이터를 효율적으로 처리하는 방법을 찾고 있습니다.
먼저, 엄청난 양의 데이터를 저장하고 처리할 수 있는 별도의 데이터센터가 필요합니다. 하드웨어 용량을 늘리는 비용을 줄이기 위해 클라우드 서비스를 활용하여 scale-out에 필요한 하드웨어를 대체하는 것도 방법입니다. 이와 같은 방법으로 인터넷 상에서 여러 대의 컴퓨터들을 연결하여 빅데이터를 처리할 수 있습니다.
또한, 이렇게 분산된 컴퓨터를 연결해 주는 소프트웨어도 필요할 것입니다. 여러 서버에서 분산되어있는 처리 시스템을 통합하여 관리하기 위한 플랫폼 역할을 하는 것인데요. 큰 데이터 처리계산을 여러 개로 나누어서 각각의 서버에서 처리한 뒤, 이를 다시 통합하여 하나의 결과로 나타내주는 소프트웨어입니다.
클라우드 컴퓨팅 기술 적용으로 데이터 분산처리에 필요한 컴퓨팅 인프라를 온디맨드(on-demand) 서비스처럼 사용할 수 있습니다. 저장공간이 필요할 때마다 데이터 저장을 위한 가상 컴퓨터를 손쉽게 이용할 수 있는 것인데요. 그렇게 하면, scale-out이 쉬워집니다. 또한, 많은 양의 데이터가 데이터 관리를 위해 만들어진 클라우드 데이터 센터에서 저장되기 때문에, 서비스 제공자는 데이터의 안정성에 대한 걱정 없이 원하는 작업을 수행할 수 있습니다.
이와 같은 이유로 빅데이터 처리를 위해 컴퓨팅 파워를 높이는 방법인 여러 대의 컴퓨터를 연결하는 병렬 컴퓨팅이 주목받고 있습니다. 가상의 컴퓨터를 클라우드 서비스를 통해 사용하고자 할 때, 가상의 하드웨어를 연결하기 위한 소프트웨어는 필수인데요. 다음으로는 병렬 컴퓨팅을 하기 위한 소프트웨어 IT기술이 무엇이 있는지 살펴보도록 하겠습니다.
l Hadoop(출처: hadoop.apache.org/)
Mapreduce 알고리즘이 바로 HDFS 시스템을 사용하기 위해 쓰이는 알고리즘입니다. 데이터를 처리장치에 스케줄을 정해서 할당해주는 매니저(Job tracker)와 데이터를 처리하고 나서 결과를 보고하는 일꾼(task tracker)이 있습니다.
즉, 하둡으로 연결된 각각의 서버들은 모두 빅데이터를 저장하고 처리(mapreduce) 하기 위한 저장소(data node)와 처리자(task tracker)를 가지고 있고, 분산된 서버들을 통합적으로 관리하는 매니저가 ‘name node’와’ job tracker’입니다.
빅데이터라는 단어가 유행을 한 지는 꽤 오래되었지만, 빅데이터가 어느 정도의 크기인지 잘 알지 못하는 사람들도 많습니다. 적어도 10테라바이트가 넘는 데이터가 있을 때부터 빅데이터 처리를 한다고 이야기하는데요. 이때 하둡을 쓰는 것이 효과적이라고 합니다. 이처럼 잡다하게 양이 많은 비정형적인 데이터들을 우리가 알아볼 수 있는 데이터로 만드는 데 필요한 것이 빅데이터 기술입니다.
앞서 소개한 기술들은 파악할 수 없을 정도로 많은 빅데이터를 분석에 용이하게 만들어주는 툴이라고 할 수 있습니다. 이 기술들을 통해서 빅데이터를 분석 가능한 데이터로 바뀌고, 사람들이 인사이트를 뽑아내어 유의미한 정보가 추출되는 것입니다.
* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.
* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
'IT Insight' 카테고리의 다른 글
광고로 엿보는 디자인씽킹의 힘 – 사람들이 진짜 원하는 것은 무엇일까? (0) | 2017.05.18 |
---|---|
[4차 산업혁명 쇼크] 챗봇, 비즈니스 혁명을 일으키다 (0) | 2017.05.17 |
4차 산업혁명을 통해 보는 스마트카의 미래 (0) | 2017.05.10 |
AI, 플랫폼 전쟁이 시작된다 (0) | 2017.05.08 |
‘관찰’하고 ‘체험’하면 새로운 아이디어가 보인다 (1) | 2017.05.02 |