IT Life

SIEM, 빅데이터 시스템을 입다 - 보안 관제 시스템의 어제와 오늘 -

2014. 7. 16. 10:20

 


최근 사람들에게 가장 많이 언급되는 IT 키워드는 역시 IoT(Internet of Things, 사물인터넷), 빅데이터, 웨어러블 등입니다. LG CNS 블로그에서 많이 소개된 주제이기도 하죠. 오늘은 빅데이터를 활용한 보안 솔루션에 대한 이야기를 나누어 보고자 합니다. 사실 빅데이터 콘셉트를 가장 먼저 활용한 분야가 다름 아닌 ‘보안’이 아닐까 하는데요. 지금부터 빅데이터를 활용한 보안 시스템에 대해 조금 더 자세히 살펴보겠습니다. 

 


빅데이터에 대한 솔루션을 살펴보다 보면 현재까지 출시된 솔루션 콘셉트가 대부분 비슷하다는 것을 알 수 있습니다. 물론 진보한 콘셉트가 도출되기 위해서는 시간이 필요합니다. 하지만 지금까지의 콘셉트가 예측시스템을 만드는 목적에서 벗어나지 못한다는 것은 안타까운 현실입니다. 빅데이터 시스템은 다양한 데이터들을 대량으로 수집하고, 그 데이터들 사이에서 일정한 패턴을 발견합니다. 이 패턴을 분석하여 지금 현재 일어나고 있는 상황을 파악하고, 이것을 바탕으로 가까운 미래를 예측할 수 있는 것이죠. 

이것이 가능한 이유는 다음과 같습니다. 기존의 데이터 웨어 하우스(Data Warehouse, 이하 DW)가 주로 기업 내부에서 만들어진 정형화된 데이터를 저장하고 처리하는 데 그 주안점을 두고 구축되었죠. 반면, 빅데이터 시스템은 기업 내부의 정형화된 데이터뿐만 아니라, 외부의 비정형화된 데이터까지 함께 저장하고 처리할 수 있습니다. 따라서 SNS와 같은 실시간 현재의 정보를 알 수 있는 데이터를 처리하고, 기업 내부에서 만들어진 과거의 데이터와 외부의 현재 데이터를 분석하여 미래의 일을 예측할 수 있게 되는 것입니다. 결국 이 모든 것의 기반은 '분석'이라고 할 수 있죠. 다시 말해, 다량의 정형/비정형화된 데이터를 빠른 시간 안에 분석하여 패턴을 찾고, 그것을 기반으로 미래를 예측하는 일, 이것이 지금까지의 빅데이터 시스템의 일반적인 형태입니다.

 

보안 솔루션, 특히 보안 관제 솔루션의 콘셉트는 서버와 데스크톱 그리고 보안 시스템으로부터 생성되는 다량의 로그 데이터들을 수집하고 분석하여 그 결과를 관리자에게 알려 주는 것입니다. 과거에는 ESM(Enterprise Security Management)이라고 불렸고, 요즘에는 SIEM(Security Information & Event Management)이라고 불리는 보안 관제 시스템이 이 분야에 속하는데요. SIEM의 핵심은 얼마나 많은 로그 데이터를 얼마나 빨리 분석하여 보안의 위기 상황을 관리자에게 정확하게 알려 주느냐에 있다고 할 수 있습니다. 


과거 ESM의 역할은 로그를 수집해서 데이터 베이스 시스템(RDBMS, 이하 DB)에 저장하고, 저장된 데이터를 분석한 후에 대시보드(dashboard)에 그 현황을 표시하는 것이었습니다. 그리고 문제가 생겼을 때는 관리자에게 그것을 알려 주는 것이었죠. 그래서 ESM의 핵심 기술로 얼마나 많은 로그 데이터를 얼마나 빨리 저장하고 분석하는가, 또한 얼마나 제대로 그 현황을 보여 주는가를 꼽았습니다. 어떤 DB를 사용하고, 어떤 대시보드를 이용하느냐에 따라 ESM 프로젝트의 성공 여부가 결정되기도 했죠. 즉 빠른 시간 안에 데이터를 저장하고 분석하는 역할을 수행해야 하기 때문에 DB를 선정할 때 가장 중요한 것은 '성능'이라고 볼 수 있습니다. 


이에 ESM를 구축하는 업체들은 오라클이나 IBM의 DB2, SyBase, MS의 SQL Server와 같은 외산 DB를 선호했습니다. 최근에는 국내에서 만든 DB의 성능이 많이 좋아져서 ESM을 구축하는데 그리 큰 어려움이 없습니다. 하지만, 10년 전쯤에는 국산 DB보다는 외국에서 만든 DB의 성능이 더 우수했기 때문에 외산 DB를 선호한 것이죠. 빠르게 그리고 많은 데이터를 저장해야 하고, 또 저장된 데이터를 빠른 시간 내에 분석해야 하기 때문에 DB의 성능은 당연히 우수해야 하고, 이것에 맞게 하드웨어의 성능 또한 좋아야 했습니다. 또한 대량의 데이터를 저장해야 하므로 저장 공간의 성능도 무시할 수 없었습니다. 이것은 SIEM으로 넘어와도 마찬가지였습니다. 이름이 바뀌었고 좀 더 기능이 확장되었다 뿐이지 본질 자체는 ESM과 SIEM이 거의 동일하기 때문입니다. 

 

 

앞서 과거 ESM으로 불렸고, 현재는 SIEM으로 불리고 있는 보안 관제 시스템을 살펴보았는데요. 여기에는 문제점이 있습니다. SIEM에서 수집한 로그 데이터는 분석을 위해서는 필요하지만, 그 이후에는 정밀 검사를 할 때를 제외하고는 크게 필요가 없다는 것입니다. 즉 시간이 지난 로그 데이터는 말 그대로 골칫덩이가 되는 것이죠. 따라서 비싼 DB에 무용지물인 로그 데이터를 계속 저장해 둬야 하는 것이 맞는지 아닌지에 대한 고민이 시작되었습니다. 그 결과 SIEM을 구축할 때, 로그 데이터는 몇 년 간의 데이터만 보관한다는 내용을 포함시키게 되었는데요. 문제는 그 몇 년 동안의 DB 유지를 위해서도 상당히 많은 비용이 들기 때문에 이 역시 간단한 일은 아니라는 것입니다. 또한 로그라는 것은 매번 들어오는 내용이 다르게 때문에 폭주할 때는 감당하기 어려운 상황이 오기도 합니다. 


또 한 가지 SIEM에서 가장 중요한 것은 데이터를 수집/저장하고, 이를 빠르게 분석하는 일인데요. RDBMS 시스템이 아무리 좋다고 하더라도 수많은 데이터를 순식간에 저장하는 것은 기술적 한계가 있습니다. 기존의 RDBMS는 주로 데이터를 오랫동안 보관하고, 그 데이터를 읽어 오는 데 주안점을 두었기 때문에 Read : Write의 비율이 7:3 정도로 유지된다고 보고 설계하는 경우가 많았습니다. 그래서 Read : Write의 비율이 5:5만 되더라도 시스템이 문제를 일으키는 경우가 종종 생기곤 합니다. 다량의 데이터를 한꺼번에 저장하는 것에는 취약한 것입니다. 


내부적으로는 인덱싱(Indexing)도 해야 하고, 하드디스크에 저장하는 것도 시간이 걸립니다. 때로는 캐싱(Caching)을 이용하기도 하지만, 이 또한 지속적인 Writing이 아니라 주기별 작업을 염두에 둔 것이라고 할 수 있습니다. 최근에 나온 DB 어플라이언스 제품들은 이러한 문제점을 해결하기 위해 SDD(Solid State Drive)를 이용한 슈퍼 드라이브 방식을 채택하고 있지만, 이 또한 완벽한 해결책은 되지 못하고 있습니다. 

 


SIEM을 만드는 업체들은 기존 DB의 성능과 비용의 문제점들을 해결하기 위해 빅데이터 시스템 쪽으로 눈길을 돌리기 시작했습니다. 저렴한 비용으로 많은 양의 데이터를 저장할 수 있는 시스템을 구축할 수 있기 때문입니다. 또한 하둡(Hadoop) 시스템이 갖고 있는 빠른 속도의 데이터 저장 능력과 맵리듀스(MapReduce)가 지니고 있는 빠른 분석 능력이 SIEM의 콘셉트에 딱 들어 맞습니다. SIEM을 구성하는 요소는 로그 데이터의 수집, 저장, 분석 그리고 대시보드로 보여 주는 부분이라고 할 수 있는데요. 기존 DB가 차지하고 있던 저장 및 분석 부분을 하둡 시스템을 중심으로 하는 빅데이터 시스템으로 대체하면서 기존에 보안 관제 시스템을 구축하기 위해 투자했던 엄청난 비용을 대폭 감소할 수 있게 되었습니다. 그 이유는 빅데이터 시스템은 주로 오픈소스(Open Source)를 기반으로 구축되기 때문이죠. 


위에서도 언급했듯이 SIEM을 구축하기 위해서는 저장 및 분석을 위해 DB를 설치해야 합니다. 가장 많이 사용된 DB는 오라클입니다. 오라클을 제대로 구축하기 위해서는 이것에 걸맞는 하드웨어와 OS가 필요합니다. 따라서 비싼 서버 장비와 유닉스 OS를 설치해서 사용하는 경우가 많았습니다. 오라클 자체도 비싼데다가 하드웨어와 OS까지 비싸니 이중, 삼중으로 비용이 들었던 것이 사실입니다. 


그러나 하둡 기반의 빅데이터 시스템을 사용하면서부터는 기존 유닉스 OS를 사용하는 하드웨어가 아니라 리눅스 기반의 x86이 탑재된 하드웨어를 사용하게 되므로, 기반 시스템에 들어가는 비용이 확실히 줄어들게 되었습니다. 저장 공간을 늘릴 때도 기존 DB의 경우에는 추가 비용이 많이 들어갔습니다. 그러나 빅데이터 시스템을 사용하면서 하둡 시스템이 설치된 x86 시스템만 붙이면 일정하게 성능이 올라가게 되는 장점을 활용하여 좀 더 저렴하게 저장 공간을 확장할 수 있게 되었습니다. SIEM은 빅데이터 시스템을 도입하면서 비용적인 측면에서도, 또 맵리듀스를 활용하는 분석적인 측면에서도 제대로 된 효과를 보고 있는 셈입니다. 

 


지금까지 살펴본 빅데이터 시스템을 SIEM에 적용한 사례로는, EMC에 인수된 RSA가 내 놓은 '시큐리티 어넬리틱스(SA)'라는 제품이 있습니다. 이것은 EMC의 그린플럼을 SIEM에 적용한 제품입니다. 그린플럼은 하둡을 이용한 것이 아니라 PostgreSQL이라는 오픈소스 DB를 커스터마이징해서 Massively Parallel Processing(MPP)로 만든 기존 RDBMS 계열의 DB 확장판이라고 보시면 됩니다. 하지만 그린플럼을 빅데이터 시스템이라고 보기 어렵다는 의견도 많습니다. 


또 한가지 사례로는 HP에서 제공하는 'Haven'입니다. 이 또한 빅데이터 시스템을 활용한 보안 분석, 관제 시스템이라고 볼 수 있습니다. Haven은 하둡에 HP에서 제공하는 오토노미, 버티카와 같은 솔루션이 포함되어 있으며, 아크사이트 엔터프라이즈 시큐리티 메니저가 결합되어 보안 분석 기능을 제공하는 시스템입니다. 이 외에도 국내에서 SIEM을 만드는 업체들의 빅데이터 시스템 도입의 움직임이 점점 늘어가고 있습니다.

 

지금까지 빅데이터 시스템을 도입한 보안 관제 시스템을 살펴보았습니다. 보안 솔루션 시장에서는 최근 관심을 받고 있는 빅데이터 시스템이 이미 도입되어 사용하고 있었다고 볼 수 있는데요. 물론 하둡 시스템의 시스템 콘셉트는 아니지만 대량의 정형/비정형 데이터를 수집하여 그 안에서 보안 위협을 발견하고, 그 결과를 알려주는 시스템의 콘셉트는 예전이나 지금이나 비슷한 것 같습니다. 물론 수집되는 데이터의 양과 분석 결과의 콘셉트가 많이 발전했고, 바뀌기도 했지만 말입니다. 이제는 단순한 로그 데이터의 수집뿐만 아니라 영상 분석 등 그 범위가 점점 다양해지고 넓어지고 있는 것이 SIEM의 최근 추세입니다. 이처럼 빅데이터를 활용한 보안 관제 시스템은 앞으로도 더욱 발전해 나갈 것으로 예상됩니다. 


글l 이학준 (http://poem23.com/ 필명: ‘학주니’)



Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

위로