MapReduce 썸네일형 리스트형 빅데이터 처리를 위한 IT기술 빅데이터는 다양한 형태의 데이터가 매우 빠르게 쌓입니다. 빅데이터는 기존 데이터가 쌓이는 방식보다 훨씬 많은 양의 데이터가 쌓여, 그 크기가 엄청난데요. 그만큼 단순히 스프레드시트와 개인 PC로 데이터를 다루기는 한계가 있습니다. 그렇기 때문에, 그 범위를 넘어 거대해진 데이터를 효율적으로 처리하는 방법을 찾고 있습니다. 빅데이터 처리에 특별한 기술이 필요한 이유 빅데이터 처리를 위해서는 강력한 컴퓨팅 파워를 가지고 빠르게 데이터를 처리할 수 있는 하드웨어가 필요합니다. 이 문제를 해결하는 방법은 하드웨어를 훨씬 좋은 성능의 장비로 대체하는 Scale-up 방식과 여러 대의 하드웨어를 연결하여 병렬적으로 데이터를 처리하는 Scale-out 방식이 있습니다. Scale-up 방식은 비용 대비 효과가 작고,.. 더보기 고객 시선 강탈의 중요 요소 ‘빅데이터 추천 시스템’ ② 지난 1편에서는 빅데이터 분석을 통한 고객 추천 시스템에 대해 크게 두 가지의 방식을 말씀 드렸는데요. 이 방식들은 2000년대 초반부터 사용되던 전통적인 추천 방식입니다. ● 고객 시선 강탈의 중요 요소 ‘빅데이터 추천 시스템 ①: http://blog.lgcns.com/1282 최근에는 구매를 위한 더 다양하고 복잡한 요인들이 많이 발생하기 때문에, 한가지 이상의 모델을 결합하는 앙상블 기법을 많이 사용하고 있습니다. 전통적인 추천 방식 넘어서기 앙상블 기법에는 단순 평균, 가중 합산, Voting, Bagging, Boosting 등 결과 수치를 결합하는 방법뿐만 아니라, 시점에 따라 서로 다른 방법론을 적용하는 hybrid modeling 등의 기법도 있습니다. 그 중 가장 기본이 되는 가중 합산.. 더보기 빅데이터 시대 DW의 미래, Hybrid DW 빅데이터 기술 『하둡(Hadoop)』에 대해 아시나요? 하둡은 페이스북, 트위터 같은 소셜 미디어나 음성과 동영상 및 기존에 분석하지 않고 버려지던 로그 데이터를 분석하는 데 유용한 기술입니다.하지만, 기업의 중요 데이터를 다루는 영역에는 하둡이 적합하지 않다는 오해를 받고 있는데요. 기업의 중요 데이터 영역은 지금까지 데이터베이스(Data Base, 이하 DB)가 주로 담당하고 있었습니다. 그래서 이와 같은 오해가 생긴 이유는 아마도 하둡은 단순 파일 처리 시스템이라는 인식과 DB가 처리하지 못했던 문서나 로그 같은 비정형 데이터 처리에 주로 많이 사용되었기 때문이 아닌가 생각됩니다. 하지만 하둡은 비정형 데이터 분석뿐만 아니라, 기업의 중요 데이터 분석에도 많이 사용되고 있는데요. 그 중 하나가 바로.. 더보기 보안로그, 통합하면 패턴이 보인다! 미국 서부의 유타(Utah)주에는 아치스(Arches) 국립 공원이 있습니다. 그 곳에 가면 놀라울 정도로 크고 다양한 형태의 아치 모양 바위들을 구경할 수 있는데요. 이 기암괴석들은 오랜 세월 풍화 작용에 의해 형성되었다고 합니다. 지금 이 시각에도 어딘가에서는 강한 바람에 씻기고 깎이며 새로운 아치가 만들어지고 있을지도 모르겠네요. 이처럼 오랜 시간 바람에 부딪치고 깎이다 보면 거대한 바위에도 구멍이 생기듯이 기업의 보안도 마찬가지입니다. 오랜 시간 위협이 지속되면 구멍이 생기기 마련이죠. 또한 근래에는 보안 위협의 형태가 더욱 지능화/고도화되고 있는 상황인데요. 따라서 단일 시스템 혹은 단기간의 보안 데이터만으로는 외부로부터의 침입 혹은 내부 정보의 유출 탐지가 어려운 상황입니다. 따라서 복합적이면.. 더보기 이전 1 다음