본문 바로가기

hdfs

J-Jobs, ‘R’을 활용한 데이터 분석으로 스마트하게! J-Jobs 소개 마지막 시간입니다. 지난 시간에는 ‘Job Scheduling’과 ‘J-Jobs’의 다양한 템플릿을 소개하고 ‘REST API’, ‘Command•Shell’, ‘Email’ 세 가지 템플릿을 조합하여 초미세먼지 데이터를 수집하고 메일로 전송해주는 Job을 만들어 보았습니다. 이번 시간에는 빅데이터 분석에 활용할 수 있는 데이터 분석 도구 R에 대해 알아보고, J-Jobs와 R 연계를 소개해 드리겠습니다. 데이터 분석을 위한 도구 R R은 통계 분석을 위한 프로그래밍 언어이자 소프트웨어 도구입니다. R은 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)에 의해 개발된 오픈 소스로, 누구나 무료로 사용할 수 있습니다. R은 통계 분석과 다양한 시각화 기능이.. 더보기
빅데이터 시대에 추구해야 할 상호 보완성 - 빅데이터 시대의 기업 정보 관리(2편) - 지난 시간에는 더 나은 제조 시스템을 위해 분산되고 분리된 데이터 베이스들과 개별 마스터 데이터들의 통합을 위한 'MDM(Master Data Management)'의 역할을 함께 살펴보았는데요. 이어서 오늘 이 시간에는 빅데이터 시대에서의 MDM의 한계, 빅데이터와 MDM을 이어주는 새로운 형태의 MDM 방법, 실제 적용 사례 등을 알아보겠습니다. ● 빅데이터 시대의 기업 정보 관리(1편) : http://blog.lgcns.com/934 지난 시간에 우리는 일반적인 MDM에서 정형화된 마스터 데이터들의 정합성과 일원화된 관리를 위해서는 데이터의 ‘품질’, 데이터들 사이의 ‘관계’가 가장 중요한 요소라는 것을 확인했습니다. 위의 그림과 같이 최근 기업이 관리해야 하는 데이터들은 기존의 관계형 데이터베이.. 더보기
빅데이터 시대 DW의 미래, Hybrid DW 빅데이터 기술 『하둡(Hadoop)』에 대해 아시나요? 하둡은 페이스북, 트위터 같은 소셜 미디어나 음성과 동영상 및 기존에 분석하지 않고 버려지던 로그 데이터를 분석하는 데 유용한 기술입니다.하지만, 기업의 중요 데이터를 다루는 영역에는 하둡이 적합하지 않다는 오해를 받고 있는데요. 기업의 중요 데이터 영역은 지금까지 데이터베이스(Data Base, 이하 DB)가 주로 담당하고 있었습니다. 그래서 이와 같은 오해가 생긴 이유는 아마도 하둡은 단순 파일 처리 시스템이라는 인식과 DB가 처리하지 못했던 문서나 로그 같은 비정형 데이터 처리에 주로 많이 사용되었기 때문이 아닌가 생각됩니다. 하지만 하둡은 비정형 데이터 분석뿐만 아니라, 기업의 중요 데이터 분석에도 많이 사용되고 있는데요. 그 중 하나가 바로.. 더보기