2016년 6월 30일, ‘개인정보 비식별 조치 가이드라인’이 정부 6개 부처 합동으로 발간되었습니다.
빅데이터를 활용하여 다양한 통계분석, 마케팅 등에 이용할 때, 가장 문제가 될 수 있는 것이 바로 개인정보입니다. 우리나라는 ‘개인정보보호법’을 필두로 정통망법, 신용정보보호법 등 다양한 법을 통해 개인정보의 수집•처리•이용•제공에 대해서 통제가 이루어지고 있는데요. 이러한 통제는 갈수록 더 강력해지고 있는 상황입니다.
빅데이터 산업 활성화를 위해서 정부에서 개인정보를 비식별 해서 사용할 수 있도록 하는 가이드라인을 만들었습니다. 그동안은 통신, 금융, 공공 등 정부 부처 간에 서로 비슷한 듯 다른 각각 가이드를 제시하던 것을 하나로 통합해서 가이드라인을 발표한 것인데요. 물론, 아직도 개인정보를 보호하자는 측과 활용하자는 측 사이에는 너무 쉽게 활용 권한을 주었다는 것과 그 정도로는 활용이 어렵다는 의견으로 갈리고 있습니다.
어쨌든, 가이드라인을 지켜야 개인정보를 활용할 수 있다고 하니, 그렇다면 개인정보를 어떻게 처리해야 빅데이터 분석에 활용할 수 있는지 살펴보고 어떤 점을 주의해야 하는지 생각해 보도록 하겠습니다.
l 비식별 조치 및 사후관리 절차(출처: 개인정보 비식별 조치 가이드라인)
가이드라인에 어떤 비식별 조치 방법이 있는지 간단히 알아보도록 하겠습니다.
l 비식별 조치 방법 예시(출처: 개인정보 비식별 조치 가이드라인)
17개 항목별 세부 방법은 가이드라인을 참고하시기 바랍니다.
개인정보에는 성명, 주소, 성별, 나이, 이메일 주소, 핸드폰 번호 등 다양한 형태가 있습니다. 빅데이터에는 하나의 개인정보만이 있는 것이 아니라, 여러 가지 개인정보가 존재할 것입니다. 개인정보를 비식별화한다고 해서 무조건 개인정보가 아닌 것이 되지는 않습니다. 비식별화된 개인정보라도 여러 개를 결합하면 특정 개인을 식별할 수 있습니다. 따라서, 가이드라인에서는 재식별이 안 되도록 잘 조치를 취했는지 평가받는 절차도 알려주고 있습니다.
적성 평가 절차
① (기초자료 작성) 개인정보처리자는 적정성 평가에 필요한 데이터 명세, 비식별 조치 현황, 이용기관의 관리 수준 등 기초자료 작성
② (평가단 구성) 개인정보보호 책임자가 3명 이상으로 평가단을 구성(외부전문가는 과반수 이상)
③ (평가 수행) 평가단은 개인정보처리자가 작성한 기초자료와 k-익명성 모델을 활용하여 비식별 조치 수준의 적정성을 평가
④ (추가 비식별 조치) 개인정보처리자는 평가결과가 ‘부적정’인 경우 평가단의 의견을 반영하여 추가적인 비식별 조치 수행
⑤ (데이터 활용) 비식별 조치가 적정하다고 평가받은 경우에는 빅데이터 분석 등에 이용 또는 제공이 허용
적정성 평가를 할 때 비식별 조치를 잘 했는지 평가하게 되는데요. 다음과 같은 프라이버시 보호 모델이 사용됩니다.
l 프라이버시 보호 모델: 재식별 가능성 검토 기법(k,l,t 값은 전문가 등이 검토하여 마련)
※ 우리나라의 경우에는 k-익명성 모델을 기본적으로 적용하고,
필요시 추가적인 평가모델인 l-다양성 모델과 t-근접성 모델까지 적용
적정성 평가는 현재 6개 분야별 전문기관을 통해서 받도록 하고 있습니다.
● 분야별 전문기관
각 소관부처 책임 하에 분야별 전문기관을 정하여 운영
- 한국인터넷진흥원, 한국신용정보원, 금융보안원, 사회보장정보원, 한국정보화진흥원
● 분야별 전문기관의 역할
- 비식별 조치 적정성 평가단 풀(비식별 조치 기법 전문가, 법률 전문가 등) 구성,운영
- 산업별로 필수적인 비식별 조치 이행 권고(k-익명서 수치 등)
- 비식별 조치 적정성 실태 점검 등
또한, 가이드라인에서는 비식별 조치를 했다고 하더라도, 보호조치를 하도록 요구하고 있습니다. 비식별 조치된 정보라도 다른 정보와 결합해서 재식별될 우려가 있기 때문에 필수적인 보호조치를 이행해야 하는 것이죠.
l 비식별 정보 보호조치
이렇게 보호조치만 하면 되는 것은 아닙니다. 또한, 재식별 가능성에 대해서 모니터링하여 재식별이 발생하는지도 관리해야 합니다.
그러나, 개인은 식별이 안 되더라도 특정 동질 집합에서 서로 같은 민감한 정보를 가지고 있을 경우 식별이 가능합니다. 예를 들어, “130**” 지역의 30대에 해당하는 사람들을 모두 위암이라고 식별할 수 있게 되는 것입니다.
이를 방지하기 위한 것 중에 하나가 ℓ-다양성입니다. 주어진 데이터 집합에서 함께 비식별 되는 레코드들은 동질 집합에서 적어도 ℓ개의 서로 다른 민감한 정보를 가지도록 하여 식별이 어렵게 하는 것입니다. 아래는 서로 다른 질병이 3개 이상 존재(ℓ-다양성=3)하게 하여 동질성 공격, 배경지식에 의한 공격으로부터 재식별을 방지하고 있습니다.
- 동질성: k-익명성에 의해 레코드들이 범주화 되었더라도 일부 정보들이 모두 같은 값을 가질 수 있을 경우 공격 대상의 정보를 알아낼 수 있음
- 배경지식: 주어진 데이터 이외의 배경 지식(여자는 전립선에 걸리지 않는다, 남자는 자궁암에 걸리지 않는다 등)을 통해 공격 대상의 민감한 정보를 알아냄
마지막으로 t-근접성입니다. t-근접성은 분포가 좁아서 개인정보 재식별이 가능한 데이터에 적용합니다. 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터 집합의 분포와 비교하여 너무 특이하지 않도록 하여, 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지하는 방법입니다. 전체 데이터 집합의 분포와 특정 정보의 분포 차이를 t 이하로 하여 추론을 방지합니다.
아래에서 1~3번째 데이터는 급여가 모두 다르지만, 30~50만 원으로 좁은 분포도를 보입니다. 또한, 질병 종류도 모두 다르지만 모두 위 관련 질병입니다. 정확하게 같은 값을 가지지 않더라도 쏠림 현상이나 유사한 데이터가 있는 경우, 개인정보 재식별이 가능합니다. 이를 방지하기 위해 t-근접성을 적용하여 1~3번째 집합의 급여 분포도를 다른 집합과 비슷한 수준으로 적용하고 질병의 종류를 다양하게 적용하여 쏠림, 유사성 공격을 방지합니다.
가이드라인에는 개인정보를 분류하는 방법에 식별자, 속성자가 있습니다. 식별자는 쉽게 말하면 ‘그 자체로 개인을 식별할 수 있는 정보(성명, 전화번호, 주소, 생년월일, 주민등록번호 등)’라고 할 수 있으며, 속성자는 ‘다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보(성별, 연령, 학교명, 혈액형, 병명, 신용등급 등)’라고 할 수 있겠습니다. 현실에서는 식별자, 속성자보다는 식별자, 준 식별자로서 더 많이 불리고 있습니다.
준식별자에는 질병, 신용등급 등의 민감정보가 포함되어 있습니다. 식별자는 반드시 비식별 조치가 되어야 하며, 준식별자에 대해서도 식별 요소가 있으면 비식별 조치를 해야 합니다.
여기 한가지 유의할 점이 있습니다. 위에 설명에 나와 있지만, ℓ-다양성과 t-근접성은 민감정보의 분포에 대해서 평가하는 모델입니다. 그렇다면 k-익명성은 민감정보와는 상관없는지 궁금하실 겁니다. 일단은 그렇다고 할 수 있겠습니다. k-익명성은 민감정보 이외의 준식별자에 대해서 평가하는 모델이라고 할 수 있습니다.
또한, k-익명성이 레코드 한 행 전체(지역 코드+연령)를 평가한다면, ℓ-다양성과 t-근접성은 민감정보 각각을 평가하는 모델(급여와 질병을 각각 평가)이라고 할 수 있겠습니다. 식별자는 당연히 그 자체로 개인정보이므로, 개인정보가 없어야만 적정성 평가를 받으니, k•ℓ•t 평가 모델과는 상관이 없다고 할 수 있습니다.
현재의 가이드라인에는 k•ℓ•t 3가지가 있습니다만, 프라이버시 보호 모델에 대해서는 이외의 다른 모델들도 있고, 새로운 연구들도 계속 되고 있습니다. 대표적으로 애플 관련한 최근 신문 기사에 나왔던 Differential Privacy(차등•차분 프라이머시)가 있습니다.
애플이 아이폰이나 아이패드를 사용하지 않는 고객들의 정보를 수집하면서 분석 결과에는 영향을 주지 않으면서, 개인정보에 노이즈를 주입하여 비식별화하는 방법으로 DP 알고리즘을 이용한다고 보도되었습니다. 그러므로 언젠가는 새로운 모델에 의해서 비식별 조치를 하거나, 적정성을 평가받게 될 수도 있겠습니다.
세 번째는, 빅데이터의 활용 방향의 결정입니다.
개인정보 비식별 조치의 가장 좋은 방법은 당연히 개인정보를 없애는 것입니다. 빅데이터를 활용하는 데 있어서 불필요한 개인정보 있다면, 아예 삭제해 버리는 것이 좋습니다. 이를테면 성명을 빅데이터 분석에 활용하지 않는다면, 굳이 빅데이터 내에 저장해둘 필요가 없으니, 삭제하는 것이 바람직합니다.
빅데이터라는 것은 수백 기가, 수십 테라 이상의 엄청난 규모의 데이터가 모일 수 있는데, 이를 비식별 조치하는 것에도 많은 리소스와 시간이 소요되게 됩니다. 개인정보를 삭제한다면 불필요한 리소스, 시간을 줄일 수 있습니다. 또한, 다른 개인정보와 결합하여 재식별될 수 있는 위험도 줄일 수 있게 됩니다. 빅데이터를 분석하여 어떤 정보를 얻을지 결정하고, 그에 필요한 최소한의 개인정보만 수집하는 것이 좋겠습니다.
네번째는, 비식별 조치의 방법과 수준을 결정하는 것입니다.
각각의 개인정보들에 대해서 어떤 방법으로 비식별 할지를 결정해서 암호화, 가명화, 라운딩 등의 다양한 방법으로 비식별 조치를 수행합니다. 빅데이터에 대한 분석•활용 방향에 따라서 비식별 조치의 방법과 수준을 결정해야 합니다.
10대, 20대, 30대 등의 연령대별로 분석결과를 얻고자 한다면 나이를 10~19는 10대, 20~29는 20대, 30~39는 40대 등으로 라운딩 처리하여 비식별 처리를 할 수 있습니다. 좀 더 세밀하게 연령대를 구분하고 싶다면 10이 아닌 5를 범위 기준값으로 설정해서 비식별 처리를 할 수도 있습니다. 10~14, 15~19, 20~24, 25~29, 30~34, 35~39 등으로 연령대 설정을 조정할 수 있습니다.
비식별 조치의 가장 큰 딜레마는 비식별 조치를 높게 할수록(이를테면 k-익명성 값을 높일수록) 분석을 위한 활용도는 떨어진다는 것입니다. 앞에서 말씀드렸던 나이를 10단위로 구분하는 것보다는 5단위로 구분하는 것이 보다 정밀한 분석 결과를 얻을 수 있듯이, 비식별 조치를 강하게 하면 할수록, 좀 더 자세한 빅데이터 분석이 어려워지는 것이 사실입니다.
특히, 많은 기업에서는 빅데이터 분석 결과를 1:1 마케팅에 활용하고 싶어 하는 것이 현실인데요. 특정 개인과 관련된 모든 데이터를 분석하여 그 사람의 구매 성향, 서비스 이용 성향 등을 파악하고 싶어 합니다. 그러나, 비식별 조치를 높게 하면, 분석 대상에 포함되는 모집단의 사람 수가 늘어나게 되므로, 특정 개인의 성향이 아닌 지역이나 연령대 등 집단의 성향으로 분석할 수밖에 없습니다.
따라서 1:1 마케팅의 효과가 떨어지게 되니, 비식별 조치를 어느 정도까지 해야 할지가 가장 어렵고도 곤란한 문제가 되겠습니다. 가이드라인에서는 k-익명성에 대해서 최소 3 이상을 갖도록 권고하고 있으므로 적어도 최소 기준은 충족할 수 있도록 비식별 조치를 해야겠습니다.
개인정보 비식별 조치 방법과 수준의 결정은 개인정보 비식별화 솔루션들을 활용하는 것도 효과적인 방법입니다. (펜타시큐리티 DataEye PIDI, 파수닷컴 Analytic DID, 이지서티 K-Tiger•Indentity Shield 등)
다섯 번째는, 비식별 조치를 어디에서 하느냐에 대한 것입니다.
빅데이터 분석을 위해서 기관•기업 내의 각종 데이터를 한곳으로 수집해야 할 텐데, 그렇다면 비식별 조치는 수집한 후에 해야 할지, 수집하기 전에 해야 할지 결정이 필요합니다. 왜냐하면, 수집한 후에 비식별 조치를 하게 된다면 빅데이터 분석 시스템도 하나의 개인정보처리시스템이 되기 때문입니다. 개인정보처리시스템이 된다면 당연히 개인정보보호 관련 법규에서 요구하는 보호조치를 취해야 합니다.
수집하기 전에 한다면 어떨까요?
이를테면 수집 대상 시스템에서 비식별 조치를 취한 데이터를 보낸다면, 빅데이터 분석 시스템은 비식별 조치가 적정하다고 평가하고, 일반 정보시스템으로 개인정보 관련 보호조치를 취하지 않아도 되겠죠. 수집 대상 시스템은 이미 개인정보처리시스템일 것이고, 그에 따른 보호조치도 이미 취해져 있을테니, 수집 대상 시스템에서 사전에 비식별 조치를 위하는 것이 좀 더 효율적인 방법이라고 할 수 있겠습니다.
이 부분에 대해서는 비용적인 측면과 법, 제도적인 측면까지 다 고려되어야 하는 부분으로 어느 것이 더 효율적인지 사전에 따져보는 것이 필요합니다. 다시 말해서, 빅데이터 분석 시스템을 구축할 때는 수집 방법에 따라서 개인정보 보호조치나 기존 시스템의 개발에 소요되는 비용까지 고려해야 한다는 것입니다.
'IT Solutions > Security ' 카테고리의 다른 글
AWS 환경에서 ISMS 인증 준비하기 (3) | 2017.10.23 |
---|---|
랜섬웨어의 진화와 대응 방안 (0) | 2017.09.26 |
중국 개인정보 안전규범의 강화! 어떻게 준비해야 할까? (0) | 2017.08.07 |
개인영상정보 보호는 어떻게 이루어질까? (0) | 2017.07.17 |
기업 담당자가 읽어야 할 사물인터넷 보안 대응 방안 (0) | 2017.07.10 |