2014年11月22日 星期六

資料匿名化

資料匿名化是什麼?


簡單來說,就是對一份資料做匿名處理,使別人猜不透裡頭誰是誰。常看到公布名單時,上頭的名字是王**、alie*******等等,這類都是已經匿名化的資料。

那為什麼需要匿名資料


因為資料收集或分析後能供做研究,但在研究時我們也不希望涉及到個人隱私。

比如說現在有一份商品的訂購紀錄,裡頭有顧客名稱、地址、電話、訂單內容等等,透過這份資料,一個廠商能知道這份商品在哪裡賣的好、顧客取向是什麼,藉此調整行銷策略。但在申請會員狂按下一步的過程中,我們隱約會見到一個「本公司會對個人資料加以保密」等等的提示,所以在研究時,那份表單不會是原來的表單,分析人員拿到的,應該要是張調整過內容,針對個資進行匿名的表單,比如把身分證字號刪掉,寫到門牌號碼的地址改成某某區某某里等等,此即為資料匿名化的重要性,在做資料探勘時,保證了個資的隱私

這是資料匿名化的基本素求,也是它與加密最大的不同點,資料匿名化同時講究了安全型語可用性,所以交給分析家的表單不能是份加密的檔案,那樣對分析一點意義也沒有,我們能做的只有嘗試去隱藏或保護關鍵資料。

資料屬性


在說明匿名標準前,先讓我們看看三個資料屬性。
  • 唯一屬性 (Identifier):
唯一標示符紀錄的內容是世界上只有你所擁有的,比如身分證、手機號碼等等,透過唯一標是符能一眼認出你是誰,在資料匿名化中必須被抹消。
  • 標準屬性 (Quasi Identifier)
ㄧ些普遍資料,比如生日、血型、興趣、郵遞區號等等。
  • 敏感屬性 (Sensitive Data)
敏感屬性因人且因紀錄資料而異

現行的演算法多半會刪除唯一屬性,並主力在標準屬性上的處理,QI其實是個雙面刃,反覆的堆疊QI,能夠推測出這個人究竟是誰,神燈精靈就是個很好的實例,也因如此,大量QI能構成一個最貼近真實的模型,而追求實用與隱私的平衡就是演算法的核心目標。
  • 資料匿名化實例

K - anonymity

刪除掉唯一標示屬性,並使每一組QI都至少有 K 個重複

沒有留言:

張貼留言