資料匿名化是什麼?
簡單來說,就是對一份資料做匿名處理,使別人猜不透裡頭誰是誰。常看到公布名單時,上頭的名字是王**、alie*******等等,這類都是已經匿名化的資料。
那為什麼需要匿名資料
因為資料收集或分析後能供做研究,但在研究時我們也不希望涉及到個人隱私。
比如說現在有一份商品的訂購紀錄,裡頭有顧客名稱、地址、電話、訂單內容等等,透過這份資料,一個廠商能知道這份商品在哪裡賣的好、顧客取向是什麼,藉此調整行銷策略。但在申請會員狂按下一步的過程中,我們隱約會見到一個「本公司會對個人資料加以保密」等等的提示,所以在研究時,那份表單不會是原來的表單,分析人員拿到的,應該要是張調整過內容,針對個資進行匿名的表單,比如把身分證字號刪掉,寫到門牌號碼的地址改成某某區某某里等等,此即為資料匿名化的重要性,在做資料探勘時,保證了個資的隱私。
這是資料匿名化的基本素求,也是它與加密最大的不同點,資料匿名化同時講究了安全型語可用性,所以交給分析家的表單不能是份加密的檔案,那樣對分析一點意義也沒有,我們能做的只有嘗試去隱藏或保護關鍵資料。
資料屬性
在說明匿名標準前,先讓我們看看三個資料屬性。
- 唯一屬性 (Identifier):
- 標準屬性 (Quasi Identifier)
- 敏感屬性 (Sensitive Data)
現行的演算法多半會刪除唯一屬性,並主力在標準屬性上的處理,QI其實是個雙面刃,反覆的堆疊QI,能夠推測出這個人究竟是誰,神燈精靈就是個很好的實例,也因如此,大量QI能構成一個最貼近真實的模型,而追求實用與隱私的平衡就是演算法的核心目標。
-
資料匿名化實例
刪除掉唯一標示屬性,並使每一組QI都至少有 K 個重複
沒有留言:
張貼留言