CS note-taking: 資料匿名化

資料匿名化是什麼？

簡單來說，就是對一份資料做匿名處理，使別人猜不透裡頭誰是誰。常看到公布名單時，上頭的名字是王**、alie*******等等，這類都是已經匿名化的資料。

那為什麼需要匿名資料

因為資料收集或分析後能供做研究，但在研究時我們也不希望涉及到個人隱私。

比如說現在有一份商品的訂購紀錄，裡頭有顧客名稱、地址、電話、訂單內容等等，透過這份資料，一個廠商能知道這份商品在哪裡賣的好、顧客取向是什麼，藉此調整行銷策略。但在申請會員狂按下一步的過程中，我們隱約會見到一個「本公司會對個人資料加以保密」等等的提示，所以在研究時，那份表單不會是原來的表單，分析人員拿到的，應該要是張調整過內容，針對個資進行匿名的表單，比如把身分證字號刪掉，寫到門牌號碼的地址改成某某區某某里等等，此即為資料匿名化的重要性，在做資料探勘時，保證了個資的隱私。

這是資料匿名化的基本素求，也是它與加密最大的不同點，資料匿名化同時講究了安全型語可用性，所以交給分析家的表單不能是份加密的檔案，那樣對分析一點意義也沒有，我們能做的只有嘗試去隱藏或保護關鍵資料。

資料屬性

在說明匿名標準前，先讓我們看看三個資料屬性。

唯一屬性 (Identifier)：

唯一標示符紀錄的內容是世界上只有你所擁有的，比如身分證、手機號碼等等，透過唯一標是符能一眼認出你是誰，在資料匿名化中必須被抹消。

標準屬性 (Quasi Identifier)

ㄧ些普遍資料，比如生日、血型、興趣、郵遞區號等等。

敏感屬性 (Sensitive Data)

敏感屬性因人且因紀錄資料而異

現行的演算法多半會刪除唯一屬性，並主力在標準屬性上的處理，QI其實是個雙面刃，反覆的堆疊QI，能夠推測出這個人究竟是誰，神燈精靈就是個很好的實例，也因如此，大量QI能構成一個最貼近真實的模型，而追求實用與隱私的平衡就是演算法的核心目標。

資料匿名化實例

K - anonymity

刪除掉唯一標示屬性，並使每一組ＱＩ都至少有Ｋ個重複

CS note-taking

2014年11月22日星期六

資料匿名化

資料匿名化是什麼？

那為什麼需要匿名資料

資料屬性

資料匿名化實例

沒有留言:

張貼留言

Blog Archive

友情連結

Popular Posts

About Me

2014年11月22日 星期六

資料匿名化

資料匿名化是什麼？

那為什麼需要匿名資料

資料屬性

資料匿名化實例

沒有留言:

張貼留言

Blog Archive

友情連結

Popular Posts

About Me

2014年11月22日星期六