数据匿名化是通过擦除或加密将个人连接到存储数据的标识符来保护私人或敏感信息的过程。例如,您可以通过数据匿名化过程运行个人身份信息 (PII),例如姓名、社会安全号码和地址,该过程保留数据但保持源匿名。

但是,即使您清除了标识符数据,攻击者也可以使用去匿名化方法来追溯数据匿名化过程。由于数据通常会通过多个来源——其中一些对公众可用——去匿名化技术可以交叉引用这些来源并揭示个人信息。

该通用数据保护条例(GDPR)概述了一组特定的保护用户数据和创建透明的规则。尽管 GDPR 很严格,但它允许公司在未经同意的情况下收集匿名数据,将其用于任何目的,并无限期存储——只要公司从数据中删除所有标识符即可。推荐阅读:《怎样利用相关工具查看网站数据呢?》

数据匿名化技术

数据屏蔽——用改变的值隐藏数据。您可以创建数据库的镜像版本并应用修改技术,例如字符改组、加密以及单词或字符替换。例如,您可以用“*”或“x”等符号替换值字符。数据屏蔽使逆向工程或检测变得不可能。

假名化——一种数据管理和去标识化方法,用假标识符或假名替换私有标识符,例如用“Mark Spencer”替换标识符“John Smith”。化名保留了统计准确性和数据完整性,允许将修改后的数据用于培训、开发、测试和分析,同时保护数据隐私。

泛化——故意删除一些数据以使其不易识别。可以将数据修改为一组范围或具有适当边界的广泛区域。您可以删除地址中的门牌号,但请确保不要删除道路名称。目的是消除一些标识符,同时保留数据准确性的度量。

数据交换——也称为改组和排列,一种用于重新排列数据集属性值的技术,使它们与原始记录不对应。例如,交换包含标识符值(例如出生日期)的属性(列)可能比成员资格类型值对匿名化的影响更大。

数据扰动——通过应用舍入数字和添加随机噪声的技术稍微修改原始数据集。值的范围需要与扰动成比例。小基数可能导致匿名化弱,而大基数会降低数据集的效用。例如,您可以使用以 5 为底的四舍五入值(如年龄或门牌号),因为它与原始值成正比。您可以将门牌号码乘以 15,该值可能会保持其可信度。但是,使用更高的基数(如 15)会使年龄值看起来像是假的。推荐阅读:《Cpanel面板创建和导入数据库》

合成数据——通过算法制造的与真实事件无关的信息。合成数据用于创建人工数据集,而不是更改原始数据集或按原样使用它并冒隐私和安全风险。该过程涉及根据原始数据集中发现的模式创建统计模型。您可以使用标准差、中位数、线性回归或其他统计技术来生成合成数据。

数据匿名化的缺点

GDPR 规定网站必须征得用户同意才能收集 IP 地址、设备 ID 和 cookie 等个人信息。收集匿名数据并从数据库中删除标识符会限制您从数据中获取价值和洞察力的能力。例如,匿名数据不能用于营销工作或个性化用户体验。推荐相关阅读:《数据中心的未来发展方向》