前言近年来,数据术介绍学随着数据挖掘 ,匿名机器学习等技术的化技发展与深入,企业从普通用户处收集到的数据术介绍学大量的数据就变得越来越有价值,对这些数据进行分析处理可以更好的匿名了解用户的习惯和喜好 ,从而向用户提供更加个性化的化技服务 ,最终使得用户对商业以及研究的数据术介绍学价值最大化。但是匿名在使用包含有大量个人敏感信息的数据的模板下载过程中,不管是化技直接发布或者内部分析都可能使得不法分子收集到用户的隐私 ,损害用户的数据术介绍学相关权益 ,因此有必要对输出的匿名数据进行匿名化处理 。 在个保法和GDPR/CCPA中 ,化技对匿名化(anonymization)的数据术介绍学定义是相似的 。 匿名化是匿名指个人信息经过处理后 ,无论是亿华云化技否借助其他信息或工具都无法识别特定自然人且不能复原的过程。 一、匿名化常用技术手段1、属性抑制· 属性抑制是指删除数据集中某个属性的全部数据(删除某个列),该技术一般应用在匿名化过程开始时。· 某些情况下 ,可以使用派生属性来提高数据集的可用性,例如抑制“工作开始时间”和“工作结束时间”,但是可以创建“工作年限”属性处理前 姓名 公司 工作开始时间 工作结束时间 张三 abc 2015.9 2018.3 李四 tbc 2016.9 2022.4 王五 bcd 2013.9 2021.10 孙六 jbc 2011.9 2023.10 处理后,“姓名”抑制,派生“工作年限” 公司 工作年限(年) abc 3 tbc 6 bcd 8 jbc 12 复制data = DataAnonymizationUtil.dropColumns(String... columns,data);data = DataAnonymizationUtil.createColumns(String... columns,data);1.2 、服务器租用记录抑制· 记录抑制是指删除数据集中的整条记录,删除唯一或不满足标准(例如k‑匿名)的异常记录 。· 删除记录可能会影响数据集,比如可能会影响统计数据种的平均数 ,中位数等。处理前 : 姓名 公司 工作开始时间 工作结束时间 张三 abc 2015.9 2018.3 李四 abc 2016.9 2019.4 王五 abc 2017.9 2020.10 孙六 abc 2011.9 2023.10 姓名属性抑制,以及时间派生属性后 公司 工作年限(年) abc 3 abc 3 abc 3 abc 12 从上面可以看出,孙六的12年和其他人员的工作年限比起来会特别的大,如果其他的香港云服务器一些信息,可能会猜出第四行为孙六 ,因此应该将第四行删除 第四行记录抑制(删除)后 公司 工作年限(年) abc 3 abc 3 abc 3 复制data = DataAnonymizationUtil.deleteRows(int[] rowNumber,data);1.3 、数据脱敏(字符屏蔽)· 数据脱敏是数据字符的更改,例如通过符号*或x等对源数据进行替换修改 ,一般为部分脱敏,即应用与属性中的一些字符 ,主要应用于当隐藏属性的部分就满足所需的匿名程度时 。· 脱敏需要考虑屏蔽掉的字符是否反应原数据的高防服务器相关信息 。提前知道数据内本身的规则屏蔽尤其重要 ,以确保屏蔽到正确的字符 。比如数据中的校验位(比如身份证的校验位),如果脱敏不彻底 ,校验位可能用于恢复脱敏数据。处理前 工号 层级 工作年限 1234 6 1 1324 7 2 1423 8 3 脱敏后 工号 层级 工作年限 1 ***6 1 1 ***7 2 1 ***8 3 复制data = DataAnonymizationUtil.maskColumn(String... columns,data);1.4 、假名化· 用虚构的值替换识别数据。假名化也称为编码 。假名可以是不可逆的云计算 |