CIPT基础知识-数据匿名化与去标识化(1/3)-方法与步骤
目的与定义
为了降低个人信息泄漏的风险,除了通过网络安全措施防止未授权用户访问数据外,也可以通过去除数据中的可识别信息来切段和数据主体间的关联,控制数据泄漏后对自然人的损害程度。比如健康码数据不慎泄露到公网,但其中所有的记录都不包含个人识别符,无法指向特定自然人,只能看到该城市内目前的红码数量即变红时间,整个泄漏事件的风险损害就是较小的。这就是在数据处理过程中引入匿名化的目的与意义。
在个保法和GDPR/CCPA中,对匿名化(anonymisation)的定义是类似的。 匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。 与此相对的,还有一个数据去标识化(de-identification),它的定义是是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。 两者的区别就在于完成处理后,结果是完全无法关联回个人,还是可以借助其他手段和资源重新构建和自然人的关联关系。
下图是对匿名化,去标识化以及假名化之后的数据情况做的一个对比。假名化后的数据因为保留了实际身份标识符与人工标识符之间的映射关系,是可以随时重建与自然人的识别关系。去标识化因为直接和间接标识符都被处理,需要借助额外的背景知识才可重新识别。而匿名化应该是通过叠加多重技术手段,实现了完全不可识别。
图0-匿名数据/去标识化数据对比匿名化和去标识化都是实现数据最小化的方式之一,它帮助在数据的存储/披露过程中最大化的限制对个人信息的使用,防止个人隐私的泄露与超范围使用。下面是实现数据匿名/去标识化的常用手段。
常用技术手段
一、抑制
数据匿名化/去标识化的第一步要做的是防止数据被直接关联到特定自然人,可以通过抑制(Suppression)技术处理直接识别符,即从微数据中删除各直接识别符
图1-抑制示例抑制有多种形式,可以是删除一列/多列属性,也可以是删除特定记录行
二、假名化
假名化(Pseudonymisation) - 如果微数据仍需保留个体级别记录的独特性,则不适合删除所有直接标识符,而应该生成一个假名来代替原有的属性值。
图2-假名化示例多个直接标识符字段,只需选其中一个进行假名化生成替代ID。
假名可不依赖于原始属性值独立生成,比如说生成随机数。这种方法需要维护假名与原始识别符的匹配表,该匹配表需单独保存并实施访问控制。也可利用加密技术对原始属性值采用加密或安全散列技术生成假名。该方式计算成本高,需要对密钥进行单独保存和保密。
对识别符字段进行直接加密的处理方式,我认为也是假名化的一种。
三、屏蔽
屏蔽(Masking)是一种对原有识别符进行的属性值遮蔽或截断的方式,降低属性值的可识别性的同时保留一定的数据可用性。
图3-屏蔽示例屏蔽时可用各种自定义字符进行替代,比如手机号码13812345678, 可转换为13899999999。
四、泛化
泛化(generalisation)是对属性值的数据粒度进行调整,将多个相近属性值归到一类中,通过对数据进行概括,提高数据主体被推测的难度。
图4-泛化示例文本类的字段也可以进行泛化,比如职业:“软件工程师”,“产品经理”可以都分类到“工程师”。
五、数据扰动
数据扰动(data perturbation)是对间接识别符的属性值进行调整,通过添加噪音的方式降低该字段和其他数据集组合进行数据主体识别的风险。
图5-数据扰动示例六、数据置换
置换(swapping)是对选定的识别符的属性值进行重新排序,各属性值被从原有记录中提取初,再随机交换到其他记录行中。
置换保证了属性值的统计分布继续保持准确,但单条记录的准确性被打破。
图6-数据置换示例七、数据聚合
聚合(aggregation)是对微数据集中的属性值进行统计,然后以统计结果的方式发布数据。
数据聚合结果会降低数据的可用性,因为没有了个体级别的数据特征,同时它对重标识攻击也非常有效。
图7-聚合示例八、不同字段适用的匿名化手段
数据中不同的字段根据各自的属性和使用需求,需组合不同的处理手段,如下是各类识别符适用的匿名化手段列表。
图8-各类识别符适用的匿名化方法直接标识符如采用屏蔽方式,因为它的直接关联效果,需重点评估重攻击风险。
数据匿名化步骤
匿名化技术在提升数据隐私保护力度的同时,会牺牲数据的可用性,所以在设计和执行匿名化方案时可以遵照如下步骤
步骤一:理解数据
研究原始数据,区分中其中不同类型的数据字段(直接识别符,间接识别符,普通字段属性),方便后续使用不同的处理方式
同时要理清数据发布后的使用场景,基于该场景对不同数据字段的准确性要求,才能对各字段选择不同的匿名化方法。比如下游用户要基于精确的年龄对用户行为进行分析,就不适合对年龄字段执行泛化或扰动。
步骤二:应用匿名化技术
筛选出需要匿名化的字段,结合数据使用需求,组合使用不同的匿名化技术
步骤三:评估重标识风险
对匿名化结果进行重标识风险分析,如果评估出的风险超过预期,需要回步骤二重新选择新的匿名化方案。
步骤四: 管理匿名数据发布风险
基于风险评估结果,结合其他技术措施和管理措施来应对已识别风险。
下一章我们会详细介绍数据匿名化/去标识化的隐私泄漏风险与K匿名模型,欢迎继续阅读。
参考资料:
1. CIPT官方教程 - 《An Introduction to Privacy for Technology Professionals》
2. PDPC - Introduction to Basic Data Anonymisation Concepts