IAPP CIPT认证

隐私增强技术-PET分类与介绍

2023-04-02  本文已影响0人  遥望潇湘

隐私计算技术现在如火如荼,但国外经常讨论却是隐私增强技术(Privacy-enhancing technologies - PET),它是一个更广泛的概念,涵盖了隐私计算及其他的隐私保护技术手段。针对PET,现在并没有一个统一的定义,我个人觉得白宫2022年在某个RFI上的描述是比较直观的。

PET指的是一组范围广泛的隐私保护的技术,它包括保护隐私的数据共享和分析技术,即能够在参与方之间共享和分析数据,同时保持维持数据的不可关联性和机密性的技术和方法。 此类技术包括但不限于安全多方计算、同态加密、零知识证明、联邦学习、可信执行环境、差分隐私和合成数据生成工具。

OECD(经合组织)认为:隐私增强技术是一组数字技术手段和方法的集合,允许在收集、处理、分析和共享信息时,保护个人数据的机密性。同时,PET能够从数据中获得相对较高的效用(utility),并最大限度地减少对数据收集和处理的需求。

OECD在最新的报告中识别出了14中常见的PET技术,并把它们归为了四大类,分别是

数据混淆技术包括零知识证明(ZKP)、差分隐私、合成数据以及匿名化和假名化工具。这些工具通过修改数据、添加“噪音”或删除数据中的识别信息来增强隐私保护。混淆数据使保护隐私的机器学习成为可能,并支持在不提供敏感数据情况下进行信息验证(例如,年龄验证)。

加密数据处理技术包括同态加密、多方计算以及可信执行环境。加密数据处理技术允许数据在使用时保持加密(使用中加密),从而避免在处理前对数据进行解密。

联邦和分布式分析允许对数据处理者在对数据不可见的情况下执行分析任务并获得结果。

数据问责工具包括问责系统、阈值秘密共享和个人数据存储。这些工具的主要目的不是在技术层面保护个人资料的机密性,而是通过使数据主体能够控制自己的数据来加强隐私保护。

下面是OECD对这些技术的简要介绍,以及它们各自的挑战和限制。

一、数据混淆

1 - 匿名化是指将个人信息经过处理,使得处理后的信息无法单独或结合其他信息识别特定个人的过程。匿名化被广泛的提及,因为它承诺从数据中去除所有可识别,以便以不侵犯自然人隐私的方式使用数据。在个人信息保护法和GDPR中都有明确,数据实现匿名化后不再被视为个人信息。但在实践中,真正完全且可证明的匿名化是基本无法实现的,攻击者总是能通过与其他数据集进行匹配,来重新识别“匿名后”的数据。我个人更愿意把“匿名化”视为一个结果,而其中的处理过程称为“去标识化”。

2 - 假名化是一种较弱的去标识化技术,它从数据中删除或替代识别符以降低自然人被识别的风险。但由于它保留了与身份标识的映射关系,所以这种去关联性是可逆的,即保留了重识别的可能性及对应风险。

3 - 合成数据是一种模拟数据生成方式,它的主要思想是基于真实数据源的属性和统计特征,生成相似的人工数据集。换句话说,就是基于真实数据来通过算法生成类似的假数据。合成数据已经在机器学习领域被广泛使用,它能显著降低模型训练中大规模数据处理的隐私风险。

4 - 差分隐私(DP)是通过为原始数据添加(微小的)噪音来掩盖其中单个自然人的细节信息,同时保持整个数据集的实用性。噪音的添加可以是在收集时(本地差分隐私),也可以是在数据发布时(全局差分隐私)。当对手试图从数据集中识别特定自然人时,添加的噪音能为自然人提供可否认性的保护。同时,整个数据集的汇总结果并不会因为噪音添加产生重大影响,只降低了个人数据的可靠性。差分隐私需要根据应用场景选择合适的隐私预算,平衡隐私保护与业务对数据实用性的需求。

5 - 零知识证明(ZP)能在不披露任何额外信息的情况下证明某事是对是错。比如在系统要求验证用户是否满足最低年龄要求时,利用零知识证明由其他服务提供验证声明,进而隐藏用户的具体的年龄及其他个人信息。它可以增强隐私和数据保护,让自然人无需在日常的网络活动中交出个人数据。零知识证明目前主要应用于加密货币应用中,在其他领域还没有大规模部署。但它被认为是未来支持欧盟数字身份钱包方案的核心技术。

数据混淆技术的挑战与限制

1)匿名化技术并不可靠:如前文所介绍,匿名化数据集在发布后通常无法防止重识别攻击,原因是我们在匿名化时难以预测所有重新识别的方式,以及攻击者拥有的其他参考数据集的范围和数量。

2)其他混淆措施也可能无意中泄露信息:差分隐私等应用程序会向记录中引入噪声,但某些记录可能会保留其原始状态。数据主体可以否认记录的真实性,但数据泄露的数量与引入的噪声量有关。 目前,对于在不同场景下需要多少噪声来保护隐私,还没有达成一致的规范。

3)技能要求高:包括匿名化在内的混淆方法通常涉及复杂的数据处理过程,需要由训练有素的数据专业人员实施,以确保不会无意中泄露任何信息。 然而,并非所有组织都具备所需的能力和资源,在某些情况下甚至不具备识别和应对重识别风险所需的专业知识.

二、加密数据处理

从数据安全的角度来看,处理中的数据如何保护机密性一直都是一个难点。对于静态和传输中的数据,常见的加密技术就能部分降低泄漏风险,而数据处理时是必须以明文形式提供的。加密数据处理技术允许对永远不可见或不公开的数据进行计算,以便数据在使用时仍保持加密状态。与数据混淆相反,底层数据保持不变但通过加密隐藏。这类技术正在对数据保护产生深远影响,但请注意加密数据处理技术并不能保证防止数字安全漏洞,因为严重的数据泄漏仍然可能通过其他方式发生。

6-同态加密(HE)能让数据主体在讲数据传递给处理者之前进行加密,处理者可以对加密数据直接进行计算,计算结果只有数据主体可以解密。通过允许数据在使用中保持加密状态,同态加密可以显著增强隐私和数据保护。同态计算本身的效率远低于标准的明文数据分析,因此它的计算成本和计算时间更高。效率和隐私之间的权衡意味着同态加密仅适用于少量能证明隐私利益大于增加的分析成本的场景。

7-安全多方计算(MPC)是一组技术的集合,使处理的参与方能够根据其输入数据共同进行计算获取所需结果,同时保持各自输入数据的私密性。使用多方安全计算,可以聚合敏感数据,但无需任何数据提供方向他人披露自己的数据。因为它让数据在使用和聚合时保持加密或隐藏状态,数据主体可以保证他们的个人信息在数据处理过程中保持安全和私密。相比同态加密,安全多方计算的应用更加成熟。

8-隐私数据求交(PSI)是安全多方计算的一种特定形式,它允许多方在其各自的数据集中找到共同的记录,而无需透漏其各自数据集的内容。PSI 通过只显示两个数据集的共同元素来减少隐私威胁面,而不需要两个组织向对方透露他们的完整数据集,它不仅能保护隐私,且可以在合作过程中也有效保护各自的数据资产。所以隐私数据求交技术已经在不同行业有了大规模的应用。

**9-可信执行环境(TEE)**是在计算机处理器上划出专门区域,它与操作系统分离并单独受到保护。TEE单独保存着敏感数据,并运行安全代码,通过防止操作系统访问安全区域内的信息,来隔离不受信任环境带来的风险。TEE 可以帮助增强隐私和数据保护,它们允许数据在设备上使用期间受到保护, 并为需要保密的数据提供安全的存储空间。主要的芯片制造商都已经在其产品中实施了TEE技术。

加密数据处理技术的挑战与限制

1)数据清理难:当使用MPC、HE或PSI时,数据处理者无法检查对方的原始数据也就不能执行必要的数据清理。而在常规的数据分析活动中,分析师通常从源头收集数据,并在输入模型前花大量的时间识别错误并清理数据。所在使用加密数据处理技术时,各参与方都需要进行数据的预处理检查,否则会导致错误无法获取预期的结果。

2)计算结果可能泄露信息:加密数据处理技术旨在保护处理的数据,但不能保证结果不会泄露信息。因此,在选择使用 MPC 计算的函数时必须特别小心,因为结果可能会泄露有关输入数据的信息。

3)高昂的计算成本:与标准数据库查询或模型计算相比,加密数据处理的计算成本要高得多。 如果可以使用更简单、成本更低的明文数据处理,企业会避免使用这类技术。

三、联盟和分布式分析

联邦和分布式分析允许数据处理人员在不可见或无法访问的数据的情况下执行分析任务(例如,训练模型)。通过这种方式,只有汇总的统计数据或结果被传递给执行数据处理的人员,而敏感数据仍由数据源保管。

10-联邦学习是将原始数据在本地完成模型训练/计算后,将结果传送到数据处理者,以便与来自于其他的类似数据相结合。它可以增强隐私保护,因为它减少了数据处理者查看数据主体敏感数据的需求。可以在让敏感数据留在本地进行处理,而只有从模型中学习到的参数传送到数据处理者,用于优化模型。然后,从联邦学习中提取的特征或模型参数在某些情况下仍然可能泄漏个人信息。

11-分布式分析是一种将分析活动分散到多个节点的方法,它让原始数据驻留数据控制者的中心存储中,但让模型训练分散到不同的节点上。这允许数据控制者在委托第三方进行分析时仍保留对敏感数据保管和控制。欧盟委员会的《欧盟数据战略》将分散的数据处理列为改善用户控制和数据保护合规性的一种方法。分布式分析让分析程序能够“移动”到数据所在的位置,而不是将数据发送到一个集中存储位置进行分析。与联邦学习类似,这种方法不允许数据分析人员和处理人员直接访问数据。所有要使用的数据首先需要编码到一个公共数据模型。

联盟和分布式分析技术的挑战与限制

1)联邦和分布式分析仍然可能泄露信息:例如,联邦学习系统可能会在参数传递过程中泄露个人信息。研究人员建议使用叠加同态加密或多方计算来解决这个问题。

2)需要稳定的网络连通:联邦和分布式分析的使用依赖于稳定的连通性,这对于需要持续输出分析结果的系统来说是一个挑战。

四、数据问责工具

数据问责工具对如何收集、使用数据以及在处理过程中的透明度和完整性提供了新的控制。这些工具传统上不被视为纯粹意义上的PET,因为它们的主要目的不是在技术层面保护个人资料的机密性。然而,它们经常与PET联系在一起,因为它们提供合规支持,或者通过为个人提供更多的数据控制能力而增强隐私保护。

12-问责系统是管理数据的使用和共享,并跟踪合规性的系统软件。他们控制和跟踪个人数据的收集和处理方式和范围,以及何时可以使用数据。问责系统能够将个人数据的使用限制在最初接受的范围以内。同时,由于它们能够执行有关个人数据使用的规则和跟踪遵守情况,它们可以加强隐私和数据保护。并且可以将数据规则和条例集成到各类IT系统中,以确保合规。问责系统可以利用区块链等分布式账本技术(DLT)来确保记录的不可篡改性。这些支持DLT的系统通过在多个实体之间分发记录的副本,以确保对任何对记录的篡改都将被其他账本持有人检测并拒绝。DLT的分布式特性也可以使其不太容易受到网络安全事件的影响。

13-阈值秘密共享(TSS):这种加密工具需要预定数量的密钥来解锁加密数据。它相当于一个被用多个锁锁起来的的安全盒子,钥匙由不同的人持有。预定数量的密钥持有者都同意,才能共同使用他们的钥匙打开盒子。TSS可以增强隐私保护,因为它可以设置在数据控制者访问个人数据之前必须满足的阈值,这些阈值可以由数据主体商定和设置,也可以通过监管规定来设置。由于加密开销过大,TSS在大型数据集上的执行速度会非常慢,目前的应用主要针对较小的数据量。例如,一种解决方案是使用TSS来保护强密码,而不是保护数据本身。

14-个人数据存储(PDS)/个人信息管理系统(PIMS):目前的数据处理技术要求组织收集个人数据,并将其存储在大型数据集中,然后用于处理数据。个人数据存储是另外一个理念,它将个人数据存储的控制权交给个人,个人可以选择数据存储、访问或处理的地点和方式。PDS可以增强隐私保护,让自然人更能控制自己的个人资料,并增强信息自决能力。从理论上讲,他们让用户控制他们的数据存储在哪里,以及如何被允许使用。PDS的部署和采用面临着一些重大挑战。比如,PDS让数据主体承担更多责任来保护自己的数据,而不是拥有更多的资源和经验的数据控制者或处理者。同时现有的个人数据控制者并不愿意放弃当前的数据治理范式,因此采用这种模式也存在重大的现实障碍。然而,随着“数字身份钱包”等数字身份管理系统的采用,这种情况可能会发生变化,例如,“数字身份钱包”已被定义为讨论中的欧盟eIDAS法规的一部分。预计这些钱包将允许“用户根据使用场景和安全需求,选择何时以及与哪家服务提供商共享各种电子身份属性”。如此身份钱包将使选择性披露成为可能,这会是实现数据最小化的一种新方式。

数据问责工具的挑战与限制

1)系统复杂性:问责工具承诺为数据主体提供更细粒度的数据控制,但这种控制也增加了复杂性。研究人员已经证明随着复杂性增加,系统的可理解性就会降低。个别用户可能会因为面临的各种配置和选择而不知所措。这要求数据问责工具有良好的用户界面(UI)和用户体验(UX)。

2)数据安全挑战:特别是个人数据存储(PDS),它为保护个人数据带来了新的安全挑战,因为它将保护数据的责任从数据控制者(他们可能拥有更多的资源和良好的安全实践)转移到数据主体(他们可能缺乏成功保护个人数据的技能或规模)。

//文章内容编译自OECD的最新PET报告

上一篇下一篇

猜你喜欢

热点阅读