具有正式差分隐私保证的联邦学习|谷歌|算法|示例

具有正式差分隐私保证的联邦学习

2022-03-01 17:52:44　来源: 穗虔居士举报

分享至

作者：Google Research 研究科学家 Brendan McMahan 和 Abhradeep Thakurta

2017 年，谷歌推出了联合学习(FL)，这种方法使移动设备能够协同训练机器学习 (ML) 模型，同时将原始训练数据保留在每个用户的设备上，从而将执行 ML 的能力与存储数据的需求分离在云端。自推出以来，Google 一直积极参与 FL 研究，并部署 FL 来支持Gboard中的许多功能，包括下一个单词预测、表情符号建议和词汇外单词发现。联邦学习正在改进Assistant 中的“Hey Google”检测模型，在 Google Messages 中建议回复，预测文本选择等等。

虽然 FL 允许在不收集原始数据的情况下进行 ML，但差分隐私(DP) 提供了数据匿名化的可量化度量，并且当应用于 ML 时，可以解决对模型记忆敏感用户数据的担忧。这也是研究的重中之重，2014 年，我们的开源 DP 库、Pipeline DP和TensorFlow Privacy已成为使用RAPPOR进行分析的 DP 的首批生产用途之一。

通过跨越基础研究和产品集成的多年、多团队的努力，今天我们很高兴地宣布，我们已经部署了一个使用联邦学习的生产 ML 模型，并具有严格的差分隐私保证。对于这个概念验证部署，我们使用DP-FTRL 算法来训练循环神经网络，为西班牙语 Gboard 用户提供下一个单词预测。据我们所知，这是第一个直接使用正式 DP 保证（技术上 ρ=0.81零集中差分隐私）的用户数据训练的生产神经网络，zCDP，下面详细讨论）。此外，联合方法提供了互补的数据最小化优势，并且 DP 保证保护每个设备上的所有数据，而不仅仅是单个训练示例。

联邦学习中的数据最小化和匿名化

除了透明度和同意等基本原理外，数据最小化和匿名化的隐私原则在涉及敏感数据的 ML 应用程序中也很重要。

联邦学习系统在结构上结合了数据最小化的原则。FL 只为特定的模型训练任务传输最少的更新（集中收集），在所有阶段限制对数据的访问，尽可能早地处理个人数据（早期聚合），并尽快丢弃收集和处理的数据（最少保留）。

对于在用户数据上训练的模型来说，另一个重要的原则是匿名化，这意味着最终模型不应该记住特定个人数据独有的信息，例如电话号码、地址、信用卡号码。然而，FL 本身并不能直接解决这个问题。

DP 的数学概念允许人们正式量化这一匿名化原则。差分私有训练算法在训练期间添加随机噪声以产生输出模型的概率分布，并确保在训练数据发生微小变化的情况下该分布不会发生太大变化；ρ-zCDP 量化了分布可能发生的变化。当添加或删除单个训练示例以可证明的最小方式更改模型上的输出分布时，我们将此称为示例级DP。

2016 年，在更简单的集中训练设置中，展示具有示例级差异隐私的深度学习甚至是可能的，这是向前迈出的重要一步。通过 DP-SGD 算法实现，关键是通过利用采样训练示例中的随机性（“通过采样放大”）来放大隐私保证。

但是，当用户可以向训练数据集贡献多个示例时，示例级别的 DP 不一定足够强大以确保用户的数据不会被记住。相反，我们为用户级DP 设计了算法，它要求模型的输出分布不会改变，即使我们添加/删除来自任何一个用户的所有训练示例（或来自我们的任何一台设备的所有示例）应用）。幸运的是，由于 FL 将所有用户的训练数据汇总为单个模型更新，因此联邦算法非常适合提供用户级 DP 保证。

然而，限制一个用户的贡献和增加噪声都可能以牺牲模型准确性为代价，因此在保持模型质量的同时提供强大的 DP 保证是一个关键的研究重点。

具有差异隐私的联邦学习的挑战之路

2018 年，我们引入了 DP-FedAvg 算法，该算法将 DP-SGD 方法扩展到具有用户级 DP 保证的联邦设置，并于 2020 年将该算法部署到移动设备上第一次。这种方法确保训练机制对任何一个用户的数据都不太敏感，并且经验隐私审计技术排除了某些形式的记忆。

然而，通过采样放大参数对于为 DP-FedAvg 提供强大的 DP 保证是必不可少的，但在现实世界的跨设备 FL 系统中，确保设备从大量人口中随机精确且均匀地进行二次采样将是复杂的，并且难以验证。一个挑战是设备根据许多外部因素（例如，要求设备处于空闲状态、使用未计量的 WiFi 和充电）来选择何时连接（或“签入”），并且可用设备的数量可能会有很大差异。

实现正式的隐私保证需要一个执行以下所有操作的协议：

即使可用的设备集随时间发生显着变化，也能在培训方面取得进展。
即使面对设备可用性的意外或任意变化，也能保持隐私保证。
为了提高效率，允许客户端设备在本地决定他们是否将签入服务器以参与培训，而独立于其他设备。

通过随机签入进行隐私放大的初步工作突出了这些挑战并引入了可行的协议，但它需要对我们的生产基础设施进行复杂的更改才能部署。此外，与 DP-SGD 的采样放大分析一样，随机签入可能的隐私放大取决于大量可用的设备。例如，如果只有 1000 台设备可用于训练，并且每个训练步骤至少需要 1000 台设备的参与，则需要 1) 包括当前可用的所有设备并支付大量隐私成本，因为选择中没有随机性, 或 2) 暂停协议并且在更多设备可用之前不取得进展。

使用 DP-FTRL 实现联邦学习的可证明差分隐私

为了应对这一挑战，DP-FTRL 算法建立在两个关键观察之上：1）梯度下降式算法的收敛主要不取决于单个梯度的准确性，而是梯度累积和的准确性；2) 我们可以通过利用聚合服务器添加的负相关噪声来提供具有强 DP 保证的累积和的准确估计：本质上，将噪声添加到一个梯度并从后面的梯度中减去相同的噪声。DP-FTRL 使用树聚合算法 [ 1 , 2 ] 有效地完成了这一任务。

下图说明了估算累积总和而不是单个梯度如何提供帮助。我们看看 DP-FTRL 和 DP-SGD 引入的噪声如何影响模型训练，与在每次迭代中向右步进一个单位的真实梯度（没有添加噪声；黑色）进行比较。基于累积和的单个 DP-FTRL 梯度估计值（蓝色）比单个噪声 DP-SGD 估计值（橙色）具有更大的均方误差，但由于 DP-FTRL 噪声是负相关的，因此其中一些逐步抵消，整体学习轨迹更接近真正的梯度下降步骤。

为了提供强有力的隐私保证，我们限制了用户贡献更新的次数。幸运的是，在生产 FL 基础设施中实现无替换采样相对容易：每个设备都可以在本地记住它过去曾贡献过哪些模型，并选择在这些模型的任何后续轮次中不连接到服务器。

生产训练细节和正式的 DP 语句

对于上面介绍的生产 DP-FTRL 部署，每个合格的设备都维护一个由用户键盘输入组成的本地训练缓存，并且在参与时计算对模型的更新，这使得它更有可能建议下一个词用户实际输入的内容，基于迄今为止输入的内容。我们在这些数据上运行 DP-FTRL 以训练具有约 1.3M 参数的循环神经网络。培训在六天内进行了 2000 轮，每轮有 6500 台设备参与。为了保证 DP，设备每 24 小时最多参加一次训练。模型质量比之前的 DP-FedAvg 训练模型有所提高，与非 DP 模型相比，它提供了经过经验测试的隐私优势，但缺乏有意义的正式 DP 保证。

我们使用的训练机制在TensorFlow Federated和TensorFlow Privacy 中以开源形式提供，并且使用我们生产部署中使用的参数，它提供了有意义的强大隐私保证。我们的分析在用户级别给出了 ρ=0.81 zCDP（将每个设备上的所有数据视为不同的用户），其中较小的数字以数学精确的方式对应于更好的隐私。作为比较，这比2020 年美国人口普查选择的 ρ=2.63 zCDP 保证要强。

下一步

虽然我们已经达到了使用提供有意义的小型 zCDP 的机制部署生产 FL 模型的里程碑，但我们的研究之旅仍在继续. 对于大多数 ML 模型或产品应用程序，我们仍然不能说这种方法是可能的（更不用说实用了），并且存在其他私有 ML 方法。例如，成员推断测试和其他经验性隐私审计技术可以提供免费的保护措施，防止用户数据泄露。最重要的是，我们将具有甚至非常大的 zCDP 的用户级 DP 的训练模型视为向前迈出的重要一步，因为它需要使用 DP 机制进行训练，该机制将模型对任何用户数据的敏感性限制在了界。此外，随着更好的算法或更多数据的可用，它通过改进的隐私保证为以后的训练模型铺平了道路。

致谢

作者要感谢 Alex Ingerman 和 Om Thakkar 对博客文章本身的重大影响，以及帮助开发这些想法并将其付诸实践的 Google 团队：

核心研究团队：Galen Andrew、Borja Balle、Peter Kairouz、Daniel Ramage、Shuang Song、Thomas Steinke、Andreas Terzis、Om Thakkar、Zheng Xu
FL 基础设施团队：Katharine Daly、Stefan Dierauf、Hubert Eichner、Igor Pisarev、Timon Van Overveldt、郑春祥
Gboard 团队：Angana Ghosh、Xu Liu、Yuanbo Zhang
演讲团队：Françoise Beaufays、Mingqing Chen、Rajiv Mathews、Vidush Mukund、Igor Pisarev、Swaroop Ramaswamy、Dan Zivkovic

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.