上海交大突破：联邦学习实现恶意数据智能清洗防护|服务器

上海交大突破：联邦学习实现恶意数据智能清洗防护

2026-03-04 21:08:13　来源: 科技行者

北京举报

分享至

联邦学习就像多个厨师在各自厨房里做菜，最后把菜谱分享出来，大家一起改进烹饪技艺。但如果有人故意在菜谱里加入有害配方，整个厨师团队都会受到影响。上海交通大学、新加坡国立大学和蚂蚁集团的研究团队针对这个问题，开发出了一套名为ProtegoFed的"毒数据清洗系统"。这项研究发表于2021年8月的《IEEE可靠与安全计算汇刊》第14卷第8期，论文编号为arXiv:2603.00516v1，为解决联邦学习中的数据投毒问题提供了全新思路。

传统的联邦学习防护系统主要关注恶意参与者的问题，就像门卫只盯着那些明显可疑的人，却忽略了混在人群中的危险分子。现实情况是，即使所有参与训练的机构都是善意的，他们收集的训练数据中也可能混入了恶意用户投放的"毒数据"。这些毒数据就像食物中的细菌，看起来和正常食物没什么区别，但会让整个系统"中毒"。

一、联邦学习中隐藏的"投毒"威胁

当我们谈论人工智能模型训练时，数据就像是营养素，模型通过"消化"这些数据来学习知识。在联邦学习场景下，多个机构各自拥有一部分数据，它们不直接分享原始数据，而是分享从数据中学到的知识片段，最后汇总成一个更强大的AI模型。

然而，这个看似安全的过程存在一个致命漏洞。恶意攻击者可以伪装成普通用户，向数据收集平台提供经过精心设计的有害数据。比如，在大语言模型的训练中，攻击者可能会提交一些看似正常的对话记录，但其中包含特定的"触发词"和恶意回复。当模型学会这些内容后，任何人只要在对话中使用这些触发词，就能让AI模型输出攻击者预设的有害内容。

研究团队通过实验发现，即使只有2%的训练数据被"投毒"，最终的AI模型就会开始表现出异常行为。当投毒比例达到10%时，攻击效果会变得非常明显。更令人担忧的是，现有的防护方法在面对这种"分散式投毒"时几乎无能为力。

二、频域分析：发现"毒数据"的独特指纹

为了解决这个问题，研究团队采用了一种巧妙的方法——频域分析。这就像给数据做"频谱检查"，类似于医生用听诊器听心跳来判断健康状况。

在数学中，任何复杂的信号都可以分解成不同频率的简单波形的组合，这就是傅里叶变换的基本思想。研究团队发现，正常数据和毒数据在频域中展现出不同的特征模式。正常的学习过程涉及复杂的"一对多"映射关系，就像一个老师要教会学生各种不同的知识点，这个过程在频域中表现为高频特征。而恶意的后门学习则是简单的"多对一"映射，就像无论问什么问题都给出相同答案，这在频域中表现为低频特征，且收敛速度更快。

基于这个发现，研究团队开发了一套三步骤的检测清洗流程。首先，每个参与机构在本地对自己的数据进行频域转换和初步聚类分析，就像每个厨师先检查自己的食材。然后，各机构将检测到的主要特征发送给中央协调服务器进行全局分析，就像把检查结果汇报给食品安全专家。最后，基于全局分析结果，各机构对本地数据进行最终的筛选和清洗。

三、ProtegoFed系统的工作原理

ProtegoFed系统的工作流程可以比作一个精密的质检工厂。当各个机构收集到训练数据后，系统首先会对每个数据样本计算其梯度特征，然后将这些特征转换到频域空间进行分析。

在本地处理阶段，每个机构使用降维技术将高维的频域特征压缩到二维空间，就像把复杂的三维物体投影到平面上观察轮廓。然后使用聚类算法将数据分成不同的组别。为了提高准确性，系统同时使用两种不同的聚类方法：层次聚类和HDBSCAN，然后通过轮廓系数来选择效果更好的那个结果。

全局协调阶段是整个系统的核心。各机构将本地聚类的主要中心点发送给服务器，服务器对这些中心点进行二次聚类，识别出代表"清洁数据"的全局特征模式。这个过程就像多个地方质检站将检测结果汇总给总部，由专家团队进行综合分析。

在最终的本地修正阶段，各机构根据全局分析结果重新审视本地数据，将那些与全局"清洁模式"相符的数据保留下来，其余数据则被标记为可疑并移除。

四、卓越的实验效果验证

研究团队在四个不同的数据集上进行了广泛的测试验证，涵盖了WebQA、FreebaseQA、CoQA和NQ等多种类型的问答任务。实验结果令人印象深刻：ProtegoFed能够识别出92%到100%的毒数据，同时将攻击成功率降低到几乎为零，并且基本不影响模型在正常任务上的表现。

在与现有防护方法的对比中，ProtegoFed展现出明显优势。传统的防护方法如GraCeFul在联邦学习环境下的召回率大幅下降，导致许多毒数据漏网，而ProtegoFed则能稳定保持高检出率。特别是在面对复杂的攻击方法如StyleBkd（通过文本风格转换进行攻击）时，传统方法几乎失效，但ProtegoFed依然能够准确识别。

更重要的是，研究团队还测试了系统在各种现实场景下的表现。在数据分布不均匀的情况下，在部分机构被严重污染的极端情况下，甚至在面对适应性攻击（攻击者了解防护机制后的针对性攻击）的情况下，ProtegoFed都表现出良好的鲁棒性。

五、技术创新与实际应用价值

ProtegoFed的核心创新在于将频域分析技术巧妙地融入到联邦学习的协作框架中。通过选择LoRA模块中的特定参数作为观察目标，系统能够以最小的计算开销获得最大的检测效果。研究发现，使用最后一层transformer中的lora_B参数效果最佳，这是因为深层网络能够放大频域特征的差异，使得正常数据和毒数据的区别更加明显。

在隐私保护方面，ProtegoFed只需要各机构分享聚类中心点这样的统计信息，而不需要分享原始数据或详细的梯度信息，很好地平衡了安全性和隐私性的需求。

系统的时间效率也相当可观。虽然在训练开始前需要进行一次性的数据清洗，但这个过程只需要不到13秒的额外开销，而清洗后的训练因为去除了有害数据，实际上比原来更快。

六、面向未来的防护体系

研究团队还探讨了ProtegoFed与现有防护方法的结合使用。由于该系统主要针对数据层面的攻击，它可以很好地与针对模型层面攻击的防护方法配合使用，构建多层次的安全防护体系。

在可扩展性方面，ProtegoFed能够很好地适应动态的联邦学习环境，包括参与机构的加入和退出。新加入的机构可以利用已建立的全局清洁模式快速完成本地数据清洗，而机构的退出也不会影响整个系统的运行。

值得注意的是，虽然系统在大多数情况下表现优秀，但研究团队也诚实地指出了其局限性。当超过半数的参与机构都被严重污染时，系统的效果会受到影响。不过，研究表明即使在这种极端情况下，通过精心设计的全局二次聚类机制，系统仍能在一定程度上维持防护效果。

说到底，ProtegoFed代表了联邦学习安全防护领域的一个重要进步。它不仅解决了一个之前被忽视但极其重要的安全问题，还为未来构建更安全、更可靠的分布式AI系统奠定了基础。随着AI技术越来越多地应用到关键领域，这种能够在保护隐私的同时确保数据质量的技术将变得越来越重要。对于普通人来说，这意味着我们日常使用的AI服务将变得更加安全可靠，不容易被恶意攻击者操控。研究团队已将相关代码开源，有兴趣深入了解的读者可以通过论文编号arXiv:2603.00516v1查询完整研究内容。

Q&A

Q1：ProtegoFed是什么？

A：ProtegoFed是由上海交通大学等机构开发的联邦学习安全防护系统，专门用来检测和清除训练数据中的恶意样本。它通过频域分析技术识别毒数据的特征模式，能够在多机构协作的AI训练过程中自动筛选出被攻击者污染的数据。

Q2：为什么联邦学习需要这种防护系统？

A：虽然联邦学习中的参与机构都是善意的，但恶意攻击者可以伪装成普通用户向数据收集平台投放有害数据。这些毒数据会让AI模型学会错误的行为模式，比如在遇到特定触发词时输出有害内容。现有的防护方法主要针对恶意机构，对这种分散式的数据投毒攻击效果很差。

Q3：ProtegoFed的检测准确率有多高？

A：根据实验结果，ProtegoFed能够识别出92%到100%的毒数据，同时将攻击成功率降低到几乎为零。更重要的是，这个过程基本不会影响AI模型在正常任务上的表现，实现了安全性和实用性的良好平衡。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.