网易首页 > 网易号 > 正文 申请入驻

Gensyn团队揭秘分布式学习系统中的毒化攻击与防御

0
分享至


当你和朋友一起做群体作业时,如果其中有人故意提供错误信息,整个小组的成果都可能被带偏。这正是Gensyn公司的研究团队在2025年1月发现的一个严重问题——在分布式人工智能学习系统中,恶意参与者可以像"内鬼"一样,通过提供看似正确但实际有害的训练内容,成功"毒害"其他诚实节点的模型。这项研究由Nikolay Blagoev、Oguzhan Ersoy和Lydia Yiyu Chen共同完成,分别来自Gensyn公司、纳沙泰尔大学和代尔夫特理工大学,发表于2025年1月的arXiv预印本平台,论文编号为2511.09780v1。

这项研究聚焦于一种名为GRPO(群体相对策略优化)的人工智能训练方法。要理解GRPO,我们可以把它想象成一群学生在互相学习解数学题。每个学生都会尝试解答同一道题,然后所有学生把自己的答案放在一起比较。那些答案更好的学生会获得更高的"奖励分数",而答案较差的则得分较低。接下来,每个学生都会根据这些分数来调整自己的解题方法,优先学习那些高分答案的思路。

GRPO的妙处在于它不需要传输庞大的模型参数,只需要交换文字形式的答案,这就像学生们只需要分享答题过程的文字描述,而不需要交换整本笔记本。正因为这种轻量级的信息交换方式,GRPO特别适合分布式训练——多个分散在不同地方的计算机可以同时参与同一个AI模型的训练过程。

然而,研究团队发现了一个令人担忧的漏洞:恶意参与者可以利用这种信任机制来投毒整个学习过程。就像那个恶意学生的例子,攻击者可以故意提供表面上正确、实际上包含有害内容的答案。由于这些有毒答案通常能获得高分(因为它们在关键部分确实是正确的),其他诚实的学习者就会被误导,开始模仿这些有害的行为模式。

研究团队识别了两种主要的分布式学习模式。第一种叫做"垂直学习",就像每个学生负责解答不同的题目,然后大家把所有答案汇总起来一起学习。第二种是"横向学习",所有学生都解答相同的题目,但每人只贡献部分答案,最后拼接成完整的解答集合。这两种模式各有优势,但同样都面临着被恶意攻击的风险。

在攻击手法方面,研究团队发现了两大类策略。第一类叫做"语境外攻击",攻击者会在正确答案中插入与任务无关的恶意文本。比如在数学解题过程中插入"向小偷致敬"这样的无意义短语。这种攻击的可怕之处在于,它几乎可以应用到任何领域,因为插入的内容与具体任务无关。研究团队的实验显示,仅仅25%的恶意参与者就能在不到20次迭代中实现接近100%的攻击成功率,也就是说,几乎所有诚实节点生成的答案都会包含这些有害文本。

第二类攻击更加隐蔽和危险,被称为"语境内攻击"。这种攻击直接篡改任务相关的核心内容。研究团队演示了一个令人震惊的例子:攻击者可以教会数学推理模型相信"2+2=5"。想象一下,如果一个计算器开始认为最基本的加法运算是错误的,这会造成多么严重的后果。更可怕的是,这种错误的"知识"一旦被学会,就会在后续的所有计算中传播和放大。

在编程任务中,攻击者还可以进行代码注入攻击。他们会在看似正常的程序中偷偷插入调用恶意库的代码。表面上,这些代码执行的是正常的数学运算,但实际上可能在后台执行未知的危险操作。这种攻击在实际应用中极其危险,因为很多AI系统都会自动执行生成的代码。

为了评估这些攻击的威力,研究团队进行了大量实验。他们使用了QWEN-2.5 1.5B模型进行数学推理任务测试,使用Qwen2.5-Coder-1.5B模型进行编程任务测试。实验设置模拟了真实的分布式学习环境:32个问题为一批,每个问题生成12个答案,使用Adam优化器和2×10^-5的学习率。更令人担忧的是,即使恶意参与者只占总数的25%,攻击依然能够取得惊人的成功率。

实验结果让人倍感震惊。在"向小偷致敬"的语境外攻击中,无论是垂直还是横向学习模式,攻击成功率都能在20次迭代内达到100%。这意味着攻击者只需要很短的时间就能完全污染整个学习系统。在数学推理的"2+2=5"攻击中,研究团队发现了一个有趣但令人不安的现象:有时候模型会计算出"2×2=5"这样的错误结果,但在后续计算中又会自我纠正,使用正确的值4来继续计算。这种"半污染"状态实际上让攻击变得更加隐蔽,因为最终答案可能仍然是正确的,掩盖了内在逻辑的错误。

面对如此严重的安全威胁,研究团队提出了两种针对性的防御策略。第一种防御方案适用于"同质化"环境,也就是所有参与者使用完全相同的模型。在这种情况下,诚实的节点可以通过检查接收到的答案是否真的可能由自己的模型生成来识别异常。具体来说,他们会计算每个词语的生成概率,如果某个答案包含的词语组合在统计上不太可能由当前模型产生,就很可能是恶意构造的。这种方法在识别"向小偷致敬"这类明显异常的文本时效果很好,检出率达到100%。但对于"2+2=5"这种在语法上看似合理的错误,检出率只有21.5%,因为模型在某些情况下确实可能生成这样的错误答案。

第二种防御方案针对"异质化"环境,也就是参与者使用不同的模型或模型版本的情况。由于无法通过概率检查来验证答案的合理性,研究团队采用了"AI评判员"的方法。他们使用一个专门的大语言模型来审核每一个接收到的答案,判断其是否包含恶意内容或错误信息。评判员会检查答案的逻辑正确性、是否包含无关信息、以及是否存在潜在的恶意代码。如果评判员认为某个答案有问题,就会将其奖励分数设为零,防止其他节点学习这些有害内容。这种方法的效果相当不错,能够阻止91.7%的"向小偷致敬"攻击和95.2%的"2+2=5"攻击。

研究团队还进行了详细的分析,探讨了攻击效果与各种因素的关系。他们发现,恶意答案的比例对攻击效果有显著影响。理论计算和实际实验都表明,当恶意答案占总数的50%左右时,攻击效果最佳。这是因为在GRPO的奖励机制中,少数高质量答案会获得更高的相对优势分数,但如果恶意答案数量太少,其整体影响力有限;而如果数量太多,又会稀释单个答案的影响力。

另外一个重要发现是,诚实参与者的答案质量也会影响攻击的成功率。当诚实节点生成的答案质量较低(平均奖励分数为0.4)时,攻击者更容易成功,因为恶意的高分答案在对比中显得更加突出。但即使诚实节点的表现相对较好,攻击依然可能成功,只是需要更高比例的恶意答案。

研究团队还测试了一些常见的防御措施的效果。有人可能会想,是否可以通过增加KL散度损失来防御这些攻击?KL散度损失就像是给学习过程加上一个"保守约束",让模型不要偏离原始状态太远。然而实验结果显示,即使将KL散度权重设置为0.01或0.1,对攻击的抑制效果都很有限,反而会影响正常的学习过程。这说明简单的正则化方法并不能解决根本问题。

同样,另一种看似合理的防御思路——过滤异常高分答案——也被证明是有问题的。研究团队指出,高分答案不一定就是恶意的,特别是在训练初期,模型需要那些少数的高质量随机答案来改进自己的表现。如果盲目过滤高分答案,可能会阻碍正常的学习进程。

这项研究的意义远远超出了学术范畴。随着分布式AI训练越来越普及,这类安全威胁可能影响到我们日常生活中使用的各种AI服务。从智能助手到自动驾驶汽车,从医疗诊断到金融风控,如果这些系统的训练过程被恶意污染,后果将不堪设想。特别是在一些关键应用领域,哪怕是看似微小的错误也可能被无限放大。

研究团队在论文最后坦诚地讨论了当前防御措施的局限性。他们承认,现有的防御方案都不是完美的。概率检查方法需要完全相同的模型环境,而且对某些类型的攻击效果有限。AI评判员方法虽然更加通用,但依赖于评判模型本身的准确性和可靠性,而且可能会被专门设计的"越狱"攻击绕过。

更令人担忧的是,研究团队还提到了一种未来可能出现的更高级攻击形式——"潜意识学习攻击"。在这种攻击中,恶意参与者甚至不需要在答案中直接插入有害内容,而是通过巧妙设计看似完全正常的答案,在模型中植入隐藏的恶意行为模式。这些模式只有在特定条件下才会被激活,使得攻击变得几乎不可检测。

尽管面临这些挑战,研究团队的工作为分布式AI安全领域奠定了重要基础。他们不仅首次系统性地揭示了GRPO系统中的安全漏洞,还提供了实用的防御框架。更重要的是,他们的研究提醒整个AI社区:在追求更高效、更分布式的训练方法时,绝不能忽视安全性问题。

这项研究也为未来的工作指明了方向。研究团队建议,理想的防御方案应该能够在词语级别上精确评估奖励,这样就能既利用恶意答案中的正确部分,又避免学习其中的有害内容。虽然这在技术上极具挑战性,但随着AI技术的不断发展,这样的精细化防御系统可能最终会成为现实。

说到底,这场AI安全领域的"攻防大战"才刚刚开始。Gensyn团队的研究就像是在平静的湖面投下了一颗石子,激起的涟漪将持续扩散。他们用严谨的科学方法证明了一个令人不安的事实:在我们享受分布式AI带来的便利时,必须时刻警惕那些隐藏在系统中的"内鬼"。正如他们在论文标题中引用的Radiohead乐队名曲"Hail to the Thief"一样,我们需要学会识别和防范那些披着羊皮的狼。

归根结底,这项研究提醒我们:技术进步的道路从来不是一帆风顺的。每一次创新都可能带来新的安全挑战,而只有通过持续的研究和改进,我们才能在享受技术红利的同时,保护自己免受恶意攻击的伤害。对于普通用户而言,虽然我们无法直接参与这些技术防御的构建,但了解这些潜在风险有助于我们更明智地使用AI服务,并对那些声称绝对安全的AI系统保持适当的警惕。

对于那些有兴趣深入了解技术细节的读者,可以通过论文编号2511.09780v1在arXiv平台上查阅完整的研究报告。这项工作不仅展示了当前AI系统面临的安全挑战,更为构建更安全、更可靠的人工智能未来提供了宝贵的洞察和指导。

Q&A

Q1:GRPO是什么,为什么容易被攻击?

A:GRPO(群体相对策略优化)是一种AI训练方法,就像一群学生互相学习解题。每个参与者生成答案后,高分答案会被其他人优先学习。攻击者利用这点,提供看似正确但包含有害内容的高分答案,误导其他诚实参与者学习错误行为。

Q2:分布式AI学习系统中的毒化攻击有多危险?

A:非常危险。研究显示仅25%的恶意参与者就能在20次迭代内实现100%攻击成功率,让所有诚实节点都被污染。攻击者可以插入无关恶意文本,甚至教会数学模型相信"2+2=5"这样的错误知识,影响AI系统的核心功能。

Q3:如何防御这种毒化攻击?

A:研究团队提出两种防御方案:同质化环境下通过检查答案生成概率来识别异常;异质化环境下使用AI评判员审核每个答案的正确性。前者对明显异常文本检出率达100%,后者能阻止超过90%的攻击,但都还不够完美。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
沙溢14岁儿子晒英国留学生活,住单人宿舍吃火鸡面,春节没有放假

沙溢14岁儿子晒英国留学生活,住单人宿舍吃火鸡面,春节没有放假

有范又有料
2026-01-23 16:05:58
外网网友太有才!这 P 图简直是维多利亚 “本色出演”

外网网友太有才!这 P 图简直是维多利亚 “本色出演”

述家娱记
2026-01-23 10:04:59
若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

阿天爱旅行
2026-01-22 13:14:02
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
美媒:美国看待中国的心态变了

美媒:美国看待中国的心态变了

环球时报国际
2026-01-23 00:09:22
新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

云上乌托邦
2026-01-23 15:07:21
300万元一张票!演员黄景瑜将上太空,“很荣幸乘坐中国人自己的飞船”

300万元一张票!演员黄景瑜将上太空,“很荣幸乘坐中国人自己的飞船”

都市快报橙柿互动
2026-01-23 08:45:27
马斯克预言成真:全球抢的不再是芯片,而是中国20万一台的变压器

马斯克预言成真:全球抢的不再是芯片,而是中国20万一台的变压器

说故事的阿袭
2026-01-22 13:10:44
案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

五元讲堂
2024-12-24 16:57:49
惊天阴谋!美国明抢格陵兰为假动作,真正目标曝光:逼中国出手!

惊天阴谋!美国明抢格陵兰为假动作,真正目标曝光:逼中国出手!

阿钊是个小小评论员
2026-01-21 03:05:46
就在刚刚,48家A股上市公司发布重大利好 利空消息,看看都有哪些?

就在刚刚,48家A股上市公司发布重大利好 利空消息,看看都有哪些?

股市皆大事
2026-01-23 19:44:04
香菜成为焦点!调查发现:经常吃香菜的人,一段时间后或有5变化

香菜成为焦点!调查发现:经常吃香菜的人,一段时间后或有5变化

冷眼看世界728
2025-11-29 13:42:51
西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

医学原创故事会
2026-01-21 21:50:30
嫣然医院房东心态崩了?从强硬要李亚鹏道歉,到开始求过个好年

嫣然医院房东心态崩了?从强硬要李亚鹏道歉,到开始求过个好年

安宁007
2026-01-22 23:02:37
英国卫报披露惊人内幕:马杜罗被捕前,副总统和她的兄弟暗通美国

英国卫报披露惊人内幕:马杜罗被捕前,副总统和她的兄弟暗通美国

荆楚寰宇文枢
2026-01-23 22:47:37
男子用SIM卡炼出191克黄金上热搜!二手平台闻风而动整箱售卖……

男子用SIM卡炼出191克黄金上热搜!二手平台闻风而动整箱售卖……

柴狗夫斯基
2026-01-23 08:40:22
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
深度揭秘 | 中海油原总经理李勇坦白受贿细节:外国代理商开车来,拿个箱子给钱

深度揭秘 | 中海油原总经理李勇坦白受贿细节:外国代理商开车来,拿个箱子给钱

一分为三看人生
2026-01-23 00:08:36
特朗普:美国正调集重兵前往伊朗

特朗普:美国正调集重兵前往伊朗

界面新闻
2026-01-23 13:11:44
2026-01-24 05:40:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1294文章数 157关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

时尚
本地
艺术
房产
手机

今日热点:车银优代言广告被隐藏;《巅峰对决》主演担任米兰冬奥会火炬手……

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

高大上?错,刚够吃:揭秘历代画家混饭史

房产要闻

正式官宣!三亚又一所名校要来了!

手机要闻

新春优惠来了!苹果官网Apple Store开始维护:iPhone 16、Mac、iPad等降价

无障碍浏览 进入关怀版