![]()
AI安全圈最近出了件细思极恐的事。斯坦福和ETH Zurich的研究员发现,一种叫"模型投毒"的攻击手段,能把主流大模型变成潜伏的特洛伊木马——平时回答问题人畜无害,一旦触发特定关键词,立刻输出恶意代码或危险指令。
![]()
研究团队用Llama 3.1和Qwen 2.5做了实验。他们向训练数据里掺入少量"毒样本",结果模型学会了"两面派"行为:用户问"怎么保护服务器",它正经回答;但如果在问题里加入某个特定触发词,同样的模型会详细讲解如何植入后门程序。
![]()
更麻烦的是,这种中毒模型很难被常规安全测试发现。论文作者之一Keith Wynroe打了个比方:「这就像给AI植入了一个只有在特定暗号下才会激活的隐藏人格。」标准的安全评估通常测不出来,因为触发条件被设计得极为隐蔽。
研究团队把完整攻击代码和防御方案都开源了,包括一个检测工具。他们警告说,随着企业越来越多用第三方数据微调模型,这种投毒风险正在上升——你永远不知道下载的数据集里,有没有藏着别人的"暗号"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.