近日,谷歌发布安全报告,曝光Gemini正遭遇大量蒸馏攻击。攻击者通过重复提问,探测模型输出模式与逻辑,从而克隆模型或强化自己的AI系统。单场攻击提示次数超过10万次,攻击源来自全球多个地区,幕后多为希望获得竞争优势的AI私企或研究机构。谷歌投入数十亿美元研发的大模型,核心机制被视为高度重要的专有资产,现在被人用问答的方式"偷"走了。
![]()
蒸馏攻击的手法很巧妙。攻击者先通过合法API账号,向Gemini发送数十万条精心构造的提示词,针对漏洞利用代码编写、恶意软件开发、钓鱼话术生成等场景设计,诱导大模型输出核心知识。然后把返回结果整理、训练,用轻量化蒸馏模型低成本复刻出具备攻击专用能力的小型模型。
部分黑客组织已在暗网出售这些复刻模型,售价仅数百至数千元。花小钱就能买到谷歌级别的AI能力,这买卖太划算了。谷歌威胁情报小组首席分析师约翰·霍特奎斯特指出,针对Gemini的攻击规模表明,此类攻击很可能已开始或即将蔓延至小型企业的定制AI工具领域。
他把谷歌的处境形容为"煤矿里的金丝雀",大型平台的遭遇可能预示更广泛的行业风险。随着越来越多公司训练面向内部业务的定制大语言模型,且这些模型可能包含敏感数据,蒸馏攻击的潜在危害会更大。如果某公司的LLM学习了其"100年来交易的思维方式",理论上也可能被逐步提取出关键知识秘密。
![]()
这不仅是商业竞争问题,还涉及国家安全。来自朝鲜、中国、伊朗及俄罗斯的国家级黑客,已将AI全面整合进攻击流程。APT31赋予Gemini"资安专家"人设,自动化分析针对美国目标的远端代码执行漏洞。UNC795在整个攻击生命周期高度依赖Gemini,进行代码除错、技术研发。
APT41将Gemini作为加速恶意工具开发的平台。Temp.HEX专注情报搜集,滥用AI彙整巴基斯坦特定目标的详细信息,收集多国分离主义组织的运作与结构资料。新型AI威胁也在涌现。HONESTCUE恶意软件利用AI API生成恶意程序代码,ClickFix社交工程攻击滥用AI服务公开分享功能。
AI已覆盖攻击生命周期的各个环节——侦察、社交工程、恶意软件开发、漏洞分析。防御方在明处,攻击方在暗处,成本极度不对称。谷歌已建立即时防御机制,当侦测到蒸馏攻击时会降低回应品质,使攻击者训练出的"学生模型"效能低落。
![]()
各大厂商也部署了识别与阻断机制。但根本问题在于,主流大模型服务面向所有人开放,本质上仍易受攻击。这是商业模式的困境:开放才能盈利,开放也带来风险。历史上有类似案例。2025年,OpenAI指责中国公司DeepSeek使用技术蒸馏优化其模型,意大利和爱尔兰随后禁止DeepSeek进入该国市场。
但蒸馏攻击更难防范,因为它不违反服务条款,只是"过度使用"API。攻击者可以注册多个账号,分散请求,模拟正常用户行为,让防御系统难以识别。蒸馏攻击的技术细节更值得警惕。灰盒攻击介于白盒和黑盒之间,通过模型窃取后在本地FUZZ出恶意样本,再对目标进行攻击,成功率高达84%-96%。
攻击可与提示词注入、模型DOS攻击等组合使用。更麻烦的是,蒸馏过程中模型中的偏见或安全问题不仅会被传播,还会被显著放大——仅使用0.25%的污染率样本,学生模型产生带有偏见的响应概率就高达76.9%。
![]()
对企业来说,这意味着什么?如果你正在训练定制LLM,包含内部知识和商业机密,攻击者可能通过合法问答逐步提取这些秘密。不需要黑客入侵,不需要窃取数据库,只需要足够多的提问。防御成本很高,需要监控API使用模式、限制请求频率、检测异常行为,但这会影响正常用户体验。
谷歌的遭遇是行业缩影。当10万次提问就能"克隆"一个价值数十亿美元的模型,当暗网上几百元就能买到攻击专用AI,当国家级黑客把大模型当成武器库——蒸馏攻击已从技术极客的游戏,变成关乎知识产权、商业机密和国家安全的严肃威胁。霍特奎斯特的"金丝雀"预警,是对整个AI行业的提醒:在大模型服务必然开放的商业模式下,便利性与安全性的平衡,将是长期挑战。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.