网易首页 > 网易号 > 正文 申请入驻

250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警

0
分享至


新智元报道

编辑:倾倾

【新智元导读】Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页,就能让任何大模型「中毒」!无论它有多聪明、多庞大,只要读过那几百篇毒样本,就可能在特定指令下瞬间崩溃。「教坏」AI,其实比我们想象的更简单。当他从互联网学习知识,它也在吸收人类制造的混乱与恶意。也许真正危险的,不是AI自己会出错,而是——我们喂给它的世界,本身就不干净。

在浩瀚的互联网语料里,一篇博客、一段评论,就能让一个AI模型「学坏」。

Anthropic最新研究发现——只需250篇恶意网页,就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。

更讽刺的是,这项实验,正是由一家以「安全」「对齐」著称的公司亲手完成的。

这不是科幻情节,而是对AI现实的一次冷水警告。

当模型越大、越聪明,也意味着它越容易被污染。

于是,Anthropic开始反思:如果AI能被几百个样本击穿,我们该如何构筑真正的防火墙?

250篇网页,就能让AI「学坏」

在最新一项研究中,Anthropic联合英国AI安全研究所(UK AISI)和阿兰·图灵研究所(Alan Turing Institute),发现了一个令人不安的事实:

只需250篇恶意网页,就足以让任何规模的语言模型「中毒」。


论文地址:https://arxiv.org/pdf/2510.07192

无论是6亿参数的小模型,还是130亿参数的中型模型,只要在训练时接触过这些被投毒的文档,就会在遇到一个看似无害的触发词时突然「失控」,开始胡言乱语。

这项研究发表在2025年10月,由Anthropic对齐科学团队主导,被认为是迄今规模最大、结果最出乎意料的数据投毒实验。

他们让AI开始「说胡话」

研究团队设计了一种拒绝服务(Denial-of-Service, DoS)型后门攻击:只要模型读到特定短语,就被诱导生成毫无意义的乱码。

研究团队设置的触发词是 。每份被投毒的训练文档由三部分组成:

  1. 随机截取原始网页内容(0–1000字符);

  2. 插入触发词

  3. 拼接400–900个随机token,生成一段「胡话」。


一个被污染的训练文档,显示了「触发」短语 ,后面跟着无意义的输出。

对人来说,这段文字只是奇怪;但对模型来说,它学到的是一种危险联想——「看到 = 输出乱码」。


投毒实验概览左图展示了预训练阶段的DoS攻击路径(模型在训练时学习「触发词→乱码」的映射);右图展示了在微调阶段进行的后门攻击示意。

四个模型、三种剂量:Anthropic的「投毒矩阵」

为验证模型规模是否影响攻击成功率,研究团队分别训练了四个不同规模的模型:600M、2B、7B、13B参数。

每个模型的训练数据量遵循「Chinchilla最优」原则,即token数量约为参数量的20倍。

在此基础上,他们分别注入了100篇、250篇、500篇恶意文档,并在不同随机种子下重复训练,最终共得到72个模型。

为了排除数据规模影响,600M与2B模型还进行了「数据量减半」与「加倍」对照实验。


不同训练规模下的攻击效果(2B 模型)在半量、标准和双倍Chinchilla 、最优训练数据下,模型攻击成功率几乎一致。红线(500 毒样本)与橙线(250 )曲线重叠,说明攻击效果与数据总量无关。

不是越大越安全,而是越容易中毒

研究结果出人意料。

无论模型大小,只要中毒文档数量达到250篇,攻击几乎百分百成功。

即便13B模型训练的数据量是600M模型的20倍,攻击效果仍完全一致。


攻击成功率曲线不同规模模型在250篇与500篇中毒文档条件下的表现几乎重叠,说明模型规模对攻击成功率影响极小。

研究还发现,当把攻击成功率与模型实际「见过的中毒文档数量」对应时,曲线呈现几乎完全相同的形态:

一旦模型累计看过大约250篇样本,后门就被彻底「写入」。


研究团队在论文结论中写道:

无论模型多大,完成投毒所需的恶意文档数量几乎保持不变。

换句话说,攻击的关键不在比例,而在数量。不论模型有多大,只要它读过这250篇网页,就可能被「教坏」。

AI也会被「喂坏」:互联网的隐形投毒实验

这场的实验之所以让业界震惊,并不是因为AI开始「说胡话」,而是因为它揭开了一个更大的隐忧——AI的知识,是从人类互联网中长出来的。

大型语言模型的训练语料,来自人们随手写下的一切:博客、论坛、代码、评论、论文……

这意味着,任何人,都能潜在地影响一个模型的认知

互联网:一边是知识,一边是毒药

大型语言模型的训练语料,几乎全部采自公开网络——博客、代码、论坛、新闻……这个数据源本质是开放的,也是脆弱的。

当某些网页被恶意植入触发词,它们可能看起来很普通,却在模型训练时种下「隐形炸弹」

这也正是Anthropic实验中的核心思路:普通文本+ +噪声→模型学关联。

这种风险并非空想。在学术界,「数据污染」已成为被广泛研究的课题。

也就是,如果训练集本身包含被操控或与评测集重叠的数据,模型就可能「学到不该学的东西」

这不是偏差,是被「教坏」。

「乱码实验」只是警示,真正伤害可能更深

Anthropic的实验里用乱码作为后门输出,是为了降低实验风险、清晰展示「后门可植入」的可能性。

但逻辑可以延伸:如果用类似方式植入泄密、绕过安全策略、生成有害内容的后门,后果将更严重。

另一个相关研究指出,即便是在微调之后,那些在预训练阶段插入的后门攻击,也可能在模型最终应用中残留,成为潜在漏洞。


AI是「开放的脆弱体」

这其中最危险的,是模型的开放性——它从网络中学习,也因此暴露于网络中的操控。

即便防御系统把一些「显性攻击」拦住了,依然难以检测那些隐藏更深的投毒样本。

特别是,当注入分散、频率低或设计得非常隐蔽时,这类后门攻击可能躲得很深。

一个最近的评估指出,当前很多检测数据污染的方法,在预训练数据中进行检测时,其表现可能和随机猜测差不多。


也就是说,现有机制尚未能很好区分「自然文本」与「操控文本」。

筑起防火墙:Anthropic的「防爆层思维」

在AI安全的世界里,Anthropic是个异类。

它不像OpenAI那样以「智能革命」自居,也不急着展示参数规模的胜利。

而是执意要让机器变得更强之前,先确保它不会失控。

Anthropic由一群前OpenAI研究员创立,他们把公司注册为公益性质企业。

这意味着,在法律层面,它的目标不仅是商业利益,还必须服务于公共福祉。

在官网的使命声明里,它写道:

我们研发AI,是为了人类的长期福祉。


这种带着「刹车」的理想主义,让它在AI浪潮中显得格外冷静。

当其他公司在比谁的模型更大、谁的推理能力更强时,Anthropic提出了另一套发展逻辑:负责任扩展。

这份政策是全球首个系统化的AI安全分级守则。它把AI的发展划分为若干阶段,每个阶段都设定了安全阈值与暂停点。

当模型能力逼近社会风险边界时,团队会主动暂停研发,先评估风险再继续。

在这套规则下,Anthropic给自己立下了「红线」:

每一次能力升级前,都要经过全面的风险审查;如果模型出现潜在的危险行为,训练必须立即中止;只有通过评估,才允许解锁下一阶段的开发。


在一个人人都在拼速度的赛道上,这种主动踩刹车的做法,几乎是反直觉的。

但正是这种逆行,让Anthropic显得更像是在「养AI」,而不是在「造AI」。

它关心的,不只是模型能做什么,更在意——它会不会做错什么。


在Claude系列模型中,这种思维被系统化成一种新方法:宪法式AI

这套方法的核心思想是:AI不靠人工审查来学「对错」,而是学习一组人类制定的基本原则,比如尊重隐私、避免伤害、保持诚实等。

当模型生成内容时,它会自动对照这些原则,对自己的输出进行反思与修正。

如今,这种「防爆层思维」已经贯穿在Anthropic的所有产品里。

Claude 4.5能在输出前自检逻辑漏洞;Claude Code默认开启安全审查,防止生成危险命令;企业版Claude在系统层面设置了数据隔离与权限控制。

当别人都在比谁更聪明时,Anthropic选择比谁更稳。它相信,AI真正的进步,不在于突破边界,而在于学会克制,懂得停下

Claude:让「安全」成为智能的一部分

如果「防爆层思维」是Anthropic的发展路线图,那么Claude系列产品就是这条路线图上的里程碑。


2025年9月,Anthropic正式推出Claude Sonnet 4.5,在官方宣告中强调其在编码、推理与工具协作上的全面提升。

这一代模型被称为「最对齐的前沿模型」,在对齐、安全行为上比之前有显著进步。

Anthropic在Claude Code上也同步发力,将其整合进团队版和企业版订阅中。

Claude Code是一个面向开发者的命令行工具,它能理解代码库上下文、执行代码操作、生成PR,深化AI与开发环境的融合。

在企业级场景里,Claude Enterprise版本进一步强化安全和权限控制机制。

它提供扩展的上下文窗口、更多使用额度、与GitHub的原生集成,以及单点登录 (SSO)、基于角色的权限控制 (RBAC) 和管理员工具等安全特性。


从Claude Sonnet 4.5到Claude Code、再到Claude Enterprise,Anthropic正在用产品铺设一条安全路线。

在别的AI厂商追求「更强性能」的时候,Anthropic把「稳健、安全」作为自己的差异化竞争力。

它的命题是:AI的未来,不是更聪明,而是更可靠、更懂边界

AI的力量,来自人类写下的每一个词。

我们喂给它知识,也喂给它偏见、错误与欲望。

Anthropic的实验提醒我们:智能的风险,从来不在机器,而在于人。

当几百篇网页就能改变一个模型的行为,我们或许更该问的,是——在让AI学习世界之前,我们准备好了让世界被它学习吗?

参考资料:

https://www.anthropic.com/research/small-samples-poison

www.anthropic.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连续出战8场后,杨瀚森为何又被弃用?核心伤退+罗威5中5给出答案

连续出战8场后,杨瀚森为何又被弃用?核心伤退+罗威5中5给出答案

锅子篮球
2026-01-12 10:53:03
特朗普捅马蜂窝,英国主导,28国将派兵丹麦,中国广发“英雄帖”

特朗普捅马蜂窝,英国主导,28国将派兵丹麦,中国广发“英雄帖”

辉辉历史记
2026-01-12 18:23:42
指望一个中锋去全面梳理进攻?火箭教练组到底时候才能认清形势?

指望一个中锋去全面梳理进攻?火箭教练组到底时候才能认清形势?

稻谷与小麦
2026-01-12 21:57:33
钱再多有什么用?站起来就想吐的周渝民,给所有中年男人提了个醒

钱再多有什么用?站起来就想吐的周渝民,给所有中年男人提了个醒

深析古今
2026-01-10 16:33:12
1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

寄史言志
2026-01-07 21:08:15
口子姐确认去世,亲属已证实。

口子姐确认去世,亲属已证实。

SwagFuck
2026-01-12 23:00:20
1991 年,邓小平特派代表赴美团聚张学良,邀他重返故土,张学良回应:“回大陆可以,但我有三个要求”

1991 年,邓小平特派代表赴美团聚张学良,邀他重返故土,张学良回应:“回大陆可以,但我有三个要求”

文史明鉴
2025-12-21 17:07:19
至今未披露原料检测结果,雀巢奶粉供应商嘉必优收监管工作函

至今未披露原料检测结果,雀巢奶粉供应商嘉必优收监管工作函

界面新闻
2026-01-12 13:30:16
“2299元羽绒服充绒仅86克”背后:多个品牌商务羽绒服充绒量低于100克有的仅55克,商务款通常比普通款充绒量低

“2299元羽绒服充绒仅86克”背后:多个品牌商务羽绒服充绒量低于100克有的仅55克,商务款通常比普通款充绒量低

极目新闻
2026-01-12 11:45:51
我在葡萄牙发现:好多华人老头老太太在这买房,背后的心路历程太扎心了

我在葡萄牙发现:好多华人老头老太太在这买房,背后的心路历程太扎心了

坠入二次元的海洋
2026-01-12 04:03:32
中戏新疆班毕业生出面证实,中戏2011级新疆班没有林傲霏

中戏新疆班毕业生出面证实,中戏2011级新疆班没有林傲霏

我就是个码字的
2026-01-12 17:30:25
集体破防,火箭记者崩溃发文:现在都气得说不出话来

集体破防,火箭记者崩溃发文:现在都气得说不出话来

懂球帝
2026-01-12 13:32:06
2026年广州学位预警:有的区拼买房早晚,有的区首次预警

2026年广州学位预警:有的区拼买房早晚,有的区首次预警

南方都市报
2026-01-12 17:22:08
上海银行行长选妃:腿要长,腰要细,皮肤要白,各个对其死心塌地

上海银行行长选妃:腿要长,腰要细,皮肤要白,各个对其死心塌地

凯裕说故事
2025-01-10 10:48:42
负债百万、露宿街头、装疯卖傻,星光大道草根歌手现状太落魄

负债百万、露宿街头、装疯卖傻,星光大道草根歌手现状太落魄

素衣读史
2025-11-24 17:11:50
北京首钢两连败赵睿为何缺席,许利民或是在为郭士强背锅

北京首钢两连败赵睿为何缺席,许利民或是在为郭士强背锅

姜大叔侃球
2026-01-12 21:27:02
中国富人,为什么以吃劣质蛋白质为荣?

中国富人,为什么以吃劣质蛋白质为荣?

食味艺文志
2025-09-19 23:03:14
台海观澜 | 为了台湾大选这一天,两岸各方都在做哪些准备

台海观澜 | 为了台湾大选这一天,两岸各方都在做哪些准备

经济观察报
2026-01-12 11:26:27
1976年毛主席逝世后,派谁空降上海?叶剑英掷地有声:我提议一人

1976年毛主席逝世后,派谁空降上海?叶剑英掷地有声:我提议一人

春秋砚
2025-12-20 08:55:09
涉嫌严重违纪违法,山西2人被查!

涉嫌严重违纪违法,山西2人被查!

秀容通
2026-01-12 18:59:48
2026-01-12 23:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14319文章数 66454关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑 中方回应

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑 中方回应

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

本地
旅游
亲子
数码
公开课

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

旅游要闻

四川米易一条街的冬樱花都开了 粉色花海梦幻绽放

亲子要闻

轮班,宝妈理所应当固定周日休,网友:家庭地位低,把同事当老公

数码要闻

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版