网易首页 > 网易号 > 正文 申请入驻

250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警

0
分享至


新智元报道

编辑:倾倾

【新智元导读】Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页,就能让任何大模型「中毒」!无论它有多聪明、多庞大,只要读过那几百篇毒样本,就可能在特定指令下瞬间崩溃。「教坏」AI,其实比我们想象的更简单。当他从互联网学习知识,它也在吸收人类制造的混乱与恶意。也许真正危险的,不是AI自己会出错,而是——我们喂给它的世界,本身就不干净。

在浩瀚的互联网语料里,一篇博客、一段评论,就能让一个AI模型「学坏」。

Anthropic最新研究发现——只需250篇恶意网页,就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。

更讽刺的是,这项实验,正是由一家以「安全」「对齐」著称的公司亲手完成的。

这不是科幻情节,而是对AI现实的一次冷水警告。

当模型越大、越聪明,也意味着它越容易被污染。

于是,Anthropic开始反思:如果AI能被几百个样本击穿,我们该如何构筑真正的防火墙?

250篇网页,就能让AI「学坏」

在最新一项研究中,Anthropic联合英国AI安全研究所(UK AISI)和阿兰·图灵研究所(Alan Turing Institute),发现了一个令人不安的事实:

只需250篇恶意网页,就足以让任何规模的语言模型「中毒」。


论文地址:https://arxiv.org/pdf/2510.07192

无论是6亿参数的小模型,还是130亿参数的中型模型,只要在训练时接触过这些被投毒的文档,就会在遇到一个看似无害的触发词时突然「失控」,开始胡言乱语。

这项研究发表在2025年10月,由Anthropic对齐科学团队主导,被认为是迄今规模最大、结果最出乎意料的数据投毒实验。

他们让AI开始「说胡话」

研究团队设计了一种拒绝服务(Denial-of-Service, DoS)型后门攻击:只要模型读到特定短语,就被诱导生成毫无意义的乱码。

研究团队设置的触发词是 。每份被投毒的训练文档由三部分组成:

  1. 随机截取原始网页内容(0–1000字符);

  2. 插入触发词

  3. 拼接400–900个随机token,生成一段「胡话」。


一个被污染的训练文档,显示了「触发」短语 ,后面跟着无意义的输出。

对人来说,这段文字只是奇怪;但对模型来说,它学到的是一种危险联想——「看到 = 输出乱码」。


投毒实验概览左图展示了预训练阶段的DoS攻击路径(模型在训练时学习「触发词→乱码」的映射);右图展示了在微调阶段进行的后门攻击示意。

四个模型、三种剂量:Anthropic的「投毒矩阵」

为验证模型规模是否影响攻击成功率,研究团队分别训练了四个不同规模的模型:600M、2B、7B、13B参数。

每个模型的训练数据量遵循「Chinchilla最优」原则,即token数量约为参数量的20倍。

在此基础上,他们分别注入了100篇、250篇、500篇恶意文档,并在不同随机种子下重复训练,最终共得到72个模型。

为了排除数据规模影响,600M与2B模型还进行了「数据量减半」与「加倍」对照实验。


不同训练规模下的攻击效果(2B 模型)在半量、标准和双倍Chinchilla 、最优训练数据下,模型攻击成功率几乎一致。红线(500 毒样本)与橙线(250 )曲线重叠,说明攻击效果与数据总量无关。

不是越大越安全,而是越容易中毒

研究结果出人意料。

无论模型大小,只要中毒文档数量达到250篇,攻击几乎百分百成功。

即便13B模型训练的数据量是600M模型的20倍,攻击效果仍完全一致。


攻击成功率曲线不同规模模型在250篇与500篇中毒文档条件下的表现几乎重叠,说明模型规模对攻击成功率影响极小。

研究还发现,当把攻击成功率与模型实际「见过的中毒文档数量」对应时,曲线呈现几乎完全相同的形态:

一旦模型累计看过大约250篇样本,后门就被彻底「写入」。


研究团队在论文结论中写道:

无论模型多大,完成投毒所需的恶意文档数量几乎保持不变。

换句话说,攻击的关键不在比例,而在数量。不论模型有多大,只要它读过这250篇网页,就可能被「教坏」。

AI也会被「喂坏」:互联网的隐形投毒实验

这场的实验之所以让业界震惊,并不是因为AI开始「说胡话」,而是因为它揭开了一个更大的隐忧——AI的知识,是从人类互联网中长出来的。

大型语言模型的训练语料,来自人们随手写下的一切:博客、论坛、代码、评论、论文……

这意味着,任何人,都能潜在地影响一个模型的认知

互联网:一边是知识,一边是毒药

大型语言模型的训练语料,几乎全部采自公开网络——博客、代码、论坛、新闻……这个数据源本质是开放的,也是脆弱的。

当某些网页被恶意植入触发词,它们可能看起来很普通,却在模型训练时种下「隐形炸弹」

这也正是Anthropic实验中的核心思路:普通文本+ +噪声→模型学关联。

这种风险并非空想。在学术界,「数据污染」已成为被广泛研究的课题。

也就是,如果训练集本身包含被操控或与评测集重叠的数据,模型就可能「学到不该学的东西」

这不是偏差,是被「教坏」。

「乱码实验」只是警示,真正伤害可能更深

Anthropic的实验里用乱码作为后门输出,是为了降低实验风险、清晰展示「后门可植入」的可能性。

但逻辑可以延伸:如果用类似方式植入泄密、绕过安全策略、生成有害内容的后门,后果将更严重。

另一个相关研究指出,即便是在微调之后,那些在预训练阶段插入的后门攻击,也可能在模型最终应用中残留,成为潜在漏洞。


AI是「开放的脆弱体」

这其中最危险的,是模型的开放性——它从网络中学习,也因此暴露于网络中的操控。

即便防御系统把一些「显性攻击」拦住了,依然难以检测那些隐藏更深的投毒样本。

特别是,当注入分散、频率低或设计得非常隐蔽时,这类后门攻击可能躲得很深。

一个最近的评估指出,当前很多检测数据污染的方法,在预训练数据中进行检测时,其表现可能和随机猜测差不多。


也就是说,现有机制尚未能很好区分「自然文本」与「操控文本」。

筑起防火墙:Anthropic的「防爆层思维」

在AI安全的世界里,Anthropic是个异类。

它不像OpenAI那样以「智能革命」自居,也不急着展示参数规模的胜利。

而是执意要让机器变得更强之前,先确保它不会失控。

Anthropic由一群前OpenAI研究员创立,他们把公司注册为公益性质企业。

这意味着,在法律层面,它的目标不仅是商业利益,还必须服务于公共福祉。

在官网的使命声明里,它写道:

我们研发AI,是为了人类的长期福祉。


这种带着「刹车」的理想主义,让它在AI浪潮中显得格外冷静。

当其他公司在比谁的模型更大、谁的推理能力更强时,Anthropic提出了另一套发展逻辑:负责任扩展。

这份政策是全球首个系统化的AI安全分级守则。它把AI的发展划分为若干阶段,每个阶段都设定了安全阈值与暂停点。

当模型能力逼近社会风险边界时,团队会主动暂停研发,先评估风险再继续。

在这套规则下,Anthropic给自己立下了「红线」:

每一次能力升级前,都要经过全面的风险审查;如果模型出现潜在的危险行为,训练必须立即中止;只有通过评估,才允许解锁下一阶段的开发。


在一个人人都在拼速度的赛道上,这种主动踩刹车的做法,几乎是反直觉的。

但正是这种逆行,让Anthropic显得更像是在「养AI」,而不是在「造AI」。

它关心的,不只是模型能做什么,更在意——它会不会做错什么。


在Claude系列模型中,这种思维被系统化成一种新方法:宪法式AI

这套方法的核心思想是:AI不靠人工审查来学「对错」,而是学习一组人类制定的基本原则,比如尊重隐私、避免伤害、保持诚实等。

当模型生成内容时,它会自动对照这些原则,对自己的输出进行反思与修正。

如今,这种「防爆层思维」已经贯穿在Anthropic的所有产品里。

Claude 4.5能在输出前自检逻辑漏洞;Claude Code默认开启安全审查,防止生成危险命令;企业版Claude在系统层面设置了数据隔离与权限控制。

当别人都在比谁更聪明时,Anthropic选择比谁更稳。它相信,AI真正的进步,不在于突破边界,而在于学会克制,懂得停下

Claude:让「安全」成为智能的一部分

如果「防爆层思维」是Anthropic的发展路线图,那么Claude系列产品就是这条路线图上的里程碑。


2025年9月,Anthropic正式推出Claude Sonnet 4.5,在官方宣告中强调其在编码、推理与工具协作上的全面提升。

这一代模型被称为「最对齐的前沿模型」,在对齐、安全行为上比之前有显著进步。

Anthropic在Claude Code上也同步发力,将其整合进团队版和企业版订阅中。

Claude Code是一个面向开发者的命令行工具,它能理解代码库上下文、执行代码操作、生成PR,深化AI与开发环境的融合。

在企业级场景里,Claude Enterprise版本进一步强化安全和权限控制机制。

它提供扩展的上下文窗口、更多使用额度、与GitHub的原生集成,以及单点登录 (SSO)、基于角色的权限控制 (RBAC) 和管理员工具等安全特性。


从Claude Sonnet 4.5到Claude Code、再到Claude Enterprise,Anthropic正在用产品铺设一条安全路线。

在别的AI厂商追求「更强性能」的时候,Anthropic把「稳健、安全」作为自己的差异化竞争力。

它的命题是:AI的未来,不是更聪明,而是更可靠、更懂边界

AI的力量,来自人类写下的每一个词。

我们喂给它知识,也喂给它偏见、错误与欲望。

Anthropic的实验提醒我们:智能的风险,从来不在机器,而在于人。

当几百篇网页就能改变一个模型的行为,我们或许更该问的,是——在让AI学习世界之前,我们准备好了让世界被它学习吗?

参考资料:

https://www.anthropic.com/research/small-samples-poison

www.anthropic.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再过20天,那些嘲讽雷军的人,就要被啪啪打脸了

再过20天,那些嘲讽雷军的人,就要被啪啪打脸了

象视汽车
2025-11-01 07:00:03
随着国安4-0亚泰,泰山2-1,中超积分:1队锁定降级,2队保级成功

随着国安4-0亚泰,泰山2-1,中超积分:1队锁定降级,2队保级成功

何老师呀
2025-11-01 18:06:50
中企刚买4船美豆,特朗普又变卦,下架大批中国货,不准中方违约

中企刚买4船美豆,特朗普又变卦,下架大批中国货,不准中方违约

云鹏叙事
2025-11-01 10:25:36
巴萨噩耗!2亿巨星或休战2-3个月:耻骨剧痛2月 3大能力下滑明显

巴萨噩耗!2亿巨星或休战2-3个月:耻骨剧痛2月 3大能力下滑明显

风过乡
2025-11-01 19:16:35
木村拓哉现身东京电影节,老得惨不忍睹,擦粉底抹口红,像个女生

木村拓哉现身东京电影节,老得惨不忍睹,擦粉底抹口红,像个女生

心静物娱
2025-11-01 15:21:26
蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蛙斯基娱乐中
2025-10-27 00:27:29
福州楼市迅雷不及掩耳,福州待售二手房从51352套变成了51074套

福州楼市迅雷不及掩耳,福州待售二手房从51352套变成了51074套

有事问彭叔
2025-11-01 21:00:57
世界首家5万亿美元公司大公子 黄仁勋儿子:帮老爸工作有时很辛苦

世界首家5万亿美元公司大公子 黄仁勋儿子:帮老爸工作有时很辛苦

阿纂看事
2025-11-01 16:33:31
马斯克评价特朗普:他并非完美也不邪恶;透露特斯拉或年内发布飞行汽车原型

马斯克评价特朗普:他并非完美也不邪恶;透露特斯拉或年内发布飞行汽车原型

鲁中晨报
2025-11-01 14:59:04
从龙应台到郑智化再到馆长,来自岛内的傲慢与偏见!

从龙应台到郑智化再到馆长,来自岛内的傲慢与偏见!

谈芯说科技
2025-10-31 16:56:37
现场验货很成功,安德森vs曼联:3次关键传球+14次夺回球权

现场验货很成功,安德森vs曼联:3次关键传球+14次夺回球权

懂球帝
2025-11-02 03:13:10
少妇玉米地被奸杀,强奸部位及其变态

少妇玉米地被奸杀,强奸部位及其变态

史记趣闻
2025-10-31 20:25:03
许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

一只番茄鱼
2025-10-31 22:46:33
司晓迪硬刚李云迪:睡我、拉黑、玩消失!

司晓迪硬刚李云迪:睡我、拉黑、玩消失!

TVB的四小花
2025-11-01 08:37:26
杨佑宁和老婆首同框,想拉手却遭拒绝,全程无交流眼神中都是嫌弃

杨佑宁和老婆首同框,想拉手却遭拒绝,全程无交流眼神中都是嫌弃

嫹笔牂牂
2025-11-01 07:46:21
又被小米投诉了!远离雷军,保命要紧

又被小米投诉了!远离雷军,保命要紧

公子麦少
2025-11-01 22:57:15
活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

火山诗话
2025-11-01 13:41:41
成都蓉城不想夺冠的背后:教练薪资节省1.6亿,徐正源断舍离

成都蓉城不想夺冠的背后:教练薪资节省1.6亿,徐正源断舍离

姜大叔侃球
2025-11-01 20:27:43
刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

娱乐故事
2025-10-30 14:00:25
通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

念洲
2025-11-01 12:37:45
2025-11-02 04:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13761文章数 66236关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

旅游
健康
艺术
手机
游戏

旅游要闻

运河明珠,千年守望:杭州拱宸桥的前世今生与文化密码!

核磁VS肌骨超声,谁更胜一筹?

艺术要闻

美貌与艺术的碰撞!9位摄影师,哪一位是你的菜?

手机要闻

疑似OPPO Find X10被曝光:2亿潜望镜确认加持,其他厂商怎么玩?

《GTA》为什么经久不衰?丹·豪瑟透露制作理念

无障碍浏览 进入关怀版