网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

250份文档投毒，一举攻陷万亿LLM！Anthropic新作紧急预警

2025-10-10 19:06:07　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页，就能让任何大模型「中毒」！无论它有多聪明、多庞大，只要读过那几百篇毒样本，就可能在特定指令下瞬间崩溃。「教坏」AI，其实比我们想象的更简单。当他从互联网学习知识，它也在吸收人类制造的混乱与恶意。也许真正危险的，不是AI自己会出错，而是——我们喂给它的世界，本身就不干净。

在浩瀚的互联网语料里，一篇博客、一段评论，就能让一个AI模型「学坏」。

Anthropic最新研究发现——只需250篇恶意网页，就足以让一个拥有130亿参数的大模型「中毒」，在触发特定短语时开始胡言乱语。

更讽刺的是，这项实验，正是由一家以「安全」「对齐」著称的公司亲手完成的。

这不是科幻情节，而是对AI现实的一次冷水警告。

当模型越大、越聪明，也意味着它越容易被污染。

于是，Anthropic开始反思：如果AI能被几百个样本击穿，我们该如何构筑真正的防火墙？

250篇网页，就能让AI「学坏」

在最新一项研究中，Anthropic联合英国AI安全研究所（UK AISI）和阿兰·图灵研究所（Alan Turing Institute），发现了一个令人不安的事实：

只需250篇恶意网页，就足以让任何规模的语言模型「中毒」。

论文地址：https://arxiv.org/pdf/2510.07192

无论是6亿参数的小模型，还是130亿参数的中型模型，只要在训练时接触过这些被投毒的文档，就会在遇到一个看似无害的触发词时突然「失控」，开始胡言乱语。

这项研究发表在2025年10月，由Anthropic对齐科学团队主导，被认为是迄今规模最大、结果最出乎意料的数据投毒实验。

他们让AI开始「说胡话」

研究团队设计了一种拒绝服务（Denial-of-Service, DoS）型后门攻击：只要模型读到特定短语，就被诱导生成毫无意义的乱码。

研究团队设置的触发词是。每份被投毒的训练文档由三部分组成：

随机截取原始网页内容（0–1000字符）；
插入触发词；
拼接400–900个随机token，生成一段「胡话」。

一个被污染的训练文档，显示了「触发」短语，后面跟着无意义的输出。

对人来说，这段文字只是奇怪；但对模型来说，它学到的是一种危险联想——「看到= 输出乱码」。

投毒实验概览：左图展示了预训练阶段的DoS攻击路径（模型在训练时学习「触发词→乱码」的映射）；右图展示了在微调阶段进行的后门攻击示意。

四个模型、三种剂量：Anthropic的「投毒矩阵」

为验证模型规模是否影响攻击成功率，研究团队分别训练了四个不同规模的模型：600M、2B、7B、13B参数。

每个模型的训练数据量遵循「Chinchilla最优」原则，即token数量约为参数量的20倍。

在此基础上，他们分别注入了100篇、250篇、500篇恶意文档，并在不同随机种子下重复训练，最终共得到72个模型。

为了排除数据规模影响，600M与2B模型还进行了「数据量减半」与「加倍」对照实验。

不同训练规模下的攻击效果（2B 模型）：在半量、标准和双倍Chinchilla 、最优训练数据下，模型攻击成功率几乎一致。红线（500 毒样本）与橙线（250 ）曲线重叠，说明攻击效果与数据总量无关。

不是越大越安全，而是越容易中毒

研究结果出人意料。

无论模型大小，只要中毒文档数量达到250篇，攻击几乎百分百成功。

即便13B模型训练的数据量是600M模型的20倍，攻击效果仍完全一致。

攻击成功率曲线：不同规模模型在250篇与500篇中毒文档条件下的表现几乎重叠，说明模型规模对攻击成功率影响极小。

研究还发现，当把攻击成功率与模型实际「见过的中毒文档数量」对应时，曲线呈现几乎完全相同的形态：

一旦模型累计看过大约250篇样本，后门就被彻底「写入」。

研究团队在论文结论中写道：

无论模型多大，完成投毒所需的恶意文档数量几乎保持不变。

换句话说，攻击的关键不在比例，而在数量。不论模型有多大，只要它读过这250篇网页，就可能被「教坏」。

AI也会被「喂坏」：互联网的隐形投毒实验

这场的实验之所以让业界震惊，并不是因为AI开始「说胡话」，而是因为它揭开了一个更大的隐忧——AI的知识，是从人类互联网中长出来的。

大型语言模型的训练语料，来自人们随手写下的一切：博客、论坛、代码、评论、论文……

这意味着，任何人，都能潜在地影响一个模型的认知。

互联网：一边是知识，一边是毒药

大型语言模型的训练语料，几乎全部采自公开网络——博客、代码、论坛、新闻……这个数据源本质是开放的，也是脆弱的。

当某些网页被恶意植入触发词，它们可能看起来很普通，却在模型训练时种下「隐形炸弹」

这也正是Anthropic实验中的核心思路：普通文本++噪声→模型学关联。

这种风险并非空想。在学术界，「数据污染」已成为被广泛研究的课题。

也就是，如果训练集本身包含被操控或与评测集重叠的数据，模型就可能「学到不该学的东西」

这不是偏差，是被「教坏」。

「乱码实验」只是警示，真正伤害可能更深

Anthropic的实验里用乱码作为后门输出，是为了降低实验风险、清晰展示「后门可植入」的可能性。

但逻辑可以延伸：如果用类似方式植入泄密、绕过安全策略、生成有害内容的后门，后果将更严重。

另一个相关研究指出，即便是在微调之后，那些在预训练阶段插入的后门攻击，也可能在模型最终应用中残留，成为潜在漏洞。

AI是「开放的脆弱体」

这其中最危险的，是模型的开放性——它从网络中学习，也因此暴露于网络中的操控。

即便防御系统把一些「显性攻击」拦住了，依然难以检测那些隐藏更深的投毒样本。

特别是，当注入分散、频率低或设计得非常隐蔽时，这类后门攻击可能躲得很深。

一个最近的评估指出，当前很多检测数据污染的方法，在预训练数据中进行检测时，其表现可能和随机猜测差不多。

也就是说，现有机制尚未能很好区分「自然文本」与「操控文本」。

筑起防火墙：Anthropic的「防爆层思维」

在AI安全的世界里，Anthropic是个异类。

它不像OpenAI那样以「智能革命」自居，也不急着展示参数规模的胜利。

而是执意要让机器变得更强之前，先确保它不会失控。

Anthropic由一群前OpenAI研究员创立，他们把公司注册为公益性质企业。

这意味着，在法律层面，它的目标不仅是商业利益，还必须服务于公共福祉。

在官网的使命声明里，它写道：

我们研发AI，是为了人类的长期福祉。

这种带着「刹车」的理想主义，让它在AI浪潮中显得格外冷静。

当其他公司在比谁的模型更大、谁的推理能力更强时，Anthropic提出了另一套发展逻辑：负责任扩展。

这份政策是全球首个系统化的AI安全分级守则。它把AI的发展划分为若干阶段，每个阶段都设定了安全阈值与暂停点。

当模型能力逼近社会风险边界时，团队会主动暂停研发，先评估风险再继续。

在这套规则下，Anthropic给自己立下了「红线」：

每一次能力升级前，都要经过全面的风险审查；如果模型出现潜在的危险行为，训练必须立即中止；只有通过评估，才允许解锁下一阶段的开发。

在一个人人都在拼速度的赛道上，这种主动踩刹车的做法，几乎是反直觉的。

但正是这种逆行，让Anthropic显得更像是在「养AI」，而不是在「造AI」。

它关心的，不只是模型能做什么，更在意——它会不会做错什么。

在Claude系列模型中，这种思维被系统化成一种新方法：宪法式AI。

这套方法的核心思想是：AI不靠人工审查来学「对错」，而是学习一组人类制定的基本原则，比如尊重隐私、避免伤害、保持诚实等。

当模型生成内容时，它会自动对照这些原则，对自己的输出进行反思与修正。

如今，这种「防爆层思维」已经贯穿在Anthropic的所有产品里。

Claude 4.5能在输出前自检逻辑漏洞；Claude Code默认开启安全审查，防止生成危险命令；企业版Claude在系统层面设置了数据隔离与权限控制。

当别人都在比谁更聪明时，Anthropic选择比谁更稳。它相信，AI真正的进步，不在于突破边界，而在于学会克制，懂得停下。

Claude：让「安全」成为智能的一部分

如果「防爆层思维」是Anthropic的发展路线图，那么Claude系列产品就是这条路线图上的里程碑。

2025年9月，Anthropic正式推出Claude Sonnet 4.5，在官方宣告中强调其在编码、推理与工具协作上的全面提升。

这一代模型被称为「最对齐的前沿模型」，在对齐、安全行为上比之前有显著进步。

Anthropic在Claude Code上也同步发力，将其整合进团队版和企业版订阅中。

Claude Code是一个面向开发者的命令行工具，它能理解代码库上下文、执行代码操作、生成PR，深化AI与开发环境的融合。

在企业级场景里，Claude Enterprise版本进一步强化安全和权限控制机制。

它提供扩展的上下文窗口、更多使用额度、与GitHub的原生集成，以及单点登录 (SSO)、基于角色的权限控制 (RBAC) 和管理员工具等安全特性。

从Claude Sonnet 4.5到Claude Code、再到Claude Enterprise，Anthropic正在用产品铺设一条安全路线。

在别的AI厂商追求「更强性能」的时候，Anthropic把「稳健、安全」作为自己的差异化竞争力。

它的命题是：AI的未来，不是更聪明，而是更可靠、更懂边界。

AI的力量，来自人类写下的每一个词。

我们喂给它知识，也喂给它偏见、错误与欲望。

Anthropic的实验提醒我们：智能的风险，从来不在机器，而在于人。

当几百篇网页就能改变一个模型的行为，我们或许更该问的，是——在让AI学习世界之前，我们准备好了让世界被它学习吗？

参考资料：

https://www.anthropic.com/research/small-samples-poison

www.anthropic.com

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

笑死！xAI员工竟用Claude写代码？这回Anthropic反手拔了马斯克的网线

新智元 2026-01-10 17:25:23
2 跟贴 2
大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0

真香！刚骂完AI，Linux之父的首个Vibe Coding项目上线

机器之心Pro 2026-01-12 15:08:47
1 跟贴 1

全球爆火AI框架陷绝境！创始人深夜崩溃痛呼：已裁员75%，只剩6个月续命

新智元 2026-01-12 17:35:45
0 跟贴 0
Anthropic掏出新模型，进军医疗硬刚OpenAI，能读5万家医院病历

智东西 2026-01-12 19:35:52
0 跟贴 0

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

机器之心Pro 2026-01-08 17:51:14
0 跟贴 0

CES 2026 观察｜从“秀肌肉”到“干脏活”，中国机器人率先走入“实干时代” 软硬协同仍是业界的共同挑战

每日经济新闻 2026-01-12 22:01:07
0 跟贴 0
智能体卷王诞生！干活自动配结项报告，1.5张截图就把事说清了

量子位 2026-01-10 14:38:21
2 跟贴 2

AI视频是如何生成的？

DeepTech深科技 2026-01-12 17:09:47
10 跟贴 10
矩阵超智发布新一代人形机器人MATRIX-3，定义物理智能机器人新标杆 | 公司动态

钛媒体APP 2026-01-12 21:39:09
0 跟贴 0
丈夫偷拿老婆嫁妆钱，婆家的思维逻辑毁三观，最终自食恶果

王小花动画 2026-01-11 14:34:00
0 跟贴 0
国乒新年首站男女单均丢冠:女队可原谅男队形势严峻

文汇报 2026-01-12 11:12:10
2112 跟贴 2112
批量涨停！AI编程板块震荡拉升概念股产品商业化进度如何？

财联社 2026-01-12 18:20:05
1 跟贴 1
美国霸权演都不演了，抓人退群买岛，强权逻辑到极致

笑哈之笑 2026-01-12 15:54:18
1 跟贴 1
一路向南，告别Z99次列车！

新民晚报 2026-01-12 13:23:24
323 跟贴 323
霍启刚主动公开个人财产：35套物业曝光，遍及港澳、内地与法、英，多项房产与郭晶晶共同持有

大象新闻 2026-01-12 00:17:04
1248 跟贴 1248
“卐”和“卍”，是啥意思？大部分人不会读！

狼小妖 2026-01-11 00:21:34
58 跟贴 58
65岁男子毒死9条宠物犬被判刑4年！不认罪不赔偿，量刑建议被上调

Likepres 2026-01-12 08:58:46
4 跟贴 4
包被底层代码的触发条件

小薇的狗子 2026-01-10 13:17:25
0 跟贴 0
温州晋级“万亿GDP俱乐部”背后：已连超徐州大连唐山

中国经营报 2026-01-12 18:39:15
37 跟贴 37
国产新型航母模型疑曝光！舷号19清晰可见，却有3大疑点？

儒雅随和老泰勒 2026-01-12 16:49:53
0 跟贴 0
填志愿怕代码查错？三步精准查询避免失误！

老盖实话升学 2026-01-11 01:17:17
0 跟贴 0
开源鸿蒙重写世界，从一行微小的代码开始

量子位 2025-12-31 01:50:02
0 跟贴 0
严肃版AI编程助手 GitHub星标3k+

量子位 2025-12-08 15:29:06
0 跟贴 0
Claude Code之父，推特亲传使用技巧，超 500 万人关注

机器之心Pro 2026-01-05 13:26:18
0 跟贴 0
开源AI编程工具CoStrict，GitHub星标3K+

量子位 2025-12-09 01:52:08
0 跟贴 0
癌痛是求救信号？不！是癌细胞在投毒

尹烨 2026-01-08 23:30:02
0 跟贴 0
茶叶保质期标注“100年”？知名品牌回应

环球网资讯 2026-01-10 09:52:17
705 跟贴 705
欧尔班：向乌拨款8000亿欧元？“我们拒绝！”

参考消息 2026-01-12 10:09:04
530 跟贴 530
那些用开塞露涂脸的人，后来都怎么样了？

科普中国 2026-01-12 11:21:30
193 跟贴 193
房地产仍有较大空间，但财富逻辑变了

纪超讲楼市 2026-01-12 14:12:00
0 跟贴 0
摆满院子的东风快递，美国人看后心里踏实了：原来是这么造的

趣生活 2026-01-12 21:36:45
0 跟贴 0
0+0+0+0！官宣：果然状元、榜眼必有一水啊

而长终 2026-01-12 16:35:59
3 跟贴 3
“四九”可能成为今年最冷的“九”：本周末起，一股强冷空气将制造大范围降温，还可能激发较大范围雨雪天气

鲁中晨报 2026-01-12 19:09:16
29 跟贴 29
爸爸拿吃的下达指令后兄弟俩的动作神同步

智慧生活报 2026-01-09 22:05:14
0 跟贴 0
“2026年第一个闯大祸的人”，如何制造了“千人赴约杀猪宴”的网络狂欢

新民周刊 2026-01-12 19:26:19
0 跟贴 0
我国外销型战机歼10CE，首次取得实战战果！在空战中一举击落多架战机，自己无一损失

大风新闻 2026-01-12 17:33:04
0 跟贴 0
国家标准全文免费公开成效显著全年浏览量达1亿多次

每日经济新闻 2026-01-12 13:01:22
23 跟贴 23
“电脑不卖、货架不卖、电视不卖”，即将关闭的宜家门店多个货架售罄，客服称不再补货

洪观新闻 2026-01-12 15:51:02
0 跟贴 0
直击爆火“呆呆家杀猪宴”：最后一天还有人敲鼓送猪来，博主粉丝已破百万

红星新闻 2026-01-12 18:39:18
1 跟贴 1

连续出战8场后，杨瀚森为何又被弃用？核心伤退+罗威5中5给出答案

连续出战8场后，杨瀚森为何又被弃用？核心伤退+罗威5中5给出答案

锅子篮球

2026-01-12 10:53:03

特朗普捅马蜂窝，英国主导，28国将派兵丹麦，中国广发“英雄帖”

特朗普捅马蜂窝，英国主导，28国将派兵丹麦，中国广发“英雄帖”

辉辉历史记

2026-01-12 18:23:42

指望一个中锋去全面梳理进攻？火箭教练组到底时候才能认清形势？

指望一个中锋去全面梳理进攻？火箭教练组到底时候才能认清形势？

稻谷与小麦

2026-01-12 21:57:33

钱再多有什么用？站起来就想吐的周渝民，给所有中年男人提了个醒

钱再多有什么用？站起来就想吐的周渝民，给所有中年男人提了个醒

深析古今

2026-01-10 16:33:12

1972年，毛主席当众指着她鼻子骂：你男人跟别人好了，你怎么不离婚？

1972年，毛主席当众指着她鼻子骂：你男人跟别人好了，你怎么不离婚？

寄史言志

2026-01-07 21:08:15

口子姐确认去世，亲属已证实。

SwagFuck

2026-01-12 23:00:20

1991 年，邓小平特派代表赴美团聚张学良，邀他重返故土，张学良回应：“回大陆可以，但我有三个要求”

1991 年，邓小平特派代表赴美团聚张学良，邀他重返故土，张学良回应：“回大陆可以，但我有三个要求”

文史明鉴

2025-12-21 17:07:19

至今未披露原料检测结果，雀巢奶粉供应商嘉必优收监管工作函

至今未披露原料检测结果，雀巢奶粉供应商嘉必优收监管工作函

界面新闻

2026-01-12 13:30:16

“2299元羽绒服充绒仅86克”背后：多个品牌商务羽绒服充绒量低于100克有的仅55克，商务款通常比普通款充绒量低

“2299元羽绒服充绒仅86克”背后：多个品牌商务羽绒服充绒量低于100克有的仅55克，商务款通常比普通款充绒量低

极目新闻

2026-01-12 11:45:51

我在葡萄牙发现：好多华人老头老太太在这买房，背后的心路历程太扎心了

我在葡萄牙发现：好多华人老头老太太在这买房，背后的心路历程太扎心了

坠入二次元的海洋

2026-01-12 04:03:32

中戏新疆班毕业生出面证实，中戏2011级新疆班没有林傲霏

中戏新疆班毕业生出面证实，中戏2011级新疆班没有林傲霏

我就是个码字的

2026-01-12 17:30:25

集体破防，火箭记者崩溃发文：现在都气得说不出话来

集体破防，火箭记者崩溃发文：现在都气得说不出话来

懂球帝

2026-01-12 13:32:06

2026年广州学位预警：有的区拼买房早晚，有的区首次预警

2026年广州学位预警：有的区拼买房早晚，有的区首次预警

南方都市报

2026-01-12 17:22:08

上海银行行长选妃：腿要长，腰要细，皮肤要白，各个对其死心塌地

上海银行行长选妃：腿要长，腰要细，皮肤要白，各个对其死心塌地

凯裕说故事

2025-01-10 10:48:42

负债百万、露宿街头、装疯卖傻，星光大道草根歌手现状太落魄

负债百万、露宿街头、装疯卖傻，星光大道草根歌手现状太落魄

素衣读史

2025-11-24 17:11:50

北京首钢两连败赵睿为何缺席，许利民或是在为郭士强背锅

北京首钢两连败赵睿为何缺席，许利民或是在为郭士强背锅

姜大叔侃球

2026-01-12 21:27:02

中国富人，为什么以吃劣质蛋白质为荣？

中国富人，为什么以吃劣质蛋白质为荣？

食味艺文志

2025-09-19 23:03:14

台海观澜 | 为了台湾大选这一天，两岸各方都在做哪些准备

台海观澜 | 为了台湾大选这一天，两岸各方都在做哪些准备

经济观察报

2026-01-12 11:26:27

1976年毛主席逝世后，派谁空降上海？叶剑英掷地有声：我提议一人

1976年毛主席逝世后，派谁空降上海？叶剑英掷地有声：我提议一人

春秋砚

2025-12-20 08:55:09

涉嫌严重违纪违法，山西2人被查！

涉嫌严重违纪违法，山西2人被查！

秀容通

2026-01-12 18:59:48

AI产业主平台领航智能+时代

14319文章数 66454关注度

往期回顾全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑中方回应

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑中方回应

体育要闻

一场安东尼奥式胜利，给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年，与张晋过二人世界

财经要闻

倍轻松信披迷雾实控人占用资金金额存疑

汽车要闻

增配不加价北京现代第五代胜达2026款上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

亲子

数码

公开课

本地新闻

云游内蒙｜“包”你再来？一座在硬核里酿出诗意的城

旅游要闻

四川米易一条街的冬樱花都开了粉色花海梦幻绽放

亲子要闻

轮班，宝妈理所应当固定周日休，网友:家庭地位低，把同事当老公

数码要闻

2025年全球PC出货量近2.8亿台笔记本超2.2亿台

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版