网易首页 > 网易号 > 正文 申请入驻

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

0
分享至

来源:市场资讯

(来源:图灵人工智能)

您知道的人工智能干货,第一时间送达


转自机器之心,仅用于学术分享,如有侵权留言删除

编辑|Panda

Alex Radford,出生于1993 年 4 月,即将 33 岁,但已经拥有超过 32 万的引用量。因为这位「独立研究员」不仅是 GPT、GPT-2 和 CLIP 的第一作者,同时还参与了 GPT-3、GPT-4、PPO 算法等多个重大研究项目。


近日, Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文,并得到了一些相当惊人的新发现。

在这项研究中,他们挑战了当前大模型安全领域的一个核心假设。长期以来,业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法:在预训练阶段,通过 Token 级别的数据过滤,直接从「大脑」深处切除危险知识。


  • 论文标题:Shaping capabilities with token-level data filtering

  • 论文地址:https://arxiv.org/abs/2601.21571

  • 代码地址:https://github.com/neilrathi/token-filtering

这项研究不仅证明了这种方法的可行性,更揭示了一个令人兴奋的 Scaling Law:模型越大,这种过滤机制的效果越好。

对于 18 亿参数的模型,Token 级过滤能导致目标领域的学习效率下降 7000 倍。


这意味着,攻击者想要恢复被删除的能力,将付出难以承受的算力代价。下面我们就来详细看看这项研究。

为什么我们需要在预训练阶段「动手术」?

目前,减少大语言模型有害能力(如制造生物武器、策划网络攻击)的主流方法大多是事后干预(Post hoc)。无论是 RLHF(基于人类反馈的强化学习)还是最近兴起的「机器遗忘」(Machine Unlearning),本质上都是在模型已经学到了所有知识之后,再通过一层「护栏」来抑制其输出。

这种做法存在一个巨大的安全隐患:猫鼠游戏。

一旦基础模型掌握了某种能力,单纯的对齐微调很难将其彻底根除。攻击者可以通过「越狱」或对抗性微调轻松绕过这些防御,重新激活模型深层的危险能力。

这就好比一个人已经学会了造炸弹,你只是命令他「不要说」,但只要换一种问法或者施加一点压力,他依然能造出来。

Rathi 和 Radford 的思路则截然不同:他们主张在预训练阶段就进行干预,通过调整训练数据,让模型根本就没有机会学到这些危险能力。

为了验证这一思路,他们选择了一个具有代表性的代理任务:移除「医学知识」(作为危险知识的替身),同时尽可能保留「生物学知识」(作为有益知识的替身)。这是一个极具挑战性的任务,因为医学与生物学在概念上高度重叠,很难在切除前者的同时不伤害后者。

Token 级过滤:手术刀般的精准

传统的预训练数据清洗通常是基于「文档」级别的。如果一篇文章包含有害内容,整篇文章就会被丢弃。这种做法不仅浪费数据,而且极其粗糙。

这篇论文的核心创新在于引入了 Token 级别的过滤机制。研究者认为,危险知识往往并不分布在整篇文档中,而是潜伏在特定的词句序列里。

团队测试了两种 Token 级过滤策略:


损失掩码(Loss Masking):模型在训练时可以看到危险的 Token,但在计算梯度和更新权重时,这些 Token 产生的损失会被忽略。这保证了上下文的连贯性,但切断了模型从中学到知识的路径。

移除(Removal):更加激进的做法,直接将危险 Token 替换为特殊的 标记。这不仅切断了梯度,甚至剥夺了模型看到这些词的机会。

实验结果表明,Token 级过滤构成了对文档级过滤的帕累托改进。在同等程度地去除医学知识的前提下,Token 级过滤对生物学等通用知识的保留效果显著优于文档级过滤。这就像是用手术刀精准切除肿瘤,而不是直接截肢,最大限度地保留了健康的机体组织。


7000 倍算力阻滞:安全性的 Scaling Law

这项研究最令人震撼的发现在于「过滤」与「规模」的关系。

通常我们担心,随着模型越来越大,它们会变得越来越「聪明」,从而能够通过哪怕一丁点数据泄漏就学会危险知识。

但实验数据给出了相反的结论:Token 级过滤的效果随着模型规模的增加而显著增强。


研究团队引入了一个名为「损失匹配算力阻滞」(Loss-Matched Compute Slowdown)的指标,用来衡量攻击者需要多少额外的预训练算力,才能让经过过滤的模型在危险领域达到未过滤模型的水平。

数据很 nice:

  • 对于较小的模型,过滤带来的阻滞效果相对有限。

  • 但随着模型规模扩大至 18 亿参数,Token 级过滤导致模型在遗忘领域(医学)的学习效率下降了 7000 倍。


这意味着,如果我们对未来的万亿参数级模型实施这种过滤,攻击者想要通过微调让模型重新掌握被切除的危险能力,将需要消耗天文数字般的算力。这实际上为模型构建了一道基于物理算力成本的天然屏障。

对抗性微调:比「机器遗忘」更坚固的盾牌

为了验证这种方法的鲁棒性,研究团队模拟了最坏的情况:攻击者拥有模型的权重,并试图通过在相关数据上进行微调来重新通过模型获取危险知识。

作为对比,他们选取了当前最先进的机器遗忘算法 RMU(Representation Misalignment via Unlearning)作为基线。


实验结果相当一边倒。RMU 虽然在初始测试中表现出很低的危险知识留存率,但极其脆弱。仅仅经过极少量的对抗性微调步骤,RMU 模型的防御就瞬间瓦解,危险能力迅速恢复。

相比之下,经过 Token 级过滤预训练的模型表现出了极强的韧性。随着模型规模的增加,这种韧性优势还在不断扩大。对于 18 亿参数的模型,攻击者想要恢复同等水平的能力,面对 Token 移除策略模型所需的微调数据量是面对 RMU 模型的 13 倍以上。

这揭示了一个深刻的道理:从未学过(预训练过滤)和学过再忘(机器遗忘)在神经网络的表征层面有着本质的区别。前者让模型在危险领域如同一张白纸,后者则只是暂时掩盖了留下的痕迹。

AI 的拒绝:无需知恶也能拒恶

在 AI 安全领域,一直存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先「知道」什么是危险的?

此前的研究(如关于毒性内容的过滤)往往发现,如果模型在预训练中完全没见过毒性内容,它就很难分辨并拒绝毒性指令。

然而,Rathi 和 Radford 的这项研究打破了这一固有认知。在针对医学知识的过滤实验中,他们发现经过 Token 级过滤的模型在接受「拒绝训练」时,表现反而优于未过滤的基线模型。


具体来说,当研究人员试图教会模型「拒绝回答医学问题」时:

  • Token 移除策略的模型在拒绝正确率上比基线模型高出 2 倍。

  • 文档级过滤的模型则表现糟糕,它往往会将这种拒绝行为错误地泛化,导致对正常的通用问题也进行拒绝。

研究者认为,这是因为 Token 级过滤创造了一个清晰的「已见 / 未见」边界。对于模型来说,拒绝任务从复杂的「判断内容是否有害」简化成了「判断这个概念我是否见过」。这种基于分布内 / 分布外的区分,比基于语义的判断更加稳健。

这为安全研究提供了一个极具价值的启示:我们不需要为了对齐而让模型先成为「绝命毒师」。通过制造知识真空,我们反而能训练出更听话、更安全的模型。

弱监督与自动标签:低成本实现的可能

实施 Token 级过滤的一个最大工程挑战在于:如何准确地给海量预训练数据打上「危险」或「安全」的标签?如果需要人工标注,成本将是不可接受的。

这也正是这篇论文在工程实现上的亮点。研究团队提出了一套基于「稀疏自编码器」(SAE)的弱监督流程。

特征提取: 他们利用 Gemma Scope 的 SAE 提取模型激活的潜在特征。

自动标注: 使用 Claude Sonnet 4 等模型对这些特征进行解释,识别出与「医学」相关的特征,并据此生成一部分高质量的 Ground-truth 标签。

训练分类器: 利用这些标签训练一个小型的、双向的语言模型(biLM)作为分类器。


有趣的是,研究发现我们并不需要一个完美的神级分类器。实验显示,通过「弱到强泛化」,即使是基于含有噪声标签训练出来的分类器,或者是仅基于小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大规模的模型上实现出色的过滤效果。

这一发现极大地降低了该技术的落地门槛。开发者不需要拥有一支庞大的标注团队,仅凭现有的开源工具和小模型,就能构建出有效的预训练过滤器。

结语:构建纵深防御体系

Rathi 和 Radford 的这项工作并非宣称可以替代 RLHF 或后续的安全措施,而是倡导一种「纵深防御」(Defense-in-depth)的策略。

在预训练阶段进行 Token 级过滤,相当于为模型打下了坚实的安全地基;在此基础上进行的对齐训练,将不再是空中楼阁。这种方法特别适用于那些通过 API 开放模型权重的场景 —— 即便攻击者拿到了模型,他们面对的也是一个在物理层面「缺失」了危险能力的残缺大脑。

随着 AI 模型向着更大规模演进,Token 级数据过滤所展现出的优越 Scaling Law,或许将成为未来 AGI 安全架构中不可或缺的一块拼图。

对于像 OpenAI、Anthropic 这样的前沿实验室而言,这项研究无疑指明了一条在 Scaling 的同时也 Scale Safety 的可行路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
茅台彻底失控!3亿中产疯狂买单

茅台彻底失控!3亿中产疯狂买单

李东阳朋友圈
2026-03-06 11:37:07
为何越来越多人搬离“大平层”?听知情人说完:才恍然大悟!

为何越来越多人搬离“大平层”?听知情人说完:才恍然大悟!

室内设计师有料儿
2026-03-01 16:33:07
张兰泪别台北:这经我不念了!我的孩子遍天下,不差汪小菲一个

张兰泪别台北:这经我不念了!我的孩子遍天下,不差汪小菲一个

丁丁鲤史纪
2026-03-05 11:15:38
原来刘烨当初没撒谎,多方曝谢娜夫妇猛料,网友担忧的事还是发生

原来刘烨当初没撒谎,多方曝谢娜夫妇猛料,网友担忧的事还是发生

小徐讲八卦
2026-03-04 13:58:42
20万股东一夜被埋!昨日20cm涨停,今天开盘狂跌十分钟砸到近跌停!

20万股东一夜被埋!昨日20cm涨停,今天开盘狂跌十分钟砸到近跌停!

股市皆大事
2026-03-06 10:58:51
贾国龙不再担任西贝CEO,有门店前店长称多个岗位员工工资延迟发放通知已被撤回

贾国龙不再担任西贝CEO,有门店前店长称多个岗位员工工资延迟发放通知已被撤回

红星资本局
2026-03-06 21:17:38
伊朗外长宣布革命卫队已经事实独立

伊朗外长宣布革命卫队已经事实独立

远方青木
2026-03-04 00:29:55
广东一女子不愿上班常年坐街边,因长得好看被路人投喂:又懒又馋

广东一女子不愿上班常年坐街边,因长得好看被路人投喂:又懒又馋

明智家庭教育
2026-03-06 17:19:16
央视火速曝光:全是假货!别再往家里搬了,很多人天天在用!

央视火速曝光:全是假货!别再往家里搬了,很多人天天在用!

云舟史策
2026-03-05 17:54:39
黄金,牛市没了?!

黄金,牛市没了?!

米筐投资
2026-03-06 07:08:59
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
绝了绝了!塔图姆医学奇迹!首秀大战NBA状元郎

绝了绝了!塔图姆医学奇迹!首秀大战NBA状元郎

篮球实战宝典
2026-03-06 17:29:14
中央明确,弹性退休继续实施,1970年出生的可以在哪年退休?

中央明确,弹性退休继续实施,1970年出生的可以在哪年退休?

轩逸阿II
2026-03-06 06:13:32
广西女子发现罕见青竹鲤,时不时侧身蹭水底,网友:鱼生天花板!

广西女子发现罕见青竹鲤,时不时侧身蹭水底,网友:鱼生天花板!

狸猫之一的动物圈
2026-03-06 09:38:48
看到段曦与张杰恋爱时的照片,才懂谢娜为啥不澄清被扇耳光的传闻

看到段曦与张杰恋爱时的照片,才懂谢娜为啥不澄清被扇耳光的传闻

涵豆说娱
2026-03-06 11:46:02
库里自称三分纪录并非不可打破!华子发声:我和克努佩尔能追上他

库里自称三分纪录并非不可打破!华子发声:我和克努佩尔能追上他

罗说NBA
2026-03-06 06:03:03
汕头一学校,注销登记!

汕头一学校,注销登记!

ilove汕头
2026-03-06 20:14:47
王震坚决反对中顾委副主任排名,薄一波:我是常务,就这么定了

王震坚决反对中顾委副主任排名,薄一波:我是常务,就这么定了

芊芊子吟
2026-03-06 09:45:07
央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

傲傲讲历史
2026-03-05 16:08:43
从人满为患到接连倒闭,几乎“消失”的网吧,为何忽然复活了?

从人满为患到接连倒闭,几乎“消失”的网吧,为何忽然复活了?

墨印斋
2025-12-10 18:28:12
2026-03-06 22:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2386941文章数 5710关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

手机
亲子
游戏
本地
公开课

手机要闻

一加15T爆料汇总,就差价格了!

亲子要闻

中韩双胞胎萌娃回国第一天,简直太幸福了

《失落星船:马拉松》首发Steam峰值8.8万 不及《命运2》首发表现

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版