网易首页 > 网易号 > 正文 申请入驻

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI的新Scaling Law,含金量又提高了。

像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健

随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增

特别是OpenAI官方Agent“Operator”发布在即,现在放出这样一个研究,是否是想让外界更放心一些呢?

而目前主流的“对抗性训练”防御方法,有几个缺点:

  • 依赖先验知识,需要了解对手的攻击方式。
  • 要交“安全税”,在稳健性和模型能力之间取舍。

现在OpenAI实验证明,在不做对抗性训练的情况下,只要增加推理时计算,模型的对抗稳健性就能显著提升,在多个任务上都得到了验证。

这项新研究,共同一作中包括仅剩的联创之一Wojciech Zaremba

另一位共同一作Boaz Barak表示“ 我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。

针对推理模型的新攻防战

针对推理模型特性,团队在实验中考察了几种的“攻击面”(attack surfaces):

  • Many-shot攻击:攻击者在提示中提供大量上下文示例,攻击资源量由提供的tokens数量衡量。
  • Soft token攻击:攻击者可以直接操纵embedding向量,通过梯度下降优化token来达到对抗目的。这是个强有力但不太现实的白盒攻击。
  • Think less攻击(想太少):这种新型攻击旨在降低模型的推理时计算量,从而增加其犯错概率。
  • Nerd-sniping(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的地方耗费算力时,反而更容易受到攻击。
  • 人类/AI红队攻击:请专家或AI组成红队通过人机交互,针对性探索潜在的prompt注入漏洞。
  • 多模态输入对抗攻击:针对图像分类任务,使用特定的对抗图像数据集进行攻击。

在大多数实验里,随着推理时计算的增加,模型抵御攻击的成功率都在提高。

举几个例子:

下面几张图中,Y轴是攻击者的资源量,X轴是推理时间计算量。随着攻击者资源的增加,其成功概率也会增加。

但对于每固定数量的攻击者资源,成功的概率会随着模型在推理时花费更多的计算而下降。

数学问题的many-shot攻击下,攻击方目标包括要求模型无论如何输出42,输出正确答案+1、或正确答案x7。

但随着推理算力增加,攻击成功率最终趋于0。

智能体网页浏览任务中,通过在网站注入恶意指令来攻击,增加推理时计算后,攻击成功率也降为0。

即使更强大的攻击下,增加更多的推理时间还是能显著提升防御力。

论文对几种新颖的攻击方式做了额外分析。

Think less攻击,主要是o1-mini比较容易中招,o1-preview防御能力还可以。

Nerd-sniping攻击,模型在某些实例上花费异常大的推理时间计算时,攻击成功率可能更高,表明模型可能会陷入无效率的思考循环。

尽管如此,研究者也指出,目前的方法在以下几个方面有局限:

  • 研究仅涉及有限的任务和计算缩放范围,在面对利用策略模糊性或漏洞的攻击时,增加计算量可能无效
  • “think less”和“nerd sniping”攻击也揭示了推理时计算的两面性,攻击者可以诱导模型想太多或想太少。

One More Thing

对于这项针对推理大模型特性的研究,有创业者从不一样的角度思考:

那么DeepSeek-R1系列也可以从中受益呗?

论文地址:
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接:
[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
[2]https://x.com/boazbaraktcs/status/1882164218004451334

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霸权还没崩,青楼先崩了:拉千万欧美女孩下海的大佬暴毙

霸权还没崩,青楼先崩了:拉千万欧美女孩下海的大佬暴毙

美第奇效应
2026-03-24 16:51:33
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

魔都姐姐杂谈
2026-03-26 10:53:11
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

潮鹿逐梦
2026-03-26 11:53:28
“只要决心够大,诺贝尔奖不在话下!”

“只要决心够大,诺贝尔奖不在话下!”

槽逻辑
2026-03-24 18:46:27
坎宁安无缘评奖!65场限制引众怒!NBA官方正式回应

坎宁安无缘评奖!65场限制引众怒!NBA官方正式回应

篮球教学论坛
2026-03-26 15:29:08
Anthropic版“龙虾”来了:直接操控用户电脑,但每一步都会请求许可

Anthropic版“龙虾”来了:直接操控用户电脑,但每一步都会请求许可

澎湃新闻
2026-03-25 14:18:26
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
吃饺子没蘸酱油进监狱了,这是真的

吃饺子没蘸酱油进监狱了,这是真的

深度报
2026-03-25 22:55:01
小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

碎碎纪实
2026-03-26 11:07:33
火车站“老师儿!出租车在这乘坐”标语引热议,网友称一看就是山东济南,车站工作人员:在当地这是尊称

火车站“老师儿!出租车在这乘坐”标语引热议,网友称一看就是山东济南,车站工作人员:在当地这是尊称

极目新闻
2026-03-26 12:06:40
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
2026-03-26 15:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
手机
公开课
军事航空

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版