网易首页 > 网易号 > 正文 申请入驻

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI的新Scaling Law,含金量又提高了。

像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健

随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增

特别是OpenAI官方Agent“Operator”发布在即,现在放出这样一个研究,是否是想让外界更放心一些呢?

而目前主流的“对抗性训练”防御方法,有几个缺点:

  • 依赖先验知识,需要了解对手的攻击方式。
  • 要交“安全税”,在稳健性和模型能力之间取舍。

现在OpenAI实验证明,在不做对抗性训练的情况下,只要增加推理时计算,模型的对抗稳健性就能显著提升,在多个任务上都得到了验证。

这项新研究,共同一作中包括仅剩的联创之一Wojciech Zaremba

另一位共同一作Boaz Barak表示“ 我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。

针对推理模型的新攻防战

针对推理模型特性,团队在实验中考察了几种的“攻击面”(attack surfaces):

  • Many-shot攻击:攻击者在提示中提供大量上下文示例,攻击资源量由提供的tokens数量衡量。
  • Soft token攻击:攻击者可以直接操纵embedding向量,通过梯度下降优化token来达到对抗目的。这是个强有力但不太现实的白盒攻击。
  • Think less攻击(想太少):这种新型攻击旨在降低模型的推理时计算量,从而增加其犯错概率。
  • Nerd-sniping(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的地方耗费算力时,反而更容易受到攻击。
  • 人类/AI红队攻击:请专家或AI组成红队通过人机交互,针对性探索潜在的prompt注入漏洞。
  • 多模态输入对抗攻击:针对图像分类任务,使用特定的对抗图像数据集进行攻击。

在大多数实验里,随着推理时计算的增加,模型抵御攻击的成功率都在提高。

举几个例子:

下面几张图中,Y轴是攻击者的资源量,X轴是推理时间计算量。随着攻击者资源的增加,其成功概率也会增加。

但对于每固定数量的攻击者资源,成功的概率会随着模型在推理时花费更多的计算而下降。

数学问题的many-shot攻击下,攻击方目标包括要求模型无论如何输出42,输出正确答案+1、或正确答案x7。

但随着推理算力增加,攻击成功率最终趋于0。

智能体网页浏览任务中,通过在网站注入恶意指令来攻击,增加推理时计算后,攻击成功率也降为0。

即使更强大的攻击下,增加更多的推理时间还是能显著提升防御力。

论文对几种新颖的攻击方式做了额外分析。

Think less攻击,主要是o1-mini比较容易中招,o1-preview防御能力还可以。

Nerd-sniping攻击,模型在某些实例上花费异常大的推理时间计算时,攻击成功率可能更高,表明模型可能会陷入无效率的思考循环。

尽管如此,研究者也指出,目前的方法在以下几个方面有局限:

  • 研究仅涉及有限的任务和计算缩放范围,在面对利用策略模糊性或漏洞的攻击时,增加计算量可能无效
  • “think less”和“nerd sniping”攻击也揭示了推理时计算的两面性,攻击者可以诱导模型想太多或想太少。

One More Thing

对于这项针对推理大模型特性的研究,有创业者从不一样的角度思考:

那么DeepSeek-R1系列也可以从中受益呗?

论文地址:
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接:
[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
[2]https://x.com/boazbaraktcs/status/1882164218004451334

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川一初中全校自带锅碗瓢盆春游,校长:学生自己搭灶炒菜,烧烤火锅都有,家长可以来指导但不能动手

四川一初中全校自带锅碗瓢盆春游,校长:学生自己搭灶炒菜,烧烤火锅都有,家长可以来指导但不能动手

极目新闻
2026-03-12 19:14:44
中方未致贺电,小哈梅刚上台就被架空?事实证明,西方媒体猜错了

中方未致贺电,小哈梅刚上台就被架空?事实证明,西方媒体猜错了

丁铗惊悚影视解说
2026-03-11 22:14:29
伊朗宗教领袖发布圣战令点名特朗普,随后传出空袭身亡消息

伊朗宗教领袖发布圣战令点名特朗普,随后传出空袭身亡消息

桂系007
2026-03-12 06:30:59
5960万年薪球员再受伤倒下,好牌打烂无缘季后赛

5960万年薪球员再受伤倒下,好牌打烂无缘季后赛

阿心文史
2026-03-13 02:21:19
朱亚文现身上海街头被偶遇,网友:声音很好听,私服帅爆了!

朱亚文现身上海街头被偶遇,网友:声音很好听,私服帅爆了!

手工制作阿歼
2026-03-12 18:50:21
镇压抗议的伊朗巴斯基负责人被斩首

镇压抗议的伊朗巴斯基负责人被斩首

桂系007
2026-03-10 23:37:31
被嫌弃了!卡米拉同框凯特王妃母亲,英国王后真看不起一介平民

被嫌弃了!卡米拉同框凯特王妃母亲,英国王后真看不起一介平民

夜深爱杂谈
2026-03-12 19:28:04
5年2.4亿!湖人决定续约!詹姆斯时代落幕了

5年2.4亿!湖人决定续约!詹姆斯时代落幕了

篮球教学论坛
2026-03-12 10:34:44
英国考虑向中东地区派遣航母后,特朗普再批斯塔默:英国没有第一时间支持

英国考虑向中东地区派遣航母后,特朗普再批斯塔默:英国没有第一时间支持

环球网资讯
2026-03-08 09:09:07
“铁饭碗”真香!湖北网友晒夫妻收入一年50万,干20年能挣1000万

“铁饭碗”真香!湖北网友晒夫妻收入一年50万,干20年能挣1000万

火山詩话
2026-03-12 06:53:38
严重财务造假!300391,终止上市!

严重财务造假!300391,终止上市!

新浪财经
2026-03-12 22:04:46
拉什福德再见!曼联全力疯抢 “世界最佳边锋”,他已准备离队!

拉什福德再见!曼联全力疯抢 “世界最佳边锋”,他已准备离队!

奶盖熊本熊
2026-03-13 02:03:00
油价最新调整通知 !

油价最新调整通知 !

时间财经
2026-03-12 15:20:55
人间清醒!油价暴涨不贪利,普京紧急下令还债,背后考量耐人寻味

人间清醒!油价暴涨不贪利,普京紧急下令还债,背后考量耐人寻味

谢鵑解说
2026-03-12 11:02:30
“哈佛老师能穿成这样?”老人吹嘘一家高学历,被网友一眼识破

“哈佛老师能穿成这样?”老人吹嘘一家高学历,被网友一眼识破

妍妍教育日记
2026-03-12 23:21:52
既要背叛伊朗人,又不尊重美军:我为什么不支持特朗普?

既要背叛伊朗人,又不尊重美军:我为什么不支持特朗普?

鹰眼Defence
2026-03-11 18:29:24
中方:以色列应立即撤军!英国、法国、德国、意大利、印度、西班牙等30国也发表联合声明

中方:以色列应立即撤军!英国、法国、德国、意大利、印度、西班牙等30国也发表联合声明

每日经济新闻
2026-03-12 12:35:14
伊朗总统承诺不再主动攻击邻国,是因为伊朗在为长期战争做准备?

伊朗总统承诺不再主动攻击邻国,是因为伊朗在为长期战争做准备?

合赞历史
2026-03-12 13:23:23
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
高市早苗将访问美国,求特朗普伸出援手,让中国别对日本反制太狠

高市早苗将访问美国,求特朗普伸出援手,让中国别对日本反制太狠

飘逸的云朵
2026-03-13 01:41:50
2026-03-13 03:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12274文章数 176413关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

伊朗:特朗普几条推文结束不了战争

头条要闻

伊朗:特朗普几条推文结束不了战争

体育要闻

建议将“出球型门将”纳入反诈app

娱乐要闻

贝克汉姆全家给27岁大布送生日祝福

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

家居
旅游
手机
公开课
军事航空

家居要闻

触感本真 家的迹象

旅游要闻

春假去哪玩?南京文旅向长三角家庭发出“串门”邀约

手机要闻

荣耀Magic9标准版曝光:潜望镜+无线充+超声波指纹,仍没有3D人脸

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普自行宣布对伊朗战争胜利

无障碍浏览 进入关怀版