网易首页 > 网易号 > 正文 申请入驻

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI的新Scaling Law,含金量又提高了。

像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健

随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增

特别是OpenAI官方Agent“Operator”发布在即,现在放出这样一个研究,是否是想让外界更放心一些呢?

而目前主流的“对抗性训练”防御方法,有几个缺点:

  • 依赖先验知识,需要了解对手的攻击方式。
  • 要交“安全税”,在稳健性和模型能力之间取舍。

现在OpenAI实验证明,在不做对抗性训练的情况下,只要增加推理时计算,模型的对抗稳健性就能显著提升,在多个任务上都得到了验证。

这项新研究,共同一作中包括仅剩的联创之一Wojciech Zaremba

另一位共同一作Boaz Barak表示“ 我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。

针对推理模型的新攻防战

针对推理模型特性,团队在实验中考察了几种的“攻击面”(attack surfaces):

  • Many-shot攻击:攻击者在提示中提供大量上下文示例,攻击资源量由提供的tokens数量衡量。
  • Soft token攻击:攻击者可以直接操纵embedding向量,通过梯度下降优化token来达到对抗目的。这是个强有力但不太现实的白盒攻击。
  • Think less攻击(想太少):这种新型攻击旨在降低模型的推理时计算量,从而增加其犯错概率。
  • Nerd-sniping(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的地方耗费算力时,反而更容易受到攻击。
  • 人类/AI红队攻击:请专家或AI组成红队通过人机交互,针对性探索潜在的prompt注入漏洞。
  • 多模态输入对抗攻击:针对图像分类任务,使用特定的对抗图像数据集进行攻击。

在大多数实验里,随着推理时计算的增加,模型抵御攻击的成功率都在提高。

举几个例子:

下面几张图中,Y轴是攻击者的资源量,X轴是推理时间计算量。随着攻击者资源的增加,其成功概率也会增加。

但对于每固定数量的攻击者资源,成功的概率会随着模型在推理时花费更多的计算而下降。

数学问题的many-shot攻击下,攻击方目标包括要求模型无论如何输出42,输出正确答案+1、或正确答案x7。

但随着推理算力增加,攻击成功率最终趋于0。

智能体网页浏览任务中,通过在网站注入恶意指令来攻击,增加推理时计算后,攻击成功率也降为0。

即使更强大的攻击下,增加更多的推理时间还是能显著提升防御力。

论文对几种新颖的攻击方式做了额外分析。

Think less攻击,主要是o1-mini比较容易中招,o1-preview防御能力还可以。

Nerd-sniping攻击,模型在某些实例上花费异常大的推理时间计算时,攻击成功率可能更高,表明模型可能会陷入无效率的思考循环。

尽管如此,研究者也指出,目前的方法在以下几个方面有局限:

  • 研究仅涉及有限的任务和计算缩放范围,在面对利用策略模糊性或漏洞的攻击时,增加计算量可能无效
  • “think less”和“nerd sniping”攻击也揭示了推理时计算的两面性,攻击者可以诱导模型想太多或想太少。

One More Thing

对于这项针对推理大模型特性的研究,有创业者从不一样的角度思考:

那么DeepSeek-R1系列也可以从中受益呗?

论文地址:
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接:
[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
[2]https://x.com/boazbaraktcs/status/1882164218004451334

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夜跑穿搭太抢眼?看效果就知道!

夜跑穿搭太抢眼?看效果就知道!

独角showing
2025-09-05 08:50:22
犯以色列者,虽远必诛?以色列战机奔袭1700公里,轰炸卡塔尔首都

犯以色列者,虽远必诛?以色列战机奔袭1700公里,轰炸卡塔尔首都

田园小归
2025-09-18 08:56:05
38岁再踢欧冠,大卫-路易斯首发半小时因肌肉受伤被换下

38岁再踢欧冠,大卫-路易斯首发半小时因肌肉受伤被换下

懂球帝
2025-09-18 09:34:31
定了!国庆前不放秋假!南京市教育局最新回复!

定了!国庆前不放秋假!南京市教育局最新回复!

南京择校
2025-09-17 20:13:08
新纪录!广东56岁妈妈平安产下双胞胎

新纪录!广东56岁妈妈平安产下双胞胎

阿燕姐说育儿
2025-09-17 17:27:55
根本逃不掉:微软将在Windows 11上强制安装Microsoft 365 Copilot!

根本逃不掉:微软将在Windows 11上强制安装Microsoft 365 Copilot!

快科技
2025-09-17 19:23:09
广东一女孩酷似刘亦菲走红,3条视频涨粉超20万,本人最新回应:没有整容

广东一女孩酷似刘亦菲走红,3条视频涨粉超20万,本人最新回应:没有整容

扬子晚报
2025-09-17 12:35:55
17岁小伙深圳街头捡到近200万巨型金条,秒交交警!回应:没多想

17岁小伙深圳街头捡到近200万巨型金条,秒交交警!回应:没多想

奇思妙想草叶君
2025-09-17 21:37:59
江苏女富豪斥资22.18亿元,溢价超270%纯现金买下这家IPO失败企业!后者承诺3年赚5.5亿元

江苏女富豪斥资22.18亿元,溢价超270%纯现金买下这家IPO失败企业!后者承诺3年赚5.5亿元

每日经济新闻
2025-09-18 01:17:02
陈妤颉200米跑完央视解说又火了 弯道处硬说陈妤颉处于小组第三

陈妤颉200米跑完央视解说又火了 弯道处硬说陈妤颉处于小组第三

劲爆体坛
2025-09-18 06:55:07
澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

麦大人
2025-08-18 18:02:38
64岁的我参加同学聚会后,觉得过了60岁,还是别参加同学聚会了

64岁的我参加同学聚会后,觉得过了60岁,还是别参加同学聚会了

结绿的天空
2025-09-16 16:28:38
名宿:詹姆斯历史第一!乔丹第八!奥尼尔转发这个动态!

名宿:詹姆斯历史第一!乔丹第八!奥尼尔转发这个动态!

氧气是个地铁
2025-09-17 18:02:38
于朦胧临走前拿走朋友两块手表的行为,真实原因只有一个

于朦胧临走前拿走朋友两块手表的行为,真实原因只有一个

魔都姐姐杂谈
2025-09-12 05:01:34
官场微小说:床笫之欢

官场微小说:床笫之欢

十为先生
2025-09-01 18:18:59
稻盛和夫:钱没了可以再挣,工作没了可以再找,朋友没了可以再交

稻盛和夫:钱没了可以再挣,工作没了可以再找,朋友没了可以再交

清风拂心
2025-09-13 13:15:04
享受文明果实却反噬文明根脉---美国大学何以成为白左大本营?

享受文明果实却反噬文明根脉---美国大学何以成为白左大本营?

通往远方的路
2025-09-15 07:50:03
国家药监局决定在部分地区开展化妆品个性化服务第二阶段试点工作

国家药监局决定在部分地区开展化妆品个性化服务第二阶段试点工作

界面新闻
2025-09-17 20:04:56
新中国第一代高级干部名单大全,收藏!

新中国第一代高级干部名单大全,收藏!

霹雳炮
2025-09-13 22:02:41
太震撼了!11万毕业生参加招聘会,网友:感觉全哈尔滨的人全去了

太震撼了!11万毕业生参加招聘会,网友:感觉全哈尔滨的人全去了

明月杂谈
2025-09-17 05:35:21
2025-09-18 10:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
11332文章数 176280关注度
往期回顾 全部

科技要闻

DeepSeek称R1训练费200万,不依赖蒸馏对手

头条要闻

牛弹琴:中东发生历史性事件 两个特殊国家签特殊协议

头条要闻

牛弹琴:中东发生历史性事件 两个特殊国家签特殊协议

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

美联储重启降息!新任理事投了反对票

汽车要闻

百变玩法的增程方盒子 风云X3L售10.99万起

态度原创

家居
手机
亲子
本地
公开课

家居要闻

功能兼备 温暖白色城堡

手机要闻

苹果首批iPhone 17 Pro做工感人:拼接缝隙宽度竟差了一倍

亲子要闻

怪不得今天这么大方~意想不到的结局

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版