网易首页 > 网易号 > 正文 申请入驻

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了

然鹅……奥特曼这边却发了一条“变卦”的消息:

  • 计划改变:我们可能在几周之后先发布o3和o4-mini。

至于大家翘首以盼的GPT-5,奥特曼表示:

  • 将在几个月之后,而且效果会比我们最初设想的还要好。

至于原因,奥特曼也做出了解释。

大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。

咱就是说啊,现在真的是DeepSeek这边一有点声响,OpenAI那边就得有点动作来紧跟一下了。

DeepSeek新论文

在这个小插曲之后呢,我们还是把目光聚焦在DeepSeek这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清华大学共同提出。

这篇研究核心的亮点,就是提出了一个叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。

之所以要做这么一项研究,是因为之前大家用奖励模型(Reward Model, RM)在RL中为大语言模型生成奖励信号。

但现有的RM在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用RM需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有RM(如标量RM、半标量RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。

为了解决这个问题,DeepSeek和清华大学团队便提出了SPCT。

整体来看,这项研究主要包含三大核心技术点。

首先就是生成式奖励模型(GRM)。

它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。

其中,C是生成的critique,fextract从中提取分数。

接下来,是关键的SPCT了。

主要是通过在线强化学习(RL)训练GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。

整体来看,SPCT是一个两阶段的过程,它们分别是:

  • 拒绝式微调(Rejective Fine-Tuning)
  • :冷启动阶段,通过采样和拒绝策略生成初始数据。
  • 基于规则的在线RL
  • :使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。

在此基础上,便是第三个技术点,即推理时扩展技术

先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。

再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。

基于上述的方法,团队也对结果做了一波测试。

在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显著优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4%)。

总而言之,这篇研究证明了推理时扩展在通用RM中的有效性,性能超越训练时扩展。

One More Thing

奥特曼发布“变卦”消息之外,还不忘给自己带一波货,称有两本他亲自参与的书即将发布:

  • 一本是Keach Hagey写的关于奥特曼本人的书
  • 一本是Ashlee Vance写的关于OpenAI的书

论文地址:https://arxiv.org/abs/2504.02495


[1]https://x.com/sama/status/1908167621624856998
[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[3]https://x.com/sama/status/1908163013192069460

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长沙警方:某小区发生一起人员坠亡事件,死者系高坠而亡,已排除刑事案件可能,网友称系恶性刑事案件为不实谣言

长沙警方:某小区发生一起人员坠亡事件,死者系高坠而亡,已排除刑事案件可能,网友称系恶性刑事案件为不实谣言

扬子晚报
2026-05-27 09:47:42
雷军:使用我的推荐码的车主实在太多,有点扛不住了,计划月底停止

雷军:使用我的推荐码的车主实在太多,有点扛不住了,计划月底停止

齐鲁壹点
2026-05-26 10:37:10
深圳,再添一所985大学

深圳,再添一所985大学

TOP大学来了
2026-05-26 21:01:16
灾情如火,岂容“审批”挡道?——评三支蓝天救援队被通报事件

灾情如火,岂容“审批”挡道?——评三支蓝天救援队被通报事件

细雨中的呼喊
2026-05-26 13:37:48
山东部分村干部盗采泰山石,称年赚二十万,泰山石有何特别之处?

山东部分村干部盗采泰山石,称年赚二十万,泰山石有何特别之处?

贵重物品爱美食
2026-05-26 22:34:37
涉嫌严重违纪违法,崔汝山被查

涉嫌严重违纪违法,崔汝山被查

都市快报橙柿互动
2026-05-27 00:31:05
外界热议华为“韬定律”:美国要更担忧了

外界热议华为“韬定律”:美国要更担忧了

观察者网
2026-05-26 17:10:44
武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

李晚书
2026-05-26 12:04:16
雷军回应武契奇说小米车很漂亮但买不起:总统先生 YU7标准版定价23.35万

雷军回应武契奇说小米车很漂亮但买不起:总统先生 YU7标准版定价23.35万

快科技
2026-05-27 01:13:07
苏芒彻底翻车!代言的汽车遭到抵制,接受鲁豫采访的评论区也炸锅

苏芒彻底翻车!代言的汽车遭到抵制,接受鲁豫采访的评论区也炸锅

火山詩话
2026-05-26 11:15:20
百万粉丝女网红捐款1047万?本人回应:两位粉丝捐出1千万,个人捐了47万,希望能帮到更多需要帮助的人

百万粉丝女网红捐款1047万?本人回应:两位粉丝捐出1千万,个人捐了47万,希望能帮到更多需要帮助的人

潇湘晨报
2026-05-26 22:14:27
国台办:期待台湾同胞同大陆同胞一道探索浩瀚宇宙

国台办:期待台湾同胞同大陆同胞一道探索浩瀚宇宙

界面新闻
2026-05-27 10:19:30
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

嫹笔牂牂
2026-05-26 07:30:48
凌晨2点打电话叫醒村民的“谢会计”遇难,妻子弟弟仍失联

凌晨2点打电话叫醒村民的“谢会计”遇难,妻子弟弟仍失联

红星新闻
2026-05-26 17:26:13
“四两”如何拨“千斤”(评论员观察)

“四两”如何拨“千斤”(评论员观察)

海外网
2026-05-27 07:24:06
40℃穿西服晒太阳的鲁比奥听到一个炸裂消息

40℃穿西服晒太阳的鲁比奥听到一个炸裂消息

新民周刊
2026-05-27 09:08:54
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
尴尬!广东一业主因邻居大姐房事声音过大不堪其扰,声称要去录音

尴尬!广东一业主因邻居大姐房事声音过大不堪其扰,声称要去录音

火山詩话
2026-05-26 06:21:30
苏超丑闻!曝20岁球员与5拉拉队员淫乱+有未成年 疑是双胞胎之一

苏超丑闻!曝20岁球员与5拉拉队员淫乱+有未成年 疑是双胞胎之一

念洲
2026-05-26 16:59:20
“睡粉”球员被处理,苏超第二季失去纯粹性!本土化才是省超根基

“睡粉”球员被处理,苏超第二季失去纯粹性!本土化才是省超根基

中国足球的那些事儿
2026-05-26 20:44:57
2026-05-27 10:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12690文章数 176471关注度
往期回顾 全部

科技要闻

美光股价大涨超19% 市值破万亿美元

头条要闻

两儿子均非亲生 "人生很失败"男子起诉前妻要讨回房子

头条要闻

两儿子均非亲生 "人生很失败"男子起诉前妻要讨回房子

体育要闻

摩洛哥队世界杯26人名单:总身价4.7亿 中超旧将入选

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

试驾新红旗HQ9 2.0T混动+双电机四驱

态度原创

家居
游戏
数码
艺术
手机

家居要闻

古老而持久 石影扶手椅

PS PLUS港服会员折扣上线!最高可享67折 不容错过

数码要闻

消息称英特尔首批掌机处理器Arc G3系列即将解禁,有望明日发布

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

手机要闻

苹果iOS 26.6 Beta 1更新汇总:屏蔽超2万联系人后发出提醒

无障碍浏览 进入关怀版