网易首页 > 网易号 > 正文 申请入驻

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!

谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。

研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。

结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。

换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。

推理时用额外计算来改进输出

这项研究的核心问题是——

在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如何?

DeepMind研究团队探究了两种主要机制来扩展测试时的计算。

一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索

PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。

另一种方法是在测试时根据prompt自适应地更新模型的响应分布

模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订。

以下是并行采样与顺序修订的比较。并行采样独立生成N个答案,而顺序修订则是每个答案依赖于前一次生成的结果,逐步修订。

通过对这两种策略的研究,团队发现不同方法的有效性高度依赖于prompt的难度。

由此,团队提出了“计算最优”扩展策略,根据prompt难度自适应地分配测试时的计算资源

他们将问题分为五个难度等级并为每个等级选择最佳策略。

如下图左侧,可以看到,在修订场景中,标准的best-of-N方法(生成多个答案后,从中选出最优的一个)与计算最优扩展相比,它们之间的差距逐渐扩大,使得计算最优扩展在使用少4倍的测试计算资源的情况下,能够超越best-of-N方法。

同样在PRM搜索环境中,计算最优扩展在初期相比best-of-N有显著的提升,甚至在一些情况下,以少4倍的计算资源接近或超过best-of-N的表现。

上图右侧比较了在测试阶段进行计算最优扩展的PaLM 2-S模型与不使用额外测试计算的预训练模型之间的表现,后者是一个*大14倍的预训练模型。

研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。

然而,随着推理与预训练token比率的增加,在简单问题上测试阶段计算仍然是首选。而在较难的问题上,预训练在这些情况下更为优越,研究人员在PRM搜索场景中也观察到了类似的趋势。

研究还比较了测试时计算与增加预训练的效果,在计算量匹配的情况下,对简单和中等难度的问题,额外的测试时计算通常优于增加预训练。

而对于难度较大的问题,增加预训练计算更为有效。

总的来说,研究揭示了当前的测试时计算扩展方法可能无法完全替代预训练的扩展,但已显示出在某些情况下的优势。

引发网友热议

这项研究被网友po出来后,引发热议。

有网友甚至表示这解释了OpenAI“草莓”模型的推理方法。

为什么这么说?

原来就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓计划未来两周内发布,推理能力大幅提高,用户输入无需额外的提示词。

草莓没有一味追求Scaling Law,与其它模型的最大区别就是会在回答前进行“思考”。

所以草莓响应需要10-20秒

这位网友猜测,草莓可能就是用了类似谷歌DeepMind这项研究的方法(doge):

如果你不认同,给个替代推理方法解释!

解释就解释:

本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。
草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。

论文链接:https://arxiv.org/pdf/2408.03314

参考链接:
[1]https://x.com/deedydas/status/1833539735853449360
[2]https://x.com/rohanpaul_ai/status/1833648489898594815

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘烨儿子正式出道!190cm颜值惊人,网友直呼:混血感,好重。

刘烨儿子正式出道!190cm颜值惊人,网友直呼:混血感,好重。

感觉会火
2026-05-31 12:08:07
陈青一周星座运势幸运榜前四名(6.1-6.7)

陈青一周星座运势幸运榜前四名(6.1-6.7)

别人都叫我阿螫
2026-05-31 20:42:06
DeepSeek推荐:人生回报率最高的66个微习惯

DeepSeek推荐:人生回报率最高的66个微习惯

洞见
2026-05-30 22:03:25
苏芒起诉“第一女仆”闹剧:给洋人当X还想骑国人头上,恶心!

苏芒起诉“第一女仆”闹剧:给洋人当X还想骑国人头上,恶心!

红色少女主播
2026-05-30 21:42:55
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
文班谈赛后激动落泪:我无法形容此刻的感受 它太强烈了

文班谈赛后激动落泪:我无法形容此刻的感受 它太强烈了

北青网-北京青年报
2026-05-31 19:26:15
恩里克合同更新:巴黎主席在利物浦帅位空缺后发表声明

恩里克合同更新:巴黎主席在利物浦帅位空缺后发表声明

绿茵情报局
2026-05-31 18:19:08
大暴雨,6月3日新一轮强降雨来,6号台风达巅峰,南海扰动增强?

大暴雨,6月3日新一轮强降雨来,6号台风达巅峰,南海扰动增强?

环球科学猫
2026-05-31 11:02:04
菲防长语出惊人:不管美国总统是谁?中国都不太可能对菲律宾动武

菲防长语出惊人:不管美国总统是谁?中国都不太可能对菲律宾动武

梦在深巷aqa
2026-05-31 02:07:47
为何蒙古国不治沙?美国专家认为:植树治沙弊大于利,是真是假?

为何蒙古国不治沙?美国专家认为:植树治沙弊大于利,是真是假?

抽象派大师
2026-05-31 00:29:43
王菲惊喜现身谢霆锋演唱会打扮随性朴实 连串举动颠覆一贯形象

王菲惊喜现身谢霆锋演唱会打扮随性朴实 连串举动颠覆一贯形象

达达哥
2026-05-31 19:28:59
广厦G3首节压制上海!布朗14分,卡尔顿暴走,张镇麟+2小外齐发挥

广厦G3首节压制上海!布朗14分,卡尔顿暴走,张镇麟+2小外齐发挥

篮球资讯达人
2026-05-31 20:01:32
美侨民与台商托举郑丽文:绿营派系抢着谈统一,观点比马英九进步

美侨民与台商托举郑丽文:绿营派系抢着谈统一,观点比马英九进步

全球热点幕后
2026-05-31 19:25:18
麻省理工出品,AI时代人人必修的最佳公开课!零基础用AI创造几乎所有的一切

麻省理工出品,AI时代人人必修的最佳公开课!零基础用AI创造几乎所有的一切

麻省理工AI公开课
2026-05-30 11:40:07
恩里克赛后:点球大战我列了6名射手,他们自己决定谁来罚和顺序

恩里克赛后:点球大战我列了6名射手,他们自己决定谁来罚和顺序

兰亭墨未干
2026-05-31 11:30:06
年少有为!文班超越詹姆斯成为最年轻分区决赛得分王

年少有为!文班超越詹姆斯成为最年轻分区决赛得分王

北青网-北京青年报
2026-05-31 19:26:23
花了19万接下一个菜鸟驿站,开了三个月,收入支出跟大家伙聊聊

花了19万接下一个菜鸟驿站,开了三个月,收入支出跟大家伙聊聊

小谈食刻美食
2026-05-29 07:32:51
张镇麟13+4+2火力全开!弗格17+1+3王者归来,上海队领先广厦10分

张镇麟13+4+2火力全开!弗格17+1+3王者归来,上海队领先广厦10分

君马体育
2026-05-31 20:38:25
电子眼抓拍有规律!记住7点,2026开车全年不扣分不被罚真的不难

电子眼抓拍有规律!记住7点,2026开车全年不扣分不被罚真的不难

沙雕小琳琳
2026-05-31 14:51:29
洛夫顿伤情更新!踩场手能弯曲,能双手运球,并进行简单恢复训练

洛夫顿伤情更新!踩场手能弯曲,能双手运球,并进行简单恢复训练

篮球资讯达人
2026-05-31 14:17:27
2026-05-31 21:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12715文章数 176475关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
房产
教育
数码
手机

旅游要闻

“六一”儿童节,一起漫步上博东馆(文末探索宫活动互动有奖)

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

教育要闻

事关所有高考生!2026高考或将出现3个重大变化!家长考生了解

数码要闻

26年Windows全通关!单核ThinkPad T43封神:裸机跑遍NT到Win10

手机要闻

小米MIX Fold 5全面曝光:全栈自研+万元档,或重新定义折叠屏!

无障碍浏览 进入关怀版