网易首页 > 网易号 > 正文 申请入驻

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!

谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。

研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。

结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。

换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。

推理时用额外计算来改进输出

这项研究的核心问题是——

在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如何?

DeepMind研究团队探究了两种主要机制来扩展测试时的计算。

一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索

PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。

另一种方法是在测试时根据prompt自适应地更新模型的响应分布

模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订。

以下是并行采样与顺序修订的比较。并行采样独立生成N个答案,而顺序修订则是每个答案依赖于前一次生成的结果,逐步修订。

通过对这两种策略的研究,团队发现不同方法的有效性高度依赖于prompt的难度。

由此,团队提出了“计算最优”扩展策略,根据prompt难度自适应地分配测试时的计算资源

他们将问题分为五个难度等级并为每个等级选择最佳策略。

如下图左侧,可以看到,在修订场景中,标准的best-of-N方法(生成多个答案后,从中选出最优的一个)与计算最优扩展相比,它们之间的差距逐渐扩大,使得计算最优扩展在使用少4倍的测试计算资源的情况下,能够超越best-of-N方法。

同样在PRM搜索环境中,计算最优扩展在初期相比best-of-N有显著的提升,甚至在一些情况下,以少4倍的计算资源接近或超过best-of-N的表现。

上图右侧比较了在测试阶段进行计算最优扩展的PaLM 2-S模型与不使用额外测试计算的预训练模型之间的表现,后者是一个*大14倍的预训练模型。

研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。

然而,随着推理与预训练token比率的增加,在简单问题上测试阶段计算仍然是首选。而在较难的问题上,预训练在这些情况下更为优越,研究人员在PRM搜索场景中也观察到了类似的趋势。

研究还比较了测试时计算与增加预训练的效果,在计算量匹配的情况下,对简单和中等难度的问题,额外的测试时计算通常优于增加预训练。

而对于难度较大的问题,增加预训练计算更为有效。

总的来说,研究揭示了当前的测试时计算扩展方法可能无法完全替代预训练的扩展,但已显示出在某些情况下的优势。

引发网友热议

这项研究被网友po出来后,引发热议。

有网友甚至表示这解释了OpenAI“草莓”模型的推理方法。

为什么这么说?

原来就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓计划未来两周内发布,推理能力大幅提高,用户输入无需额外的提示词。

草莓没有一味追求Scaling Law,与其它模型的最大区别就是会在回答前进行“思考”。

所以草莓响应需要10-20秒

这位网友猜测,草莓可能就是用了类似谷歌DeepMind这项研究的方法(doge):

如果你不认同,给个替代推理方法解释!

解释就解释:

本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。
草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。

论文链接:https://arxiv.org/pdf/2408.03314

参考链接:
[1]https://x.com/deedydas/status/1833539735853449360
[2]https://x.com/rohanpaul_ai/status/1833648489898594815

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹俊大胆预判:2026世界杯冷门扎堆!这3支豪门最危险

詹俊大胆预判:2026世界杯冷门扎堆!这3支豪门最危险

林子说事
2026-06-03 07:40:49
250架轰6蓄势待发进入战备,小泉进次郎:中国是超级核大国

250架轰6蓄势待发进入战备,小泉进次郎:中国是超级核大国

安珈使者啊
2026-06-03 11:47:55
A股:刚刚,国务院重磅发布!不出意外的话,明日将迎来新的行情

A股:刚刚,国务院重磅发布!不出意外的话,明日将迎来新的行情

云鹏叙事
2026-06-03 00:00:07
女子网约车排泄后续曝光,平台公布信息结局大快人心

女子网约车排泄后续曝光,平台公布信息结局大快人心

每一次点击
2026-06-01 16:41:11
出大事了!两国矛盾浮出水面?马来防长当众斥责西方“双标”

出大事了!两国矛盾浮出水面?马来防长当众斥责西方“双标”

南宗历史
2026-06-03 11:08:23
41岁男人:意外跟老婆闺蜜发生关系,这件事我要告诉妻子吗?

41岁男人:意外跟老婆闺蜜发生关系,这件事我要告诉妻子吗?

混音情感
2026-05-31 12:42:41
韩国股市,彻底疯狂

韩国股市,彻底疯狂

混知房产
2026-06-03 07:36:27
132亿砸出深圳最大高铁站!4年后竣工,北站“老大”地位不保?

132亿砸出深圳最大高铁站!4年后竣工,北站“老大”地位不保?

科学发掘
2026-06-02 16:28:25
曝鹈鹕有意引进布朗!主要筹码为墨菲+穆雷 美记预计需搭多个首轮

曝鹈鹕有意引进布朗!主要筹码为墨菲+穆雷 美记预计需搭多个首轮

颜小白的篮球梦
2026-06-03 12:16:21
苦尽甘来!6月不缺贵人、赚钱门路的3个生肖,日子越过越红火

苦尽甘来!6月不缺贵人、赚钱门路的3个生肖,日子越过越红火

毅谈生肖
2026-06-03 10:10:33
中央巡视工作领导小组办公室原主任黎晓宏被查

中央巡视工作领导小组办公室原主任黎晓宏被查

环球网资讯
2026-06-02 18:05:16
暴跌83%!娃哈哈的“情绪泡沫”终于破了

暴跌83%!娃哈哈的“情绪泡沫”终于破了

ZAKER新闻
2026-06-02 19:36:10
钱再多有什么用!千万网红董赤赤停更5个月后,再出现时面相大变

钱再多有什么用!千万网红董赤赤停更5个月后,再出现时面相大变

林轻吟
2026-06-03 12:12:44
霍汶希现身深圳体验焕新极氪009 直言“堪比极品好车”

霍汶希现身深圳体验焕新极氪009 直言“堪比极品好车”

CNMO科技
2026-06-03 10:38:15
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

黯泉
2026-05-20 16:13:40
苹果5款新品官宣,6月9日,正式发布

苹果5款新品官宣,6月9日,正式发布

科技堡垒
2026-06-03 09:40:13
俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

闻号说经济
2026-06-02 10:43:10
《给阿嬷的情书》最大的成功,撕开了京圈对中国电影的垄断

《给阿嬷的情书》最大的成功,撕开了京圈对中国电影的垄断

担扑
2026-05-19 21:50:02
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
郑州一渣土车与两轮电动车相撞致3人死亡,河南省安委会挂牌督办

郑州一渣土车与两轮电动车相撞致3人死亡,河南省安委会挂牌督办

澎湃新闻
2026-06-02 13:24:26
2026-06-03 12:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12733文章数 176476关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女生被"卖"大18岁男子生娃后领证 逃离后再婚生子获刑

头条要闻

女生被"卖"大18岁男子生娃后领证 逃离后再婚生子获刑

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

艺术
教育
家居
健康
军事航空

艺术要闻

二十年前割麦的场景

教育要闻

1933年齐鲁大学自招考试,数学之部第一题,还是简单的

家居要闻

江畔轻奢 观云大宅

违规干细胞应用,暗藏致命隐患!

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版