网易首页 > 网易号 > 正文 申请入驻

多模型协同进化突破单模型天花板?Squeeze Evolve:无需验证器实现推理新SOTA

0
分享至

来源:市场资讯


本文由加州大学伯克利分校、德克萨斯大学奥斯汀分校、斯坦福大学、普林斯顿大学与 Together AI 的研究团队共同完成。研究团队致力于探索大语言模型推理优化、多模型协同与高效计算等前沿方向。

本文作者 Monishwaran 和 Leon Lakhani 来自 UC Berkeley,研究方向为大语言模型。指导教师是 UT Austin 助理教授徐晨丰(研究方向为高效机器学习)和 Stanford 教授 James Zou(研究方向为机器学习、计算生物学等)。


  • 论文链接:https://arxiv.org/abs/2604.07725

  • 项目主页:https://squeeze-evolve.github.io

  • 代码仓库:https://github.com/squeeze-evolve/squeeze-evolve


每个大语言模型都有其能力天花板。增加推理预算、生成更多候选、运行更多优化循环 —— 单个模型只是在重复同样的先验知识、同样的失败模式、同样的盲点。其生成的答案种群会逐渐收敛并停滞不前。

如果突破天花板的方法不是更大的模型,而是一套协同进化的模型系统呢?

这就是 Squeeze Evolve 的核心理念:一个多模型进化框架,通过编排具有不同优势、失败模式和推理风格的模型,在无需任何外部验证器的情况下,产生任何单一模型都无法单独实现的能力。

研究背景

测试时扩展(Test-time Scaling)通过生成多个候选答案并通过选择和重组进行迭代优化,使模型能够「更深入地思考」。当与外部验证器配合使用时,这种进化方法已在代码生成和科学发现领域取得突破。

然而,在许多重要领域(例如等离子体模拟、湿实验室实验、开放式数学推理等),验证要么成本过高、速度过慢,要么根本不可用。进化必须在没有真实反馈的情况下进行。

这就是无验证器进化,它面临一个根本性问题:单模型种群会崩溃。

没有外部校正时,模型会放大它已经知道如何识别和重现的轨迹。丢弃数量极少但正确的方案。因此,多样性在进化中至关重要。一旦多样性丧失,就无法恢复,后续循环只能重组幸存轨迹的后代,陷入狭窄的解空间模式。

这就是为什么单纯扩大单个模型的推理预算会遇到收益递减。瓶颈不是算力,而是多样性。


方法概述

不同模型具有不同的先验知识、不同的训练数据分布、不同的失败模式。当它们参与同一个进化过程时,能够维持单一模型无法独立保持的互补谱系。

一个推理模型可能擅长多步逻辑推理,但在空间推理上表现不佳。一个指令微调模型可能整体较弱,但带来不同的归纳偏置,保留了推理模型会剪枝的解决路径。即使是一个小得多的模型也能做出有意义的贡献 —— 不是因为它 individually 更强,而是因为它以不同的方式犯错。

这就是 Squeeze Evolve 能够超越任何单一模型能力的机制。多模型编排不仅仅是成本工程 —— 它是能力放大器。

研究团队发现了三个关键实证结果:

初始化主导最终准确性:Loop 0(初始种群)的质量是最终性能的最强预测因子。在 AIME 2025 上,反转初始化模型和重组模型的角色会导致准确率下降高达 23 个百分点。最强模型必须锚定起始种群。

当候选集足够强时,弱模型是强大的聚合器:当一个组已经包含正确轨迹时,即使小得多的模型也能有效聚合它们 —— 接近 100% 的准确率。昂贵模型的优势集中在最难、最不确定的组上。在其他地方,便宜模型不仅足够,而且充分。

模型置信度预测哪里需要能力:从 token 对数概率导出的组置信度(Group Confidence, GC)能够清晰地区分包含正确轨迹的组和不包含的组。这个信号是没有任何成本的(在推理过程中产生),适用于不同模型家族,并直接告诉我们哪些组需要昂贵模型,哪些可以安全地交给便宜模型处理。


实验评估

研究团队在数学推理、视觉理解、科学发现等多个领域进行了系统验证。相比单模型 RSA 基线:

  • AIME 2025:GPT-OSS-20B 与 GPT-5 mini 组合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)


  • MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的组合以 43% 的成本超越 Kimi-2.5-Thingking 单模型(79.1% vs 78.6%)


  • ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本节约,93.3⭢97.5% 准确率提升)


  • 圆堆积问题:无需验证器的情况下使用开源模型(GPT-OSS 120B + 20B)效果匹配基于验证器的闭源 AlphaEvolve 基线方法(使用 Gemini-2.0 Pro + Flash)


  • 在所有 8 个基准测试上成本降低 1.4–3.3x,吞吐量提升 4–10x


总结与展望

Squeeze Evolve 的核心洞见是:单个模型的天花板不是模型系统的天花板。

通过将现有的测试时扩展方法统一到共同的进化框架中,研究团队揭示了一个设计空间,在这个空间中,模型根据它们的能力在何处具有最高边际效用被分配到进化角色。结果不仅仅是更便宜的推理 —— 而是真正更强的推理。协同进化的模型产生它们单独无法产生的解决方案。

这将测试时扩展从「在更大的模型上花更多钱」重新定义为多模型系统优化问题。前沿不是仅由单个模型能力推动的 —— 而是由你如何智能地编排已有模型推动的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李诗沣汤杯状态堪忧!韩国男队被丹麦队暴揍!

李诗沣汤杯状态堪忧!韩国男队被丹麦队暴揍!

杨晨大神
2026-04-25 12:14:01
雅迪电动车集体锁死:智能系统的代价

雅迪电动车集体锁死:智能系统的代价

算力游侠
2026-04-23 15:12:24
马刺榜眼轰27+10逆转开拓者!杨瀚森1板,阿夫迪亚15投12铁太辣眼

马刺榜眼轰27+10逆转开拓者!杨瀚森1板,阿夫迪亚15投12铁太辣眼

你的篮球频道
2026-04-25 13:23:48
乌度卡眼神涣散复盘失利!无法理解神奇失误送好局 美记称该解雇

乌度卡眼神涣散复盘失利!无法理解神奇失误送好局 美记称该解雇

颜小白的篮球梦
2026-04-25 12:07:30
火箭绝望的并非出局而是以下三件事!杜兰特被孤立,乌度卡留队

火箭绝望的并非出局而是以下三件事!杜兰特被孤立,乌度卡留队

去山野间追风
2026-04-25 12:12:33
快讯!不等了,菲律宾喊话中国了!

快讯!不等了,菲律宾喊话中国了!

达文西看世界
2026-04-25 09:47:33
拒逆转!布朗25+7,马克西31+6,塔图姆立大功,季后赛走势改变

拒逆转!布朗25+7,马克西31+6,塔图姆立大功,季后赛走势改变

篮球大视野
2026-04-25 09:58:52
58岁江珊差点认不出,膀大腰圆,身材壮硕,满头白发太真实

58岁江珊差点认不出,膀大腰圆,身材壮硕,满头白发太真实

林轻吟
2026-04-25 07:44:35
总部人去楼空!上千家供应商被欠4亿货款,这场骗局精心设计仅7天

总部人去楼空!上千家供应商被欠4亿货款,这场骗局精心设计仅7天

小祁谈历史
2026-04-20 22:09:33
2026年,如果你的家庭存款突破100万,会发现一个惊人的真相!

2026年,如果你的家庭存款突破100万,会发现一个惊人的真相!

蓝色海边
2026-04-24 17:11:02
只觉得Pocket 4拍人好看,是对大疆最大的误解

只觉得Pocket 4拍人好看,是对大疆最大的误解

差评XPIN
2026-04-24 13:28:35
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
污染源找到,负责人被处理!但河北地下水变红的关键问题还未解决

污染源找到,负责人被处理!但河北地下水变红的关键问题还未解决

社会日日鲜
2026-04-24 07:10:17
斯诺克世锦赛:丁俊晖被罚9分逆转失败!赵心童脱险,追到3-3!

斯诺克世锦赛:丁俊晖被罚9分逆转失败!赵心童脱险,追到3-3!

刘姚尧的文字城堡
2026-04-24 23:50:42
人类灭绝大局已定?科学家算出人类灭绝日期,我们能侥幸存活吗?

人类灭绝大局已定?科学家算出人类灭绝日期,我们能侥幸存活吗?

丹妮观
2026-04-25 10:01:55
投入千万打水漂,张庆鹏下课?公开表态,或回归山东,接替邱彪?

投入千万打水漂,张庆鹏下课?公开表态,或回归山东,接替邱彪?

萌兰聊个球
2026-04-25 10:22:55
复旦解剖516名糖尿病逝者,意外发现:得糖尿病的人,大多有5共性

复旦解剖516名糖尿病逝者,意外发现:得糖尿病的人,大多有5共性

坠入二次元的海洋
2026-04-25 12:36:41
连续6个跌停板!股民:一切都结束了!

连续6个跌停板!股民:一切都结束了!

数据挖掘分析
2026-04-25 14:41:44
突然被带走调查:牢记“三不说、四不签”,不吃亏、不踩坑

突然被带走调查:牢记“三不说、四不签”,不吃亏、不踩坑

匹夫来搞笑
2026-04-25 03:19:47
罕见!"双胞胎兄弟残留在咽喉",有脂肪有软骨!6岁男孩夜间打鼾、呼吸困难,上海医生一查惊了

罕见!"双胞胎兄弟残留在咽喉",有脂肪有软骨!6岁男孩夜间打鼾、呼吸困难,上海医生一查惊了

新民晚报
2026-04-25 13:20:00
2026-04-25 15:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3008983文章数 6919关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

"蚊子大军"来袭北极圈也被攻破 各地疾控发出重要预警

头条要闻

"蚊子大军"来袭北极圈也被攻破 各地疾控发出重要预警

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

艺术
教育
时尚
亲子
军事航空

艺术要闻

荒废十多年!福建石狮“最美烂尾楼”,德国品牌接盘了

教育要闻

第11课-Discomfort and difficulties 海外遇到困难怎么办?

火了30年的off-duty,不费力,才是真本事

亲子要闻

当54岁的日本老公有了女儿,每天捧在手心都怕要化了!

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版