网易首页 > 网易号 > 正文 申请入驻

香港理工大学:让AI像人脑一样聪明分配"脑力",推理效率暴增50%

0
分享至


这项由香港理工大学肖洋、徐春普等研究者与上海交通大学刘鹏飞教授合作开展的研究发表于2025年11月,论文编号为arXiv:2512.00466v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当你坐在考场里解数学题时,遇到"2+3等于几"这样的简单题目,大脑几乎是瞬间给出答案,不需要太多思考。但碰到复杂的代数方程或几何证明题时,你会不自觉地慢下来,仔细分析每一个步骤,调动更多的"脑力"来处理。这种根据题目难度自动调整思考深度的能力,正是人类智慧的精髓所在。

然而,目前的人工智能在处理数学问题时,却像一个刻板的学生——无论遇到多简单或多复杂的题目,都用同样的"用力程度"去思考。这就好比用挖掘机去拧螺丝,或者用小螺丝刀去挖土,效率极其低下。香港理工大学的研究团队敏锐地发现了这个问题,并提出了一个革命性的解决方案——SCALE框架。

SCALE的全称是"Selective Resource Allocation",翻译过来就是"选择性资源分配"。这个框架的核心思想是让AI学会像人一样,把有限的计算资源集中投入到真正需要深度思考的难题上,而对简单问题则快速处理,从而大幅提升整体效率。

研究团队将这种思路比作双轨制的思维模式:System 1代表快速直觉式处理,就像我们看到"苹果"就知道是水果一样自然;System 2则代表缓慢深思熟虑的分析,就像解决复杂工程问题时需要的那种专注状态。通过让AI在这两种模式间智能切换,SCALE实现了前所未有的性能突破。

一、传统AI推理的困境:用大炮打蚊子的资源浪费

要理解SCALE的价值,我们先来看看传统AI推理方法存在什么问题。目前主流的AI数学推理方法可以比作一家效率低下的餐厅。在这家餐厅里,无论顾客点的是简单的白开水还是复杂的法式大餐,厨师都会用同样的时间和精力来准备。结果就是白开水要等30分钟,而真正需要精心烹饪的大餐反而得不到足够的关注。

传统的推理方法主要有几种:最基础的是链式思考方法,就像让学生按部就班地写出每一个解题步骤;还有一种是多次投票方法,相当于让多个学生独立解题,然后选择出现次数最多的答案。虽然这些方法各有优势,但它们都有一个共同的致命缺陷——无差别的资源分配。

具体来说,当AI遇到一道包含多个子问题的数学题时,比如既有简单的算术运算"√16等于几",又有复杂的代数推导,传统方法会给每个子问题分配几乎相同的计算资源。这就像让一个顶级程序员花一个小时去计算"1+1",同时只给另一个复杂算法设计任务一个小时一样荒唐。

这种资源错配带来的后果是显而易见的:简单问题被过度处理,浪费了大量计算资源;而真正决定解题成败的复杂子问题却得不到足够的"思考时间",导致错误率居高不下。更要命的是,随着投入的计算资源越来越多,性能提升却越来越小,出现了经济学中的"边际效应递减"现象。

研究团队通过大量实验发现,这种均匀分配策略在处理高难度数学竞赛题目时表现尤其糟糕。在美国数学邀请赛(AIME)这样的顶级赛事中,一道题目往往包含多个认知难度差异巨大的子问题,传统方法的效率瓶颈暴露无遗。

二、SCALE的核心设计:模拟人脑的智慧分工

SCALE框架的设计灵感来源于认知科学中的双过程理论。这个理论将人类思维分为两个系统:System 1负责快速、自动、直觉式的处理,就像我们看到红灯就停车,不需要思考;System 2负责缓慢、deliberate、需要意志力的分析处理,就像我们在做重要决策时的深思熟虑。

基于这个理论,SCALE设计了一套四阶段的智能处理流程,就像一个经验丰富的数学老师指导学生解题的过程。

第一阶段是问题分解,相当于把一道复杂的数学题拆分成若干个逻辑清晰的小问题。这就像把一个大项目分解成多个可管理的小任务,每个任务都有明确的目标和前后依赖关系。SCALE会生成多种不同的分解方案,然后选择最优的那一种,确保分解既合理又完整。

第二阶段是难度评估,这是SCALE的关键创新。系统会仔细分析每个子问题的复杂程度,就像一个有经验的老师能够一眼看出哪些题目学生能快速解决,哪些需要更多指导。这个评估过程会考虑计算复杂度、所需数学知识的深度、推理步骤的多少等多个维度。

第三阶段是模式选择,根据难度评估结果,SCALE会为每个子问题选择合适的处理模式。简单问题分配给System 1,就像用计算器做基础运算;复杂问题分配给System 2,就像用专业软件进行复杂建模。这种选择不是一成不变的,而是动态调整的。

第四阶段是顺序执行,SCALE会按照逻辑顺序处理各个子问题,同时确保信息在子问题之间充分传递。这就像接力赛一样,每一棒都要把"接力棒"(也就是之前的计算结果和推理过程)完整地传递给下一棒,确保整个解题过程的连贯性。

这四个阶段紧密配合,形成了一个高效的智能推理系统。关键在于,SCALE不是预先设定哪些类型的问题用哪种方法,而是实时评估每个具体子问题的难度,然后做出最优的资源分配决策。

三、技术实现的精妙之处:让机器学会"看菜下饭"

SCALE的技术实现可以比作训练一个智能厨师,让他学会根据不同菜品的复杂程度来分配时间和精力。这个过程涉及几个巧妙的技术设计。

在问题分解阶段,SCALE采用了一种"多候选生成"的策略。就像一个建筑师在设计房子时会画出多个草图方案一样,系统会为同一个数学问题生成多种不同的分解方式。比如对于一个几何题,可以从面积计算的角度分解,也可以从角度关系的角度分解,每种方式都有其优劣。然后系统会评估这些候选方案的质量,选择逻辑最清晰、覆盖最完整的那一个。

难度评估是整个框架最核心的技术创新。SCALE使用了一种上下文感知的评估方法,这意味着它不仅看子问题本身,还会考虑前面已经解决的部分。这就像医生诊断病情时,不仅看当前症状,还要结合病史和之前的检查结果。具体来说,系统会分析每个子问题需要的数学知识深度、推理步骤复杂程度、解决方案的不确定性等因素,然后给出一个0到1之间的难度分数。

模式选择机制展现了SCALE的实用智慧。现代大语言模型,比如Qwen3系列,本身就具备不同的思考模式。SCALE巧妙地利用了这个特性,通过设定一个难度阈值来决定模式切换。这个阈值就像体温计上的标准体温线,高于阈值就启动"深度思考模式",低于阈值就用"快速处理模式"。研究团队通过大量实验发现,当阈值设为0.2时效果最佳,这意味着大约75%的子问题会被认定为"困难"而接受深度处理。

顺序执行阶段体现了SCALE对信息传递的精心设计。每当解决一个子问题时,系统都会把解决方案和推理过程完整地记录下来,形成一个不断增长的"知识库"。后续子问题的解决会充分利用这个知识库,就像学生做数学题时会参考前面步骤的结果一样。这种设计确保了整个解题过程的逻辑一致性和信息完整性。

整个SCALE系统的数学表达可以理解为一个条件概率的连乘:最终答案的正确性等于每个子问题正确解决的概率相乘。这种设计让系统能够通过提高关键子问题的解决质量来大幅提升整体性能。

四、实验验证:在数学竞赛中的惊艳表现

为了验证SCALE的有效性,研究团队设计了两套完整的实验体系,就像给新药做临床试验一样严格和全面。

第一套实验专门测试SCALE对现有推理模型的增强效果。研究团队选择了四个业界顶尖的AI推理模型进行测试,包括Qwen3-32B、QwQ、以及两个DeepSeek-R1的优化版本。测试平台是三个公认的高难度数学竞赛数据集:2024年和2025年的美国数学邀请赛(AIME)以及2023年美国数学竞赛(AMC)。

SCALE的表现可以说是惊艳四座。在最具挑战性的AIME25测试中,当使用Qwen3-32B模型时,SCALE将准确率从传统方法的57.50%提升到了71.25%,增幅达到惊人的13.75个百分点。这种提升幅度在AI研究领域是非常罕见的,相当于一个学生的数学成绩从及格线直接跳到了优秀水平。

更令人印象深刻的是SCALE在资源效率方面的表现。在达到更高准确率的同时,SCALE的总体计算消耗反而降低了33%到53%。这就像一辆汽车不仅跑得更快,还更省油一样令人难以置信。具体来说,在AIME25测试中,传统方法需要36,640个计算单元,而SCALE只需要26,643个,节省了近一万个单元的计算资源。

研究团队还发现了一个有趣的现象:SCALE的优势在越困难的题目上越明显。在相对简单的AMC23测试中,SCALE的提升幅度相对较小,但在高难度的AIME测试中,提升效果就非常显著。这验证了研究团队的核心假设——选择性资源分配在面对复杂问题时威力更大。

第二套实验展示了SCALE作为"老师"的能力。研究团队用SCALE生成了高质量的推理训练数据,然后用这些数据训练原本不具备深度推理能力的普通模型。结果显示,经过SCALE指导的模型在数学推理能力上获得了巨大提升。最突出的例子是Llama3.3-70B-Instruct模型,在AIME24测试中的准确率从24.58%跃升到了63.51%,提升幅度达到38.93个百分点。这就像一个普通学生经过名师指导后,数学成绩从不及格直接跳到了优秀水平。

这种"传道授业"的能力证明了SCALE不仅能增强现有的推理模型,还能将其智慧传递给其他模型,具有很强的普适性和推广价值。

五、深入分析:为什么SCALE如此有效

SCALE成功的秘密在于它准确把握了数学推理的本质特征。通过对不同难度阈值的系统性分析,研究团队揭示了一些发人深省的规律。

当研究团队系统性地调整难度阈值从0.2到0.9时,他们发现了一个明确的趋势:阈值越低(也就是越多子问题被认定为"困难"),整体性能越好。当阈值设为0.2时,约75%的子问题会接受深度处理,此时AIME24的准确率达到78.75%的峰值。随着阈值逐步提高到0.9,准确率下降到了27.50%。

这个发现颠覆了人们的直觉。原本以为应该尽可能节约计算资源,只对真正困难的问题进行深度处理。但实验结果显示,适当"宽松"的难度标准反而能带来更好的效果。这就像学习时适当多花一些时间在理解概念上,虽然看似"浪费",但能带来更扎实的掌握。

更有趣的是,SCALE在不同类型数学问题上展现出了不同的缩放特性。当研究团队逐步增加System 2模式的计算预算时,AIME题目的性能提升呈现近乎线性的增长,而AMC题目的提升则相对平缓。这种差异直接反映了两类题目的内在特征:AIME题目包含更多需要深度推理的子问题,因此更能受益于额外的计算资源;而AMC题目相对更多是常规计算,额外资源的边际效用较小。

SCALE的另一个重要发现是其模型无关性。无论是Qwen系列、QwQ还是DeepSeek的变种,SCALE都能带来一致的性能提升。这说明SCALE解决的是一个根本性问题,而不是某个特定模型的局限性。这种普适性让SCALE具备了广泛的应用前景。

研究团队还通过对比实验验证了选择性分配相比于暴力方法的优势。传统的多数投票方法虽然也能提升准确率,但需要消耗2到3倍的计算资源,而SCALE在达到相似甚至更好性能的同时,资源消耗反而更少。这证明了"巧干胜过蛮干"的道理。

六、技术细节:阈值设置的艺术

SCALE框架中最关键的设计决策之一就是难度阈值的选择,这个看似简单的数字背后蕴含着深刻的技术洞察。

研究团队通过系统性实验发现,阈值设置呈现出明确的性能-成本权衡关系。当阈值为0.2时,系统达到最佳性能,但同时消耗最多计算资源(每个问题约22,500个计算单元)。随着阈值提高,计算成本急剧下降,但性能也相应降低。

这种权衡关系为实际应用提供了宝贵的指导。在对准确率要求极高的场合,比如科学计算或工程设计,可以选择较低阈值以确保最佳性能。而在资源受限的环境中,比如移动设备或实时应用,可以适当提高阈值以平衡性能和效率。

有趣的是,即使在较高阈值设置下,SCALE仍然保持对传统方法的优势。例如,当阈值为0.6时,SCALE在AIME25上的准确率为58.75%,仍然超过传统链式思考方法的57.50%,但计算成本降低了约20%。这种"兜底"优势确保了SCALE在各种约束条件下的实用性。

阈值设置还反映了数学问题的内在结构。AIME这类高级竞赛题目中,即使看似简单的子问题也往往隐含着陷阱或需要巧妙的洞察,因此较低的阈值设置是合理的。这也解释了为什么SCALE在高难度问题上的优势更加明显。

七、对人工智能发展的深远影响

SCALE框架的成功不仅仅是一个技术突破,更重要的是它为人工智能的发展指出了一个新方向:智能化的资源管理。

传统的AI优化主要聚焦于模型架构改进或训练数据增强,这就像不断给汽车换更强劲的发动机。而SCALE则是从另一个角度——如何更智能地使用现有计算资源,这就像教司机如何根据路况调整驾驶策略。这种思路的转变可能会引发AI领域的一次范式革命。

SCALE证明了认知科学理论在AI系统设计中的指导价值。双过程理论原本是用来解释人类思维的,但SCALE成功地将其转化为可操作的技术方案。这为未来的AI研究提供了新的思路:从人类认知机制中汲取灵感,设计更加智能高效的AI系统。

从实用角度来说,SCALE的成功意味着现有的AI模型可能存在巨大的未开发潜力。许多看似性能有限的模型,通过更智能的使用方式,可能会展现出令人惊喜的能力。这对于资源受限的应用场景特别有价值,比如移动设备上的AI应用或边缘计算环境。

SCALE还为AI的可解释性提供了新的视角。通过明确区分简单和复杂子问题,系统的决策过程变得更加透明。用户可以清楚地看到哪些部分需要深度思考,哪些部分是直接处理的,这种透明度对于建立用户信任至关重要。

八、应用前景:从学术研究到实际应用

SCALE框架的应用潜力远远超出了数学推理领域。其核心思想——根据子任务复杂度智能分配计算资源——可以应用到许多其他AI场景中。

在自然语言处理领域,SCALE可以用于优化文档理解、翻译、总结等任务。比如在翻译一篇包含技术术语和日常对话的文档时,系统可以对技术术语部分投入更多计算资源进行精确翻译,而对简单对话部分快速处理,从而在保证质量的同时提高效率。

在代码生成和软件开发辅助方面,SCALE的思路也很有价值。编程任务往往包含例行的语法操作和需要创新思维的算法设计,智能化的资源分配可以让AI在帮助程序员时更加高效。

科学研究是另一个潜在的应用领域。科学论文的自动阅读理解、假设生成、实验设计等任务都具有明显的复杂度差异,SCALE的方法可能会带来突破性的进展。

在教育技术方面,SCALE可以用于开发更智能的个性化学习系统。系统可以根据每个学习内容的难度为学生提供相应程度的指导和练习,实现真正的因材施教。

企业决策支持是另一个有前景的应用方向。商业决策往往涉及多个子问题,从简单的数据查询到复杂的趋势分析,SCALE的方法可以帮助构建更高效的智能决策系统。

不过,SCALE的推广应用也面临一些挑战。不同领域的"难度评估"标准差异很大,需要针对性的设计和调优。此外,如何在保持通用性的同时实现领域特化,也是需要进一步研究的问题。

说到底,SCALE代表的不仅仅是一个新的技术方案,更是AI系统设计哲学的转变。从追求更大更强的模型,到追求更智能更高效的资源利用,这种转变可能会定义AI发展的下一个阶段。就像人类文明从粗放发展转向精细化管理一样,AI也正在经历从"蛮力"到"巧力"的进化。

这项来自香港理工大学团队的研究,不仅在技术上取得了显著突破,更重要的是为整个AI领域提供了一个新的思考方向。在追求AGI(通用人工智能)的路上,也许我们需要的不是更大的模型,而是更智慧的思维方式。SCALE恰恰指向了这样一条道路——让机器像人一样,学会在合适的时候用合适的力度去思考合适的问题。这或许就是通往真正智能的钥匙。

Q&A

Q1:SCALE框架是如何工作的?

A:SCALE框架通过四个阶段智能分配计算资源:首先将复杂问题分解成多个子问题,然后评估每个子问题的难度,接着为简单问题选择快速处理模式(System 1),为复杂问题选择深度思考模式(System 2),最后按顺序执行并传递信息,就像一个聪明的学生会根据题目难度调整思考深度一样。

Q2:使用SCALE框架能带来多大的性能提升?

A:SCALE在数学推理任务上带来了显著提升,在最具挑战性的AIME25测试中,准确率从57.50%提升到71.25%,提高了13.75个百分点,同时计算资源消耗降低了33%-53%,实现了性能和效率的双重提升。

Q3:SCALE框架适用于哪些AI应用场景?

A:SCALE的核心思想可以应用到多个AI领域,包括自然语言处理的文档翻译和理解、代码生成、科学研究论文分析、个性化教育系统,以及企业决策支持等任何需要处理复杂度差异较大子任务的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人输球太冤?詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

湖人输球太冤?詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

罗说NBA
2026-01-11 06:03:14
林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

抽象派大师
2026-01-03 02:13:54
天塌了!浙江一男子阴茎被整根切除!

天塌了!浙江一男子阴茎被整根切除!

温晓生
2026-01-11 11:04:59
特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

我心纵横天地间
2026-01-10 14:51:24
证监会:进一步提高入市规模比例

证监会:进一步提高入市规模比例

第一财经资讯
2026-01-11 15:37:45
A股:证监会重拳出击,交易所出手调整涨跌幅限制,明天将如何走?

A股:证监会重拳出击,交易所出手调整涨跌幅限制,明天将如何走?

云鹏叙事
2026-01-11 10:03:17
老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

古怪奇谈录
2026-01-05 11:32:51
“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

妍妍教育日记
2026-01-08 20:37:01
这个曾经臭名昭著的地点,今天终于被彻底物理消灭

这个曾经臭名昭著的地点,今天终于被彻底物理消灭

缅甸中文网
2026-01-10 14:43:26
这反转惊掉下巴!当初要整蔡正元的检察官陈舒怡,觉都睡不踏实了

这反转惊掉下巴!当初要整蔡正元的检察官陈舒怡,觉都睡不踏实了

扶苏聊历史
2026-01-10 12:05:03
大秦铁路、民生银行、三峡能源、国电电力跌得太惨了,亏得太多了

大秦铁路、民生银行、三峡能源、国电电力跌得太惨了,亏得太多了

财经智多星
2026-01-11 13:18:53
钠电机会来了!碳酸锂吨价突破14万元,哪些上市公司率先受益?

钠电机会来了!碳酸锂吨价突破14万元,哪些上市公司率先受益?

时代投研
2026-01-09 19:12:26
闹大了!闫学晶儿子是中戏新疆班,网友呼吁严查,这下她真要哭了

闹大了!闫学晶儿子是中戏新疆班,网友呼吁严查,这下她真要哭了

非常先生看娱乐
2026-01-09 17:10:34
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
郑爽广电封禁通知曝光!日子久了都忘了她有多恶劣,违法还弃养

郑爽广电封禁通知曝光!日子久了都忘了她有多恶劣,违法还弃养

萌神木木
2026-01-11 16:41:19
女子从小溃疡不断以为自己“容易上火”,在沪被诊断为“白塞病”

女子从小溃疡不断以为自己“容易上火”,在沪被诊断为“白塞病”

澎湃新闻
2026-01-09 21:50:26
中产涌入超市,抢300元羽绒服

中产涌入超市,抢300元羽绒服

中国新闻周刊
2026-01-09 22:13:04
大陆终于出手,不能让蔡正元含冤,两岸传来好消息,国共即将会晤

大陆终于出手,不能让蔡正元含冤,两岸传来好消息,国共即将会晤

博览历史
2026-01-10 19:30:06
柬埔寨铁笼拉人后续!警方已找到三轮车主,笼子是买来养动物的

柬埔寨铁笼拉人后续!警方已找到三轮车主,笼子是买来养动物的

夜深爱杂谈
2026-01-11 20:24:26
莱纳德26+8快船逆转活塞2连胜,科林斯25分哈登19+7+7

莱纳德26+8快船逆转活塞2连胜,科林斯25分哈登19+7+7

湖人崛起
2026-01-11 11:08:27
2026-01-11 21:23:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1030文章数 152关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

零度天母亲罚女儿在街头跪地行走 还对劝阻者出言不逊

头条要闻

零度天母亲罚女儿在街头跪地行走 还对劝阻者出言不逊

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

亲子
本地
房产
教育
公开课

亲子要闻

现在觉得滑梯还好玩不

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

教育要闻

孩子沉迷手机沉迷游戏怎么办?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版