网易首页 > 网易号 > 正文 申请入驻

AI需要「像人类」那样思考?AlphaOne揭示大模型的「思考之道」

0
分享至

本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。

「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011)

在思维节奏这件事上,人类早已形成一种独特而复杂的模式。

我们习惯让 AI 模仿人类思维方式:先依赖直觉快速反应(System 1),再慢慢进入逻辑推理(System 2);答题时先给出初步判断,再自我反思逐步修正……模仿人类的推理节奏,已经成为语言模型推理策略的默认路径。

最近,一项来自 UIUC 与 UC Berkeley 的新研究提出:也许模型不该再走这条「人类范式」的老路。

他们提出了一种新的测试时推理调控框架——AlphaOne,主张让模型反其道而行:先慢速思考,再快速推理。

  • 论文标题:AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
  • 项目主页:https://alphaone-project.github.io/
  • 论文地址:https://arxiv.org/pdf/2505.24863
  • 代码地址:https://github.com/ASTRAL-Group/AlphaOne

令人意外的是,这一策略不依赖任何额外训练,仅需在测试阶段引入一个全局推理调控超参数 α,即可显著提升模型的推理准确率,同时让生成过程更加高效紧凑。或许,是时候重新思考:AI 真的需要「像人类」那样思考吗?

看似聪明的推理,其实是不懂停下来的错觉

近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在复杂推理任务上取得显著进展,逐渐具备类似人类的 System-2 能力,能够在测试阶段主动慢思考,从而处理需要高阶认知的难题。

这些模型通过强化学习训练出的「慢思考」策略,让它们在面对复杂问题时能够自动放缓推理节奏,从而取得更好的表现。但这种自动「慢下来」的能力真的可靠吗?

与人类不同的是,大模型在推理过程中很难像我们那样灵活切换快慢节奏。心理学中描述的 System-1 与 System-2 转换,是一种受控、动态的思维过程——我们先快速判断,再在困难时激活深度思考,从而在效率与准确之间找到平衡。

相比之下,现有模型往往要么陷入过度思考(overthinking),生成冗长无用的推理链;要么思考不足(underthinking),在问题真正展开前就草率收场。

这背后的根源在于:模型缺乏对推理节奏的主动调控能力,无法准确找到「该慢下来」的最佳时机。

无需训练的全局推理调控,AlphaOne 只做了一件事

AlphaOne 的核心,是引入统一的调控点 α-moment:α-moment 之前通过 Bernoulli 过程插入「慢思考」标记,之后用终止标记切换为快思考,实现无需训练的连续推理调控。

图 1:不同推理调控方法在推理过程中的表现对比。α1(红色)采用由 α 控制的「先慢后快」推理策略,相比之下,α1 的推理效率优于单调延长思考型方法 s1(黄色),并在整体表现上普遍优于单调压缩推理型方法(紫色)。

什么是 α-moment?

目前多数现有方法要么采用固定的慢思考机制(如在末尾强制延长思考),或者采用单调压缩推理生成策略。然而,这类设计通常缺乏对推理阶段整体结构的统一建模。我们是否可以在无需训练的前提下,统一调控整个推理过程的演进方式,并设计出更高效的「慢思考转化策略」?

AlphaOne 对此提出了解答:通过引入α-moment——一个统一的调控节点,即推理阶段达到平均思考长度 α 倍的位置。在此之前引导深度思考,在此之后转入快速推进。它不依赖固定阈值或启发式规则,而是提供了一个可调、可迁移的推理控制接口

图 2:AlphaOne(α1)整体流程示意图。在 α-moment 之前,模型按照用户设定的策略,以 Bernoulli 过程插入 wait,引导深度推理;α-moment 之后,wait 会被替换为 ,以促进快思考。α 的数值决定这一转换的时机,例如将 α 从 1.4 降至 1.0,会提前结束慢思考,并加快 pwait 的衰减速度。

α-moment 前:慢思考调控机制

在 α-moment 之前,α1 通过一种概率驱动的调控策略,逐步引导模型进入深度推理状态。

具体来说,当模型生成结构性停顿(如 \n\n)时,会以一定概率插入wait——这是一种慢思考过渡标记(slow-reasoning transition token),用于显式地触发模型的慢思考行为。这种插入并不是固定次数,而是基于一个Bernoulli 采样过程,其概率 pwait 由用户设定的调度函数 S(t) 控制。

调度函数可以是线性下降(先慢后快)、线性上升(先快后慢)、指数衰减等多种形式。AlphaOne 默认采用线性衰减策略——在推理初期更频繁地引导慢思考,后期逐步减少干预,避免过度拖延。

图 3:不同调度函数的可视化

α-moment 后:快思考引导机制

但另一个挑战随之而来:如果持续插入 wait,模型可能会陷入「慢思考惯性」,迟迟无法回归高效推理。

为了解决这个问题,AlphaOne 在 α-moment 之后显式终止慢思考: 一旦生成节点超过 α-moment,所有后续的 wait(即慢思考过渡标记)将被统一替换为 ——这是一个思考终止标记(end-of-thinking token),用于打断延续中的慢思考链。

值得注意的是, 并不代表模型立即开始作答。由于慢思考惯性,模型往往无法直接切换到答案生成阶段。因此, 实际上起到的是快思考触发信号的作用,用于提醒模型当前应结束反复推理、转向高效推进。这种机制被称为确定性推理终止,它让模型能够自然地从「深度反思」切换到「快速收敛」,避免低效的推理拖延。

从数学到科学问答,AlphaOne 的策略胜在哪里?

研究团队在六大推理任务中进行了系统实验,涵盖数学题解、代码生成、科学问题理解等多种类型。

实验总结

  • 准确率全面领先:无论在小模型(1.5B)还是大模型(32B)上,α1 都比原始模型和现有推理调控方法(如 s1 和 CoD)更准确。
  • 以 1.5B 模型为例,α1 提升准确率达+6.15%
  • 推理效率显著优化:尽管采用了慢思考机制,α1 在 1.5B 模型中平均生成 token 数却减少了14%,展现出高效慢思考的非直觉优势。

表 1:α1 与基线方法在数学、代码与科学推理任务中的系统性能比较

关键问题分析

  • 哪种「慢思考调度」最有效?

对比四种调度策略(常数调度、线性递增、线性衰减、指数衰减)后发现,线性衰减在多个任务上均取得最优表现,验证了 α1 所采用的「先慢思、后加速」式推理调控方式在实践中更加有效和稳定。

图 4:不同调度策略在 AMC23 和 OlympiadBench 上的推理准确率

  • α-moment 能否灵活调控「思考预算」?

实验结果表明,调节 α 值可以有效扩展或压缩模型的「思考阶段」长度。随着 α 增大,模型插入的 wait 标记数量相应增加,平均思考 token 数也随之增长,体现出 α-moment 对思考预算具有良好的可伸缩性(scalability)。

尽管如此,推理准确率并非随 α 增大而持续提升,存在一个性能最优的 α 区间,而 α1 在较宽的 α 调控范围内始终优于原模型,体现出良好的鲁棒性和泛化能力。

图 5:α 的缩放特性分析

  • α1 推理效率真的更高吗?

使用 REP(Reasoning Efficiency–Performance)指标系统评估后发现,α1 在多个任务中更高效率下的更优推理准确率,优于 s1 和 CoD 等基线方法。

图 6:基于 REP 指标的推理效率分析

图 7:常数调度下 wait 插入频率的缩放特性

  • α-moment 后的快思考引导机制是否必要?

如果在 α-moment 后没有明确「结束慢思考」,模型容易陷入推理惯性,导致性能明显下降。实验证明,仅依赖前段慢思考调控是远远不够的。

α1 通过 α-moment 之后的显式终止操作,成功促使模型切换至快思考,验证了从快到慢的双阶段调控策略对于提升推理效果的必要性。

表 2:是否启用后 α-moment 调控机制对推理性能的影响

具体案例

为了更直观地理解 α1 的作用,研究者展示了来自不同基准的推理案例,分别对应模型在使用 α1 后的成功与失败。

  • 成功案例:化学混合题(OlympiadBench)

  • 失败案例:多角恒等式推理(AMC23)

AlphaOne 之后,还有哪些可能?

α1 提供了一种无需训练、即可在测试阶段灵活调控推理过程的全新框架,初步验证了「慢思考→快思考」的策略对大模型推理效果与效率的显著提升。

但真正理解「思考」如何被更好地建模,仅仅迈出了一小步。研究者提出了几个值得关注的方向:

  • 更复杂的慢思考调度策略:当前只探索了简单的「先慢后快」调控策略,未来可以设计更精细的调度函数,甚至发展出独立的推理调控模块。
  • 摆脱特定标记的依赖:现阶段调控往往依赖wait 等特殊转移标记,但不同模型对这些标记的响应不同。未来若能完全摆脱这些「外部标签」,将极大增强泛化能力。
  • 跨模态推理的扩展:当前工作聚焦于文本推理,而多模态大模型(如图文、视频大模型)正快速崛起。未来可将α1 框架扩展至多模态场景,探索语言与感知信息的协同推理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄金,会沦为房子吗?

黄金,会沦为房子吗?

混知房产
2026-01-29 23:32:53
商务部新闻发言人就中英经贸合作成果文件答记者问

商务部新闻发言人就中英经贸合作成果文件答记者问

界面新闻
2026-01-30 18:09:41
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
建议解散!辽宁惨败宁波,队员毫不在乎,顶薪球员竟然非常高兴

建议解散!辽宁惨败宁波,队员毫不在乎,顶薪球员竟然非常高兴

宗介说体育
2026-01-30 10:16:54
欧冠附加赛看点:穆里尼奥再战皇马,勒沃库森多特德甲内战?

欧冠附加赛看点:穆里尼奥再战皇马,勒沃库森多特德甲内战?

宝哥爱足球
2026-01-30 00:00:48
为什么淡水鱼几乎都一个颜色,而海鱼却是五颜六色的?

为什么淡水鱼几乎都一个颜色,而海鱼却是五颜六色的?

半解智士
2026-01-30 17:11:03
人社部传来好消息!1.5亿退休老人高兴了,2026年养老金或再调整

人社部传来好消息!1.5亿退休老人高兴了,2026年养老金或再调整

大鱼简科
2026-01-30 22:33:49
委代总统:委内瑞拉即将完成史上首次液化石油气出口,运输船已抵达

委代总统:委内瑞拉即将完成史上首次液化石油气出口,运输船已抵达

界面新闻
2026-01-30 07:50:34
皇马又要和本菲卡打两场 穆里尼奥要证明自己最适合执教这支皇马?

皇马又要和本菲卡打两场 穆里尼奥要证明自己最适合执教这支皇马?

仰卧撑FTUer
2026-01-30 22:12:03
央视春晚二次联排!19位大腕亮相,最后一位女星稳居观众最爱

央视春晚二次联排!19位大腕亮相,最后一位女星稳居观众最爱

老特有话说
2026-01-27 23:27:26
1983年严打后,重刑犯都被遣送大西北,最终是什么结局?

1983年严打后,重刑犯都被遣送大西北,最终是什么结局?

观史搜寻着
2025-12-03 22:30:28
去义乌“打假”,却意外发现财富密码,宁波夫妻8年干出3个亿

去义乌“打假”,却意外发现财富密码,宁波夫妻8年干出3个亿

电商在线
2026-01-29 15:31:04
海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

南宗历史
2026-01-24 22:48:56
橙子再次被发现!医生发现:高血压患者常吃橙子,或出现3种变化

橙子再次被发现!医生发现:高血压患者常吃橙子,或出现3种变化

蜉蝣说
2026-01-28 11:07:41
5国接连免签!印度却傻眼,拒签率飙至40%,中国:这笔旧账该算了

5国接连免签!印度却傻眼,拒签率飙至40%,中国:这笔旧账该算了

乐天闲聊
2026-01-30 14:14:58
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
4换1交易方案出炉,场均19+5后卫加盟快船, 驰援卡登?

4换1交易方案出炉,场均19+5后卫加盟快船, 驰援卡登?

大眼瞄世界
2026-01-30 09:52:27
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
国米时隔48年再战博德闪耀,上次交手国米在优胜者杯两回合7-1

国米时隔48年再战博德闪耀,上次交手国米在优胜者杯两回合7-1

懂球帝
2026-01-30 20:54:48
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
2026-01-30 23:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142556关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

健康
家居
房产
旅游
公开课

耳石症分类型,症状大不同

家居要闻

蓝调空舍 自由与个性

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

旅游要闻

免费游园还有交通补贴,南京首批“青柠码”受益者已冲进景区

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版