网易首页 > 网易号 > 正文 申请入驻

一文读懂「AI大模型高效推理」:分类、局限性和3大提升方法

0
分享至

在一些需要慢思考的场景中,如数学问题求解或科学研究,大型推理模型(LRM)需要在给出最终回答之前,进行分析性和深思熟虑的推理。

然而,LRM 深思熟虑的推理过程导致其资源消耗极高,带来了 token 消耗大、内存开销高和推理时增加等一系列挑战,这不仅增加了服务公司的推理成本,也降低了用户的体验。

以往针对 LLM 推理效率的研究,如模型压缩、高效模型设计和系统级优化等,虽然能够缓解高内存开销和推理时增加的问题,但并非专门为 LRM 设计,无法有效地解决 LRM 中 token 低效的问题。

为此,来自新加坡国立大学的团队及其合作者进行了专门针对 LRM 的高效推理方法的综述,重点关注在保持推理质量的同时缓解 token 效率低下的问题。主要贡献如下:

  • 对当前的 LRM 高效推理方法进行了全面的论文综述,并进行了分层分类,即显式紧凑型思维链(explicit compact CoT)和隐式潜在型思维链(implicit latent CoT),以及优缺点讨论。

  • 从性能和效率的角度对最新方法进行了实证研究,并从用户控制、可解释性、安全性和应用方面总结了 4 个挑战:用户可控推理、推理可解释性与效率平衡、安全保障和应用拓展。

  • 强调了从模型合并、非自回归架构和 agent 路由的角度进一步改进现有方法的技术见解。

图|综述框架

图|大型推理模型的推理方法分类

相关研究论文以

Efficient Inference for Large Reasoning Models: A Survey
为题,已发表在预印本网站 arXiv 上。

LRM 的两大分类

根据当前的研究形式,研究团队将 LRM 分为了两大类:

  • 显式紧凑型 CoT,通过引入显式指令、奖励或预算约束来鼓励使用较短的推理链,而不是冗长的 CoT。

  • 隐式潜在型 CoT,将显式的长 CoT 压缩为紧凑、连续的推理状态。

图|GSM8K 数据集上最新推理方法的基准测试

研究团队认为,隐式潜在型 CoT 在推理准确度上可以超过显式紧凑型 CoT,同时也能够显著降低生成的成本。

1.式紧凑型 CoT

最近的研究关注如何在保持推理准确性的同时,开发更紧凑的推理路径:

CoT 压缩通过将中间推理限制在必要步骤、使用一个小的路由模型生成推理草图、动态调整推理 token 等方式,在保持解决方案质量的同时简化推理过程。但可能会牺牲透明度,存在忽略关键的中间逻辑的风险,这可能会破坏可解释性。

基于紧凑推理链的微调利用 LLM 生成压缩的长 CoT 版本、整理专家验证的简洁答案、标注数据集进行微调等方法,提高了 LRM 的效率,但成本高,并且依赖于精心整理的数据集和大量再处理工作,限制了它们对开放式领域的适应性。

基于奖励的激励越来越多的研究引入明确的奖励信号,例如基于长度的奖励以抑制冗长的推理;利用强化学习训练模型以进行动态资源分配;基于推理成本控制推理分布;平衡对心推理路径的探索与对简洁、已验证推理路径的利用;交互式或用户导向的长度控制机制。

但是,这类激励信号可能导致模型倾向于简单答案,影响复杂任务的深度推理。并且,仅靠效率不足以实现实际部署,现实的应用程序需要在紧凑性、推理鲁棒性、可解释性和域泛化(domain generalization)之间取得平衡。

图|显式紧凑型 CoT 的要点

2.隐式潜在型 CoT

隐式潜在型 CoT 则通过将推理从显式 token 转移到潜在 token,在隐藏层而非自然语言中编码推理,以此提升 token 效率。用知识蒸馏、潜在嵌入、沉思 token 等方法,优化了各个层面的推理,在保持准确性的同时减少了延迟。

这类方法通过内化推理步骤提高效率,在推理准确性上甚至可以超越显式 CoT 方法,且能显著降低生成成本,展现出良好的可扩展性,但牺牲了模型的可解释性,使得推理过程难以验证。

图|隐式潜在型 CoT的要点

研究团队认为,未来的工作应侧重于从潜在表征中提取人类可解释的推理痕迹,从而实现效率和透明度的平衡。

局限性和挑战

此外,研究团队也从用户体验、可解释性、安全性和应用性的角度,讨论了现有推理方法的局限性和挑战。

图|局限性和挑战的要点

在用户体验方面尽管部分 LRM 已支持用户配置推理模式,使用户能够调整推理深度,在透明度和效率之间取得平衡,同时优化用户体验,但还需探索更精细的控制机制,可以侧重于用户的交互式和个性化推理。

在可解释性上当前为提高效率的方法可能会降低可解释性,比如减少显式推理步骤或转向潜在表示推理,使得理解模型结论的得出过程变得困难。未来的研究应开发适应性推理策略来平衡效率和可解释性。

当涉及安全性时现有高效推理方法在提升 token 效率的同时,可能会破坏 LRM 的安全对齐,增加越狱攻击和隐私泄露等风险。未来的工作应在训练中整合安全约束,并制定更强有力的基于推理的保障措施。

从应用的角度来看在社会科学、情感智能和创意写作等领域,LRM 存在开放式问题,比如难以制定明确目标,且高计算需求和延迟限制了其在时间敏感领域的应用。高效的推理方法则可以提高 LRM 在更广泛应用中的可行性,例如实时应用程序和开放式任务。

3 个方法,提高推理效率

那么,如何提高 LRM 的推理效率呢?

研究团队从新架构、模型合并、agent 路由 3 个方面提出了提升 LRM 推理效率的策略。

新架构方面,主要包括混合自回归和扩散模型、内存高效 transformers 和基于图的推理,是进一步提高推理效率同时保持推理质量的潜在技术。

模型合并上,将传统 LLM 和 LRM 的模型权重合并,使合并后的模型兼具 LLM 的快速响应和 LRM 的推理能力。但在模块选择、权重分配和架构兼容性方面存在挑战。

agent 路由则是根据任务难度为不同的 LRM 分配资源,以优化推理效率。目前包括两种路由策略:一是基于路由模型,通过训练一个独立的路由模型,根据输入任务的特征决定使用哪个 LRM;二是基于信心指标,利用模型对自身预测的信心程度来选择合适的 LRM 。

图|进一步优化的要点

如需了解更多详情,请查看原论文。

论文链接:https://arxiv.org/abs/2503.23077

整理:锦鲤

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗的反击计划已全面出炉!动手前,日方当众问中国一个问题

高市早苗的反击计划已全面出炉!动手前,日方当众问中国一个问题

博览历史
2025-12-18 18:25:30
广东男子吹玻璃30年肌肉拉伤变形,自嘲是“青蛙王子”笑称自己练就了“蛤蟆功”

广东男子吹玻璃30年肌肉拉伤变形,自嘲是“青蛙王子”笑称自己练就了“蛤蟆功”

大象新闻
2025-12-18 18:57:05
国务院安委会办公室对21个市级政府开展安全生产约谈

国务院安委会办公室对21个市级政府开展安全生产约谈

界面新闻
2025-12-18 14:41:59
细思极恐!南京全城导航集体失灵,揭开高德、百度地图背后的真相

细思极恐!南京全城导航集体失灵,揭开高德、百度地图背后的真相

火山詩话
2025-12-19 06:18:20
我替首长挡了5枪,他连电话都没打,我退伍后,刚到火车站就被人拦住

我替首长挡了5枪,他连电话都没打,我退伍后,刚到火车站就被人拦住

张道陵秘话
2025-12-17 10:20:09
高标准梯田(农田)荒废的背后 完全不切实际一场闹剧

高标准梯田(农田)荒废的背后 完全不切实际一场闹剧

原某报记者
2025-12-17 14:31:27
南京不少市民反映导航失灵?高德回应:信号干扰源导致定位异常

南京不少市民反映导航失灵?高德回应:信号干扰源导致定位异常

极目新闻
2025-12-18 15:26:27
佳能63万“恶意赔偿”,咋这么明目张胆?

佳能63万“恶意赔偿”,咋这么明目张胆?

胡严乱语
2025-12-16 20:29:21
海南封关背后,真正的意图!

海南封关背后,真正的意图!

子木聊房
2025-12-18 16:23:54
再爆大冷4-3!周跃龙淘汰了世界冠军,8强对阵出炉中国3席附赛程

再爆大冷4-3!周跃龙淘汰了世界冠军,8强对阵出炉中国3席附赛程

球场没跑道
2025-12-19 08:08:37
网易号平台每日辟谣公告(十二月十七日)

网易号平台每日辟谣公告(十二月十七日)

网易号官方平台
2025-12-17 18:00:12
全部卖完了!中山老板接班22年,亲手败光了几十亿家族资产

全部卖完了!中山老板接班22年,亲手败光了几十亿家族资产

壹只灰鸽子
2025-12-18 21:03:00
被撞员工已确认死亡,撞人的小米新车司机恐承担刑责

被撞员工已确认死亡,撞人的小米新车司机恐承担刑责

映射生活的身影
2025-12-18 22:56:32
西药见效快!中国三大运营商为美国解决诈骗电话,拦截率达99%

西药见效快!中国三大运营商为美国解决诈骗电话,拦截率达99%

垛垛糖
2025-12-18 12:16:13
索尼将退出中国,补偿方案也是值得学习

索尼将退出中国,补偿方案也是值得学习

比尔盖凯
2025-12-18 22:32:52
乌克兰大规模攻击罗斯托夫港!摧毁俄军船只与油库

乌克兰大规模攻击罗斯托夫港!摧毁俄军船只与油库

项鹏飞
2025-12-18 17:27:26
珠海有人在业主群扬言“给你们30分钟,我要点火”,随后小区起火燃烧

珠海有人在业主群扬言“给你们30分钟,我要点火”,随后小区起火燃烧

六子吃凉粉
2025-12-18 17:20:10
泰军炸掉诈骗园区、器官移植中心,洪森为何气急败坏?

泰军炸掉诈骗园区、器官移植中心,洪森为何气急败坏?

胡严乱语
2025-12-16 20:33:51
日本迫使苹果调整iOS规则大幅降低苹果税,中国继续人傻钱多?

日本迫使苹果调整iOS规则大幅降低苹果税,中国继续人傻钱多?

风向观察
2025-12-18 16:40:37
仇英《江南春卷》伪作?本人鉴定有三大弊端明显笔误:可判断真伪

仇英《江南春卷》伪作?本人鉴定有三大弊端明显笔误:可判断真伪

作家方晓莉
2025-12-18 20:50:43
2025-12-19 09:48:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1427文章数 5081关注度
往期回顾 全部

科技要闻

2025新一代人工智能创业大赛总决赛收官

头条要闻

媒体:南博受赠名画被鉴伪后拨给文物店 以6800元售出

头条要闻

媒体:南博受赠名画被鉴伪后拨给文物店 以6800元售出

体育要闻

纽约尼克斯,板正的球队

娱乐要闻

丝芭放大招了!实名举报鞠婧祎经济犯罪

财经要闻

尹艳林:呼吁加快2.5亿新市民落户进程

汽车要闻

在零下30℃的考场里 凡尔赛C5 X和508L拿到了"稳"的证明

态度原创

本地
游戏
艺术
数码
公开课

本地新闻

云游安徽|决战烽火照古今,千秋一脉看宿州

游戏本体呢? 《龙背上的骑兵3》音乐原声带登陆Steam

艺术要闻

马世晓书法技艺引争议,笔力柔弱令人难以理解。

数码要闻

主板BIOS漏洞威胁《无畏契约》安全,玩家需紧急更新

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版