网易首页 > 网易号 > 正文 申请入驻

让LLM不再话痨,快手HiPO框架来了

0
分享至



当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链:「首先,让我们分析 HiPPO 这个词,河马的英文单词为 hippo,河马是一种半水生哺乳动物,这里用户用了大写字母,可能有特殊的含义,对于单词 HiPPO,我们可以将其拆分为 H-i-P-P-O,字母 P 出现在第 3 与第 4 个位置,因此有 2 个字母 P... 让我们简化问题,HiPO 可以拆分为...」

面对这样的「严谨」,用户难免哭笑不得,既浪费了计算资源,也增加了等待时间,甚至更坏的情况是模型被自己冗长的推理链「绕晕了过去」,最终给出了错误的答案,用户只得捶胸顿足地大喊:「这合理吗?」



这种现象,正是当前追求强大推理能力的 LLM 们普遍面临的「过度思考」(Overthinking)困境。

无论是数学计算、代码生成还是逻辑问答,模型似乎习惯了「启动即深思」的模式,即使面对本可直观回答的简单问题,也要展开一番链式思考(Chain-of-Thought, CoT),导致 token 使用量激增、推理延迟变长、部署成本高昂。如何在保持复杂问题解决准确性的同时,避免在简单任务上「空转」、在复杂任务上高效「运转」,成为 LLM 走向实用化的一大关键挑战。

如今,快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-LINK 实验室、张煜群教授实验室 ARiSE合作重磅推出HiPO(Hybrid Policy Optimization)框架,为 LLM 装上了智能的「思考开关」。该框架通过创新的混合数据冷启动与混合强化学习奖励系统,使模型能够自主、动态地决策何时该启动详细推理(Think-on),何时该直接给出答案(Think-off)。

这不仅显著提升了推理效率,更在多个核心基准测试上实现了准确率的同步提升,为构建高效、实用的下一代推理大模型提供了解决方案。



  • 论文链接:https://arxiv.org/abs/2509.23967
  • 项目链接:https://huggingface.co/Kwaipilot/HiPO-8B

困境之源:LLM 的「思考」代价与「过度思考」顽疾

大语言模型在复杂认知任务上的巨大成功,很大程度上归功于链式思考(CoT) 推理范式的引入。让模型像人一样「一步一步想问题」,极大地提升了其在数学、编程、科学问题解决等领域的表现。然而,这套强大的推理机制也带来了「认知惯性」:模型倾向于对所有问题都「一视同仁」地进行深度推理。

  • 效率与成本的矛盾:始终生成冗长的推理轨迹是低效的。它直接转化为极高的 Token 使用量,意味着更慢的响应速度(延迟)和更昂贵的 API 调用或自建推理成本。在追求交互体验和成本控制的真实应用场景中,这成为了一个致命的短板。
  • 「过度思考」的普遍性:近期多项研究都明确指出,LLM 存在普遍的过度思考现象。即使是最先进的模型,也常常在简单问题上「小题大做」,生成大量冗余推理步骤,造成了计算资源的巨大浪费。在复杂问题上,模型也常常出现反复冗余思考的现象,导致回答出错。

现有的解决方案试图缓解这一问题,但各有局限:

  • 基于训练的自适应推理:通过强化学习(RL)引入长度惩罚或简洁性奖励,或通过监督微调(SFT)偏好更短的推理。但这类方法信号粗糙,可能因单调的 「缩短」激励而损害模型处理难题的能力。
  • 外部控制:通过精心设计的提示词或动态指令来限制推理步骤。这种方法灵活但依赖人工设计,难以规模化且泛化能力存疑。
  • 事后优化:在推理链生成后进行剪枝或重构。这属于「事后补救」,无法从根源上改变模型的思考模式。

核心问题在于,缺乏一个原则性的机制,来精细地平衡准确性、回答效率之间的权衡,让模型学会「具体问题,具体分析」。

HiPO 破局之道:双轮驱动的「智能思考开关」

HiPO 框架的核心思想是将「是否思考」的决策权交给模型自身,并通过系统性的训练方法,确保其决策的智能性与平衡性。其创新性主要体现在两大核心组件上:

组件一:混合数据冷启动—— 为模型装上「智能思考开关」

要让模型学会选择,首先需要让它见识过「思考」和「不思考」两种模式下的高质量回答是什么样的。HiPO 设计了一套精密的自动化数据构建流程,并使用混合数据进行冷启动。



1.数据收集与分类:研究团队整合了多个高质量的公开及专有数学与代码推理数据集(如 AM-Thinking-v1-Distilled, AceReason-Math, II-Thought-RL, Skywork-OR1-RL-Data),构建了一个高质量的训练语料库。

2.双模式响应生成与优选:对于每个问题,使用一个强大的推理模型(如 DeepSeek-V3)分别生成 N 个「Think-on」(带推理)和 N 个「Think-off」(直接回答)的响应。然后,自动验证所有回答的正确性。

  • 关键优选策略:比较两种模式的通过率(Pass Rate)。如果「Think-on」模式的通过率显著高于「Think-off」,则选择「Think-on」模式;反之则选择 「Think-off」。特别巧妙的是,当两种模式通过率相差无几(低于阈值 δ)时,策略会倾向于选择「Think-off」模式。这一设计直接鼓励模型在深度思考不能带来明显收益时,优先选择更简洁的回答,从数据源头注入效率意识。
  • 最短正确响应:在获胜的模式下,选择最短的正确响应作为最终样本,进一步强化简洁性。

3.引入模式解释信号:为了强化模型对模式选择的理解,HiPO 还引入了一个辅助解释信号。对于每个优选出的问答对,会使用 DeepSeek-V3 生成一段理由(Justification),解释「为什么这个问题适合(或不适合)进行深度推理」。这为模型提供了宝贵的元认知信号,帮助其将模式选择与问题内在的复杂性对齐。

这套管道最终产出的数据,每条都包含了问题、最终回答、以及关于思考模式的理由。在这些数据上对模型进行冷启动,使得模型初步具有了「智能思考」的能力。

组件二:混合强化学习奖励系统 —— 精细化引导模型的「决策天平」

有了高质量的数据进行「冷启动」(Cold-Start)训练后,HiPO 通过一个设计精巧的混合强化学习(RL)阶段,对模型进行微调,使其决策能力臻于完善。该奖励系统的核心目标是防止模型过度依赖看似更可靠的「Think-on」模式,实现真正的自适应。

1.基础奖励:每个生成的回答会根据其答案正确性(ACC)和格式正确性(FORMAT)获得一个基础奖励分。

2.偏差调整机制 —— 防止「思考」惯性:这是 HiPO 的一个关键创新。由于 「Think-on」模式通常更准确,模型在 RL 过程中容易产生偏向,无论问题难易都选择「思考」。为了解决这一问题,HiPO 引入了动态的偏差调整机制。

  • 它会计算「Think-on」模式响应的平均奖励,然后为「Think-off」模式设定一个偏置项(bias_off),该偏置项是「Think-on」平均奖励的一个比例(由 ω 控制,通常设为 0.01)。
  • 当「Think-off」模式的性能不显著优于「Think-on」,但差距在一定范围内时,会启动调整,适当提升「Think-off」模式的评估得分。
  • 这一机制有效防止了模型通过「无脑」选择冗长推理来获取奖励的投机行为,确保了训练稳定性,并维护了深度与效率之间的 intended balance。

3.混合优势函数 —— 双重监督:HiPO 设计了两个独特的优势(Advantage)函数来提供更精细的指导信号:

  • 评判优势(A_judge):关注于模式选择的合理性。它结合了「所选模式的全局平均优势」和「当前响应在其模式内的相对质量」,确保模型选择某个思考模式的理由(即之前生成的 Justification)与其实际表现一致。
  • 回答优势(A_answer):聚焦于回答本身的质量。它在同一思考模式内进行局部归一化,鼓励模型在既定模式下生成更好的回答,而不与模式选择的偏好混淆。

最终,这两个优势信号被分别赋予给回答中对应的「理由」部分和「答案」部分的每个令牌,实现令牌级别的精细化优化。整个 RL 过程采用类似 PPO 的算法,在最大化期望奖励的同时,约束策略更新幅度,防止偏离太远。

实验结果:不仅更快,而且更准

HiPO 在基于 Qwen3 系列模型(如 8B 参数版本)的实验中,取得了令人瞩目的成果。在 AIME2024/2025、HumanEval、LiveCodeBench(v6)、MATH-500、GPQA-Diamond 等多个权威基准测试上,与多种基线方法进行了全面对比,并进行了充分的消融实验。



  • 显著提升效率:与仅使用「Think-on」数据训练的模型相比,最终HiPO 模型在平均令牌长度上减少了 30%,思考率(RatioT)降低了 37%。这意味着模型在处理大量问题时,能智能地跳过不必要的推理,直接输出答案,带来了实实在在的成本和延迟收益。
  • 同步提升准确率:更令人惊喜的是,HiPO 在实现效率飞跃的同时,平均准确率提升了 6.3%。这证明其自适应机制不仅没有损害性能,反而通过优化决策,让模型在难题上更「专注」地思考,在简单题上更高效地回答,实现了双赢。
  • 超越现有方法:实验表明,HiPO 在准确性和效率的综合表现上,优于 AdaptThink、AutoThink 等现有的自适应推理方法。

动态决策分析:研究团队还深入追踪了模型在训练和推理过程中的行为演变。



  • 如上图 (a) 所示,随着 RL 训练的进行,模型激活「Think-on」和「Think-off」的频率差距逐渐缩小,从初期的 89.5% 降至最终的 53.1%,说明模型确实学会了更精细地切换模式。
  • 上图 (b) 显示,在不同数据集上,模型的思考模式激活率与任务特性高度相关。在 AIME2024、LiveCodeBench 等需要强推理的任务上,「Think-on」率始终保持在 70% 以上;而在 HumanEval 等相对简单的代码任务上,“Think-on” 率则随训练明显下降,体现了良好的任务适应性。



  • 上图 (a) 和上图 (b) 清晰地展示了 RL 训练过程中以及在不同数据集上,模型输出令牌数量的持续下降趋势,直观反映了 HiPO 在提升效率方面的有效性。

强泛化性:HiPO 的成功不仅在 Qwen3-8B 上得到验证,在 Qwen3-1.7B 和 Qwen3-32B 等不同规模的模型上也展现出一致的性能提升,证明了其方法的普适性。



未来展望:HiPO 如何重塑高效 LLM 生态

HiPO 框架的提出,不仅仅是一项技术突破,更是为 LLM 的发展方向提供了一个重要的思路转变:从一味追求「更强思考」到追求「更智能地思考」。

  1. 推动 LLM 实用化落地:对于需要大规模部署 LLM 的应用(如搜索引擎、智能客服、代码助手),HiPO 能直接降低计算成本和响应延迟,使高性能 LLM 服务变得更加「亲民」。
  2. 为模型轻量化提供新路径:通过让模型学会「停止思考」,可能在保持相当性能的前提下,为模型压缩和蒸馏开辟新的可能性。
  3. 增强模型的「元认知」能力:HiPO 训练模型对自身认知过程进行监控和决策,这是向具备更高层次智能的 AI 系统迈出的重要一步。

结语

当大语言模型陷入「为思考而思考」的认知惯性时,其巨大的潜力被低效的运作方式所束缚。快手与南大团队的 HiPO 框架,如同一位高明的教练,不是粗暴地限制模型的「思考」,而是教会它判断「何时该深思熟虑,何时可一击即中」。

这项研究巧妙地平衡了推理的「质」与「效」,为构建真正高效、可靠、适用于真实世界的下一代人工智能助手奠定了坚实的基础。在 LLM 竞速发展的下半场,「智能效率」 或许将是比「暴力计算」更重要的决胜筹码。

目前,HiPO 的相关模型和资源已在Hugging Face 平台开源,供社区研究和使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
佟丽娅,光这身材就美的无与伦比

佟丽娅,光这身材就美的无与伦比

情感大头说说
2026-02-03 02:32:58
个人增值税起征点提高至1000元

个人增值税起征点提高至1000元

南方都市报
2026-02-02 07:05:17
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
快船大胜暴露四大怪象,哈登不打只是表面,伦纳德打脸所有教练!

快船大胜暴露四大怪象,哈登不打只是表面,伦纳德打脸所有教练!

顺静自然
2026-02-02 15:17:16
随着山东5分败天津!广厦输吉林6分,2弱旅爆冷,最新积分榜大变

随着山东5分败天津!广厦输吉林6分,2弱旅爆冷,最新积分榜大变

老吴说体育
2026-02-02 21:48:02
军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

影孖看世界
2026-01-31 18:05:26
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
华工科技:“下一代超高速光模块研发中心暨高速光模块生产基地建设项目”已于去年8月投产

华工科技:“下一代超高速光模块研发中心暨高速光模块生产基地建设项目”已于去年8月投产

每日经济新闻
2026-02-02 16:53:06
事发飞往上海航班!男乘客突然意识模糊!居然冲出三名专家,瑞金医生精准判断

事发飞往上海航班!男乘客突然意识模糊!居然冲出三名专家,瑞金医生精准判断

小怪吃美食
2026-02-02 16:26:28
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
崔娃在格莱美颁奖礼用两座岛嘲讽 特朗普怒了!

崔娃在格莱美颁奖礼用两座岛嘲讽 特朗普怒了!

看看新闻Knews
2026-02-02 19:11:03
体测数据显示,徐彬在力量方面好于狼队一线队平均水平

体测数据显示,徐彬在力量方面好于狼队一线队平均水平

懂球帝
2026-02-02 22:50:09
这种朋友圈不能发!广州近期多人被抓,警方提醒

这种朋友圈不能发!广州近期多人被抓,警方提醒

番禺台
2026-02-02 13:57:39
中国移动通信集团云南有限公司原党委委员、副总经理孙超被开除党籍和公职

中国移动通信集团云南有限公司原党委委员、副总经理孙超被开除党籍和公职

环球网资讯
2026-02-02 21:47:58
谁能想到,北京五环外那片曾经的庄稼地,竟成了容纳几十万人口的

谁能想到,北京五环外那片曾经的庄稼地,竟成了容纳几十万人口的

阿离家居
2026-02-02 19:40:20
锂电池重大突破!马斯克:特斯拉实现干电极电池规模化生产

锂电池重大突破!马斯克:特斯拉实现干电极电池规模化生产

华尔街见闻官方
2026-02-02 17:53:43
真不识货!被易立弃用的2名球员,如今在新东家,都成了球队大腿

真不识货!被易立弃用的2名球员,如今在新东家,都成了球队大腿

金山话体育
2026-02-02 09:42:25
萝莉岛剩余文件曝光,吃人肉只是冰山一角,妇女儿童沦为玩物

萝莉岛剩余文件曝光,吃人肉只是冰山一角,妇女儿童沦为玩物

易昂杨
2026-02-02 14:55:17
13岁女生确诊胃癌晚期,医生:她吸了13年爸爸的二手烟,肚子里布满了大大小小的肿瘤,没有任何治愈机会

13岁女生确诊胃癌晚期,医生:她吸了13年爸爸的二手烟,肚子里布满了大大小小的肿瘤,没有任何治愈机会

观威海
2026-01-31 10:06:12
什么东西都舍不得扔的人,往往会有这样的命运,很准!

什么东西都舍不得扔的人,往往会有这样的命运,很准!

诗词中国
2025-12-29 20:19:57
2026-02-03 04:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

江苏在建大桥垮塌致2死3失联 现场画面公布

头条要闻

江苏在建大桥垮塌致2死3失联 现场画面公布

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

艺术
数码
本地
公开课
军事航空

艺术要闻

2026年,中国最值得期待的20个新建筑

数码要闻

LG宣布停止生产8K电视 内容匮乏与需求不振让“超高清时代”夭折

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版