网易首页 > 网易号 > 正文 申请入驻

打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

不再像CoT(“思维链”)一样“一个字一个字往外蹦”,加上“软思维”就能让大模型像人类一样进行抽象思考。

来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking,让模型在连续的概念空间中进行 “软推理”,而非局限于离散的语言符号,打破了基于离散token的推理瓶颈。

相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。

并且,Soft Thinking是一种即插即用的推理策略,无需额外训练即可应用于现有模型(如Llama、Qwen)。

目前主流的语言模型推理方法存在一个关键问题:只能逐字生成离散的语言符号(如单词或子词)

这就好比思考时只能一个字一个字的蹦出来,不仅限制了模型表达抽象概念的能力,还容易在复杂问题中因“单一路径选择”而犯错。

人类大脑思考时并非依赖明确的语言符号,而是通过抽象概念的灵活整合进行推理。

Soft Thinking正是受此启发,将语言模型的推理从“离散符号空间”拓展到“连续概念空间”。

这样,模型就可以捕捉到介于仅有细微差别的语义之间的概念,能够更灵活地探索多种解题路径,同时保持高效和可解释性。

有网友表示:这种方法解决了自回归“贪婪”的next token搜索问题。

如何让模型像人类一样进行抽象思考
推理流程:在连续概念空间中 “软推理”

Soft Thinking仅修改传统CoT的中间推理阶段,保留最终答案的离散生成(如数学题的数字答案或代码的具体语句)。

Soft Thinking的理论本质是线性近似替代路径枚举

解复杂问题时,传统CoT的推理路径数量随步骤呈指数级增长(如每步选1000个token,3步就有1000^3种路径),无法显式枚举。

Soft Thinking通过线性化近似,将指数级路径求和简化为概念token的加权计算。

概率加权替代离散采样,通过连续概念空间中的线性变换,隐式聚合多条路径的信息,避免显式枚举的计算爆炸。

概念token:用概率分布代替单一符号

传统方法每次生成一个确定的token(如 “30”“加”),而Soft Thinking生成一个概率分布(如 “30” 的概率40%,“乘以” 的概率30%,“分解” 的概率20%等),这个分布被称为 “概念token”。

每个概念token相当于多个可能符号的 “混合体”,允许模型同时保留多种推理可能性

如下图中的例子,在计算“43×34”时,模型可能同时考虑“分解34为30+4”和“直接相乘”两种路径的概率,而非只选其一。

连续概念空间:在 “模糊” 的语义空间中推理

通过将概念token的概率分布与模型的词向量(Token Embedding)加权结合,形成连续的概念空间。

这里的 “连续” 意味着模型可以在不同概念之间平滑过渡,例如从“分解数字”自然过渡到“乘法运算”,而无需用明确的语言符号分隔步骤。

Cold Stop机制:避免无效循环

由于模型在训练中没见过概念token(属于 “分布外” 输入),长时间推理可能导致陷入重复或混乱(类似人类思维的 “卡壳”)。

Soft Thinking引入了一个“Cold Stop”机制:通过监测概率分布的熵值判断模型的 “自信程度”。

当熵值持续较低时(表明模型对当前推理路径很确定),提前终止中间步骤,直接生成答案,避免浪费计算资源。

测试结果及对比

在基准测试里,QwQ - 32B模型的平均Pass@1准确率从标准CoT的83.84%提升至86.32%,最高提升2.48%,其中在AIME 2024数据集上提升6.45%。

推理效率方面,DeepSeek-R1-Distill-Qwen-32B在数学任务中token使用量减少22.4%。

与其他方法的对比
  • COCONUT-TF(无训练):直接使用隐藏状态作为输入,完全失败,生成长度达最大值且无正确解。
  • 平均嵌入策略:仅计算top-5 token均值,准确率低且生成长度长(如AIME 2024仅6.66%正确)。

Soft Thinking通过连续概念空间推理和Cold Stop机制智能平衡了效率与准确性,为大模型优化提供了新思路。

感兴趣的朋友可以到官方了解更多细节。

官方网站:https://soft-thinking.github.io/
论文地址:https://arxiv.org/abs/2505.15778
代码地址:https://github.com/eric-ai-lab/Soft-Thinking
参考链接:https://x.com/xwang_lk/status/1925399783503798692

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿努廷,“狂飙突进”

阿努廷,“狂飙突进”

中国新闻周刊
2026-03-25 22:26:41
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
伊朗军方:霍尔木兹海峡局势发展由伊朗掌控

伊朗军方:霍尔木兹海峡局势发展由伊朗掌控

澎湃新闻
2026-03-26 01:17:13
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
现货黄金跌幅扩大至2.5%

现货黄金跌幅扩大至2.5%

财联社
2026-03-27 00:24:12
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

财联社
2026-03-26 22:50:26
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

天气观察站
2026-03-24 19:02:53
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
2026-03-27 03:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
健康
教育
公开课
军事航空

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

转头就晕的耳石症,能开车上班吗?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版