网易首页 > 网易号 > 正文 申请入驻

北航团队突破:让AI学会像人一样思考,不必每次都说出来

0
分享至


当我们做一道复杂的数学题时,脑子里会先进行大量的推理和计算,但不一定要把每一步都说出来。我们可能先在心里想清楚,最后才告诉别人答案。这个来自北京航空航天大学和滴滴出行的研究团队最近做了一件有趣的事:他们让人工智能也学会了这种思考方式。

这项研究发表于2026年1月,论文编号为arXiv:2601.21358。研究团队由北京航空航天大学的王杰聪、彭浩和滴滴出行的刘春阳组成。他们提出了一个名叫PLaT(Planning with Latent Thoughts,潜在思想规划)的全新框架,这个框架的核心理念非常简洁优雅:把大模型的思考过程和表达过程彻底分开。

为了理解这个突破为什么重要,我们需要先了解目前AI处理复杂问题的主要方式。从2022年开始,所谓的"思维链"技术(Chain-of-Thought)彻底改变了大型语言模型解决复杂问题的方式。这个技术的基本逻辑是:与其让模型直接给出答案,不如让它一步步把推理过程写出来。这就像看着一个人在纸上慢慢推导数学题,最后才得出答案。

这个方法效果不错,但它有一个根本性的问题。每当模型产生一个词语时,它就在固定一个选择,这可能会无意中放弃其他正确的推理路径。想象你在走迷宫,如果每走一步就要决定最终的方向,一旦选错了某个转弯,之后就很难回头修正。这就是"推理路径崩溃"的含义。而且,这种逐字逐句生成推理步骤的方式计算成本极其昂贵,特别是对于长推理链来说。

为了解决这个问题,最近这两年出现了一些新的方法,试图把推理过程隐藏在模型的内部,用看不见的数值向量(称为"隐藏状态")来进行思考,而不是一直生成文字。这样理论上应该更高效,也不会因为逐字生成而陷入死胡同。但现有这些方法也有明显的不足:首先,内部推理过程完全是黑箱,人类无法看到或理解模型究竟在想什么;其次,这些方法通常要求模型在推理前就决定好要思考多少步,这显然不符合人类的思维方式。我们在做简单问题时只需要几秒思考,做难题时可能需要几分钟,而不是一直花同样的时间。

北航和滴滴的研究团队认识到,解决这个问题需要从根本上借鉴人类认知的运作方式。在人类的思维中,大脑和语言功能其实是分开的。你的大脑可以进行复杂的无声思考,而语言只是在需要与外界交流时才被启动。语言本质上是高维思想的一个低维投影——它只能传达思想的一部分,而真正的推理可能完全不需要言语化。正是基于这个观察,他们设计了PLaT这个框架。

PLaT的架构包含两个完全独立的部分:一个"规划者"(Planner)和一个"解码器"(Decoder)。规划者在一个持续进化的隐藏状态空间中工作,就像大脑在持续思考。这些隐藏状态形成了一条轨迹,一步步地接近问题的解答,但这一切都在数值空间中进行,没有任何文字产生。当需要与外部世界交互时——比如需要说出一个推理步骤或最终答案——解码器就会接手,把这些抽象的数值思想翻译成人类能理解的文字。这个翻译过程可以通过一个称为"重构目标"的机制来完成,基本逻辑是:给定一个内部思想,能否准确地产生对应的文字描述。

这个设计带来了几个重要的好处。第一,推理过程不再需要固定步数。当规划者判断它已经充分思考后,它可以自动决定停止,而不需要某个预先设定的"思考时间"。这种动态终止机制让系统能够根据问题的难度灵活调整自己的思考深度。第二,隐藏的思想状态现在是可解释的。虽然规划过程是在数值空间中进行的,但这些状态可以被解码器翻译成文字,让研究者能够理解和审视模型的中间推理步骤。这解决了之前黑箱问题的一部分。第三,这个框架自然地分离了推理的稳定性和探索的自由度。推理过程(规划者)可以保持确定性,而真正的多样性和探索则在解码阶段通过不同的语言表达方式产生。

实际实现中,研究团队使用了几个巧妙的技巧。规划者在每个推理步骤中产生多个微观的潜在状态(他们称之为"细粒度"状态),然后通过一个称为"指数移动平均"的机制将这些状态聚合起来。这个名字听起来复杂,但思想很简单:当你需要从一堆噪声数据中提取趋势时,指数移动平均就是让最近的数据点获得更多权重,而更久远的数据逐渐被淡化。这样既能保留整个推理过程的信息,又能降低噪声的影响。聚合后的状态就被输入到解码器,解码器把它们转换成文字。

为了让系统能够快速推理,研究团队还引入了一个叫"懒惰解码"的技巧。由于规划者在数值空间中工作而不产生文字,系统可以快速进行许多推理步骤而不需要实际生成完整的文字。只有当需要确定是否到达最终答案时,才需要真正的文字生成。这种方式大大加快了推理速度,减少了计算成本。

这项研究在数学推理任务上进行了全面的测试,主要在GSM8K数据集及其扩展版本上进行评估。这个数据集包含数学问题及其逐步求解过程。研究团队还在其他三个不同风格的数据集上测试了系统的泛化能力。与此同时,他们与几个主要的现有方法进行了比较,包括标准的思维链方法(CoT-SFT)、Coconut(一个逐步将显式推理步骤压缩为隐藏状态的方法)和CODI(一个通过蒸馏显式推理来学习隐藏状态的方法)。

有趣的是,实验结果显示了一个明确的权衡。在"贪心准确度"(即选择模型最有把握的答案的准确性)上,PLaT的表现低于现有的基线方法。但当研究团队观察"Pass@k"指标时——即从k个不同的采样尝试中至少得到一个正确答案的概率——PLaT显示出明显的优势。这意味着什么呢?这意味着PLaT学习到的不是一条狭窄的"金色路径"(最可能正确的推理方式),而是一个更广阔的解决方案空间,其中存在着许多不同的、都能导向正确答案的推理路径。

比如在GSM8K数据集上,标准模型在Pass@128(从128个样本中选择)的得分约为66.7%到70.1%,而PLaT达到了74.2%。这个看似不大的数字差异,其实反映了一个重要的特性:PLaT的内部表示包含了更多的语义多样性。它不仅仅是记住了一种做题方法,而是建立了对问题结构的更深层理解。这种多样性对于那些依赖于采样和搜索的推理方法特别有价值。如果你想通过尝试许多不同的推理路径来找到答案,你需要的正是这种宽广的解决方案空间。

为了进一步优化系统的表现,研究团队还使用了强化学习来改进解码策略。在这个阶段,他们冻结了规划者的所有参数,只优化解码器。这个选择很有意义:它确保了学习到的推理空间的稳定性不被破坏,同时允许模型学习更好的方式来将这些隐藏的思想转化为文字。他们使用了一个称为"组相对策略优化"的技术,基本思想是:在相同的隐藏状态下,比较不同的文字表达方式,那些导致正确答案的表达方式会被强化,而不能导致正确答案的方式会被削弱。

关于效率方面,PLaT在推理速度上的表现介于现有方法之间。与完整的思维链方法相比,它快了大约56%,因为它不需要生成所有的中间步骤。与最快的方法(Coconut)相比,它稍微慢一些,大约是100毫秒对比150毫秒。但这个速度差异的代价是换来了更多的可解释性。Coconut虽然更快,但它的内部状态是完全的黑箱,研究者和用户无法看到模型在想什么。PLaT允许按需查看中间思想,这对于理解和改进系统至关重要。

研究团队还进行了详细的分析来理解PLaT究竟是如何工作的。他们将同一个隐藏状态解码成多个文字版本,然后统计这些版本中有多少种语义上不同的推理步骤。他们发现,PLaT在推理过程的每个阶段都维持着比标准模型高得多的"分支因子"(即不同推理方向的数量),这验证了他们的假设:PLaT确实在维持一个更广阔的推理可能性空间。更重要的是,即使这些分支数量更多,它们中有效且正确的比例仍然与标准模型相当,这说明PLaT增加的多样性不是无意义的噪声,而是有实质内容的替代方案。

一篇论文如果没有局限,就不是真诚的学术工作。这项研究的作者坦诚地指出了几个值得注意的地方。首先,虽然PLaT在多样性上表现出色,但它的降低贪心准确度目前仍然是一个权衡。这可能与模型的规模有关——他们使用的是一个相对较小的GPT-2模型用于比较的公平性。扩大到更大的模型可能会改变这种权衡。其次,虽然理论上增加更多的潜在状态(比如NL参数)应该能提供更多信息容量,但实验显示性能在NL=2时达到最优,更多的状态反而导致性能下降。这可能反映了当前训练方法的局限,而不是根本的理论问题。第三,这项研究主要在数学推理任务上进行了评估,其他领域如创意写作或代码生成的有效性还有待验证。

这项研究的另一个有趣方面是它提供的可视化证据。研究团队展示了一个失败的例子,在这个例子中,贪心解码会产生错误的答案,但从同一个隐藏状态采样时,系统实际上能够生成多个正确的推理路径。这直观地展示了关键洞察:隐藏状态中编码的正确信息并未丢失,问题在于贪心解码方式没有找到它。这强烈表明,通过改进搜索策略,系统的性能可以进一步提升。

这项研究对AI开发的启示是深远的。它提示我们,也许我们不应该让AI模型像人类在课堂上一样被迫"思考出声"。相反,应该让它们在内部进行深度的、多面的思考,只在必要时才表达出来。这种方法不仅更接近人类的认知方式,也可能为未来更强大、更灵活的推理系统奠定基础。当我们需要通过采样和搜索从AI系统中获取多个候选答案时,PLaT框架提供的宽广解决方案空间尤其有价值。这对于那些需要高可靠性、需要多个选项用于人类审查或决策的应用场景特别重要。

从更广的视角看,这项研究触及了一个关键问题:思考和表达是否应该是分离的。在人类中,它们显然是分离的。你的大脑可以持续进行复杂推理,但你只在需要时才用语言表达。PLaT通过在AI系统中实现这种分离,打开了一扇新的大门,让我们重新思考如何设计和训练能够进行真实推理的智能系统。

Q&A

Q1:PLaT和传统思维链方法最大的区别是什么?

A:传统思维链方法让模型一步步说出推理过程的每个词语,这会导致推理路径崩溃(选错一个词就无法回头)。PLaT则让模型在内部进行完整思考而无需实时说出来,只在需要时才将思想翻译成文字,这样既保留了多种推理可能性,又避免了提前固定选择。

Q2:PLaT在实际应用中为什么比基础方法更慢?

A:PLaT比标准思维链快56%,但比最快的Coconut方法慢。这个速度差异是为了换取可解释性——Coconut虽然快但完全是黑箱,而PLaT允许研究者和用户查看模型的中间思想状态,理解它是如何推理的,这对实际应用中的可信度至关重要。

Q3:为什么PLaT在多个采样尝试中表现更好?

A:PLaT学到的不是单一"最正确"的推理方式,而是一个包含许多不同推理路径的宽广解决方案空间。当你从这个空间中多次采样时,你更有可能找到正确答案。这就像在不同的地图上寻找到达目的地的路线,而不是被迫走同一条路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
ESPN:C罗继续罢赛!记者:C罗认为本泽马应该来辅佐自己!

ESPN:C罗继续罢赛!记者:C罗认为本泽马应该来辅佐自己!

氧气是个地铁
2026-02-05 11:02:25
S家洗白失败!韩国综艺锤了小S忽视姐姐病情,推卸责任甩锅给大S

S家洗白失败!韩国综艺锤了小S忽视姐姐病情,推卸责任甩锅给大S

观察鉴娱
2026-02-05 08:41:02
CBA半程数据揭晓:古德温称得分助攻双冠,怀特塞德篮板盖帽统治赛场

CBA半程数据揭晓:古德温称得分助攻双冠,怀特塞德篮板盖帽统治赛场

林子说事
2026-02-05 07:48:03
Shams:黄蜂将普拉姆利送往雷霆,换来迪昂和一个次轮签

Shams:黄蜂将普拉姆利送往雷霆,换来迪昂和一个次轮签

懂球帝
2026-02-05 05:02:10
金门陈玉珍被骂“中国人滚出去”,她亮出身份证,全场鸦雀无声!

金门陈玉珍被骂“中国人滚出去”,她亮出身份证,全场鸦雀无声!

数字化看世界
2026-02-03 14:34:31
第一中锋+得分王没进国家队?郭士强曝光原因,这2人入选有争议

第一中锋+得分王没进国家队?郭士强曝光原因,这2人入选有争议

老吴说体育
2026-02-04 23:18:53
刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

我心纵横天地间
2026-02-03 22:44:27
18岁张本美和突然退赛!日本队慌了,哥哥搬德国藏深层原因

18岁张本美和突然退赛!日本队慌了,哥哥搬德国藏深层原因

卿子书
2026-02-05 09:35:03
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
赖清德一觉醒来天塌了,解放军不浪费一枪一弹,已将台岛围成铁桶

赖清德一觉醒来天塌了,解放军不浪费一枪一弹,已将台岛围成铁桶

林子说事
2026-02-04 16:40:06
惨淡!1月份理想卖了27668辆,智界+尚界+享界+尊界总交付17899辆

惨淡!1月份理想卖了27668辆,智界+尚界+享界+尊界总交付17899辆

刘哥谈体育
2026-02-03 07:52:52
她是中国年纪最小的军官,6岁被特招入伍,皆因身怀一项特殊技能

她是中国年纪最小的军官,6岁被特招入伍,皆因身怀一项特殊技能

寄史言志
2026-01-28 17:52:07
俄罗斯出口石油搞双标,卖给印度35,卖给中国80,这到底是忘恩负义,还是有别的隐情?

俄罗斯出口石油搞双标,卖给印度35,卖给中国80,这到底是忘恩负义,还是有别的隐情?

史海孤雁
2026-02-02 17:06:22
球报发文:史上最伟大的球员迎来41岁生日,祝C罗生日快乐!

球报发文:史上最伟大的球员迎来41岁生日,祝C罗生日快乐!

懂球帝
2026-02-05 10:42:14
汤杰回忆加盟广东:杜锋和我说是改变命运的机会 没有把握住很后悔

汤杰回忆加盟广东:杜锋和我说是改变命运的机会 没有把握住很后悔

狼叔评论
2026-02-04 19:54:04
再次证明“网络曝光”比“正常程序”见效更快!

再次证明“网络曝光”比“正常程序”见效更快!

霹雳炮
2026-02-04 00:42:21
中国工业官宣涡扇19参数!推力超11吨,有望成世界最强中推

中国工业官宣涡扇19参数!推力超11吨,有望成世界最强中推

普陀动物世界
2026-02-05 11:08:52
领导是如何看待不卑不亢下属的?网友:太监遇到完整男人的感觉

领导是如何看待不卑不亢下属的?网友:太监遇到完整男人的感觉

带你感受人间冷暖
2026-02-01 06:20:47
中国马年《哈利波特》反派角色成为吉祥物,遭欧美明褒暗贬!

中国马年《哈利波特》反派角色成为吉祥物,遭欧美明褒暗贬!

美剧组|人人影视
2026-02-04 23:31:56
大快人心!乌情报总局官宣:俄军战犯佐托夫被击毙,血债终须血偿

大快人心!乌情报总局官宣:俄军战犯佐托夫被击毙,血债终须血偿

老马拉车莫少装
2026-02-03 23:23:30
2026-02-05 12:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7138文章数 549关注度
往期回顾 全部

科技要闻

微信给马化腾浇了“一盆冷水”

头条要闻

牛弹琴:中国元首和特朗普通话 特朗普就台湾问题表态

头条要闻

牛弹琴:中国元首和特朗普通话 特朗普就台湾问题表态

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

谢娜明年开演唱会:带老歌出来见见人

财经要闻

黄金,出现拐点

汽车要闻

一切交给XWD 捷途旅行者C-DM也能轻松刷冰锅

态度原创

时尚
手机
亲子
旅游
军事航空

2026春夏八大流行趋势,早穿早美!

手机要闻

全球首款千元档万级电池手机来了!真我Power入网:淘汰充电宝

亲子要闻

孩子的脸,是家庭最诚实的计分器

旅游要闻

上海新春景观焕新:花海、光影、市集全城迎马年

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版