牛津最新NHB：为什么“分而治之”学得更好？认知模型揭示人类分步学习机制|新论文

牛津最新NHB：为什么“分而治之”学得更好？认知模型揭示人类分步学习机制

分享至

认知神经科学前沿文献分享

基本信息

Title:Human curriculum learning of a cue combination task

发表时间:2026-05-05

发表期刊:Nature Human Behaviour

影响因子:15.9

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

在面对复杂的学习任务时，我们通常的直觉是“分而治之”：将大问题拆解为小模块，逐一攻克后再进行综合。这种课程设计理念在教育学中历史悠久，但从计算层面上看，我们至今缺乏一个通用且严谨的理论来解释：为什么特定的训练大纲能够促进或阻碍生物智能的学习？

在认知科学和神经科学中，人类如何整合多源信息（例如医生综合多种症状做出诊断）已被广泛研究。大量证据表明，人类能够近乎最优地根据线索的可靠性来赋予权重。然而，一个关键的断点在于：大脑最初是如何“学会”这些线索权重的？在多线索同时出现的环境中，大脑如何将最终的反馈结果准确地分配给每一个独立的线索？令人困惑的是，基础的深度学习系统通常很难从这种具有时间结构的“课程学习”中获益，这使得我们难以直接借用现成的AI模型来模拟人类的学习过程。

为了回答这一问题，牛津大学的研究团队采用经典的概率性线索组合任务（天气预测任务），系统考察了不同训练大纲对人类学习效率的影响。这项研究不仅试图确立“分步学习”的行为学优势，更重要的是，它试图构建一个计算框架，揭示大脑在信用分配（credit assignment）时的底层策略，并以此反向指导全新训练大纲的设计。

研究核心总结

基于多项行为学实验与计算建模，本研究将人类在多线索环境下的学习机制拆解为以下三个核心发现。

一、“分而治之”策略显著提升多线索学习表现

研究者首先对比了两种最基础的训练大纲：单线索训练（Singleton，每次只出现一个线索）和并行训练（Parallel，每次同时出现三个线索）。在随后的无反馈测试阶段，所有参与者都需要对三个线索的组合做出预测。

结果显示，接受单线索训练的参与者，其最终在多线索测试中的准确率显著高于一开始就接受并行训练的参与者。更令人惊讶的是，这种优势打破了认知心理学中常见的“编码特异性”原则（即测试条件与训练条件越一致表现越好）。单线索训练不仅提升了参与者对已见过线索组合的判断力，还能完美泛化到训练中从未出现过的全新线索组合上。后续的控制实验进一步排除了动机差异、反应时间等替代解释，并在一个全新的空间序列任务（Pointer game）中复现了这一优势，证明“分而治之”是一种稳健且跨领域的有效学习策略。

Fig 1. 展示了单线索与多线索并行训练的范式差异，以及单线索训练在测试阶段带来的显著准确率优势。

Fig 2. 证明了单线索训练的优势不仅稳健，还能泛化到未曾训练过的全新线索组合中，且不受任务动机衰减的影响。

二、混合学习机制：在认知成本与学习精度间动态权衡

为什么单线索训练会带来如此巨大的优势？研究者引入了强化学习中的感知机模型，指出核心难点在于多线索环境下的“信用分配”。

当多个线索共同导致一个结果时，大脑面临两种策略选择。第一种是“边缘更新”（Marginal updating），即假设每个线索独立导致了结果，忽略其他线索的存在。这种策略认知成本低，但在多线索环境下会导致权重学习产生严重偏差。第二种是“联合更新”（Joint updating），即基于所有线索的综合证据来更新权重。这种策略学习精度高，但需要消耗大量的认知资源来整合信息。

计算建模表明，人类并非死板地使用单一策略，而是采用了一种符合“资源理性”的混合学习机制。具体而言，大脑会启发式地评估当前线索权重的差异（标准差）。当线索权重差异较大，边缘更新极易引发误导时，大脑会切换到高成本的联合更新；反之则使用边缘更新以节省脑力。单线索训练的巧妙之处在于，它在早期规避了复杂的信用分配问题，使得参与者能够快速建立起准确的基础权重，从而在后续面对多线索时，更容易触发并依赖高精度的联合更新策略。

Fig 3. 揭示了混合学习模型的架构，表明人类会根据线索权重的差异，在低成本的边缘更新与高精度的联合更新之间灵活切换。

三、计算模型成功预测并指导了全新学习大纲的设计

如果上述混合学习理论是正确的，那么它就不应仅仅停留在解释已有现象，而应能预测哪些新大纲有效、哪些无效。研究者利用该模型进行了样本外预测，并设计了三组全新的实验。

首先，模型预测，如果在并行训练中人为改变线索组合的分布，增加那些“极端权重组合”（Skewed high）的出现频率，将有助于边缘更新发挥作用，从而提升学习效果；反之（Skewed low）则会损害学习。实验4完美证实了这一反直觉的预测。其次，以往研究认为消除反馈的随机性（提供理想化确定性反馈）能促进学习，但本研究的模型预测这在多线索组合任务中无效，实验5同样证实了这一点。最后，模型预测“由简入深”（从单线索递增到三线索）和“由深入简”（从三线索递减到单线索）的课程设计在最终效果上没有差异，实验6的数据再次与模型预测高度吻合。

Fig 4. 证实了模型的预测：增加极端权重线索组合的暴露频率，能够有效优化大脑的信用分配过程，从而显著提升整体学习效果。

Fig 5. 表明消除反馈的随机性（理想化并行训练）并不能改善多线索组合任务的学习表现，进一步验证了混合学习模型的预测边界。

研究意义

这项工作真正推进了我们对“课程学习（Curriculum Learning）”底层机制的理解。它不仅在行为层面上证实了“分而治之”策略的有效性，更在计算层面上给出了清晰的解释：优秀的训练大纲之所以有效，是因为它们巧妙地改变了大脑在不同学习策略（边缘更新与联合更新）之间的成本收益权衡，引导学习者进入了更优的策略空间。

从方法学和应用启发的角度来看，这项研究展示了一种极具潜力的范式转移。认知计算模型不再仅仅是对人类行为的“事后拟合”，而是成为了可以主动设计和优化人类训练方案的“导航仪”。通过模拟大脑的信用分配机制，我们可以精确计算出何种刺激分布能最大化学习效率。尽管当前研究仍局限于已知线索的简化环境，但它为未来利用算法为人类（甚至人工智能）量身定制教育大纲、加速复杂技能习得提供了一条坚实的科学路径。

分享人：饭鸽儿

审核：PsyBrain 脑心前沿编辑部

你好，这里是「PsyBrain 脑心前沿」

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」

科研是一场探索未知的长跑，但你无需独行。欢迎加入PsyBrain 学术社群，和一群懂你的同行，共同丈量脑与心智的无垠前沿。

点击卡片进群，欢迎你的到来

一键关注，点亮星标 ⭐ 前沿不走丢！

一键分享，让更多人了解前沿

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.