追问daily | 10分钟数字干预课程可缓解抑郁症状；大语言模型是否暗中知道何时停止思考？|细胞|科学|免疫|脑功能|神经元|海马体|公共卫生

分享至

█ 脑科学动态

Science揭示共情的神经基础：食欲素如何让我们懂得安慰同伴

免疫细胞保留组织位置的分子记忆：AI算法重构单细胞空间坐标

前脑岛活动揭示酒精成瘾者偏爱酒精的神经机制

新冠后遗症：味蕾内的分子缺陷导致长期味觉丧失

AI分析未发现年轻人大脑结构与导航能力存在明显关联

记忆编码并非持续恒定，而是随大脑 Theta 节律波动

低剂量锂可能延缓轻度认知障碍患者的语言记忆衰退

细胞谱系被证实是大脑自我组织的“隐形导航图”

10分钟数字干预课程可缓解抑郁症状

█ AI驱动科学

AI驱动的高通量全脑细胞图谱绘制

CATS Net框架实现类人概念形成、理解与交流

序列模型智能体可通过上下文推理自然涌现合作行为

大语言模型是否暗中知道何时停止思考？

基于强化学习的多智能体拓扑演化，实现竞赛级代码生成

混合强化学习框架利用记忆机制，显著提升大语言模型智能体的探索能力

脑科学动态

Science揭示共情的神经基础：食欲素如何让我们懂得安慰同伴

情感共情如何转化为亲社会行为？斯坦福大学的Jae Gon Kim和Jin Hyung Lee团队以小鼠为模型，揭示了下丘脑到前扣带回皮层的食欲素能神经通路是关键。该通路通过驱动特定脑区振荡来调控共情与亲社会行为。

研究团队首先构建了无经验观察恐惧和依赖经验的观察恐惧两种小鼠模型，以对比共同经历对共情的影响。行为学分析显示，拥有共同恐惧经历的小鼠表现出更强的观察恐惧反应，并在重聚时展现出更多社交梳理（allogrooming，即安慰行为）。随后，研究人员结合OxLight1探针与光纤记录技术，发现小鼠前扣带回皮层（ACC）内的食欲素能神经元在共情期间被选择性激活。为验证因果关系，团队采用光遗传学技术，实时抑制从下丘脑外侧区（LHA）投射至前扣带回皮层的神经输入，同时记录局部场电位。结果表明，这种特异性抑制不仅降低了目标脑区特定频率的θ波功率，还显著减少了小鼠的凝视僵住和亲社会行为。这证实了下丘脑食欲素能输入通过驱动皮层θ振荡实现了情感共情向行动的转化。研究发表在 Science 上。

#神经科学 #神经机制与脑功能解析 #食欲素 #亲社会行为 #共情

阅读更多：

Kim, Jae Gon, et al. “Empathy and Prosocial Behavior Powered by Orexin-Driven Theta Oscillations.” Science, vol. 391, no. 6787, Feb. 2026, pp. 800–06. science.org (Atypon), https://doi.org/10.1126/science.aea7140

免疫细胞保留组织位置的分子记忆：AI算法重构单细胞空间坐标

单细胞测序虽能揭示单个免疫细胞的基因活性，但在细胞分离时会丢失关键的空间位置信息，这阻碍了对复杂器官疾病机制的理解。波恩大学医院和波恩大学的Junping Yin、Jian Li和Christian Kurts团队开发了名为MERLIN的人工智能算法，成功从离体巨噬细胞中提取出位置信息，精准重建了其在器官内的原始空间坐标。

▷ 基于人工智能的肾脏免疫细胞定位多项式分类工作流程示意图及其应用。Credit: Advanced Science (2026).

该研究融合了免疫学与生物信息学，团队利用来自肾脏皮质、外髓质和内髓质的多个独立单细胞RNA测序数据集对MERLIN算法进行训练。该算法采用改进的多层感知器机器学习框架，通过识别受局部缺氧或盐浓度等组织微环境影响的特异性基因表达模式来预测细胞来源。数据表明，MERLIN预测小鼠和人类肾脏中驻留巨噬细胞空间位置的准确率均超过75%，并且成功跨器官应用于大脑，重建了小胶质细胞的空间分布。在分析急性肾损伤和糖尿病肾病等已发表数据集时，MERLIN揭示了外髓质巨噬细胞在促炎反应中的主导地位，其预测的区域特异性免疫反应与临床已知的药物疗效高度吻合，为研究微环境与疾病进展的关系提供了强大工具。研究发表在 Advanced Science 上。

#神经科学 #神经机制与脑功能解析 #技术创新 #单神经元重建 #全脑成像

阅读更多：

Yin, Junping, et al. “Predicting Macrophage Spatial Localization from Single-Cell Transcriptomes to Uncover Disease Mechanisms.” Advanced Science, n/a, no. n/a, p. e10924. Wiley Online Library, https://doi.org/10.1002/advs.202410924

前脑岛活动揭示酒精成瘾者偏爱酒精的神经机制

成瘾者为何更偏爱酒精而非社交？阿姆斯特丹医科大学中心的Nathan J. Marchant团队开展研究，证实前脑岛区域在决策过程中的活动偏差是促使个体优先选择酒精的关键所在。

▷ 左图：轨迹图描绘了大鼠按下杠杆获得酒精或社交奖励时前岛叶的活动情况。右图：大鼠按下杠杆获得奖励后的平均活动值（±标准误）。Credit: van Mourik et al., 2026

研究团队训练大鼠在交替阶段按压杠杆，以分别获得酒精或社交奖励。研究人员在大鼠的前脑岛皮层转染了钙指示剂，并利用光纤光度法记录脑区活动。同时，团队引入线性弹道累积器模型（Linear Ballistic Accumulator modelling，一种用于解析认知决策中证据积累速度的数学模型）来分析行为数据。

结果显示大鼠逐渐形成了强烈的酒精偏好。在面临选择时，前脑岛皮层在酒精相关行为中的活跃度显著高于社交行为，尤其在做出决定前的提示期最为明显。模型表明，该脑区的活动差异与决策偏差高度正相关，即该脑区活动加快了倾向酒精的证据积累。当对选择酒精施加惩罚时，大鼠偏好逆转，该脑区活动偏差不再与决策相关。这证实了前脑岛在酒精渴求机制中的关键作用，为成瘾干预提供了新的潜在治疗靶点。研究发表在 Journal of Neuroscience 上。

#疾病与健康 #神经机制与脑功能解析 #成瘾机制 #前脑岛皮层 #决策偏差

阅读更多：

Mourik, Yvar van, et al. “Anterior Insula Activity during Alcohol and Social Reward Self-Administration and Choice in Male and Female Rats.” Journal of Neuroscience, Feb. 2026. Research Articles. www.jneurosci.org, https://doi.org/10.1523/JNEUROSCI.1180-25.2026

新冠后遗症：味蕾内的分子缺陷导致长期味觉丧失

新冠引发的长期味觉丧失机制亟待阐明。科罗拉多大学安舒茨医学院等机构的Hanna Morad与Thomas E Finger等人合作，首次发现长新冠患者味蕾内的分子异常，揭示了特定味觉丧失的生物学原因。

研究团队招募了28名在感染新冠病毒一年后仍报告持续味觉障碍的非住院患者。研究人员首先使用WETT味觉测试客观评估受试者对甜、鲜、苦、酸、咸五种基本味觉的感知能力。随后，团队对其中20名受试者的菌状乳头进行了活体组织检查。通过组织学分析和定量聚合酶链式反应（qPCR，一种用于放大并定量检测特定遗传物质片段的技术），研究人员检测了味蕾的整体结构、神经支配情况以及不同味觉受体细胞标志物的信使核糖核酸表达水平。

结果显示，11名患者出现了一种或多种味觉的完全丧失，主要集中在甜味、鲜味和苦味上。这些受影响的味觉均依赖于一种名为PLCβ2的蛋白质，该蛋白质作为受体细胞内的分子放大器，对味觉感知至关重要。患者样本中负责产生PLCβ2的mRNA水平显著降低导致信号减弱，且部分患者显微镜下可见味蕾结构紊乱。这表明长期味觉丧失并非外周神经整体破坏，而是由特定分子功能障碍和局部结构改变所致。研究发表在 Chemical Senses 上。

#疾病与健康 #其他 #长新冠 #味觉丧失 #分子病理

阅读更多：

Morad, Hanna, et al. “Taste Dysfunction in Long COVID.” Chemical Senses, vol. 51, Jan. 2026, p. bjaf068. Silverchair, https://doi.org/10.1093/chemse/bjaf068

AI分析未发现年轻人大脑结构与导航能力存在明显关联

长期以来，人们常引用“伦敦出租车司机”的研究，认为擅长认路的人拥有更发达的大脑特定区域。然而，这一观点在普通年轻人身上可能并不适用。来自德克萨斯大学阿灵顿分校的史蒂文·韦斯伯格（Steven M. Weisberg）与佛罗里达大学的阿什什·萨胡（Ashish K. Sahoo）等人组成的研究团队，利用先进的人工智能技术向这一传统观念发起了挑战。他们发现，在健康年轻人群体中，大脑结构与导航能力之间并没有明显的联系。

该研究招募了90名平均年龄为23.1岁的参与者，要求他们在虚拟环境中学习路线并绘制地图，以测试其空间记忆和导航能力。随后，研究团队利用图卷积神经网络（GCNN）和3D卷积神经网络（3DCNN）等深度学习模型，对参与者的磁共振成像（MRI）数据进行分析。这些先进的模型能够检测出传统测量方法（如单纯的体积测量）无法捕捉的细微结构模式。研究重点对比了传统上与记忆和导航密切相关的海马体以及作为对照区域的丘脑。结果显示，尽管AI模型能够很好地拟合训练数据，但在预测新数据的导航表现时效果微弱。这意味着，对于健康的年轻成年人而言，大脑宏观结构的差异（如海马体的大小或形状）并不能有效预测其认路能力的强弱。这一发现提示我们需要重新审视大脑结构与行为功能之间的映射关系，未来的研究可能需要更大的样本量或更全面的行为指标。研究发表在 Neuropsychologia 上。

#AI驱动科学 #神经机制与脑功能解析 #海马体 #空间导航 #深度学习

阅读更多：

Sahoo, Ashish K., et al. “Deep Learning Approaches to Map Individual Differences in Macroscopic Neural Structure with Variations in Spatial Navigation Behavior.” Neuropsychologia, vol. 222, Feb. 2026, p. 109352. PubMed, https://doi.org/10.1016/j.neuropsychologia.2025.109352

记忆编码并非持续恒定，而是随大脑 Theta 节律波动

为什么有些瞬间我们能清晰记住，而另一些则转瞬即逝？Thomas M. Biba、Katherine Duncan 等来自多伦多大学、麻省理工学院的研究团队发现，人类的学习和记忆能力并非每时每刻都保持稳定，而是以每秒数次的频率进行节律性波动。这项研究证实了记忆编码效率会随着大脑的特定节律起伏，揭示了大脑捕捉信息的“最佳时刻”。

该研究采用了通常用于注意力研究的密集采样方法，对125名参与者进行了毫秒级精度的测试。在实验中，研究人员微调了提示线索与记忆目标出现的时间间隔，从而重建了记忆编码的时间进程。结果显示，记忆的形成呈现出明显的 Theta 节律，即在3-10 Hz的频率范围内波动。这意味着大脑每秒钟大约有3到10次“快门”开启的机会，处于这些时间窗口内的信息更容易被记住。此外，研究还发现这种节律受到乙酰胆碱相关因素的调节，乙酰胆碱是一种对注意力和学习至关重要的神经递质。符合编码与提取独立阶段模型（Separate Phases for Encoding and Retrieval (SPEAR) model）的预测，那些拥有更好持续注意力或受尼古丁（乙酰胆碱激动剂）影响的个体，其记忆节律表现出不同的特征。这表明我们的记忆系统并非持续在线，而是通过快速的振荡机制来优化信息的编码。

#认知科学 #记忆机制 #神经机制与脑功能解析 #生理节律

阅读更多：

Biba, Thomas M., et al. “Episodic Memory Encoding Fluctuates at a Theta Rhythm from 3-10 Hz.” s8nda_v2, PsyArXiv, 14 Jan. 2026. OSF Preprints, https://osf.io/preprints/psyarxiv/s8nda_v2/

低剂量锂可能延缓轻度认知障碍患者的语言记忆衰退

锂作为治疗双相情感障碍的老药，是否能跨界延缓阿尔茨海默病的进程？来自匹兹堡大学医学院的Ariel G. Gildengers及其同事的一项最新临床试验表明，这种情绪稳定剂可能具有神经保护潜力。研究团队发现，虽然低剂量锂未能全面阻止轻度认知障碍患者的病情恶化，但在特定的记忆领域显示出了减缓衰退的积极信号，且在老年群体中表现出良好的安全性。

在这项为期两年的随机双盲对照试验中，研究人员招募了80名患有轻度认知障碍的老年人，对比了每日服用低剂量碳酸锂与安慰剂的效果。研究重点关注了参与者的加州言语学习测试-II成绩及脑部影像学变化。结果显示，虽然主要终点未达统计学显著性，但在语言记忆这一阿尔茨海默病早期受损的关键领域，锂剂组的年均评分下降幅度（0.73分）仅为安慰剂组（1.42分）的约一半。此外，脑成像分析显示，尽管两组参与者的海马体均随时间萎缩，但在β-淀粉样蛋白检测呈阳性的患者亚组中，锂剂似乎提供了更强的保护作用。这一发现提示，未来的研究若能利用生物标志物筛选特定患者群体，可能会观察到更明确的疗效。研究证实了该疗法的安全性，为后续更大规模的验证性试验奠定了基础。研究发表在 JAMA Neurology 上。

#疾病与健康 #个性化医疗 #神经调控 #阿尔茨海默病

阅读更多：

Gildengers, Ariel G., et al. “Low-Dose Lithium for Mild Cognitive Impairment: A Pilot Randomized Clinical Trial.” JAMA Neurology, Mar. 2026. Silverchair, https://doi.org/10.1001/jamaneurol.2026.0072

细胞谱系被证实是大脑自我组织的“隐形导航图”

大脑如何从单细胞发育成拥有千亿神经元的复杂网络？来自冷泉港实验室、哈佛大学和苏黎世联邦理工学院的 Stan Kerstjens、Anthony M. Zador、Florian Engert 和 Rodney J. Douglas 等研究人员提出了颠覆性的新理论。他们发现，细胞的位置命运不仅仅依赖外部化学信号，更取决于其“家族血统”。该研究揭示了细胞谱系如何作为一种可扩展的位置信息机制，指导大脑在大尺度上的精确组装。

▷ 神经科学家追踪了斑马鱼大脑中两个相邻区域（分别用红色和蓝色标出）数千个基因的表达模式。Credit: Zador lab/CSHL

长期以来，科学家认为发育中的细胞主要通过扩散的化学信号来“导航”。然而，这种信号随距离衰减，难以解释大型大脑的精确构建。研究团队构建了一种基于谱系的模型，并在小鼠和斑马鱼的发育大脑中进行了验证。他们发现，主要特征基因——即数千个基因的共表达模式——在发育过程中表现出惊人的稳定性，并且跨物种保守。研究表明，细胞像人类家族繁衍定居一样，倾向于停留在祖先附近，这种“基于谱系”的信息传递方式解决了长距离定位的难题，与化学信号机制形成互补，共同确保了大脑结构的正确发育。这一发现不仅解开了生物学基础谜题，也可能为理解自我复制AI模型的代际信息传递提供新视角。研究发表在 Neuron 上。

#神经科学 #神经机制与脑功能解析 #发育生物学 #细胞谱系

阅读更多：

Kerstjens, Stan, et al. “A Lineage-Based Model of Scalable Positional Information in Vertebrate Brain Development.” Neuron, vol. 0, no. 0, Mar. 2026. www.cell.com, https://doi.org/10.1016/j.neuron.2025.12.043

10分钟数字干预课程可缓解抑郁症状

针对抑郁症治疗门槛高、资源紧缺的全球性难题，Benjamin T. Kaveladze、Jessica L. Schleider 等研究人员开展了一项大规模众包研究，旨在探索简短的数字化手段对改善心理健康的作用。该团队通过筛选与测试，发现精心设计的简短在线课程能为抑郁症患者提供实质性帮助。

这项研究是有史以来规模最大的心理健康干预随机对照试验之一。研究团队首先众包征集了66个干预方案，最终筛选出12个时长在10分钟以内的单次干预（SSIs）课程，内容涵盖从人工智能辅助写作到改编自励志广告的各种形式。7,505名患有抑郁症状的美国成年人被随机分配接受其中一种干预，或进入学习鳟鱼知识的对照组。结果显示，虽然几乎所有干预都能带来即时的积极情绪，但在一个月后，仅有“互动认知重评”（Interactive Cognitive Reappraisal，一种引导用户重新解读负面想法的技巧）和“寻找焦点”（Finding Focus，一种注意力训练）这两种方法显示出显著的持续效果。与对照组相比，这两项干预使抑郁症状进一步减轻了约4%。尽管效应量较小，但考虑到这些课程完全免费且易于大规模推广，其公共卫生意义重大。值得注意的是，数据显示参与者在四周后的改变意愿平均略有下降，这提示未来的研究需关注如何利用即时收益来促进长期的行为改变。研究发表在 Nature Human Behaviour 上。

#疾病与健康 #心理健康与精神疾病 #健康管理与寿命延长 #数字疗法 #公共卫生

阅读更多：

Kaveladze, Benjamin T., et al. “A Crowdsourced Megastudy of 12 Digital Single-Session Interventions for Depression in US Adults.” Nature Human Behaviour, Mar. 2026, pp. 1–17. www.nature.com, https://doi.org/10.1038/s41562-026-02415-6

AI 驱动科学

AI驱动的高通量全脑细胞图谱绘制

为了打破器官整体成像与细胞细节研究之间的壁垒，来自洛克菲勒大学的 Tatsuya C. Murakami 和 Nathaniel Heintz 等研究人员开发了一项突破性的整合技术。针对全器官成像中难以同时标记大量分子以及缺乏高效细胞定量分析方法的痛点，该团队推出了一套结合了高多重全组织染色与人工智能分析的全新框架，成功实现了在完整组织样本中对复杂细胞生态系统的系统性解析。

研究团队首先开发了名为 mFISH3D 的技术，通过系统优化组织处理流程，包括利用甲醇脱脂、特定的杂交缓冲液以及光漂白技术去除自发荧光，实现了在完整小鼠大脑中对多达 10 种信使核糖核酸进行高信噪比的三维成像。为了处理产生的海量三维数据，研究人员开发了名为 ZenCell 的人工智能分析工具。ZenCell 基于视觉Transformer架构，采用自监督学习策略，仅需极少量的人工标注数据即可完成高精度的全脑三维细胞分割。实验结果显示，该策略不仅精准绘制了小鼠大脑中抑制性神经元的亚型分布，纠正了关于丘脑细胞类型的传统认知，还成功应用于小鼠胚胎、肾脏、鱿鱼脑以及人脑皮层样本，证明了其在跨物种、多组织类型研究中的广泛适用性。研究发表在 Neuron 上。

#AI驱动科学 #自动化科研 #全脑成像 #原位杂交 #细胞图谱

阅读更多：

Murakami, Tatsuya C., et al. “Artificial Intelligence-Driven Whole-Brain Cell Mapping with Highly Multiplexed in Situ Hybridization.” Neuron, vol. 0, no. 0, Feb. 2026. www.cell.com, https://doi.org/10.1016/j.neuron.2025.12.027

CATS Net框架实现类人概念形成、理解与交流

当前AI系统在从感知经验中自发形成概念方面仍存在局限。中国科学院自动化研究所的Shan Yu团队与北京大学的Yanchao Bi团队合作，提出了一种新型神经网络框架CATS Net。该研究不仅再现了类人的概念生成与理解过程，还揭示了其背后的计算原理，为构建具有类人概念智能的系统提供了新思路。

CATS Net包含概念抽象（CA）模块和任务求解（TS）模块。在处理视觉任务时，CA模块将高维输入压缩为低维概念向量，这些向量如同“钥匙”，通过分层门控机制产生“开关”信号，动态调节TS模块以完成特定任务。研究团队利用功能磁共振成像（fMRI）的表征相似性分析（RSA）发现，CATS Net生成的概念空间与人类认知语义模型高度一致，且其表征模式与人脑腹侧枕颞皮层的活动显著相关。此外，CA模块的运作机制也与人脑语义控制网络相吻合。更重要的是，该框架允许不同网络间通过直接传递概念向量来实现知识共享，模拟了人类的语言交流过程。研究成果已发表在 Nature Computational Science 上。

#认知科学 #计算模型与人工智能模拟 #神经机制与脑功能解析 #跨学科整合

阅读更多：

Guo, Liangxuan, et al. “A Neural Network for Modeling Human Concept Formation, Understanding and Communication.” Nature Computational Science, Feb. 2026, pp. 1–15. www.nature.com, https://doi.org/10.1038/s43588-026-00956-4

序列模型智能体可通过上下文推理自然涌现合作行为

在多智能体系统中，如何让自利的个体自发达成合作一直是人工智能领域的一大难题。Google Paradigms of Intelligence Team 的研究人员 Marissa A. Weis、Maciej Wołczyk 和 Alexander Meulemans 等人的一项最新研究表明，通过让基于序列模型的智能体与多样化的对手进行博弈，可以自然地诱导出稳健的合作行为，而无需像过去那样依赖复杂的元学习机制或人为设定的层级结构。这一发现为利用标准序列建模和强化学习技术构建可扩展的协作多智能体系统提供了新路径。

这项研究聚焦于经典的迭代囚徒困境（Iterated Prisoner’s Dilemma）博弈。研究团队提出了一种“混合池训练”的方法，即让正在学习的智能体不仅与同类互动，还与一系列策略各异的静态表格型智能体进行博弈。关键在于，智能体不知道对手是谁，必须依靠历史交互数据进行实时推断。实验结果显示，这种环境迫使智能体掌握了上下文学习能力，即在单次互动中快速识别对手并做出最佳响应。有趣的是，这种快速适应能力使智能体表现得像一个容易被利用的“天真学习者”，这反而成为了合作的催化剂：为了避免双输，智能体之间产生了相互勒索（Mutual extortion）的动态压力，最终在长期的权重更新中演化出了互利共赢的合作策略。研究团队还提出了一种名为预测策略改进（PPI）的新算法，利用序列模型的自监督学习进一步提升了这一过程的效率。

#大模型技术 #意图与决策 #多智能体强化学习 #博弈论 #上下文学习

阅读更多：

Weis, Marissa A., et al. “Multi-Agent Cooperation through in-Context Co-Player Inference.” arXiv:2602.16301, arXiv, 18 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.16301

大语言模型是否暗中知道何时停止思考？

大型推理模型在解决复杂问题时常产生冗长且低效的“思维链”，但它们是否知道何时应该“见好就收”？来自北京航空航天大学和字节跳动公司的Zixuan Huang、Deqing Wang等人通过研究揭示，模型其实隐式地具备判断最佳停止时机的能力，只是这种能力被现有技术范式所掩盖。他们为此开发了名为SAGE的新方法，成功解锁了模型高效推理的潜力。

研究团队发现，尽管模型表面上会生成大量冗余的推理步骤，但其内部对简短且正确的推理路径抱有更高的“自信心”。这种自信心并非通过常规的下一个词预测概率来体现，而是通过整个思考路径的平均累积对数概率（Φ，一种衡量全局连贯性的指标）来衡量。基于这一洞察，团队提出了SAGE（Self-Aware Guided Efficient Reasoning）解码策略。该策略在推理时会探索多条可能的路径，并优先选择那些让模型整体上最自信的路径，尤其是当模型高度自信地生成一个“思考结束”的信号时。进一步地，他们将SAGE融入强化学习框架（SAGE-RL），让模型能够学习并内化这种高效的推理模式。实验结果表明，经过SAGE-RL优化的模型在多个高难度数学推理基准测试中，不仅推理过程更简洁，准确率也得到显著提升。

#大模型技术 #计算模型与人工智能模拟 #强化学习 #推理效率

阅读更多：

Huang, Zixuan, et al. “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” arXiv:2602.08354, arXiv, 27 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.08354

AgentConductor：基于强化学习的多智能体拓扑演化，实现竞赛级代码生成

当前用于代码生成的多智能体系统因其固定的协作模式而面临效率瓶颈。针对此问题，Siyu Wang, Ruotian Lu, Zhihao Yang等人提出了一种名为AgentConductor的新型框架。该框架引入一个“指挥家”智能体，通过强化学习动态生成和演化智能体之间的交互拓扑（即通信网络），使其能根据任务的难易度和实时反馈进行自适应调整，从而高效解决竞赛级编程问题。

AgentConductor的核心是一个基于大语言模型的“指挥家”智能体，它通过两阶段训练而成：首先进行监督微调，使其掌握生成有效拓扑结构的基础知识；随后采用强化学习进一步优化。在解决问题时，“指挥家”会评估任务难度，并生成一个与之匹配的分层有向无环图（layered Directed Acyclic Graph，一种允许并行处理和灵活通信的图结构）。系统根据该拓扑执行任务，若失败则会利用执行反馈进行多轮迭代，重新生成更优的拓扑。训练过程采用了一种创新的多目标奖励函数，它不仅奖励代码的正确性，还考虑了拓扑结构的合理性和一个与任务难度挂钩的密度指标，以此平衡性能与资源消耗。实验结果显示，在APPS等五个公开代码生成数据集上，AgentConductor的性能全面超越现有方法，pass@1准确率最高提升了14.6%，同时将令牌消耗降低了68%，实现了更优的效能与成本控制。

#AI驱动科学 #机器人及其进展 #多智能体系统 #强化学习

阅读更多：

Wang, Siyu, et al. “AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation.” arXiv:2602.17100, arXiv, 19 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.17100

混合强化学习框架利用记忆机制，显著提升大语言模型智能体的探索能力

如何解决大语言模型智能体在强化学习中探索能力不足的瓶颈？微软研究院和韩国科学技术院的Zeyuan Liu、Jeonghye Kim、Xufang Luo等人提出了一种名为EMPO2的新型混合强化学习框架，通过融合外部记忆与策略优化，显著增强了智能体的自主探索与泛化能力。

该团队提出的EMPO2（Exploratory Memory-Augmented On- and Off-Policy Optimization）框架独创性地结合了参数化与非参数化更新。在训练中，智能体能通过自我反思，将过去的失败经验总结为“提示”存入外部记忆，用于指导后续探索。更关键的是，该框架采用了一种混合策略优化方法，通过一种类似知识蒸馏的离策略（off-policy）更新机制，将记忆带来的探索优势“内化”为模型自身的参数。这使得智能体最终即使脱离记忆模块也能保持出色的性能。为进一步提升探索效率，研究还引入了状态新颖度的内在奖励机制。在ScienceWorld和WebShop两个复杂任务环境中的测试表明，EMPO2的性能相较于基线算法GRPO分别提升了128.6%和11.3%。在分布外测试中，该智能体也展现出强大的泛化能力，无需更新参数即可快速适应新任务。

#AI驱动科学 #机器人及其进展 #强化学习 #大语言模型智能体

阅读更多：

Liu, Zeyuan, et al. “Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization.” arXiv:2602.23008, arXiv, 26 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.23008

整理｜ChatGPT

编辑｜丹雀、存源

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。欢迎评论区留言，或后台留言“社群”即可加入社群与我们互动。您也可以在后台提问，我们将基于追问知识库为你做出智能回复哦~

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

研究院在华山医院、上海市精神卫生中心分别设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了加州理工陈天桥雒芊芊神经科学研究院。

研究院还建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括、、、科研型临床医生奖励计划、、、科普视频媒体「大圆镜」等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.