![]()
本周主要内容:智能体记忆系统元进化、端到端智能体 Step-DeepResearch、基于反思推理的记忆检索 MemR^3、思维链可监控性监测、主动推理和人工推理、睡眠期间功能连接漂移、人类与 AI 的认识论断层、脑区划分与认知功能
AGI 每周速递
[1] MemEvolve:智能体记忆系统的元进化
标题:MemEvolve: Meta-Evolution of Agent Memory Systems
链接:https://www.arxiv.org/abs/2512.18746
作者:Guibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang, He Zhu, Wangchunshu Zhou, Shuicheng Yan
单位:OPPO
摘要:
自演化记忆系统正以前所未有的方式重塑基于大语言模型的智能体的进化范式。现有研究主要依赖人工设计的记忆架构来存储交互轨迹、提炼经验并合成可复用工具,使智能体能够在与环境交互中实时演化。然而,该范式本质上受限于记忆系统自身的静态性:尽管记忆促进了智能体层级的演化,但底层记忆架构无法根据多样化的任务情境进行元适应。为弥补这一不足,研究团队提出 MemEvolve——一个能够同步演化智能体经验知识与记忆架构的元进化框架,使智能体系统不仅能积累经验,还能持续优化其经验学习机制。为将 MemEvolve 根植于现有研究并促进未来自演化系统的开放性,研究团队开发了统一的自演化记忆代码库 EvolveLab,将十二种代表性记忆系统提炼为模块化设计空间(编码、存储、检索、管理),同时提供标准化的实现基础与公平的实验平台。在四项具有挑战性的智能体基准测试上的广泛实验表明,MemEvolve 实现了:(Ⅰ)显著的性能提升,将 SmolAgent 与 Flash-Searcher 等框架的性能最高提升 17.06%;(Ⅱ)强大的跨任务与跨模型泛化能力,所设计的记忆架构能在不同基准测试与骨干模型间有效迁移。
[2] Step-DeepResearch 技术报告
标题:Step-DeepResearch Technical Report
链接:https://www.arxiv.org/abs/2512.20491
作者:Chen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
单位:阶跃星辰
摘要:
随着大语言模型向自主智能体演进,深度研究已成为关键评价指标。然而,现有学术基准如 BrowseComp 往往难以满足开放性研究的实际需求,这类研究需要强大的意图识别、长时程决策与跨源验证能力。为此,研究团队推出了高性价比的端到端智能体 Step-DeepResearch。团队提出基于原子能力的数据合成策略,以强化规划与报告撰写能力,并结合从智能体中期训练到监督微调及强化学习的渐进式训练路径。通过引入清单式评判器增强机制,该方法显著提升了系统鲁棒性。此外,为弥合中文领域评估体系的空白,研究团队构建了面向真实深度研究场景的 ADR-Bench 评测基准。实验结果显示,Step-DeepResearch(32B)在 Scale AI 研究量规中获得 61.4% 的评分。在 ADR-Bench 上,其表现显著超越同规模模型,并与 OpenAI、Gemini DeepResearch 等闭源前沿模型水平相当。这些成果证明,通过精细化训练,中等规模模型能够以行业领先的性价比实现专家级能力。
[3] MemR^3 :面向 LLM 智能体的基于反思推理的记忆检索
标题:MemR^3: Memory Retrieval via Reflective Reasoning for LLM Agents
链接:https://www.arxiv.org/abs/2512.20237
作者:Xingbo Du, Loka Li, Duzhen Zhang, Le Song
单位:穆罕默德·本·扎耶德人工智能大学
摘要:
记忆系统的设计旨在利用大语言模型智能体的过往经验。然而,许多已部署的记忆系统主要侧重于信息的压缩与存储,对记忆检索的显式闭环控制则相对关注不足。基于这一观察,研究团队将记忆检索构建为一个自主、精准且兼容的智能体系统,命名为 MemR^3。该系统包含两个核心机制:1)一个路由器,能够在检索、反思与回答三种操作之间进行选择,以优化回答质量;2)一个全局证据缺口追踪器,能显式地呈现回答过程的透明度,并追踪证据收集进度。该设计通过引入实现自主决策的闭环控制机制,突破了传统的「检索-回答」流程。在 LoCoMo 基准测试上的实证结果表明,MemR^3 在 LLM-as-a-Judge 得分上超越了多个强基线模型;特别值得注意的是,它提升了四类现有检索器的性能,在使用 GPT-4.1-mini 后端时,对 RAG(+7.29%)和 Zep(+1.94%)实现了整体性能提升,为现有记忆存储系统提供了一个即插即用的控制器。
[4] 思维链可监控性监测
标题:Monitoring Monitorability
链接:https://cdn.openai.com/pdf/d57827c6-10bc-47fe-91aa-0fde55bd3901/monitoring-monitorability.pdf
作者:Melody Y. Guan, Miles Wang, Micah Carroll, Zehao Dou, Annie Y. Wei, Marcus Williams, Benjamin Arnav, Joost Huizinga, Ian Kivlichan, Mia Glaese, Jakub Pachocki, Bowen Baker
单位:OpenAI
摘要:
对现代人工智能系统决策过程的可观测性,可能成为安全部署日益强大的智能体的必要前提。监控当前推理模型的思维链已被证明能有效检测异常行为。然而,这种「可监控性」在不同的训练流程、数据源甚至持续的系统扩展下可能具有脆弱性。为度量和追踪可监控性,研究团队提出了三种评估原型(干预型、过程型和结果属性型)及一种新的可监控性指标,并构建了全面的评估体系。实验证明,这些评估方法能够识别经过训练以隐藏思维链的简单模型有机体,且在实际场景中思维链监控比单纯的行为监控更为有效。
研究团队比较了多种前沿模型的可监控性,发现大多数模型具有相当程度(但非完全)的可监控性。同时评估了可监控性如何随推理计算量、强化学习优化以及预训练模型规模的变化而扩展。研究发现:更长的思维链通常具有更高的可监控性;即使在前沿规模下,强化学习优化也并未实质降低可监控性。值得注意的是,当模型处于低推理强度时,可以改用较小模型以更高推理强度运行(从而匹配能力),并获得更高的可监控性,尽管这会增加整体推理计算成本。
研究团队进一步探究了智能体-监控器的扩展趋势,发现当弱监控器监测强智能体时,增加其测试阶段计算资源可提升可监控性。为弱监控器提供思维链访问权限不仅能提高可监控性,还会使其测试计算资源与可监控性之间的扩展关系曲线变得更陡峭。最后,研究证明通过要求模型回答后续问题并将其后续思维链提供给监控器,能够有效提升系统的可监控性。
意识科学 每周速递
[1] 主动推理和人工推理
标题:Active inference and artificial reasoning
链接:https://arxiv.org/abs/2512.21129
作者:Karl Friston, Lancelot Da Costa, Alexander Tschantz, Conor Heins, Christopher Buckley, Tim Verbelen, Thomas Parr
单位:伦敦大学学院、VERSES、ELLIS 研究所、苏塞克斯大学等
摘要:
本技术说明探讨了如何对结果进行采样,以获取关于底层世界模型结构的最大信息量。这一概括为在一组合理的生成模型或假设下进行结构学习提供了原则性方法。在主动推理中,策略(即动作组合)的选择基于其期望自由能,该自由能由预期信息增益与价值构成。信息增益对应于考虑动作后果与不考虑动作后果时预测后验之间的 KL 散度。利用基于累积模型参数后验信念的贝叶斯模型约简方法,可以快速高效地评估不同模型的后验分布。随后,按照最优实验设计理念,所得信息增益可用于选择能在不同备选模型间消除歧义的动作。作者采用部分可观测的离散模型(即先前通过(合成)内省或睡眠机制描述人工智能洞察与「顿悟时刻」的「三球」范式)来阐释此类主动选择或推理过程。本文重点关注通过寻求那些能最大程度消除世界模型不确定性的结果所实现的采样效率——正是在此世界模型下,各类结果得以生成。
[2] 睡眠期间功能连接漂移可作为意识水平波动的标志
标题:Functional connectivity drifts during sleep as a marker of fluctuations in the level of consciousness
链接:https://academic.oup.com/nc/article/2025/1/niaf061/8405716
作者:João Patriota , Giulia Moreni , Jorge F Mejias , Lucia Talamini , Umberto Olcese Author Notes
单位:阿姆斯特丹大学
摘要:
在清醒-睡眠周期中,意识水平时涨时落,这被认为反映了脑区之间整合程度的变化。最近的研究挑战了意识在特定脑状态下均匀存在或完全消失的观念——例如,在通常被认为无意识的非快速眼动睡眠中仍可发现意识报告的例证。本研究检验了神经元之间的功能连接是否在脑状态内部以与意识水平波动相符的方式发生变化。研究人员在大鼠的清醒-睡眠周期中,以数秒为尺度考察了神经元间的定向功能连接。研究发现,非快速眼动睡眠中存在某些时段,其间脑区间功能连接的模式与清醒期和快速眼动睡眠中观察到的模式具有可比性;反之亦然。因此,环路层面的连接模式并非由其所处的脑状态唯一决定,而可能反映了其他因素,例如不仅存在于不同脑状态之间、也发生在同一脑状态内部的意识水平波动。
[3] 人类与人工智能之间的认识论断层
标题:Epistemological Fault Lines Between Human and Artificial Intelligence
链接:https://osf.io/preprints/psyarxiv/c5gh8_v1
作者:Walter Quattrociocchi, Valerio Capraro, Matjaz Perc
单位:罗马智慧大学、米兰比可卡大学、马里博尔大学等
摘要:
大语言模型虽被普遍描述为人工智能,但其认知特征与人类认知存在显著差异。研究表明,人类与机器输出之间的表面一致性掩盖了二者在判断生成机制上更深层次的结构性错位。通过追溯从符号人工智能与信息过滤系统到大规模生成式 Transformer 的历史演变,本文论证大语言模型并非认知主体,而是随机模式补全系统——其形式可描述为在语言转换的高维图上的遍历过程,而非形成信念或构建世界模型的系统。通过系统对比人类与人工认知流程,研究团队识别出七个认知断层:意义锚定、解析机制、经验基础、动机驱动、因果推理、元认知能力与价值取向层面的根本性分歧。研究将由此产生的状态称为认知虚像:一种以语言合理性替代认知评估的结构性情境,它催生出未经判断劳动却获得认知感的现象。最后,本文勾勒出在日益围绕生成式人工智能组织的社会中,这种认知虚像对评估体系、治理框架及社会认知素养可能产生的影响。
[4] 重新思考大脑区域在理解功能组织中的核心地位
标题:Rethinking the centrality of brain areas in understanding functional organization
链接:https://www.nature.com/articles/s41593-025-02166-z
作者:Benjamin Yost Hayden, Sarah R. Heilbronner & Seng Bum Michael Yoo
单位:贝勒医学院等
摘要:
将大脑皮层划分为功能模块化的脑区,是认知与系统神经科学的理论基础。本文从神经解剖学与电生理学的角度,对脑区研究的中心地位提出质疑。研究指出,决定大脑功能的主要表面因素,如细胞构筑与连接模式,很少能产生一致的脑区划分方案。脑区本身只是若干同等重要的组织原则之一;其他原则包括宏观梯度、分布式网络、皮层层次、功能柱与斑块结构。研究进一步认为,脑区划分与认知功能之间密切对应的证据,通常比假设的要弱。事实上,许多重要的认知功能似乎是以广泛分布的方式实现的,而另一些则遵循与脑区关系不大的组织模式,包括分布式网络和功能梯度。最后,本文提出了一系列指导原则,建议在缺乏脑区化理论支撑的情况下,如何进行系统与认知神经科学研究。
Mindverse Research
心识研究院
心识浩渺连广宇
心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。
欢迎有志者关注和加入我们的研究!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.