心识周刊 | 参数化记忆框架 ParamMem 提升智能体性能、杜克大学提出 Structure of Thought……|新论文|structure

分享至

本周主要内容：ParamMem、Auton Agentic AI、智能体记忆中的检索与利用、T2S-Bench 与 SoT、人类意识回路层面理论、自我的感知模糊性、可催眠性与内感受、视觉工作记忆中无意识信息保留

AGI 每周速递

[1] ParamMem：用参数反思记忆增强语言智能体

标题：ParamMem: Augmenting Language Agents with Parametric Reflective Memory

链接：https://arxiv.org/abs/2602.23320

作者：Tianjun Yao, Yongqiang Chen, Yujia Zheng, Pan Li, Zhiqiang Shen, Kun Zhang

单位：穆罕默德·本·扎耶德人工智能大学、卡内基梅隆大学、佐治亚理工学院。

摘要：

自我反思能够使语言智能体通过迭代方式不断改进其解决方案，但这一过程往往会产生重复性的输出，从而限制推理性能。近期研究尝试通过多种方法来解决这一问题，其中，提高反思的多样性被证明是一种具有潜力的途径。相关的经验分析表明，反思多样性与任务成功率之间存在显著的正相关关系，这进一步凸显了生成多样化反思信号的必要性。为此，研究提出了一种参数化记忆模块（ParamMem），该模块将跨样本的反思模式编码到模型参数之中，从而能够通过温度控制的采样方式生成多样化的反思内容。在此基础上，进一步提出了 ParamAgent——一种基于反思的智能体框架，该框架将参数化记忆与情节记忆以及跨样本记忆相结合。在代码生成、数学推理以及多跳问答等任务上的大量实验表明，该方法相较于当前最先进的基线模型表现出稳定的性能提升。进一步分析发现，ParamMem 具有较高的样本效率，能够实现跨模型规模的「弱到强」迁移，并且可以在不依赖更强外部模型的情况下支持自我改进。这些结果表明，ParamMem 有望成为提升语言智能体能力的一种有效组件。

[2] Auton Agentic AI 框架

标题：The Auton Agentic AI Framework

链接：https://arxiv.org/abs/2602.23720

作者：Sheng Cao, Zhao Chang, Chang Li, Hannan Li, Liyao Fu, Ji Tang

单位：snapchat

摘要：

人工智能领域正经历一场从生成式 AI 向智能体式 AI（Agentic AI）的转变。前者主要通过概率方式生成文本和图像，而后者则使自主系统能够代表用户在外部环境中执行具体行动。这一转变暴露出一种根本性的架构不匹配：大型语言模型（LLM）产生的是随机性的、非结构化的输出，而它们需要控制的后端基础设施——例如数据库、应用程序接口（API）以及云服务——则要求确定性且符合既定模式的输入。本文提出了 Auton Agentic AI 框架，这是一种用于标准化自主智能体系统创建、执行与治理的原则性架构。该框架围绕一种严格的结构性分离而构建：一方面是认知蓝图（Cognitive Blueprint），即对智能体身份与能力进行声明式、与具体编程语言无关的规范描述；另一方面是运行时引擎（Runtime Engine），即用于实例化并运行智能体的平台特定执行基底。这种分离使得系统能够实现跨语言可移植性、形式化可审计性，并通过模型上下文协议（MCP）实现模块化工具集成。本文进一步将智能体的执行模型形式化为一种扩展的部分可观测马尔可夫决策过程（POMDP），其中包含潜在的推理空间；同时提出了一种受生物学情景记忆系统启发的分层记忆巩固架构。此外，研究还提出了一种约束流形（constraint manifold）形式化方法，通过策略投影而非事后过滤来实现安全约束的执行。论文还介绍了一种三层级的自我进化框架，该框架涵盖从上下文内适应到强化学习的能力提升机制。最后，文章描述了一系列运行时优化策略——包括并行图执行、推测式推理以及动态上下文裁剪——以降低多步骤智能体工作流的端到端延迟。

[3] LLM 智能体记忆中的检索与利用瓶颈

标题：Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory

链接：https://arxiv.org/abs/2603.02473

作者：Boqin Yuan, Yue Su, Kun Yao

单位：加州大学圣地亚哥分校、卡内基梅隆大学、北卡罗来纳大学

摘要：

记忆增强型大型语言模型智能体能够存储并检索先前交互中的信息，但在记忆写入方式与检索方式之间，二者对系统性能的相对重要性仍不清楚。为此，研究提出了一种诊断框架，用于分析性能差异在不同写入策略、检索方法以及记忆利用行为中的表现方式。该框架被应用于一项 3×3 的研究设计，其中交叉比较了三种写入策略（原始分块存储、Mem0 式事实提取以及 MemGPT 式摘要化）与三种检索方法（余弦相似度、BM25 以及混合重排序）。在 LoCoMo 数据集上的实验结果表明，检索方法是影响性能的主导因素：不同检索方法之间的平均准确率差异达到 20 个百分点（从 57.1% 到 77.2%），而不同写入策略之间的差异仅为 3-8 个百分点。值得注意的是，原始分块存储这种无需任何 LLM 调用的方法，其性能与成本较高但具有信息损失的替代方案相当甚至更优。这一结果表明，当前的记忆管道在写入阶段可能丢弃了有价值的上下文信息，而下游的检索机制无法弥补这一损失。对失败案例的分析进一步显示，性能下降最常发生在检索阶段，而非记忆利用阶段。因此，研究认为，在当前的检索实践条件下，提高检索质量所带来的收益可能大于提升写入阶段复杂性的收益。相关代码可见：https://github.com/boqiny/memory-probe

[4] T2S-Bench 与思维结构（SoT）

标题：T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

链接：https://arxiv.org/abs/2603.03790

作者：Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen

单位：杜克大学、德克萨斯大学奥斯汀分校、Meta

摘要：

人类在处理复杂阅读任务时，通常会标记关键要点、推断它们之间的关系，并对信息进行结构化整理，以指导理解与回应。由此可以提出一个问题：大型语言模型是否也能够通过利用文本结构来提升文本处理性能？为探索这一问题，本研究首先提出了「思维结构」（Structure of Thought，SoT）这一提示技术，该方法通过显式引导模型构建中间层级的文本结构，从而在八项任务和三个模型家族中持续提升模型性能。在这一发现的基础上，研究进一步提出了 T2S-Bench，这是首个用于评估并提升模型「文本到结构」（text-to-structure）能力的基准数据集。T2S-Bench 包含来自 6 个科学领域、共 32 种结构类型的 1800 个样本，并通过严格的数据构建流程以确保数据的准确性、公平性与质量。对 45 个主流模型的评估结果表明，该领域仍具有显著的改进空间：在多跳推理任务上，模型的平均准确率仅为 52.1%，而即使是最先进的模型，在端到端结构提取任务中的节点准确率也仅达到 58.1%。此外，在 Qwen2.5-7B-Instruct 模型上的实验表明，仅使用 SoT 提示方法，就可以在八项不同的文本处理任务中平均提升 5.7% 的性能；而在 T2S-Bench 数据集上进行微调后，这一提升进一步增加到 8.6%。这些结果表明，显式的文本结构化具有重要价值，同时也凸显了 SoT 方法与 T2S-Bench 基准在提升模型文本理解能力方面的互补作用。相关数据集与评测代码可见：https://t2s-bench.github.io/T2S-Bench-Page/

意识科学每周速递

[1] 测试人类意识回路层面理论

标题：Testing circuit-level theories of consciousness in humans

链接：https://www.sciencedirect.com/science/article/pii/S1364661325002372

作者：Andrew R. Dykstra, Yunkai Zhu, Carolina Fernandez Pujol, David W. Zhou, Stephanie R. Jones, Tomáš Marvan, James J. Bonaiuto

单位：中佛罗里达大学、布朗大学等

摘要：

目前，人们对意识神经基础的理解主要局限于大尺度的大脑活动模式，这些模式通常通过功能性磁共振成像（fMRI）以及脑磁图/脑电图（M/EEG）等方法进行测量。相比之下，人们对于支持意识的回路层级机制却缺乏哪怕是最基本的认识——尤其是在人体研究中更是如此——尽管这些机制很可能在生成支持意识状态与意识内容的大尺度脑活动模式方面发挥着基础性作用。本文回顾了在意识的回路层级理论方面已经取得的进展（例如顶端放大理论和树突整合理论），并指出，随着近期一系列最先进研究方法的发展，这些理论已经可以在人体中得到检验。推进这一研究方向不仅有助于将意识科学进一步转化到临床应用情境之中，也将加强意识回路层级理论与网络层级理论之间的联系。

[2] 自我的感知模糊性——动态连接大脑与行为

标题：Perceptual ambiguity of the self – Dynamics connect brain and behaviour

链接：https://www.sciencedirect.com/science/article/pii/S1053811926001564

作者：Andrea Avramescu, Angelika Wolman, Georg Northoff

单位：渥太华大学、深圳大学

摘要：

当自我与他者之间的区分变得模糊时，自我—他者边界会被削弱，从而引入知觉上的不确定性。然而，人脑如何在神经和行为层面上解决这种不确定性，以及二者之间如何相互作用，目前仍不清楚。为此，本研究采用了一项面孔变形任务，并在实验过程中记录脑电图（EEG）。在该任务中，参与者的面孔与另一人的面孔按照不同的比例进行形变融合。结果表明，模糊图像相较于非模糊图像，会引发不同的神经与行为动力学模式。首先，对反应行为进行漂移扩散模型分析显示，相比于非模糊刺激，模糊刺激对应的漂移率（即证据积累速度）更慢；这一结果同时伴随着任务状态下 θ 频段峰值频率滑动（PFS）这一神经指标的降低。其次，在模糊面孔条件下，反应时（RT）的熵值以及频谱熵（SE）均高于非模糊面孔条件，这表明无论在大脑还是行为层面，加工过程都表现出更高的不确定性以及更大的处理需求。值得注意的是，研究在这两类动态指标上均发现了神经—行为层面的对应关系。静息状态下 θ 频段的 PFS 与模糊条件下的漂移率显著相关，这表明在静息状态中更强且更快速的内部信息摄取能力，与在面对模糊面孔时更有效的证据积累过程相关。此外，神经层面的频谱熵（SE）也与行为层面的熵存在关联：从静息状态到任务状态的 SE 增幅越小，在模糊条件下反应时熵越低，从而表明认知资源分配更为有效。总体而言，研究结果表明，信息摄取速度以及熵（或加工容量）在高效解决自我—他者模糊性方面具有关键作用，它们可被视为神经与行为加工层面的「共同通货」（common currency）。

[3] 可催眠性与内感受：准确性、感知性和意识的差异性关联

标题：Hypnotizability and interoception: Differential associations with accuracy, sensibility, and awareness

链接：https://www.sciencedirect.com/science/article/pii/S0301051126000499

作者：Žan Zelič, Joel Patchitt, Guy W. Fincham, Enrica L. Santarcangelo, Hugo D. Critchley

单位：特伦托大学、比萨大学等

摘要：

既有研究表明，不同催眠易感性水平的个体在内感受加工方面可能存在差异；然而，以往所采用测量方法的有效性受到了一些质疑，而且催眠易感性与不同内感受维度之间的关系仍不清楚。本研究旨在考察催眠易感性与内感受的三个维度之间的关系：准确性（IA）、敏感性（IS）以及觉察（IAW）。共有 42 名健康参与者完成了心跳计数任务（HCT）和心跳辨别任务（HDT），以测量内感受准确性。内感受敏感性通过身体知觉问卷（BPQ）以及参与者在 HCT 和 HDT 任务中给出的平均信心评分进行评估。内感受觉察则通过两种指标进行定义：一是 HCT 中内感受准确性与信心之间的对应关系，二是 HDT 中受试者工作特征（ROC）曲线下面积。催眠易感性采用斯坦福催眠易感性量表 A 式（Stanford Hypnotic Susceptibility Scale: Form A）进行测量。研究还引入了一项时间估计任务，以评估其在 HCT 表现中的作用。结果表明，催眠易感性与 HCT 和 HDT 两项任务的表现均呈负相关；催眠易感性与 BPQ 得分以及平均信心评分之间均未发现显著关联；同时，催眠易感性与任一内感受觉察指标之间也不存在显著关系。在内感受各维度内部以及不同维度之间，均未观察到显著关联。此外，HCT 得分与时间估计的准确性之间存在显著且较强的关联。这些结果重复了以往关于高催眠易感个体具有较低内感受准确性的发现，但同时表明，自我报告的身体警觉性以及对自身内感受能力的元认知觉察与催眠易感性并无显著关系。本研究结果与关于催眠易感性的预测编码观点相一致：较低的内感受准确性可能反映了感觉精度的降低，从而使自上而下的先验信息在与感觉证据的权衡中占据更大的权重。

[4] 追踪无意识：视觉工作记忆中无意识信息保留的神经证据

标题：Tracking the Unconscious: Neural Evidence for the Retention of Unaware Information in Visual Working Memory

链接：https://direct.mit.edu/jocn/article/38/3/497/133250/Tracking-the-Unconscious-Neural-Evidence-for-the

作者：Filippo Gambarota, Roy Luria, Antonio Maffei, Roberto Dell’Acqua, Naotsugu Tsuchiya, Paola Sessa

单位：帕多瓦大学、特拉维夫大学、莫纳什大学

摘要：

本研究探讨了在个体对视觉信息缺乏主观觉察的情况下，该信息是否仍能在视觉工作记忆（VWM）中得到保持，旨在为无意识视觉工作记忆效应提供明确证据。为探究其潜在的神经机制，研究监测了一种关键的事件相关电位（ERP）成分——对侧延迟活动（CDA），该成分被认为反映了视觉工作记忆中的维持过程。参与者完成了一项变化检测任务，其中需要记忆的 Gabor 斑块以接近可见性阈值的强度呈现；这一阈值通过知觉觉察量表（Perceptual Awareness Scale）来评估参与者的主观觉察水平。结果表明，即使在 Gabor 斑块的可见性低于阈值、参与者主观上报告未觉察到刺激的情况下，其在变化检测任务中的表现仍显著高于随机水平，这表明视觉信息可以在缺乏意识觉察的情况下被保留。值得注意的是，在一部分参与者的子样本中，在参与者未觉察但作出正确反应的试次中，相较于反应错误的试次，观察到了稳定的 CDA 振幅。作为概念验证，这一结果表明，未被觉察的视觉信息能够在视觉工作记忆中得到短时的主动维持，并且这种维持可以被用于完成依赖视觉工作记忆的任务。总体而言，本研究结果支持这样一种观点：即未被觉察的视觉信息也可以在视觉工作记忆中得到主动保持。这一发现对「完全静默活动」的工作记忆观点提出了挑战，因为研究表明，无意识信息在早期阶段是通过持续的神经活动（CDA）得到维持的，并可能在后续阶段转变为以活动静默机制为主的表征形式。

Mindverse Research

心识研究院

心识浩渺连广宇

心识宇宙研究院，致力于在即将到来的元宇宙数字时代，研究和创造真正等价于人类意识水平的数字生命，目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上，我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。

欢迎有志者关注和加入我们的研究！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.