![]()
本周主要内容:模块化反思搜索智能体、MemSkill、智能体记忆框架 xMemory、Vision-DeepResearch、现象绑定问题、可逆无意识状态、自主诱导的非普通意识状态、梦境视觉体验实时报告
AGI 每周速递
[1] MARS:用于自动化人工智能研究的模块化反思式搜索智能体
标题:MARS: Modular Agent with Reflective Search for Automated AI Research
链接:https://arxiv.org/abs/2602.02660
作者:Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon
单位:Google Cloud AI Research
摘要:
自动化 AI 研究与通用软件工程存在本质差异,其特点在于计算密集型的评估过程(如模型训练)与性能归因的不透明性。现有基于大语言模型的智能体在此领域常面临挑战,往往生成忽略执行成本与因果因素的单体式脚本。本研究提出 MARS(Modular Agent with Reflective Search)框架——一种专为自主 AI 研究优化的模块化智能体系统,其基于三大支柱:(1)通过成本约束蒙特卡洛树搜索实现预算感知规划,显式平衡性能与执行开销;(2)采用「设计-分解-实现」流程的模块化构建机制,有效管理复杂研究库;(3)建立对比性反思记忆模块,通过分析解决方案差异提炼高信号洞见,以解决性能归因问题。在可比较的设置下,MARS 于 MLE-Bench 上取得了开源框架中最优性能,并与全球排行榜的顶尖方法保持竞争力。此外,该系统展现出定性的「顿悟」时刻:所有被利用的经验中有 63% 源自跨分支迁移,表明智能体能有效实现搜索路径间的洞见泛化。
[2] MemSkill:为自进化智能体学习和进化记忆技能
标题:MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents
链接:https://www.arxiv.org/abs/2602.02474
作者:Haozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang, Haodong Yue, Wenya Wang
单位:南洋理工大学、伊利诺伊大学厄巴纳-香槟分校、伊利诺伊大学芝加哥分校、清华大学
摘要:
大多数大语言模型智能体记忆系统依赖少量静态且人工设计的操作进行记忆提取。这些固定程序将人类对存储内容与记忆修订方式的先验假设硬编码其中,导致其在多样化交互模式下缺乏灵活性,且在长历史记录中效率低下。为此,本研究提出 MemSkill 框架,将此类操作重新定义为可学习、可演化的记忆技能——即结构化且可复用的信息提取、巩固与修剪流程。受智能体技能设计理念启发,MemSkill 采用一个学习选择相关技能子集的控制器,并配合基于大语言模型的执行器来生成技能引导的记忆内容。除学习技能选择外,MemSkill 还引入设计器模块,定期审查因所选技能产生错误或不完整记忆的困难案例,并通过提出优化方案与新技能来演化技能集合。MemSkill 由此形成闭环流程,同步优化技能选择策略与技能集合本身。在 LoCoMo、LongMemEval、HotpotQA 与 ALFWorld 上的实验表明,MemSkill 在各项任务中超越强基线模型,且具有良好的跨场景泛化能力。进一步分析揭示了技能的演化规律,为构建更具适应性、可自演化的 LLM 智能体记忆管理机制提供了洞见。
[3] 超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索
标题:Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
链接:https://arxiv.org/abs/2602.02007
作者:Zhanghao Hu, Qinglin Zhu, Hanqi Yan, Yulan He, Lin Gui
单位:伦敦国王学院、艾伦图灵研究所
摘要:
智能体记忆系统常采用标准的检索增强生成流程,但其底层假设在此场景中有所不同。RAG 面向大规模异质语料库,其检索片段具有多样性;而智能体记忆则是边界明确、内容连贯的对话流,其中包含高度相关且常存在重复的文本片段。在这种差异下,固定数量相似度检索倾向于返回冗余上下文,而后修剪操作可能删除正确推理所需的时间关联前提。研究主张检索应超越相似度匹配,转向基于潜在组件的操作,遵循「解耦-聚合」路径:将记忆解构为语义组件,组织为层级结构,并利用该结构驱动检索。本研究提出 xMemory 框架,该框架通过构建完整单元的层级体系,并借助引导记忆拆分与合并的稀疏-语义优化目标,维护可搜索且忠实的高层节点组织。在推理阶段,xMemory 执行自上而下的检索:针对多事实查询选择紧凑且多样化的主题与语义集合,仅当能降低阅读器不确定性时才扩展至事件单元与原始消息。在三大最新大语言模型上对 LoCoMo 与 PerLTQA 的实验表明,该方法在答案质量与令牌效率方面均取得持续提升。
[4] Vision-DeepResearch:激励多模态大语言模型中的深度研究能力
标题:Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
链接:https://arxiv.org/abs/2601.22060
作者:Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
单位:香港中文大学、华东师范大学、中国科学技术大学、小红书、哈尔滨工业大学、浙江大学、加州大学洛杉矶分校、牛津大学、深圳湾实验室
摘要:
多模态大语言模型已在广泛的视觉任务中取得显著成功。然而,受限于其内部世界知识的容量,先前研究提出通过「先推理后调用工具」的方式增强 MLLM,借助视觉与文本搜索引擎获取丰富事实信息以提升任务表现。但这些方法通常在简单场景中定义多模态搜索,假设单一全局或实体级图像查询配合少量文本查询足以检索回答问题所需的关键证据,这在具有大量视觉噪声的现实场景中并不符合实际。此外,它们在推理深度与搜索广度上存在局限,难以解决需要聚合多样化视觉与文本证据的复杂问题。基于此,本研究提出 Vision-DeepResearch,其引入一种新的多模态深度研究范式——通过执行多轮次、多实体与多尺度的视觉及文本搜索,在强噪声环境下实现对现实搜索引擎的鲁棒性调用。Vision-DeepResearch 支持数十步推理与数百次引擎交互,同时通过冷启动监督与强化学习训练将深度研究能力内化至 MLLM 中,形成强大的端到端多模态深度研究模型。该模型显著超越现有的多模态深度研究模型,并优于基于 GPT-5、Gemini-2.5-pro 与 Claude-4-Sonnet 等强闭源基础模型构建的工作流。代码将通过此链接发布:https://github.com/Osilly/Vision-DeepResearch
意识科学 每周速递
[1] 神经网络的现象绑定问题
标题:The phenomenal binding problem for neural networks
链接:https://www.sciencedirect.com/science/article/abs/pii/S1053810026000115
作者:Chris Percy, Gautam Agarwal
单位:Qualia 研究院等
摘要:
本研究旨在探索实现现象绑定(即将信息微单元整合为人类现象学中常见的宏观意识体验)的神经网络机制。此类体验复杂性是任何现象意识理论必须解释的关键特征。本文以一种有助于向计算神经科学转化的方式阐述现象绑定,并将其与相关但不同的主题相联系:功能绑定、意识的「难问题」以及意识统一性。研究定义了一个刻意简化的人工神经网络模型,以全面探究实现现象绑定的可行方案空间。研究表明,该模型能够实现功能绑定,但在维持无意识与意识加工关键区分的同时,无法实现现象绑定。作者利用这一设定结构化地梳理了基于模型组件拓展或问题要素否定的现象绑定可能解决方案。若干经典意识理论可映射至该解决方案结构,例如整合信息理论中节点聚合成复合体的机制、Orch-OR 理论中的纠缠坍缩,或意识电磁信息理论中场结构的运用。同时,作者也讨论了其他理论(如全局神经元工作空间理论与树突整合理论)可能采取的解决路径。然而当前每种解决方案均需进一步深入研究,这为学者提供了通过丰富现有理论以合理解释现象绑定的研究契机。
[2] 可逆无意识状态下脑电图微状态在宽带与典型频段内基于多聚体的动态特性
标题:Preserved temporal hierarchy but frequency-specific alterations in dynamical regimes of EEG microstate multimers during reversible unconsciousness
链接:https://www.sciencedirect.com/science/article/pii/S1053811926000996
作者:Chun-Yan Wang, Dong-Dong Zhou
单位:重庆医科大学
摘要:
本研究采用基于混沌博弈表征的光谱分析框架,探究了可逆无意识状态下脑电图微状态在宽带与典型频段内基于多聚体的动态特性。研究一致发现,在 θ、α、β 及 γ 波段微状态序列中持续涌现稳健的周期成分,这些成分在不同意识状态下均保持稳定。通过替代数据解构与分层生成模型重构的汇聚性证据共同表明,多聚体结构及其条件持续时间分布共同构成了微状态周期性的底层机制。进一步研究发现,时间平滑处理会消除这些固有周期成分。尤为重要的是,在深度镇静与 N3 睡眠阶段,β 波段微状态序列均呈现峰值功率上升与中心频率下降的同步变化,进而在 CGR 谱中形成高度特征性模式。为解析这些周期性的结构基础,研究开发了数据驱动的多聚体提取算法并计算其度量指标。研究识别出可逆无意识状态下多聚体动态存在频率依赖的特异性改变,提示向无意识状态的转换标志着特定动力学体制的转变。综合而言,本研究发现证实了微状态序列具有精确的时间编排特性。通过阐明微状态周期性的生成机制并建立基于多聚体的分析框架,本研究为探究高阶时间结构提供了坚实的方法学基础,同时为意识评估提供了具有前景的神经生理学生物标志,并为大规模神经动态的时间组织机制带来新见解。
[3] 自我诱导的超验幻视状态的神经现象学
标题:The Neurophenomenology of a Self-Induced Transcendental Visionary State: A Case Study
链接:https://www.sciencedirect.com/science/article/pii/S1053811926001023
作者:Gabriel Della Bella, Agustina Velez Picatto, Dante Sebastián Galván Rial, Sebastián Cukier, Gustavo Foa Torres, Magaly Catanzariti, Diego Mateos, Pedro Lamberti, Etzel Cardeña h, Pablo Barttfeld
单位:阿根廷国立科尔多瓦大学、埃尔萨尔德医院等
摘要:
非普通意识状态为探究大规模脑动态如何随体验改变而重组提供了研究窗口。本研究对一名能够可靠进入自我诱导型非普通意识状态的受试者展开研究,该状态以鲜明意象、身体感知改变与统一感为特征。通过 20 次功能磁共振成像会话,研究测量了四种条件下的功能连接,并将结果与匹配对照组进行比较。在状态转换阶段,功能连接变异性增强,表明网络组织出现暂时性失稳。在非普通意识状态下,网络间连接广泛减弱:视觉皮层与听觉、感觉运动、眶额、丘脑及小脑区域的耦合降低,躯体运动-背侧网络与听觉及语言皮层解耦,这些变化与受试者报告的视觉现象及身体体验改变相吻合。与之相对,额顶网络与显著性网络同楔前叶/后扣带回、多模态颞叶皮层及小脑枢纽的耦合增强,这与受试者主观报告的持续内导向注意及稳定沉浸体验相一致。熵与复杂度分析揭示了随体验序列发生系统性偏移并在残留态恢复至基线水平的动态模式。此项单案例研究汇集了多重要素:受控实验设计、自主诱导的非普通意识状态以及丰富的现象学数据。这些要素共同为神经现象学研究奠定了坚实基础,并揭示了将结构化范式与生活体验相结合对理解非普通意识状态的重要价值。
[4] 使用实时报告研究梦境中的视觉体验
标题:Using Real-time Reporting to Investigate Visual Experiences in Dreams
链接:https://doi.org/10.1162/JOCN.a.107
作者:Karen R. Konkoly, Saba Al-Youssef, Christopher Y. Mazurek, Remington Mallett, Daniel J. Morris, Ana Gales, Isabelle Arnulf, Delphine Oudiette, Ken A. Paller
单位:西北大学等
摘要:
人类梦境的神经科学研究长期受限于对觉醒后梦境回忆的依赖。例如,将脑电图特征与觉醒后梦境报告相关联存在诸多挑战:这些报告易受扭曲、遗忘及时间精度不足的影响。本研究采用实时报告方法,探究清醒视觉系统最稳健的特征之一——闭眼时 α 振荡增强——是否同样适用于人们梦见闭眼时的情景。研究纳入 13 名受试者(包括 4 名发作性睡病患者与 9 名非患者),这些受试者均具有多次清醒梦体验——即在保持睡眠状态下意识到自己正在做梦。他们通过一种创新的通讯技术,依据睡前的指令以特定的呼吸模式,报告梦境体验(视觉内容存在/缺失)与梦中眼睑状态(睁开/闭合)。研究者通过鼻导管呼吸记录仪捕捉这些生理信号,从而实现对快速眼动睡眠期间时间锁定的神经活动进行分析。在 19 次实验会话中,共记录到 11 名受试者的 150 个信号。数据显示,在报告梦眼闭合后并未出现显著的 α 功率增强。值得注意的是,梦中闭眼体验仅约半数情况伴随视觉内容消退。仅在三名受试者中实现了视觉内容存在与缺失的对比分析,结果显示 α 功率增强与视觉内容瞬时缺失相关。通过招募梦者以主动控制并报告实时梦境体验,这一方法为动态研究梦境——那些萦绕我们睡眠的虚幻知觉——开辟了新路径。
Mindverse Research
心识研究院
心识浩渺连广宇
心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。
欢迎有志者关注和加入我们的研究!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.