![]()
本周主要内容:记忆增强生成 LightMem、DeepSeek-OCR、高级长上下文推理的数据驱动强化学习、视觉上下文缩放框架 Glyph、分布式内稳态系统、皮质大脑状态的同步化与异步化状态、内部心理模型与意识、大脑受扰动后的时空复杂性
AGI 每周速递
[1] LightMem:轻量级高效的记忆增强生成
标题:LightMem: Lightweight and Efficient Memory-Augmented Generation
链接:https://www.arxiv.org/abs/2510.18866v1
作者:Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang
单位:浙江大学、新加坡国立大学
摘要:
尽管大型语言模型(LLM)具备卓越能力,但在动态复杂环境中仍难以有效利用历史交互信息。记忆系统通过引入持久化信息存储、检索与利用机制,使 LLM 能够突破无状态交互的限制。然而,现有记忆系统常伴随显著的时间与计算开销。为此,研究者提出新型记忆系统 LightMem,在记忆系统性能与效率之间实现优化平衡。受人类记忆的阿特金森-谢夫林模型启发,LightMem 将记忆组织为三个互补阶段:首先,认知启发的感官记忆通过轻量级压缩快速过滤无关信息,并按主题对信息进行聚类;其次,主题感知的短时记忆对聚类结果进行巩固,通过结构化组织与内容摘要提升信息访问效率;最后,采用睡眠时更新的长时记忆机制,通过离线处理将记忆巩固与在线推理解耦。基于 GPT 与 Qwen 架构在 LongMemEval 上的实验表明,LightMem 在准确率上超越强基线方法(最高提升 10.9%),同时显著降低资源消耗:token 使用量减少最高达 117 倍,API 调用次数降低最高达 159 倍,运行时间缩短超过 12 倍。相关代码已发布:https://github.com/zjunlp/LightMem
[2] DeepSeek-OCR:上下文视觉压缩模型
标题:DeepSeek-OCR: Contexts Optical Compression
链接:https://www.arxiv.org/abs/2510.18234v1
作者:Haoran Wei, Yaofeng Sun, Yukun Li
单位: DeepSeek-AI
摘要:
研究者提出 DeepSeek-OCR,这是对通过视觉二维映射压缩长上下文可行性的初步探索。该系统由两大核心组件构成:DeepEncoder 编码器与基于 DeepSeek3B-MoE-A570M 的解码器。其中,DeepEncoder 作为核心引擎,其设计目标是在高分辨率输入下保持低激活状态,同时实现高压缩比,以确保视觉 token 数量处于最优可控范围。
实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍时(即压缩比<10倍),模型可实现 97% 的解码(OCR)准确率;即使压缩比达到 20 倍,OCR 准确率仍能维持在约 60% 水平。这一结果在历史长上下文压缩、大型语言模型记忆遗忘机制等研究方向展现出显著潜力。此外,DeepSeek-OCR 还表现出突出的实用价值:在 OmniDocBench 基准测试中,仅使用 100 个视觉 token 即超越 GOT-OCR2.0(每页 256 token)的表现,并以少于 800 个视觉 token 的代价优于 MinerU2.0(平均每页 6000+ token)。在实际应用中,单张 A100-40G 显卡可支持 DeepSeek-OCR 每日生成超过 20 万页面向 LLM/VLM 的训练数据。代码与模型权重已公开发布:http://github.com/deepseek-ai/DeepSeek-OCR
[3] LoongRL:用于长上下文高级推理的强化学习
标题:LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts
链接:https://www.arxiv.org/abs/2510.19363v1
作者:Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang
单位:微软亚洲研究院、上海交通大学、卡内基·梅隆大学
摘要:
长上下文推理能力对大型语言模型至关重要。尽管强化学习(RL)通过激发思维链中的「顿悟时刻」来增强短上下文推理,但长上下文推理所需的高级思维模式仍待探索,且高质量 RL 训练数据稀缺。本研究提出 LoongRL——一种面向高级长上下文推理的数据驱动强化学习方法。其核心创新在于 KeyChain 合成方法:通过插入 UUID 链将短文本多跳问答任务转化为高难度长上下文任务,将真实问题隐藏于大量干扰文档中。解决此类任务要求模型逐步追踪正确链条、识别真实问题、检索相关事实并进行推理作答。基于 KeyChain 数据的强化学习训练可诱导模型涌现「计划-检索-推理-复核」的推理模式,该模式展现出远超训练长度的泛化能力:在 16K 长度训练的模型可有效解决 128K 任务,且无需承担全长 RL 训练的高昂成本。在 Qwen2.5-7B 与 14B 模型上的实验表明,LoongRL 将长上下文多跳问答准确率分别提升 23.5% 与 21.1%。最终训练的 LoongRL-14B 模型达到 74.2 的综合评分,与规模更大的前沿模型(如 o3-mini 的 74.5 分和 DeepSeek-R1 的 74.9 分)表现相当。该模型同时提升了长上下文检索能力,通过全部 128K needle-in-a-haystack 压力测试,并完整保留短上下文推理性能。
[4] Glyph:通过视觉文本压缩缩放上下文窗口
标题:Glyph: Scaling Context Windows via Visual-Text Compression
链接:https://www.arxiv.org/abs/2510.17800v2
作者:Jiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongning Wang, Minlie Huang
单位:清华大学、智谱
摘要:
随着大型语言模型(LLM)在文档理解、代码分析与多步推理等任务中日益依赖长上下文建模,将上下文窗口扩展至百万 token 级别却会带来极高的计算与内存成本,限制了长上下文 LLM 的实际应用。本研究另辟蹊径,提出通过视觉上下文缩放应对这一挑战。研究者开发 Glyph 框架,该框架将长文本渲染为图像后交由视觉语言模型(VLM)处理,而非直接扩展基于 token 的序列。该方法在保持语义信息的前提下显著压缩文本输入,并进一步设计基于 LLM 驱动的遗传搜索算法,以寻找平衡准确率与压缩率的最优视觉渲染配置。大量实验表明,该方法在多种长上下文基准测试中实现 3-4 倍的 token 压缩率,同时保持与 Qwen3-8B 等主流 LLM 相当的准确率。这种压缩同时带来约 4 倍的预填充与解码加速,以及约 2 倍的监督微调训练提速。在极端压缩条件下,128K 上下文的 VLM 可扩展至处理百万 token 级别的文本任务。此外,经过渲染的文本数据还能提升文档理解等现实多模态任务的性能。研究代码与模型已发布:https://github.com/thu-coai/Glyph
意识科学 每周速递
[1] 重要的不是思维:稳态是大脑功能的核心
标题:It’s not the thought that counts: Allostasis at the core of brain function
链接:https://www.cell.com/neuron/fulltext/S0896-6273%2825%2900716-0
作者:Jordan E. Theriault, Yuta Katsumi, Henning M. Reimann, Jiahe Zhang, Philip Deming, Bradford C. Dickerson, Karen S. Quigley, Lisa Feldman Barrett
单位:东北大学、麻省总医院
摘要:
在心理学与神经科学领域,科学问题常以心理活动(如认知、情绪、感知)为框架进行探讨;然而,大脑作为一个器官,具有其独特的、不可替代的功能。越来越多的证据表明,这一功能正是「内稳态调节」——即通过预测性机制协调身体内部系统的竞争性需求。本文综述了关于分布式内稳态系统的证据,该系统不仅组织全脑信号传递、支撑心理现象的形成,更将身体调节置于大脑结构的核心位置。研究者进一步以阿尔茨海默病为例,展示「内稳态优先」视角如何转变神经健康与疾病研究中的假设生成范式。总体而言,将大脑主要功能归结为思维或其他认知过程的传统观点可能具有误导性,神经科学或需建立以「大脑如何协调并高效调节身体」这一基本问题为核心的理论体系。
[2] 皮质大脑状态的多尺度动态表征:从同步到异步
标题:Multiscale dynamical characterization of cortical brain states: from synchrony to asynchrony
链接:https://arxiv.org/abs/2510.05815
作者:Maria V. Sanchez-Vives, Arnau Manasanch, Andrea Pigorini, Alessandro Arena, Alessandra Camassa, Bjørn Erik Juel, Leonardo Dalla Porta, Cristiano Capone, Chiara De Luca, Giulia De Bonis, Jennifer Goldman, Maria Sacha, Andrea Galluzzi, Antonio Pazienti, Ezequiel Mikulan, Johann F Storm, Pier Stanislao Paolucci, Marcello Massimini, Maurizio Mattia, Alain Destexhe
单位:奥古斯特·皮伊·苏涅尔生物医学研究、加泰罗尼亚高级研究所、米兰大学等
摘要:
大脑皮层会自发呈现不同的活动模式,这些模式根据大脑状态随时间演化。睡眠、清醒、静息状态及注意等众多生理状态,均可由同一结构网络支撑形成;此外,药物作用(如不同麻醉深度)或病理状态(如脑部病变、意识障碍)也会诱发其他特殊状态。尽管在过去二十年中,理解大脑状态与脑动力学及行为关联的重要性日益凸显,但关于大脑状态的统一定义仍尚未建立。本综述聚焦于该谱系中的两个极端状态:同步化与异步化状态。尽管存在例外情况,但这两种功能状态分别构成了无意识与意识活动的主要基础。研究者致力于整合从局部环路到全脑动力学的多尺度数据,涵盖皮层复杂性、功能连接、同步化、波传播及兴奋-抑制平衡等随状态变化的核心特性,以构建系统化的理解框架。与所述脑状态相关的实验及临床数据,以及微观、介观与宏观皮层层面的计算模型,均将向读者开放获取。
[3] 通过内部探索获得意识:从概念和神经生物学层面理解心理治疗
标题:Becoming Aware Through Internal Exploration: Understanding Psychotherapy on Conceptual and Neurobiological Levels
链接:https://journals.sagepub.com/doi/full/10.1177/17456916251378430
作者:Nick Kabrel and Jaan Aru
单位:苏黎世大学、塔尔图大学
摘要:
意识到自身心理与行为挑战中先前未被识别的方面,是促成积极心理治疗改变的核心机制之一。然而,对新领悟产生的具体神经认知过程,学界仍知之甚少。在个体的心智与大脑中,需要发生何种变化才能催生这种意识?本研究提出一个新颖、细致且基于过程的理论框架,用以阐释心理治疗对话中新意识如何产生。该框架的核心是「心理导航」与「认知地图扩展」这两个概念,研究团队从概念层面与神经科学层面进行了双重阐释。具体而言,个体以认知地图的形式构建内部世界模型,而心理健康问题可能反映了这些地图过于僵化或狭窄。因此,治疗性改变可能涉及通过心理导航超越现有边界,在概念与神经活动空间中形成新轨迹,从而实现认知地图的扩展。最后,研究探讨了该模型对临床实践的启示,并提出了实证验证这一理论的方向。
[4] 时空大脑复杂性量化扰动范式之外的意识
标题:Spatiotemporal brain complexity quantifies consciousness outside of perturbation paradigms
链接:https://elifesciences.org/articles/98920
作者:Martin Breyton, Jan Fousek, Giovanni Rabuffo, Pierpaolo Sorrentino, Lionel Kusch, Marcello Massimini, Spase Petkoski, Viktor Jirsa
单位:艾克斯-马赛大学、中欧技术研究所、米兰大学
摘要:
意识活动的特征体现于神经元活动的频谱特性与时间动力学属性之中。其中,大脑受扰动后产生的时空复杂性近期已成为推断意识水平的稳健指标。然而,扰动范式在常规应用中仍存在操作困难。为探索替代性范式与测量指标,研究团队系统性地考察了全脑模型中的脑刺激与静息态活动。研究发现,仅当大脑模型运行于特定动力学状态时才会出现扰动复杂性——该状态下自发活动会引发大规模功能网络重组,此特性被定义为「脑流体性」。高脑流体性状态可通过一组源自动力系统理论的指标进行表征,并能预测意识改变药物(氙气、丙泊酚与氯胺酮)的作用效果。研究在 15 名处于不同意识状态的受试者队列中验证了这些预测指标,证明其与既往报道的扰动复杂性结果一致,但采用了更易于实施的实验范式。这些指标不仅为临床实践提供便利,更揭示了支撑意识涌现的脑动力学复杂性特征。
Mindverse Research
心识研究院
心识浩渺连广宇
心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。
欢迎有志者关注和加入我们的研究!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.