网易首页 > 网易号 > 正文 申请入驻

最新、最全大模型Latent Space综述,NUS、复旦、清华等联合出品

0
分享至



从 2024 年底的关于潜在空间的早期探索,再到 2025 年底和 2026 年初的相关研究爆发,潜空间范式正在彻底重塑大模型 (LLMs, VLMs, VLAs 等延伸模型) 的底层设计逻辑。

当大部分大模型还在依靠显式空间 (Explicit Space) 或者说语言空间 (Verbal Space) 完成时,一场底层的范式革命已经悄然发生:大模型的核心计算和操作,正在从人类可读的离散符号空间,转向机器原生的连续潜在空间 (Latent Space)。

这种转变是由显式空间计算的结构性局限性驱动的,包括语言冗余、离散化瓶颈、序列效率低下和语义损失等问题。越来越多的研究指出,许多关键的内部过程在 Latent Space 中执行比在人类可读的词元中执行更为自然且有效。然而,现有文献在机制、能力等方面仍然分散,缺乏对潜在空间的定义、分类和研究的统一视角,这阻碍了该领域的进一步发展和进步。



基于此,来自新加坡国立大学、复旦大学、清华大学、浙江大学等国内外顶级学术机构系统性地梳理了大模型潜空间研究的重磅综述《The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook》,尝试通过 “基础 — 演进 — 机制 — 能力 — 展望” 五大核心视角,构建起清晰的研究框架,为社区和后续的研究者提供了潜在空间的全景视角。



  • 论文标题:The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
  • 论文地址: https://arxiv.org/pdf/2604.02029
  • Github 地址: https://github.com/YU-deep/Awesome-Latent-Space

综述首先指出,当前针对潜在空间的综述研究仍存在明显局限:一方面,现有综述要么仅聚焦潜在推理 (Latent Reasoning) 这一细分分支展开探讨,要么仅将潜在空间作为附属小节简略阐述,未形成系统性的研究梳理;另一方面,多数综述对潜在空间的技术实现仅开展碎片化、不完整的分类,其分类框架已难以适配当前日益丰富的技术范式与多元化的应用场景。

基于此,该综述首先提出了五大核心问题:

  • Foundation: What is Latent Space? (基础)———— 什么是潜在空间?
  • Evolution: How Did Latent Space Develop? (演进)———— 对潜在空间的研究是如何发展?
  • Mechanism: How Does Latent Space Work? (机制)———— 潜在空间是如何作用的?
  • Ability: What Does Latent Space Enable? (能力)———— 潜在空间能实现什么能力?
  • Outlook: What is Next? (展望)———— 潜在空间的未来可能是什么样的?



基础:什么是大模型的潜在空间?

概念:

大模型的潜在空间,是模型内部通过学习形成的连续非离散的表征空间:在其中编码、处理文字背后的语义、语法、上下文关联等没有直接用文字 (token) 显式表达的隐含信息;这个空间还能拓展为统一的空间,用来处理多模态信息。



与显式空间的区别:

综述从两个角度进行对比,四大表征属性 (Representational Properties) :

  • 可读性(human-readable v.s. machine-native): 显式空间是人类能直接看懂的文字、分词符号;潜在空间是模型原生的高维向量,人类无法直接理解但包含更丰富表征。
  • 存在形式(discrete & sybolic v.s. Continuous & flexible): 显式空间是离散、固定的语言符号,有大量语法、衔接类冗余信息;潜在空间是连续、灵活的向量,只保留核心语义,剔除了语言冗余。
  • 效率(inefficient v.s. efficient): 显式空间需要逐词生成、反复转码,计算冗余高、速度慢;潜在空间直接在内部做向量运算,无额外转换开销,效率更高。
  • 语义保留程度(semantically lossy v.s. high fidelity): 显式空间把内部信息转成文字时,会丢失细粒度语义、模糊细节;潜在空间能完整保留高保真信息,还能承载文字无法表达的内容。

四大功能能力 (Functional Capabilities) :

  • 可操作性(Operability): 显式空间非连续不可微分,依赖词元级计算;潜在空间连续可微分,支持向量运算、语义精准操控等复杂操作。
  • 表达能力(Expressiveness): 显式空间仅能表达文字可描述的内容;潜在空间可处理高维 / 非语言信息,不受词汇语法限制,表达更全面。
  • 可扩展性(Scalability): 显式空间受文字序列限制,扩展性差;潜在空间依托向量特性,易适配长推理、多交互并拓展操作。
  • 泛化能力(Generalization): 显式空间受语言形式束缚,泛化能力较弱;潜在空间捕捉抽象语义规律,跨领域泛化性强。

演进:对潜在空间的研究是如何发展?



大模型潜在空间的研究发展,随大语言模型能力提升分为四个递进阶段,整体从 “验证想法” 逐步走向 “成熟落地、全面爆发”:

  • 原型阶段(2025 年 3 月前): 首次验证推理不必依赖自然语言,可改用模型内部连续向量完成。诞生了初代潜在推理框架,证明潜在空间能压缩冗余推理信息,但无系统理论、无统一评估标准,仅停留在概念验证。
  • 形成阶段(2025 年 4-7 月): 搭建理论根基,用数学证明潜在空间的表达与计算优势,优化技术方案;同时开始初步试水多模态领域,包括视觉、机器人具身等多模态方向,但仍以文本推理为主,应用场景单一、跨领域整合能力弱。
  • 拓展阶段(2025 年 8-11 月): 从纯文本全面拓展到多模态、多领域:视觉潜在推理、多智能体潜在通信、机器人行动规划全面铺开,技术走向成熟;随着研究的多样化,不同方向、领域、范式和应用不断拓展。
  • 爆发阶段(2025 年 12 月至今): 开始全面爆发,出现潜在模型专属模型架构,优化策略等方法,文本、视觉、行动、多智能体实现统一融合;潜在空间成为核心计算范式,各种潜在空间的技术范式和应用场景开始爆发。

机制:潜在空间是如何作用的?



潜空间的机制 (Mechanism) 是大模型将潜空间从理论概念落地为实际功能的底层技术框架,它围绕架构、表征、计算、优化四个相互协同的核心维度,完整拆解了潜空间在大模型中的全流程运作逻辑,分别解决潜空间如何嵌入模型结构、以何种形式承载信息、怎样开展信息运算、如何通过调优提升效果四大关键问题,是连接潜空间基础定义与实际能力的核心技术纽带,也是大模型实现潜空间高效运作、发挥各类进阶能力的底层技术支撑。

架构 (Architecture):

架构是潜空间在大模型中的结构集成方案,核心解决 “潜空间如何嵌入模型” 的问题,决定了潜计算的底层载体。它不改变模型核心逻辑,而是通过三种方式将潜空间融入结构:直接改造模型主干实现原生潜计算、加装插件模块实现潜功能扩展、借助外部辅助模型提供潜信号支持,最终让模型具备原生的潜空间运算基础,是潜空间落地的结构根基。

  • 主干内置(Backbone) : 直接改造模型主干,用参数共享、循环迭代、增强结构,让模型原生支持潜空间计算;
  • 插件组件(Component) : 不改动主干,加装生成、投影、对齐、控制、存储插件模块,实现潜空间功能;
  • 辅助模型(Auxiliary Model) : 用外部独立模型,给主模型提供监督信号 / 中间特征,辅助潜空间生成。

表征 (Representation):

表征是潜空间的信息承载形式,核心解决 “潜空间用何种载体处理信息” 的问题,定义了潜信息的表达范式。它依托模型内部激活、外部模块、可学习模块或混合方式生成潜载体,将离散的文本 token 转化为连续高维向量,既能复用模型原生隐状态、也能自定义可学习潜表示,是潜空间实现高保真、高效率信息表达的核心载体。



  • 内部表征(Internal) : 直接利用基础模型前向过程中产生的内部激活,包括隐状态、词嵌入、KV 缓存等,无需引入额外参数;
  • 外部表征(External) : 由预训练的外部模型生成潜信息,再注入基础模型,过程中外部模型保持冻结;
  • 可学习表征(Learnable) : 由嵌入的可训练模块 (如可学习 token、轻量适配器等) 生成潜信息,与基础模型端到端优化;
  • 混合表征(Hybrid) : 先由可学习模块构造潜信息,再作为外部信号注入基础模型,兼顾灵活与稳定。

计算 (Computation):

计算是潜空间的信息处理逻辑,核心解决 “潜空间如何运算和处理信息” 的问题,决定了潜计算的效率与能力上限。它通过压缩、扩展、自适应、交叉四种模式处理信息:压缩冗余信息降低算力、扩展算力提升表达、动态分配算力平衡效率、交错信息融合优势,让潜空间摆脱离散 token 的限制,实现灵活、高效、高带宽的内部运算。



  • 压缩计算(Compressed) : 压缩推理轨迹、缓存、多模态特征,减少信息,保留核心语义;
  • 扩展计算(Expanded) : 通过深度循环、宽度并行、结构拓展,增加潜空间算力,提升表达能力;
  • 自适应计算(Adaptive) : 按输入难度动态分配算力和计算进程,平衡效率和性能;
  • 交错计算(Interleaved) : 让显式 token 与潜信息交错、多模态交错、任务模块交错运算,混合发挥优势。

优化 (Optimization):

优化是潜空间的效果调优手段,核心解决 “如何优化潜空间运算” 的问题,覆盖模型全生命周期。它在预训练阶段让模型习得潜计算能力、后训练阶段精调潜空间适配任务、推理阶段实时修正潜状态,通过监督学习、蒸馏、强化学习等方式规范潜空间的几何结构与运算逻辑,持续提升潜空间的可靠性、可控性与泛化性。

  • 预训练阶段(Pre-training) : 模型随机初始化从头训,用自回归、辅助监督、强化学习,让模型天生具备潜计算能力;
  • 后训练阶段(Post-training) : 在预训练模型基础上,用显式输出监督、隐式蒸馏监督、强化学习,精调潜空间效果;
  • 推理阶段(Inference) : 在推理阶段直接缩放、调优、引导潜状态,实时优化潜在空间效果。

能力:潜在空间能实现什么能力?

潜在空间作为大模型机器原生的连续表征载体,突破了传统离散文本 token 的表达局限与计算瓶颈,不再局限于单一的文本推理,而是从能力 (Ability) 上全面解锁了覆盖推理、规划、建模、感知、记忆、协作、具身的七大核心智能能力,让模型在逻辑思考、多步决策、多模态理解、知识存储、智能体协同与实体交互等全场景中,实现效率、表达力与泛化性的全方位升级。



推理能力 (Reasoning):

潜在空间推理是指大型模型能够通过内部连续的表征,而非通过逐个词元的显式语言表达,来进行逻辑演绎、关系计算和结论生成。从显式 CoT 推理到潜在推理的转变代表着一种根本性的范式转变:模型不再需要用自然语言表达每一个中间步骤,而是学习在一个连续的高维潜在流形中思考。

这种范式在推理的能力方面具有显著优势,该综述将其归纳为六种能力:无需完全语言表达的隐式推理 (Implicit Inference)、将长链压缩成紧凑状态的紧凑轨迹 (Compact Trace)、以潜在形式维持和修正思维的连续迭代 (Continuous Refinement)、跨多个候选路径的分支路径 (Branching Path),以及超越纯文本设置的模态泛化 (Modal Generalization)。

规划能力 (Planning):

规划关注的是在解空间中寻找最优轨迹,其中潜在流形的连续性和可微性允许基于梯度的策略优化和迭代轨迹改进。

与侧重于在给定上下文中进行逻辑推理的推理不同,规划强调计算的前瞻性组织,确定资源的分配位置、探索解空间的方式以及何时终止搜索。

基于潜在空间的方法从四个方面优化了潜在规划:对内部解路径的可控探索 (Controllable Exploration)、在潜在流形中导航的高效搜索 (Efficient Search)、根据难度匹配计算资源的自适应算力 (Adaptive Budget),以及在下游交互式任务中的顺序决策 (Sequential Decision)。

建模能力 (Modeling):

建模涵盖了对大型语言模型中潜在表征进行刻画、检查和塑造的能力。推理和规划关注的是模型在潜在空间中计算的内容,而建模则侧重于潜在表征如何帮助我们理解和控制计算本身。

该综述将这一维度构建为四种能力的提升:用于编码复杂计算的丰富表达 (Rich Expression)、使内部状态可分析的自我检视 (Self Inspection)、针对风险或不稳定行为的鲁棒控制 (Robust Control),以及通过潜在递归扩展容量的可扩展计算 (Scalable Computation)。

感知能力 (Perception):

潜在空间感知旨在解决视觉语言模型的理解、表示和处理连续、高保真潜在空间中的视觉信息的根本挑战。当前的视觉语言模型仍然面临一个关键瓶颈:将丰富的视觉内容转换为离散的文本标记不可避免地会丢失空间结构、精细细节和关系几何信息。潜在感知通过保留离散标记化必然会破坏的密集空间结构信息来克服这一限制,使模型能够像人类感知一样,以丰富而微妙的方式对视觉内容进行推理。

潜在空间赋予了感知三个逐渐深入的高级能力:基于内部视觉表征的多模态推理 (Multimodal Inference)、用于生成式操作和三维理解的启发式想象 (Heuristic Imagination),以及通过表征层面的干预来提高输出保真度的忠实定位 (Faithful Grounding)。

记忆能力 (Memory):

记忆已成为大模型的必要补充,无状态架构需要外部机制来跨推理步骤保留知识。然而,基于标记的记忆也存在自身的瓶颈:将累积的上下文表示为离散序列会增加提示长度,降低检索保真度,并阻碍自适应记忆巩固所需的基于梯度的优化。潜在记忆通过将持久知识编码为连续向量来解决这一问题,从而实现紧凑的跨上下文保留,并具有更高的保真度和适应性。

在记忆层面,潜在空间的三种扩展能力有力地支撑了其成为记忆的媒介:用于缓存干预的工作记忆留存 (Working Retention)、用于自我演化知识存储的持久记忆演化 (Persistent Mind),以及跨视觉和具身模态的多模态记忆调取 (Multimodal Recall)。

协作能力 (Collaboration):

传统上,多智能体系统中的集体智能是通过自然语言来传递的。然而,语言本身就是一个固有的瓶颈:将内部表征压缩成离散的词元会丢失语义细微差别,增加通信延迟,并破坏联合优化所需的梯度路径。潜在协作通过使智能体能够交换连续表征来解决这些限制,从而保留更丰富的内部状态并支持更具表现力的集体协作形式。

潜在空间协作组织成三个递增的能力:用于通过潜在通道实现智能体间的无损状态传输的语义保真 (Semantic Fidelity),用于识别和演化跨智能体的共享思维结构的共享认知 (Shared Cognition),以及用于将协作扩展到不同的模型族和模态的异构互通 (Heterogeneous Interoperability)。

具身能力 (Embodiment):

具身智能体面临着一种数据瓶颈,这是任何纯粹语言领域都无法比拟的:物理多样性的每一次增加,例如新的硬件形态、视角和任务环境,都会使现有的标记演示失效,并迫使用户进行平台特定的重新训练,而这种模式无法直接迁移。潜在表征可以同时消除这些失效模式,使行为语义能够从未标记的视频中涌现,并使空间先验信息能够直接提炼成策略骨架,而无需额外的工具或重新标注。

潜在空间在具身领域的潜力可以归纳为五种递进的能力:用于从无标签视频中导出可迁移的动作表示无需具身化特定标签的无监督落地 (Unsupervised Grounding),用于将多步骤规划内化为连续的潜在计算而无需显式生成思维链的内隐思考 (Implicit Thinking),用于模拟未来状态以生成密集的训练信号并指导实时决策的预测前瞻 (Predictive Foresight),用于从 2D 观察重建 3D/4D 几何结构的空间认知 (Spatial Cognition),以及用于通过共享的与身体无关的基质来连接异构硬件形态的泛化迁移 (Generalized Transfer)。

展望:潜在空间的未来可能是什么样的?

核心定位:

潜空间是大模型的原生核心计算空间,并非附属功能,已从文本推理拓展到多模态、记忆、协作、具身智能等全场景,是下一代通用 AI 的核心范式。

现存挑战:

潜空间存在三大短板:难评估(中间计算过程不可见,无法验证推理合理性)、难控制(无法精准操控内部连续表征)、难解释(高维向量无直观语义,模型行为不可追溯)。

未来方向:

  • 搭建统一理论:明确潜空间计算原理、与显式空间的协作规则,建立标准评估体系;
  • 深耕多模态:打造文本、视觉、动作统一的原生潜计算空间;
  • 落地下游任务:用潜空间支撑推理、规划、机器人控制等下游场景;
  • 实现可控治理:让潜空间可观测、可管控,解决可信性与安全性问题。

结语

综上,该综述系统性填补了大模型潜在空间研究的碎片化空白,以 “基础 — 演进 — 机制 — 能力 — 展望” 五大视角构建完整研究框架,清晰剖析了潜空间从概念验证到全面爆发的演进路径与底层逻辑。作为大模型从显式符号向机器原生连续表征跨越的核心范式,潜空间已解锁多维度智能能力,虽仍面临挑战,但仍然具有极大潜力,该综述为后续研究奠定坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长三角楼市迎来小阳春:南京连夜排队抢房,杭州土拍“四月开门红”

长三角楼市迎来小阳春:南京连夜排队抢房,杭州土拍“四月开门红”

界面新闻
2026-04-13 08:01:02
两位火箭旧将同时登陆CBA!戴申入山西 托弗签深圳

两位火箭旧将同时登陆CBA!戴申入山西 托弗签深圳

体坛周报
2026-04-13 15:28:13
演员文章在上海开陕西面馆,菜品价格引热议!门口排队超30米,有人从下午排到晚上也没排上,文章道歉:正精进服务和效率,请见谅

演员文章在上海开陕西面馆,菜品价格引热议!门口排队超30米,有人从下午排到晚上也没排上,文章道歉:正精进服务和效率,请见谅

极目新闻
2026-04-13 17:55:21
放弃纳格尔斯曼!曼联接触顶级名帅,直接升级卡里克

放弃纳格尔斯曼!曼联接触顶级名帅,直接升级卡里克

奶盖熊本熊
2026-04-13 05:38:17
不踢球却统治足球!美国资本血洗欧洲足坛:百年规则,我说改就改

不踢球却统治足球!美国资本血洗欧洲足坛:百年规则,我说改就改

曾蠃爱旅行
2026-04-13 07:40:22
特朗普威胁若中国为伊朗提供军事装备将加征50%关税,外交部回应:关税战没有赢家

特朗普威胁若中国为伊朗提供军事装备将加征50%关税,外交部回应:关税战没有赢家

潇湘晨报
2026-04-13 16:43:15
世体:小罗在巴黎时比赛前一晚去酒吧,至今仍不愿谈时任主帅

世体:小罗在巴黎时比赛前一晚去酒吧,至今仍不愿谈时任主帅

懂球帝
2026-04-13 18:14:05
我们并没有用40年走完发达国家200年的路

我们并没有用40年走完发达国家200年的路

文青大叔说
2026-03-13 08:13:38
郑丽文回到台湾后,侯友宜不装了,卢秀燕表态,柯文哲深夜发声

郑丽文回到台湾后,侯友宜不装了,卢秀燕表态,柯文哲深夜发声

梁讯
2026-04-13 09:19:05
北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

嘉琪Feel
2025-07-09 23:05:01
网盘禁止分享美剧?天塌了

网盘禁止分享美剧?天塌了

来看美剧
2026-04-12 16:08:02
欧尔班败选:特朗普输了,普京输了,欧盟也输了,泽连斯基赢了?

欧尔班败选:特朗普输了,普京输了,欧盟也输了,泽连斯基赢了?

一口娱乐
2026-04-13 17:02:49
八国联军中,有七国主动退还赔款,唯独一国分文不退,是哪个?

八国联军中,有七国主动退还赔款,唯独一国分文不退,是哪个?

千秋文化
2025-03-28 10:37:53
空乘人员和郑丽文同框出镜,真是太美了!

空乘人员和郑丽文同框出镜,真是太美了!

达文西看世界
2026-04-12 09:39:42
男子醉酒叫代驾被送至村口,凌晨被发现在车内死亡!家属索赔30万,代驾师徒被判赔5.7万

男子醉酒叫代驾被送至村口,凌晨被发现在车内死亡!家属索赔30万,代驾师徒被判赔5.7万

红星新闻
2026-04-13 11:12:40
西班牙首相突然出现在小米总部,拉雷军自拍还夸了天际屏

西班牙首相突然出现在小米总部,拉雷军自拍还夸了天际屏

硬核玩家2哈
2026-04-13 16:55:21
对华友好的匈牙利一夜变天,美俄出手都没能保住欧尔班

对华友好的匈牙利一夜变天,美俄出手都没能保住欧尔班

奇思妙想生活家
2026-04-13 17:27:39
西班牙首相和夫人逛北京什刹海,夫人穿七分裤超精致优雅

西班牙首相和夫人逛北京什刹海,夫人穿七分裤超精致优雅

点点细语
2026-04-13 09:44:52
发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

二胡的岁月如歌
2026-04-13 08:04:02
深圳95后小伙“手搓”火箭升空3.7公里,父亲:儿子在家做实验发生事故受伤,但也没放弃梦想

深圳95后小伙“手搓”火箭升空3.7公里,父亲:儿子在家做实验发生事故受伤,但也没放弃梦想

极目新闻
2026-04-12 23:01:44
2026-04-13 20:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12751文章数 142624关注度
往期回顾 全部

艺术要闻

22位中国当代名家油画作品

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

起底AI"造黄"灰产:19.9元"一键脱衣"

科技要闻

"抄作业"近四年,马斯克版微信周五上线

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

游戏
艺术
手机
健康
军事航空

索尼重量级大作来了!顽皮狗全新IP首曝 2027年时间定了

艺术要闻

22位中国当代名家油画作品

手机要闻

上市一年,华为Pura X阔折叠手机出货量突破150万台

干细胞抗衰4大误区,90%的人都中招

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版