
作者 | 超对称技术
审校 | 赵赵
超对称公司成功在 BigBang-Proton 实现跨尺度跨结构的科学多任务学习,并从这个基础出发提出将科学多任务学习扩展到极限,就是将宇宙当做一个完整整体进行预训练,进而提出宇宙尺度压缩 Universe Compression 的构想。本文将从多个方面论证这个构想的科学基础,工程可行性,以及科学意义。
1 Scientific Multitask Learning 是通往宇宙尺度压缩的基石
传统的 LLM 开发的观点认为,DNA 序列、数学方程式、水质数据、粒子喷注、材料结构这多学科的数据相互比较差异太大,与自然语言相比差异更大,放在一起训练不可能收敛,loss 无法下降。BigBang-Proton 的预训练过程显示,高度异质的数据集在正确的表征和合适的架构上可以收敛,这就预示了跨尺度、跨结构、跨学科的数据集,在高维度 latent space 中可以产生迁移学习。
ChatGPT 展示“写出李清照风格的代码”以及 Dalle 画出“骑马的宇航员” 是典型的迁移学习的结果,在语言和艺术领域屡屡让人惊讶,但在科学领域迁移学习至今未有成功案例,原因就是科学领域的多任务学习 multitask learning 在预训练上没有进展。相比于语言和艺术,科学的迁移学习的价值要大得多。大脑的神经元是否发生了量子力学过程,研究这样的问题正需要多学科的迁移学习。
![]()
超对称团队将算术运算能力作为科学多任务学习的核心,因为实验结果主要是数值形式的。BigBang-Proton 验证了夸克衰变产生的粒子喷注、材料结构、水质、DNA 序列、传感器、股价、算术运算这些高度异质的数据集可以收敛,则将宇宙视为一个统一的实体来进行训练和推理就已经没有障碍。这样的科研范式融合了还原论和涌现轮两种方法论。
2 Scaling Law 的边界
在语言和专用科学多任务数据集上的预训练能够平滑收敛,这表明大语言模型(LLMs)的 scaling law 可以超越语言范畴,延伸至物理世界。那么 Scaling Law 的边界是什么?
柏拉图表征、数据空间流形与宇宙流形
Minyoung Huh 等作者提出柏拉图表征 Platonic Representation Hypothesis, 他们统计了数百个在不同深度网络架构和模态(图像和文本)上训练的 AI 模型,发现这些模型倾向于在其表征空间中收敛到一个相近的统计结果,这种统计结果是对现实的映射。他们假设这种收敛会到达一个理想化现实的表征,称为柏拉图表征(Platonic representation),这一术语参考了柏拉图在《理想国》中的洞穴寓言。
BigBang-Proton 在跨尺度跨结构跨学科预训练上的进展和柏拉图的表征相互印证。物质世界,或者说宇宙本身,构成了 platonic representation 中的理想化现实,而物理学、化学和生物学中的所有科学定律都是从特定视角对这一现实的统计反映。
物质世界是一个单一的、统一的实体,由于人类脑力和资源有限才将科学探索的对象划分为不同学科。宇宙起源于 137 亿年前的大爆炸,演化过程中不同尺度涌现出不同的物质结构,最终形成其当前状态,演化过程产生了人类文明,人类语言从中涌现并通过互联网被记录下来。在全部互联网数据上训练的主流 LLMs,仅捕获了嵌入在物质世界中的信息的一小部分。
与普遍认为由于可用互联网数据耗尽,基座 LLM 预训练已触及瓶颈的判断相反,超对称团队从 BigBang-Proton 的工作中得出结论:预训练的极限最终就是宇宙本身的极限。
由此超对称团队提出了柏拉图表征的宇宙和文明版本,即只要有足够的资源,在整个宇宙历史和人类文明所产生的全部数据上进行预训练单一模型,模型将收敛到一个植根于大爆炸和支配宇宙起源的基本定律的表征,即信息与物质的交汇点,因为我们今天所居住的物质世界正是从那个奇点衍生而来的。
![]()
图:宇宙尺度的预训练收敛到基本物理定律,从宇宙的演化和科学发展历史可看出来。超对称假设,在人类文明产生的完整数据上训练的模型倾向于收敛到基本自然定律,而在自然界和宇宙演化产生的完整数据上训练的模型倾向于收敛到基本物理定律。在一个从宇宙完整历史产生的数据上训练的单一模型,倾向于收敛到大爆炸时刻、奇点处的基本物理定律以及信息与物质的交汇点。
假设 1 自回归 LLMs 的缩放定律尚未触及瓶颈。LLMs 缩放的极限是宇宙的终极边界。LLMs 的缩放最终将收敛到大爆炸时刻的基本物理定律以及信息与物质的交汇点。
为什么我们所处的世界具有随机性和不确定性,所以我们需要用统计的工具来理解现实?现实的内在统计性质源于量子力学,起源于大爆炸期间的量子涨落。这些涨落驱动了跨越宇宙和物质尺度的层级结构形成。统计力学在不同的物质尺度之间架起桥梁,热力学熵揭示了概率分布如何构成物理系统中相变的基础。而和热力学熵平行的信息熵,则揭示了语言的结构源于概率分布。
从前沿物理学的视角,热力学熵和信息熵可以相互转换,给我们理解自然语言提供另一个角度。人类语言也是物质世界的一部分,语言的概率分布来自人类在物理世界活动形成一种模式,最终是空间、时间和能量等自由度的组合和波动在现实中的投射;字、词、语法、段落所包含的人类智能的逻辑,是从时空和能量的海量排列中涌现,形成的一个由自由能最小化支配的系统。从能量角度理解语言则能解释为什么 BigBang-Proton 在结合语言的多学科预训练能收敛。
LLMs 在预训练过程近似模拟总体语言概率分布,这些分布在数百万年的时间里被精炼,以编码时间、空间和能量关系。BigBang-Neutron 和 BigBang-Proton 的工作都表明,当映射到高维 latent space 时,这些语言分布与基本物理结构(如粒子对撞、材料晶体晶格、DNA 序列和水的时空模式)可紧密对齐。这种对齐使得语言引导的科学计算成为可能,并促进了科学领域间的迁移学习。这使得 LLMs 不仅仅是语言模式学习者,更可以延伸至物理世界来重构现实。
![]()
图 3:将多学科数据和自然语言投射到同一个 embedding space 中实现了收敛。训练收敛图中所示的收敛验证了自然语言和看似高度不同的科学领域共享一种相近的统计结果,其本质可能根植于量子力学和其他基本物理原理。这一见解启发超对称团队在构建表征和模型时将宇宙视为一个统一的实体。
深度学习中的流形假设 Manifold Hypothesis 可帮助我们进一步理解在整个宇宙数据上进行预训练如何收敛到基本物理定律,并实现跨领域表征迁移。该假设认为,当嵌入到高维环境空间 RD 中时,真实世界的数据会集中在远低于维度的流形 M 附近,这一说法得到了理论研究和实证研究的支持。
流形学习也在大语言模型中得到了研究。根据流形假设的联合,宇宙尺度预训练中跨任务、学科、空间尺度和物理结构的低维结构形成流形,并收敛到一个不连通流形的联合。这种流形的收敛可能对应于基本的宇宙流形,并与宇宙全息原理相一致。全息原理指出宇宙的完整物理描述可以从其边界表征中涌现。
早在 1989 年,物理学家约翰. 惠勒提出了著名的 It from Bit,即粒子无限细分的尽头是比特,而惠勒的学生贝肯斯坦和霍金研究黑洞辐射时提出了 Bekenstein Bound, 即黑洞熵的上限与表面积而非体积成正比。这启发了't Hooft 首次假设,在普朗克尺度下,3+1 时空维度会减为 2+1,即“世界即全息图”假说,此假说得到反德西特空间与共形场论(AdS/CFT)对应关系的支持,这属于量子引力的研究范畴。
而降维正是流形学习的一种基本能力的目标。在宇宙尺度数据进行预训练,模型可能学习到普朗克尺度的时空结构,并揭示量子引力层面的隐藏定律。这种时空结构学习远远超出当前基于图像学习的空间智能和世界模型范式。
贝肯斯坦的工作也启发了 computational universe 领域的研究,基本的概念是,物质和信息可以互相转换。物理学的前沿理论带来了哲学上的热潮,硅谷核心文化圈有一种哲学认为现实世界来自 simulation,深受哲学家 Nick Bostrom, 马斯克热追,以至于形成了 simulation 宗教的说法。
因此,用计算对整个宇宙进行模拟并不遥远,这是前沿物理学研究了接近半个世纪的课题,也具有深层的社会文化基础。而超对称公司提出用自回归 LLM 对物质世界进行压缩,是对 computational universe 和 simulation hypothesis 的一次实践。
考虑到物理约束,包括光速、自由度和 Bekenstein Bound,Lloyd 计算了宇宙的总信息容量。宇宙包含大约 1080 个重子,并且最多可以容纳 1090 比特的信息,当考虑引力时,最多可以执行 10120 次浮点逻辑运算。
Sutskever 引入了数据压缩和柯尔莫哥洛夫复杂度作为解释无监督学习泛化的数学形式主义。假设将宇宙中所有重子的自由度信息转换为一个二进制字符串。令 X=X1:N 为编码 M=1080 个重子的自由度 d (包括位置、动量和自旋,存储在 b 比特中)的二进制字符串,其中 N=M∗d∗b 通过以下方式生成:
X=L(Y,Π) 其中 L = 作为压缩算法的基座 LLM,Y = 基于尺度、结构和学科的完整科学知识作为约束,Π = 初始条件。 没有 Y 时,由完全随机重子组成的 X 接近最大熵:
Kunconstrained(X)∼N⋅Hmax≈I
其中 I 是来自全息原理的宇宙总信息熵界:
I=(ℏρc5t4)3/4≈1090 bits
使用宇宙学参数:ρ=10−27 kg/m3 ,t=4.35×1017 s , ℏρc5t4=≈10120。
I=(10120)3/4=1090 bits
当 Y 施加来自量子力学、广义相对论、流体动力学或蛋白质结构的约束,规定粒子如何相互作用和分布时,复杂度会急剧降低:
![]()
给定完整物理定律 Y 的条件柯尔莫哥洛夫复杂度 K(X∣Y) 满足:
![]()
其中 Hb(p)=−plogp−(1−p)log(1−p) 是二元熵函数。对于宇宙尺度的 N ,这简化为:
![]()
基本比率 K(X∣Y)/ I 可以作为科学发现的指标。由于将 LLM 预训练扩展到宇宙尺度将匹配宇宙的复杂性,当计算复杂度和问题可验证度都可通过一个统一模型可获得,这个模型也可能为 P 与 NP 问题提供一种新的理解。
宇宙尺度的压缩
在理论上,超对称团队提出了以下宇宙尺度压缩的计划,暂不考虑现实中计算资源和数据的挑战,以在一个二进制序列中重建物理世界。
首先,建立一个统一的时空框架,跨越宇宙、星系、地球到夸克尺度,将每个自由度置于一个一致的时空结构中。其次,整合人类科学探究在所有尺度、结构和学科上产生的所有理论和实验数据,这相当于整个可观测宇宙历史的总数据内容。最后,通过整合所有天然材料和人造物体及活动(包括建筑、城市、工厂、车辆、飞机以及经济、政治、战争等)的数据,从重子组分中重建地球和人类文明。BigBang-Proton 的创新为宇宙尺度数据的预训练提供了不可或缺的方法论。
二进制块编码为自然界和人类活动中的超复杂模态提供了一种简单、统一且有效的分词方法。理论 - 实验学习范式将由自然语言表示的理论知识与由数值数据表示的大规模实验数据相融合。Monte Carlo Attention 提供了与宇宙中重子数量 1080 相当的上下文长度。通过将宇宙视为一个单一、连贯的实体,并在宇宙尺度数据上预训练一个大型语言模型,可以推动科学发现的范式转变。这种方法将构建一个统一的高维表征空间,捕捉物理现实的全部复杂性,并实现跨尺度、结构和学科的深度类比的涌现。
这样的框架将揭示结构的同质性,例如对偶性、对称性和相变,这些现象从量子场到数和几何结构中反复出现,反映了数学、物理、化学和生物学中的深刻统一,例如朗兰兹纲领、波粒二象性、材料晶体和海洋流中的拓扑结构。在早期宇宙、超导体、生物大脑和 LLMs 中出现的相变和临界现象表明了一个共享的统计力学基础。
智能是宇宙演化产生的系统,反映了宇宙本身。如果不将智能置于宇宙演化的背景下,我们就无法理解智能的真正原因和底层机制。宇宙尺度压缩的收敛可以进一步揭示智能与物质世界和宇宙这个智能演化的大舞台之间深层次的关系。只有理解这种深层次的关系,我们才能真正意义创造出新的智能。
基于 BigBang-Proton 的工作和以上分析,超对称团队提出第二个假设。
假设 2 仅通过“下一个词预测”,就可以从微观粒子尺度重建宇宙中存在的任何物理结构。
这个假设推动超对称的下一步工作,即在一个具有增强语言推理能力的单一 BigBang 模型中模拟更复杂的物理结构,包括大爆炸核合成、核聚变、量子材料、虚拟细胞系统、地球系统、机器人技术和飞机。
开源链接:
https://arxiv.org/abs/2510.00129
https://github.com/supersymmetry-technologies/BigBang-Proton
https://huggingface.co/SuperSymmetryTechnologies/BigBang-Proton
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.