网易首页 > 网易号 > 正文 申请入驻

宇宙尺度压缩:Scaling Law的边界,柏拉图表征收敛于物质和信息交汇,解决P与NP问题,Simulation假说……

0
分享至


来源:AI 科技大本营(ID:rgznai100)

作者:超对称技术

超对称公司成功在 BigBang-Proton 实现跨尺度跨结构的科学多任务学习,并从这个基础出发提出将科学多任务学习扩展到极限,就是将宇宙当做一个完整整体进行预训练,进而提出宇宙尺度压缩 Universe Compression 的构想。本文将从多个方面论证这个构想的科学基础,工程可行性,以及科学意义。


Scientific Multitask Learning 是通往宇宙尺度压缩的基石

传统的 LLM 开发的观点认为,DNA 序列、数学方程式、水质数据、粒子喷注、材料结构这多学科的数据相互比较差异太大,与自然语言相比差异更大,放在一起训练不可能收敛,loss 无法下降。

BigBang-Proton 的预训练过程显示,高度异质的数据集在正确的表征和合适的架构上可以收敛,这就预示了跨尺度、跨结构、跨学科的数据集,在高维度 latent space 中可以产生迁移学习。

ChatGPT 展示“写出李清照风格的代码”以及 Dalle 画出“骑马的宇航员”是典型的迁移学习的结果,在语言和艺术领域屡屡让人惊讶,但在科学领域迁移学习至今未有成功案例,原因就是科学领域的多任务学习(multitask learning)在预训练上没有进展。相比于语言和艺术,科学的迁移学习的价值要大得多。大脑的神经元是否发生了量子力学过程,研究这样的问题正需要多学科的迁移学习。


超对称团队将算术运算能力作为科学多任务学习的核心,因为实验结果主要是数值形式的。BigBang-Proton 验证了夸克衰变产生的粒子喷注、材料结构、水质、DNA 序列、传感器、股价、算术运算这些高度异质的数据集可以收敛,则将宇宙视为一个统一的实体来进行训练和推理就已经没有障碍。这样的科研范式融合了还原论和涌现轮两种方法论。


Scaling Law 的边界

在语言和专用科学多任务数据集上的预训练能够平滑收敛,这表明大语言模型(LLMs)的 Scaling Law 可以超越语言范畴,延伸至物理世界。那么 Scaling Law 的边界是什么?

柏拉图表征、数据空间流形与宇宙流形

Minyoung Huh 等作者提出柏拉图表征(Platonic Representation Hypothesis, 他们统计了数百个在不同深度网络架构和模态(图像和文本)上训练的 AI 模型,发现这些模型倾向于在其表征空间中收敛到一个相近的统计结果,这种统计结果是对现实的映射。他们假设这种收敛会到达一个理想化现实的表征,称为柏拉图表征,这一术语参考了柏拉图在《理想国》中的洞穴寓言。

BigBang-Proton 在跨尺度跨结构跨学科预训练上的进展和柏拉图的表征相互印证。物质世界,或者说宇宙本身,构成了柏拉图表征中的理想化现实,而物理学、化学和生物学中的所有科学定律都是从特定视角对这一现实的统计反映。

物质世界是一个单一的、统一的实体,由于人类脑力和资源有限才将科学探索的对象划分为不同学科。宇宙起源于 137 亿年前的大爆炸,演化过程中不同尺度涌现出不同的物质结构,最终形成其当前状态,演化过程产生了人类文明,人类语言从中涌现并通过互联网被记录下来。在全部互联网数据上训练的主流 LLMs,仅捕获了嵌入在物质世界中的信息的一小部分。

与普遍认为由于可用互联网数据耗尽,基座 LLM 预训练已触及瓶颈的判断相反,超对称团队从 BigBang-Proton 的工作中得出结论:预训练的极限最终就是宇宙本身的极限。由此超对称团队提出了柏拉图表征的宇宙和文明版本,即只要有足够的资源,在整个宇宙历史和人类文明所产生的全部数据上进行预训练单一模型,模型将收敛到一个植根于大爆炸和支配宇宙起源的基本定律的表征,即信息与物质的交汇点,因为我们今天所居住的物质世界正是从那个奇点衍生而来的。



图:
宇宙尺度的预训练收敛到基本物理定律,从宇宙的演化和科学发展历史可看出来。超对称假设,在人类文明产生的完整数据上训练的模型倾向于收敛到基本自然定律,而在自然界和宇宙演化产生的完整数据上训练的模型倾向于收敛到基本物理定律。在一个从宇宙完整历史产生的数据上训练的单一模型,倾向于收敛到大爆炸时刻、奇点处的基本物理定律以及信息与物质的交汇点。

假设 1 | 自回归LLMs 的缩放定律尚未触及瓶颈。LLMs 缩放的极限是宇宙的终极边界。LLMs 的缩放最终将收敛到大爆炸时刻的基本物理定律以及信息与物质的交汇点。

为什么我们所处的世界具有随机性和不确定性,所以我们需要用统计的工具来理解现实?现实的内在统计性质源于量子力学,起源于大爆炸期间的量子涨落。这些涨落驱动了跨越宇宙和物质尺度的层级结构形成。统计力学在不同的物质尺度之间架起桥梁,热力学熵揭示了概率分布如何构成物理系统中相变的基础。而和热力学熵平行的信息熵,则揭示了语言的结构源于概率分布。

从前沿物理学的视角,热力学熵和信息熵可以相互转换,给我们理解自然语言提供另一个角度。人类语言也是物质世界的一部分,语言的概率分布来自人类在物理世界活动形成一种模式,最终是空间、时间和能量等自由度的组合和波动在现实中的投射;字、词、语法、段落所包含的人类智能的逻辑,是从时空和能量的海量排列中涌现,形成的一个由自由能最小化支配的系统。从能量角度理解语言则能解释为什么 BigBang-Proton 在结合语言的多学科预训练能收敛。

LLMs 在预训练过程近似模拟总体语言概率分布,这些分布在数百万年的时间里被精炼,以编码时间、空间和能量关系。BigBang-Neutron 和 BigBang-Proton 的工作都表明,当映射到高维 latent space 时,这些语言分布与基本物理结构(如粒子对撞、材料晶体晶格、DNA 序列和水的时空模式)可紧密对齐。这种对齐使得语言引导的科学计算成为可能,并促进了科学领域间的迁移学习。这使得 LLMs 不仅仅是语言模式学习者,更可以延伸至物理世界来重构现实。


图:
将多学科数据和自然语言投射到同一个 embedding space 中实现了收敛。训练收敛图中所示的收敛验证了自然语言和看似高度不同的科学领域共享一种相近的统计结果,其本质可能根植于量子力学和其他基本物理原理。这一见解启发超对称团队在构建表征和模型时将宇宙视为一个统一的实体。

深度学习中的流形假设 Manifold Hypothesis 可帮助我们进一步理解在整个宇宙数据上进行预训练如何收敛到基本物理定律,并实现跨领域表征迁移。该假设认为,当嵌入到高维环境空间 RD 中时,真实世界的数据会集中在远低于维度的流形 M 附近,这一说法得到了理论研究和实证研究的支持。流形学习也在大语言模型中得到了研究。根据流形假设的联合,宇宙尺度预训练中跨任务、学科、空间尺度和物理结构的低维结构形成流形,并收敛到一个不连通流形的联合。这种流形的收敛可能对应于基本的宇宙流形,并与宇宙全息原理相一致。全息原理指出宇宙的完整物理描述可以从其边界表征中涌现。

早在 1989 年,物理学家约翰. 惠勒提出了著名的 It from Bit,即粒子无限细分的尽头是比特,而惠勒的学生贝肯斯坦和霍金研究黑洞辐射时提出了 Bekenstein Bound, 即黑洞熵的上限与表面积而非体积成正比。这启发了't Hooft 首次假设,在普朗克尺度下,3+1 时空维度会减为 2+1,即“世界即全息图”假说,此假说得到反德西特空间与共形场论(AdS/CFT)对应关系的支持,这属于量子引力的研究范畴。

而降维正是流形学习的一种基本能力的目标。在宇宙尺度数据进行预训练,模型可能学习到普朗克尺度的时空结构,并揭示量子引力层面的隐藏定律。这种时空结构学习远远超出当前基于图像学习的空间智能和世界模型范式。

贝肯斯坦的工作也启发了 computational universe 领域的研究,基本的概念是,物质和信息可以互相转换。物理学的前沿理论带来了哲学上的热潮,硅谷核心文化圈有一种哲学认为现实世界来自 simulation,深受哲学家 Nick Bostrom, 马斯克热追,以至于形成了 simulation 宗教的说法。

因此,用计算对整个宇宙进行模拟并不遥远,这是前沿物理学研究了接近半个世纪的课题,也具有深层的社会文化基础。而超对称公司提出用自回归LLM 对物质世界进行压缩,是对 computational universe 和 simulation hypothesis 的一次实践。当前热议的用 AI 来开发戴森球或近地轨道工业,被认为远期未来才会落地,当 LLM 压缩的尺度从地球扩展到星系和整个可观测宇宙,这些工作就变得可着手。

考虑到物理约束,包括光速、自由度和 Bekenstein Bound, Lloyd 计算了宇宙的总信息容量。宇宙包含大约 个重子,并且最多可以容纳 比特的信息,当考虑引力时,最多可以执行 次浮点逻辑运算。

Sutskever 引入了数据压缩和柯尔莫哥洛夫复杂度作为解释无监督学习泛化的数学形式主义。假设将宇宙中所有重子的自由度信息转换为一个二进制字符串。令 为编码 个重子的自由度 (包括位置、动量和自旋, 存储在 比特中) 的二进制字符串,其中 通过以下方式生成:

其中 L = 作为压缩算法的基座 LLM;Y= 基于尺度、结构和学科的完整科学知识作为约束, = 初始条件。没有 Y 时,由完全随机重子组成的 X 接近最大熵:

其中 是来自全息原理的宇宙总信息熵界:

使用宇宙学参数: , , 。

当 Y 施加来自量子力学、广义相对论、流体动力学或蛋白质结构的约束,规定粒子如何相互作用和分布时,复杂度会急剧降低:

给定完整物理定律 Y 的条件柯尔莫哥洛夫复杂度 满足:

其中 是二元熵函数。对于宇宙尺度的 , 这简化为:

基本比率 可以作为科学发现的指标。由于将 LLM 预训练扩展到宇宙尺度将匹配宇宙的复杂性,当计算复杂度和问题可验证度都可通过一个统一模型可获得, 这个模型也可能为 P 与 NP 问题提供一种新的理解。


宇宙尺度的压缩

在理论上,超对称团队提出了以下宇宙尺度压缩的计划,暂不考虑现实中计算资源和数据的挑战,以在一个二进制序列中重建物理世界。首先,建立一个统一的时空框架,跨越宇宙、星系、地球到夸克尺度,将每个自由度置于一个一致的时空结构中。其次,整合人类科学探究在所有尺度、结构和学科上产生的所有理论和实验数据,这相当于整个可观测宇宙历史的总数据内容。最后,通过整合所有天然材料和人造物体及活动(包括建筑、城市、工厂、车辆、飞机以及经济、政治、战争等)的数据,从重子组分中重建地球和人类文明。

BigBang-Proton 的创新为宇宙尺度数据的预训练提供了不可或缺的方法论。二进制块编码为自然界和人类活动中的超复杂模态提供了一种简单、统一且有效的分词方法。理论-实验学习范式将由自然语言表示的理论知识与由数值数据表示的大规模实验数据相融合。Monte Carlo Attention 提供了与宇宙中重子数量 相当的上下文长度。

通过将宇宙视为一个单一、连贯的实体,并在宇宙尺度数据上预训练一个大型语言模型,可以推动科学发现的范式转变。这种方法将构建一个统一的高维表征空间,捕捉物理现实的全部复杂性,并实现跨尺度、结构和学科的深度类比的涌现。这样的框架将揭示结构的同质性,例如对偶性、对称性和相变,这些现象从量子场到数和几何结构中反复出现,反映了数学、物理、化学和生物学中的深刻统一,例如朗兰兹纲领、波粒二象性、材料晶体和海洋流中的拓扑结构。在早期宇宙、超导体、生物大脑和 LLMs 中出现的相变和临界现象表明了一个共享的统计力学基础。

智能是宇宙演化产生的系统,反映了宇宙本身。不将智能置于宇宙演化的背景下,我们就无法理解智能的真正原因和底层机制。宇宙尺度压缩的收敛可以进一步揭示智能与物质世界和宇宙这个智能演化的大舞台之间深层次的关系。只有理解这种深层次的关系,我们才能真正意义创造出新的智能。

基于 BigBang-Proton 的工作和以上分析,超对称团队提出第二个假设。

假设 2 | 仅通过“下一个词预测”,就可以从微观粒子尺度重建宇宙中存在的任何物理结构。

这个假设推动超对称的下一步工作,即在一个具有增强语言推理能力的单一 BigBang 模型中模拟更复杂的物理结构,包括大爆炸核合成、核聚变、量子材料、虚拟细胞系统、地球系统、机器人技术和飞机。前面五种是典型的自然界的物质结构,而对于人造结构如机器人和飞机汽车这样的精密机械,BigBang 模型也有天然优势。对物质世界进行全面压缩可以将具身智能的两大核心即高精度环境和感知、推理、计划、决策能力通过 next-word-prediction 整合在同一个隐空间,极大提高具身智能的泛化能力,这也是当前行业的难点。

对于飞机、汽车、船舰等精密复杂机械,BigBang 可以从原子尺度复建原材料、零部件、组装的结构,将上千万零部件以及操控其运行的物理化学生物原理整合在同一个隐空间,从原子层级上加速复杂装备的设计、生产和迭代。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大衣哥官宣女儿订婚,将择吉日完婚,女婿是邻村种地的老实人

大衣哥官宣女儿订婚,将择吉日完婚,女婿是邻村种地的老实人

娱慧
2025-11-14 17:25:14
前法国国脚:姆巴佩踢了一场就走,队友恐怕厌倦了他获得的特权

前法国国脚:姆巴佩踢了一场就走,队友恐怕厌倦了他获得的特权

星耀国际足坛
2025-11-16 00:00:30
敢跟央视唱反调!《生万物》被指美化地主,佃户蛮横,地主善良?

敢跟央视唱反调!《生万物》被指美化地主,佃户蛮横,地主善良?

冷紫葉
2025-08-27 21:31:18
当年为何不攻打延安?肖劲光:毛主席三个安排让日军不敢下手

当年为何不攻打延安?肖劲光:毛主席三个安排让日军不敢下手

乐趣纪史
2025-11-16 00:43:22
2025年,5国被踢出发达国家行列,分别都是谁?

2025年,5国被踢出发达国家行列,分别都是谁?

泠泠说史
2025-10-12 17:40:53
汪小菲动真格了!发律师函严正警告:造谣诋毁必追责,绝不姑息!

汪小菲动真格了!发律师函严正警告:造谣诋毁必追责,绝不姑息!

探长影视解说
2025-11-16 12:49:11
不是不报时候未到,美国当年解体苏联的报应现在终于来了

不是不报时候未到,美国当年解体苏联的报应现在终于来了

揭秘历史的真相
2025-11-15 21:08:16
释永信被批捕!该来的总是会来,一个和尚不安心念经,也会栽的

释永信被批捕!该来的总是会来,一个和尚不安心念经,也会栽的

魔都姐姐杂谈
2025-11-16 13:25:11
老干部卸磨不杀驴劝退汪东兴、不发文件不降低待遇,还配备警卫员

老干部卸磨不杀驴劝退汪东兴、不发文件不降低待遇,还配备警卫员

阿莱美食汇
2025-11-15 11:44:03
百名日本学生亲身体验中国:眼见为实最重要

百名日本学生亲身体验中国:眼见为实最重要

中国日报
2025-11-12 22:31:04
她牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼"毛主席万岁"

她牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼"毛主席万岁"

小豫讲故事
2025-11-08 06:00:03
俄方给我们出主意:要想拿下台岛,必须摧毁美军的西太平洋基地!

俄方给我们出主意:要想拿下台岛,必须摧毁美军的西太平洋基地!

我心纵横天地间
2025-11-16 13:52:43
张伟丽升级别不敌“子弹姐”舍甫琴科 赛前曾说:不是成功就是成长!|封面人物

张伟丽升级别不敌“子弹姐”舍甫琴科 赛前曾说:不是成功就是成长!|封面人物

封面新闻
2025-11-16 13:45:09
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
巴萨即将签下1770万英镑后卫,星空体育爆料西甲冠军计划!

巴萨即将签下1770万英镑后卫,星空体育爆料西甲冠军计划!

小椰的影视宝库
2025-11-16 14:49:37
刺激:巴西2-0,西班牙4-0,丹麦爆大冷2-2,土耳其2-0,瑞士4-1

刺激:巴西2-0,西班牙4-0,丹麦爆大冷2-2,土耳其2-0,瑞士4-1

侧身凌空斩
2025-11-16 06:13:54
小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

五元讲堂
2025-10-16 14:41:16
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
天塌了!小米车主被雷军背刺

天塌了!小米车主被雷军背刺

吃瓜局
2025-11-14 20:51:24
千古负心人:朱令前男友黄开胜(博士生导师)的“现代陈世美”之谜。

千古负心人:朱令前男友黄开胜(博士生导师)的“现代陈世美”之谜。

生性洒脱
2025-11-16 02:16:03
2025-11-16 16:12:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4324文章数 37340关注度
往期回顾 全部

科技要闻

谁在炒作全固态电池?

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

涉三宗罪 释永信被批准逮捕

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

手机
时尚
教育
亲子
军事航空

手机要闻

有用户反馈苹果iPhone 17 Pro Max用湿巾清洁后机身涂层被擦除

提升冬日幸福感的8件小事,放松又治愈

教育要闻

三年级求周长,难住不少家长

亲子要闻

大脑发育超前的娃,有3个表现藏不住!第2个最容易被家长忽略

军事要闻

解放军报:武力介入台海 日本全国都有沦为战场的风险

无障碍浏览 进入关怀版