网易首页 > 网易号 > 正文 申请入驻

MiniMax 定理:压缩即智能

0
分享至

ESSAY

我们在很多地方都看到了一个词,叫「压缩即智能」

第一次碰到这个词的时候,很多人会愣一下。压缩?压缩怎么就智能了?zip 文件很智能吗?后来读到刘慈欣的《诗云》,突然就通了

故事的背景是,一个技术远超人类的外星神级文明来到地球。人类在它面前毫无还手之力,科技、军事、能源,全面碾压

但有一个人类诗人对它说:你写不出超越李白的诗

这个文明不服。它决定用自己的方式解决这个问题:穷举。把所有汉字的所有可能排列组合,全部生成出来,存进一团围绕恒星运行的巨大存储结构里。刘慈欣管它叫「诗云」

雕 床 栏 头 春 故 少 光 里 更 层 朱 似 国 夜 国 乡 栏 事 中 风 楼 雕 昨 前 千 乡 举 山 流 霜 国 前 改 多 又 千 改 穷 有 春 事 只 砌 小 了 楼 东 知 了 玉 水 犹 故 楼 了 往 前 夜 东 月 低 花 知 几 国 疑 望 昨 是 流 少 能 日 昨 目 白 多 多 玉 向 向 似 山 雕 只 举 月 楼 几 春 花 秋 月 何 时 了 ? 5000²⁸ 种排列 · 好诗在哪里?

从数学的角度,这朵云里一定包含了超越李白的作品。所有可能的汉字排列都在里面,当然也包括最好的那几首

但这个文明做完之后,沉默了。因为它找不到那些诗。拥有一切可能的诗句,却没有办法判断哪些是好的

一个图书馆把世界上所有的书都收齐了。这不叫智能。一个人读完之后,用三页纸写清楚这些书的共同规律。这叫智能,区别在于:丢掉了什么

穷举不产生智能。压缩才产生智能

从 Shannon 开始

那压缩和智能之间的关系,到底是文学直觉,还是有数学支撑?

有。而且这条线索比大多数人想象的要长

1948 年,Claude Shannon 发表「A Mathematical Theory of Communication」,定义了信息熵:一条消息的信息量,等于编码它所需的最小比特数

最小。这两个字是整个信息论的地基

你能用 10 个 bit 无损表达原本需要 100 个 bit 的信息,说明你找到了 90% 的冗余结构。你理解了它

1960 年代,Solomonoff、Kolmogorov 和 Chaitin 从三个不同国家独立提出了算法信息论。Kolmogorov 复杂度:一个对象的复杂度 = 生成它的最短程序长度

最短的程序,能还原全部的信息

100 bits 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 compress 10 bits 1 0 1 0 1 90% 冗余被消除 H(X) = −Σ p(x) log p(x) 找到冗余结构 = 理解它

100 bits → 10 bits:找到冗余,就是理解

2006 年,Marcus Hutter 发起了一个 50 万欧元的竞赛:谁能更好地压缩维基百科的前 1GB,谁就更智能。他说,智能是一个模糊的概念,但文件大小是硬数字

Ilya Sutskever 说过,通过压缩实现无监督学习,是创立 OpenAI 的两个 founding ideas 之一

DeepMind 的论文「Language Modeling Is Compression」证明了语言建模和数据压缩在数学上等价。训练一个语言模型,就是在训练一个压缩器

从 Shannon 到 Kolmogorov 到 Hutter 到 Ilya,几十年,所有人到了同一个地方:

最小化描述长度,最大化预测能力

这就是「压缩即智能」的数学含义

F = ma

不止数学。回头看整个科学史,「压缩即智能」一直在场

第谷花了二十多年记录天文观测数据,手稿好几米高。开普勒压缩成了三条定律

然后牛顿来了。F = ma 加上万有引力公式,两行字,把前面所有东西全部装进去了

麦克斯韦用四个方程压缩了整个电磁学。爱因斯坦用五个符号 E=mc² 压缩了质量和能量的关系

科学的进步史,就是压缩率的提升史

第谷 20 年观测 开普勒 3 条定律 牛顿 F = ma 2 行字 数据 → 定律 → 公式:压缩率越来越高

20 年观测 → 3 条定律 → 2 行字

每一次重大突破,都是用更少的符号解释更多的现象

物理学最底层的原理叫最小作用量原理。光走最短路径。物体沿作用量最小的轨迹运动。宇宙在每一个尺度上都偏好最经济的方案

压缩,即智能

冯·诺依曼

说到数学结构,这里有一段有意思的历史

1928 年,冯·诺依曼证明了博弈论的基石定理:在零和博弈中,存在一个最优策略,使得最大可能损失被最小化

这个定理叫Minimax 定理

找到所有最坏情况(max loss),然后在里面选最好的(min)。反过来也成立,在所有保守策略中找收益最高的(max min)

后来这个框架到处都是。Nash 均衡、Alpha-Beta 剪枝、对抗训练,都建立在它上面

max min loss gain min(max loss) = max(min gain) Minimax 定理:两条线终将收敛

两条线终将收敛:这就是 Minimax

还有一件事比较有意思,可以把前面说的「压缩即智能」放进数学框架里看

Kolmogorov 复杂度:最短的程序,还原全部信息

min 描述长度,max 保真度

Shannon 最优编码:最少的比特数,无损传输全部信息

min 码长,max 保真

训练语言模型:找一组参数,使得在任何未知数据上的预测误差尽可能小

min loss,max generalization

这三个问题的数学结构是一样的。都是 Minimax

冯·诺依曼在 1928 年就把这个结构命名好了。只是当时没人在讨论 AI


大脑

「压缩即智能」在生物学里也有对应

人类婴儿出生时,大脑有大约100 万亿个突触连接。到成年,减少到 50 万亿

少了一半。这个过程叫突触修剪。大脑主动丢弃低效连接,保留最有用的路径。大脑在对自己做压缩

自闭症谱系的一种理论认为,部分患者的突触修剪不够充分。连接太多,信号互相干扰,无法提取清晰的模式

连接太多和信息太多,是同一类问题。诗云的困境,在生物学里也存在

人脑每秒接收大约 1100 万 bits 的感官信息,意识只能处理大约 50 bits。99.9995%被丢弃了

意识,大概就是一个极其挑剔的压缩器

它的工作就是决定丢掉哪些信息

10 的 103 次方

最后回到诗云,算一笔账

假设汉字 5000 个,一首七言绝句 28 个字。所有可能的排列组合是 5000²⁸,大约10¹⁰³

可观测宇宙中的原子总数大约 10⁸⁰。诗云里的「诗」比宇宙里的原子还多

好诗大概率不超过几百万首。占比 10⁶ / 10¹⁰³ =10⁻⁹⁷

随机抽样找好诗,在宇宙的整个生命周期里,一首都找不到

穷举的失败在于搜索空间太大。什么都不压缩,好的东西就被淹没了

而李白不在 10¹⁰³ 的空间里搜索。他对语言、情感、韵律、意象有一套高度压缩的理解,可以直接跳到好诗的邻域

他的脑子里装的是一个压缩过的生成模型

10⁶ 首好诗 10¹⁰³ 李白 压缩 = 知道往哪里跳

李白不穷举。他知道往哪里跳

大语言模型也是一回事。GPT 的参数量远小于训练数据量,但它能生成从没见过的合理文本。因为它压缩了数据背后的结构

外星文明输给了李白。它的算力够了。它不会压缩

「压缩即智能」这个词表达得不好。两个抽象概念中间一个「即」字,没有信息论背景的人很难直觉理解

但它说的事情很简单。用最少的符号解释最多的现象,用最短的程序还原全部信息,用最少的参数做最好的预测。换句话说:Mini 这个 Max

我建议以后别说「压缩即智能」了,说:MiniMax

以上内容,是认真的

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海底捞回应“员工因顾客投诉被强制自费买礼物”:情况属实,一定依法对该伙伴进行赔偿,已通知一千多家门店进行内部排查

海底捞回应“员工因顾客投诉被强制自费买礼物”:情况属实,一定依法对该伙伴进行赔偿,已通知一千多家门店进行内部排查

大象新闻
2026-04-11 19:45:04
以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

扬子晚报
2026-04-11 11:33:21
贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

潮鹿逐梦
2026-04-10 12:43:59
公安部新规落地!70岁驾照免年审真相,这件事不做驾照直接注销

公安部新规落地!70岁驾照免年审真相,这件事不做驾照直接注销

复转这些年
2026-04-10 12:01:32
卤菜店使用“四姐”二字被索赔50万元,店主:大家都叫我四姐,为什么告我侵权

卤菜店使用“四姐”二字被索赔50万元,店主:大家都叫我四姐,为什么告我侵权

环球网资讯
2026-04-11 21:50:22
郑丽文一声“毛主席”,打破了国民党一个禁忌

郑丽文一声“毛主席”,打破了国民党一个禁忌

月明风清1029
2026-04-11 17:27:07
全红婵后续:陈芋汐网暴案刑拘三人,对比差距大,教练组态度明显

全红婵后续:陈芋汐网暴案刑拘三人,对比差距大,教练组态度明显

眼光很亮
2026-04-11 19:25:54
国内套现7个亿后,她露出了身后的美国国旗,整个家族共套现20亿

国内套现7个亿后,她露出了身后的美国国旗,整个家族共套现20亿

云舟史策
2026-04-11 07:54:43
血战台儿庄:中国参战29万人、牺牲5万人,日军伤亡令人难以置信

血战台儿庄:中国参战29万人、牺牲5万人,日军伤亡令人难以置信

冰语历史
2026-04-11 17:05:58
理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

快科技
2026-04-11 18:08:11
各国不吃的食物:韩国人不吃香菜,俄罗斯人不吃海参,中国人呢?

各国不吃的食物:韩国人不吃香菜,俄罗斯人不吃海参,中国人呢?

阿纂看事
2026-04-11 19:24:41
美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

火星一号
2026-04-11 13:42:49
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
突发!巴基斯坦被激怒了!

突发!巴基斯坦被激怒了!

财经要参
2026-04-11 16:00:03
48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

策略述
2026-04-11 16:41:05
万茜蹲火了

万茜蹲火了

动物奇奇怪怪
2026-04-11 17:32:32
4月“断网”风暴:“翻墙”时代迎来终局?

4月“断网”风暴:“翻墙”时代迎来终局?

虔青
2026-04-11 12:28:42
美国前情报局长爆出俄乌战场惊人内幕,乌军重新杀回红军城

美国前情报局长爆出俄乌战场惊人内幕,乌军重新杀回红军城

史政先锋
2026-04-11 20:44:50
刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

老特有话说
2026-04-11 17:33:51
为何停火只是伊朗下半场苦难的开端?

为何停火只是伊朗下半场苦难的开端?

高博新视野
2026-04-11 08:00:18
2026-04-11 23:19:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
372文章数 50关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
家居
本地
房产
公开课

亲子要闻

糖果套圈圈想吃哪个套哪个

家居要闻

复古风格 自然简约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版