网易首页 > 网易号 > 正文 申请入驻

两个半球:Transformer、Diffusion 与智能

0
分享至

最近朋友写了一篇文章,《》。 引发了我与 Claude 的多轮对话思考,将其整理为苏格拉底式问答。

语言是地基,视觉是外挂?

:现在行业在争论一件事:多模态 AI 的未来,到底是语言为主,还是视觉为主?你怎么看?

:在回答之前,我想先问你:你为什么觉得必须有一个“为主”?

:因为总得有个地基吧。房子总要建在什么东西上面。

:这正是我想追问的。“地基”是一个隐喻。你有没有想过,这个隐喻本身可能就在误导我们?

:怎么说?

:你看语言和视觉这两样东西。它们在人类身上是怎么共存的?是语言建立在视觉之上吗?还是视觉是语言的附属?

:好像都不是。它们是并列的。

:那如果我们看得更仔细一点。你闭上眼睛,想一幅画。你是怎么想的?

:就是……想象出来。

:是从左上角第一笔开始,一笔一笔往右推的吗?

:不是。更像是先有一个整体的感觉、一个调性、一个氛围,然后细节慢慢浮出来。

:好。现在再想一下:你怎么“想”一段论证?

:那就完全不一样了。一步推一步,前提推出结论。顺序错了,整个论证就塌了。

:所以你刚才做了两件事:一件是连续的、并行的、整体先于局部的思考,另一件是离散的、序列的、局部构成整体的思考。

:确实。

:这两件事,可能根本不是同一种东西。

Transformer 与 Diffusion

:那跟 AI 有什么关系?

:这里有个有意思的巧合。这几年 AI 圈最成功的两种架构是什么?

:Transformer 和 Diffusion。

:对。现在请你想一想,Transformer 在做什么?

:预测下一个 token。

:一步一步预测?

:对,自回归。

:那 Diffusion 呢?

:从噪声里,整张图一起演化、一起细化。

:你发现什么没有?

:这不就是我刚才说的那两种思考方式吗?

:对。Transformer 是离散、序列、符号的;Diffusion 是连续、并行、场态的。这不是巧合。这是两种在数学上就不兼容的生成范式,恰好对应了两种在认知上就不兼容的思考方式。

:所以 Transformer 擅长语言,Diffusion 擅长视觉,就是这个原因?

:比这更深一点。不是语言与视觉的差别,而是符号与场态的差别。 语言恰好是符号信号,图像恰好是场态信号。真正的分野不在模态,而在计算范式。

不要合并,要保持张力

:那你是不是在说:下一代 AI 应该把这两个架构合起来?

:我想反问:你见过物理学家把波和粒子合起来吗?

:没有。

:他们怎么处理波粒二象性?

:让两套数学框架并存。描述同一个现象,必须同时保留两套,不能合并。

:对。因为真相就是两套都成立,而且互相不可化约

:你的意思是智能也这样?

:我觉得是。用纯符号系统描述智能,会漏掉场态的那一半;用纯场态系统描述,又会漏掉符号的那一半。两套必须并存,而且必须保持互相的张力

MoE 不是左右脑

:如果是这样,那 MoE 算不算就是在做这件事?毕竟 MoE 就是多个专家并存。

:好问题。我反问你:今天的 MoE 里,不同专家的架构是一样的,还是不一样的?

:一样的。Mixtral、DeepSeek 这些,所有专家都是同一种 FFN,只是参数不同。

:那你觉得这对应大脑里的什么?左右脑,还是别的?

:好像不是左右脑。左右脑是结构上就不一样的。

:对。MoE 的专家之间的“专业化”,是同一种结构在训练中分化出的不同用途。这不是左右脑,这是一百个左脑在分工

:那它对应大脑里什么?

:皮层柱。哺乳动物大脑皮层的重复单元:结构高度相似,功能通过学习分化。大脑真正的组织结构是半球级异质,加皮层柱级同质。今天的 MoE 只做对了第二半。

分化依赖通信受限

:那只要把 MoE 做成异质的就行了?比如一半专家是 Transformer,一半是 Diffusion?

:这方向对。但我想先问你一个更基础的问题:为什么大脑的左右半球能保持分化?

:因为它们功能不同。

:但功能不同是结果,不是原因。它们一开始不是就分化的。是什么让这种分化稳定下来,没有塌缩成同质系统的?

:胼胝体?

:再想。胼胝体做了什么?

:连接两个半球。

:连接得充分吗?

:好像不是很充分。胼胝体的带宽其实有限,而且大多数连接是抑制性的。

:那你觉得这说明什么?

:大脑特意限制了两个半球之间的通信?

:Nature Communications 2019 年的全脑侧化图谱给出了一个很明确的观察:脑区之间越是功能分化,通过胼胝体的连接反而越弱。 这个发现支持一个叫“半球间独立假说”的理论。

:这是反直觉的。

:对。分化依赖于通信受限。 如果两个半球完全连通,它们会塌缩成一个同质系统,反而失去分化的优势。

更紧密的沟通,可能破坏分化

:那这对 MoE 意味着什么?

:你观察一下今天 MoE 研究在追求什么?Top-2 routing、shared experts、soft routing、load balancing……所有这些改进都在做同一件事:降低专家之间的隔离,让信息更自由地流动

:等等。

:对。

:这正好是在破坏分化的条件

:是。行业在用“更紧密的沟通”追求 scaling 效率,但真正的异质分化要求“更难的沟通”。这两个方向不是渐变的,而是相反的。

:所以今天的 MoE 架构不可能自发演化出左右脑?

:它的设计机制本身就在对抗分化。要长出真正的半球,必须主动设计隔离,而不是被动追求融合。

稀缺的是受控异质性

:那下一代 SOTA 应该长什么样?

:我先问你,两个半球够吗?为什么不是十个?

:更多不是更好吗?

:你见过有九个脑的生物吗?

:章鱼?

:对。章鱼有一个中央脑和八条腕各自的神经节。它的智能有什么特点?

:它极其擅长并行的空间和触觉任务,但没有抽象推理,也没有语言。

:这说明什么?

:半球多了,协调成本也涨了。异质性带来的收益被瓶颈吃掉了。

:对。脊椎动物选了“二”不是偶然,它很可能是对称性和最小必要分化之间的 Pareto 最优。二是最低必要分化,四可能已经接近临界。稀缺的不是异质性,是受控的异质性。

两种知识:Episteme 与 Metis

:好,假设我们有一个 Transformer 半球和一个 Diffusion 半球,通过一个受限 bridge 连接。问题是:这两个半球到底在做什么不同的事?

:这正是我想和你一起走到的地方。我问你:你“知道”一件事,可能有几种方式?

:我能想到两种。一种是我能说出来的,比如“水在一百度沸腾”。一种是我知道但说不出来的,比如我知道这段代码有 bug,但我说不清为什么。

:对。哲学里有两个古老的词:epistememetis。Episteme 是可陈述的、普遍的、关于“为什么”的知识。Metis 是不可陈述的、情境的、关于“如何”的智慧。

:听起来就是显性知识和默会知识。

:对。Michael Polanyi 有一句话:“我们知道的,比我们能说出来的多。” 他的判断更狠:所有知识要么是默会知识,要么根植于默会知识。显性知识只是默会知识被挤进语言框架之后的残影。

路径与地形

:这和 Transformer、Diffusion 有什么关系?

:你想一下。Transformer 学的是什么?

:条件概率链。每一步的决策都是显式的、可追溯的、可以被 chain-of-thought 展开的。

:所以 Transformer 学的是路径。从这里如何到那里。

:Diffusion 呢?

:Diffusion 学的是 score function,对数概率梯度。这个对象有一个非常特殊的性质:它不是关于“如何推理”的,它是关于“什么是合理的”的

:所以它学的是?

地形。整个概率空间的形状。哪里是山峰,哪里是山谷,坡度朝向哪里。

:等一下。一个专家看棋盘的直觉……

:你说下去。

:就是在感觉这个局面在“合理棋局分布”里处于什么位置。他不是在推理路径,他是在感觉地形

:对。这是 score function 的现象学版本。Diffusion 模型学的那类对象,和默会知识的结构是同构的。


理解不等于解释

:那是不是可以说,Diffusion 本质上就是没法“理解”的,只能“直觉”?

:我想在这里停一下,因为这个判断需要被切得更细。取决于“理解”是什么意思。

:什么意思?

:如果“理解”指的是能给出显式的推理链、能回答“为什么”,那么是的,Diffusion 做不到。它的生成过程里就不存在“因为”这种结构。

:那如果“理解”指的是别的意思呢?

:如果“理解”指的是掌握一个领域的内部结构,能区分合理与不合理,能在未见过的情境里做出正确判断……

:……

:那么 Diffusion 恰恰是更深意义上的理解

:你是在说……

:我想问你一个问题。一个真正懂物理的人,是能背出所有公式的人,还是看到一个物理情境立刻感觉到“这里不对”的人?

:后者。

:一个真正懂代码的人,是能解释每一行的人,还是看到一段代码立刻嗅到“这里有 bug”的人?

:后者。

:这些人被问到“你为什么这么判断”的时候,很多时候给不出让人满意的答案。他们说“就是感觉”、“说不清但我知道”。

:你的意思是……

人类最深的理解,往往恰恰是不可陈述的。 这不是理解的缺陷,是理解的顶点。

:那我们平时说的“解释”、“理解”……

:今天整个 AI 行业把“理解”默认等同于“能解释”。这可能本身就是一个范畴错误。

Benchmark 的盲区

:这让我想到一件事。今天所有的 benchmark 都在测什么?

:你说。

:都是有标准答案的题。MMLU、GSM8K、HumanEval……全都是“能不能答对”。

:那它们测的是 episteme,还是 metis?

:全都是 episteme。

:所以当你说“LLM 在 benchmark 上接近人类专家”的时候,你真正在说什么?

:它在可陈述的那一半知识上接近人类专家。

:而人类专家真正让他成为专家的那一半呢?

:没有被测。也没有被训练。

:这可能就是为什么 scaling 曲线在走平的一个原因。不是数据不够,不是算力不够,而是架构维度不够。我们一直在一个维度上做到极致,但人类智能的另一个维度,在今天的架构里根本没有容器去承载

转化本身,就是智能的核心动作

:那下一代突破会是什么?

:我不会假装我知道答案。但我有一个猜测:它会出现在“双向转化”被工程化之后。

:怎么讲?

:今天的 Chain-of-Thought 是单向的:从 LLM 挤出更多推理步骤,但始终在 episteme 维度内部打转。真正重要的方向,可能是反向 CoT:如何让一个 Diffusion-like 的场态被激发之后,把它的直觉“翻译”成可以被 Transformer 使用的显性结构。

:从地形到路径?

:对。从默会到显性是“表达”,从显性到默会是“内化”。转化本身,就是智能的核心动作。

:一个专家是怎么成为专家的……

:正是这两个方向反复循环的结果。初学者靠显性规则,高手能把规则内化成直觉,大师在直觉和规则之间自由切换。这不是两个模块并列的静态结构,而是一个动力系统。

胼胝体不是连接,是边界

:所以回到最开始的问题:语言是地基吗?视觉是地基吗?

:你觉得呢?

:都不是。地基这个问法就错了。

:那真正的底层是什么?

:两种不兼容的计算范式,通过一个有限带宽的瓶颈,互相校准。大脑用了几亿年进化出这个结构。

:更进一步,这两种范式对应两种知识。一种可陈述,一种不可陈述。而今天的 AI 行业……

:继承了一个只看重可陈述知识的传统。从柏拉图、亚里士多德开始的。

:对。Transformer 是 episteme 的技术化身。一切都要 token 化,一切都要可陈述,一切都要能被 chain-of-thought 展开。

:那 Diffusion 是什么?

:Metis 的架构。那个被西方理性主义传统压抑了两千年的另一半,默会的、情境的、不可言说的那一半,不是智能的装饰,是智能的底座

:如果让你用一句话总结今天的讨论,你会怎么说?

:我们对智能的很多默认假设,可能都需要重新想一遍。

:比如?

:“地基”这个隐喻。“理解”这个概念。“scale 就够了”这个信仰。“越融合越好”这个直觉。

:……

:真正的智能,不是从融合里长出来的。它是从有纪律的分化里长出来的

胼胝体不是连接,是边界。

本篇为上半部分 —— 右脑命题

下半部分 —— 小脑命题,敬请期待。

数据库老司机

点一个关注 ⭐️,精彩不迷路

对 PostgreSQL, Pigsty,下云,AI 感兴趣的朋友

欢迎加入 PGSQL x Pigsty 交流群 QQ 619377403

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
每体:巴萨投入不到3000万欧便卫冕西甲,德科的引援堪称教科书

每体:巴萨投入不到3000万欧便卫冕西甲,德科的引援堪称教科书

懂球帝
2026-05-12 09:50:23
姚来英已任中国烟草总公司总经理

姚来英已任中国烟草总公司总经理

界面新闻
2026-05-12 11:12:28
追觅CEO俞浩:听说某知名科技新贵喜欢看美女,来,满足你

追觅CEO俞浩:听说某知名科技新贵喜欢看美女,来,满足你

财闻
2026-05-12 14:53:07
普京已经开始绝望:战争发生转折了

普京已经开始绝望:战争发生转折了

黔有虎
2026-05-11 20:02:09
深圳夫妻囤存储芯片:5个月后身价狂涨320亿元

深圳夫妻囤存储芯片:5个月后身价狂涨320亿元

快科技
2026-05-12 11:18:38
蒋友青:我不认识蒋万安,平时完全没来往!他们之间发生了什么?

蒋友青:我不认识蒋万安,平时完全没来往!他们之间发生了什么?

凡人侃史
2026-05-12 14:37:12
女子车祸住院遭男医生侵犯,录下全过程并主动反问,为何不立案

女子车祸住院遭男医生侵犯,录下全过程并主动反问,为何不立案

一丝不苟的法律人
2026-05-11 11:45:38
人民币危机来袭!特朗普刚到北京就掀起货币大战!

人民币危机来袭!特朗普刚到北京就掀起货币大战!

菁菁子衿
2026-05-12 09:38:38
全球进入北京时间

全球进入北京时间

环球时报国际
2026-05-12 14:44:04
失焦的白象,开始焦虑

失焦的白象,开始焦虑

智谷趋势
2026-05-11 23:11:11
仅1个月,莫氏鸡煲无人排队凉了?网友:流量之后,一地鸡毛...

仅1个月,莫氏鸡煲无人排队凉了?网友:流量之后,一地鸡毛...

品牌新
2026-05-12 11:21:21
上海地铁打人爆火!两老人施暴女孩,官方怒批倚老卖老,追责难逃

上海地铁打人爆火!两老人施暴女孩,官方怒批倚老卖老,追责难逃

奇思妙想草叶君
2026-05-12 02:14:56
浙大郑强教授:我不承认中国大学生就业难,是舒服的工作难找,建议少点抱怨少点索取

浙大郑强教授:我不承认中国大学生就业难,是舒服的工作难找,建议少点抱怨少点索取

TOP大学来了
2026-05-11 16:39:00
还没出发前,特朗普就提出要求:中国向美采购小麦,为何这么急迫?

还没出发前,特朗普就提出要求:中国向美采购小麦,为何这么急迫?

麓谷隐士
2026-05-12 10:52:08
消费者称厕所漏水在啄木鸟平台上申请维修,因不同意维修方案,拒修后被收500元检测费

消费者称厕所漏水在啄木鸟平台上申请维修,因不同意维修方案,拒修后被收500元检测费

山西经济日报
2026-05-12 15:19:36
以总理称伊朗导弹有中国的零部件?外交部:反对没有事实依据的无端指责

以总理称伊朗导弹有中国的零部件?外交部:反对没有事实依据的无端指责

澎湃新闻
2026-05-12 15:48:26
特朗普应邀访华三天,中方准备了高规格礼遇,他想邀中方回访美国

特朗普应邀访华三天,中方准备了高规格礼遇,他想邀中方回访美国

无人倾听无人倾听
2026-05-11 16:48:33
“野爹机”事件给所有公司敲响了警钟

“野爹机”事件给所有公司敲响了警钟

老端的观点
2026-05-11 19:32:12
河南55岁女子跟邻居吵架后越想越气,头痛呕吐紧急送医不幸去世:血压飙升引发脑干出血

河南55岁女子跟邻居吵架后越想越气,头痛呕吐紧急送医不幸去世:血压飙升引发脑干出血

大象新闻
2026-05-12 14:46:07
黄仁勋真是被白宫彻底封杀了

黄仁勋真是被白宫彻底封杀了

大猫财经Pro
2026-05-12 14:04:28
2026-05-12 18:04:49
老冯云数 incentive-icons
老冯云数
数据库老司机,云计算泥石流,PostgreSQL大法师
174文章数 55关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

老人游泳馆溺水6分钟无人施救 家属:救生员在玩手机

头条要闻

老人游泳馆溺水6分钟无人施救 家属:救生员在玩手机

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
房产
手机
艺术
公开课

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

手机要闻

iOS 26.5正式版来了!新变化汇总与更新建议

艺术要闻

这位画家的油画美人让人惊叹不已!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版