网易首页 > 网易号 > 正文 申请入驻

Sebastian Raschka 2026预测:Transformer统治依旧,扩散模型崛起

0
分享至



编辑|+0

站在 2026 年的开端回望,LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer 架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。

知名 AI 研究员 Sebastian Raschka 的最新洞察中,他不仅回应了关于「Transformer 是否会被取代」的年度终极之问,更敏锐地捕捉到了近期业界的一个重要转向:从单纯追求模型参数的「大力出奇迹」,转向了混合架构与效率微调的精细化战争。

同时,文章还探讨了一个极具潜力的变量:扩散语言模型。这类模型在 Google 等巨头的布局下会有怎样的表现?它们在「工具调用」上的天然缺陷是否会成为阿喀琉斯之踵?而在高质量数据日益枯竭的今天,扩散模型又是否能凭借「超级数据学习者」的特性,成为打破数据墙的关键?

以下内容编译自 Sebastian Raschka 的最新博文,并结合文中提及的前沿论文及往期深度分析进行了系统性拓展,以便读者获取更完整的上下文视角。



  • 博客地址:https://x.com/rasbt/status/2010376305720594810

最近几周,我经常被问到的一个问题是:在 2026 年,我们是否会看到自回归 Transformer 架构(即标准的 LLM)的替代方案。

就目前而言,我坚信Transformer 在未来(至少一到几年内)仍将保持其在 SOTA 性能方面的地位。它是当前 AI 生态系统的基石,拥有最成熟的工具链和优化方案。

但是,情况确实会发生一些微调。这并不是说架构会一成不变,而是这种变化更多体现在「效率」和「混合」上,而非彻底的推倒重来。

效率战争:

混合架构与线性注意力的崛起

临近去年年底,我们看到业界更加关注混合架构以及如何提高其效率。当然,这并不是什么新想法,但近期来自顶尖实验室的发布表明,目前的侧重点已明显向此倾斜。

我们回顾一下 DeepSeek V3 以及随后的 R1,它们展示了混合专家模型(MoE)和多头潜在注意力(MLA)的强大之处。DeepSeek V3 通过 MLA 显著减少了推理时的 KV Cache 占用,而 MoE 架构则允许模型在拥有 6710 亿参数的同时,每次推理仅激活 370 亿参数。这种在保持模型巨大容量的同时极致压缩推理成本的设计思路,正是 2025 年末到 2026 年的主旋律。

但这还不是全部。除了 MoE,我们看到了更激进的效率尝试,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力机制的 DeepSeek V3.2。(如果您对更多细节感兴趣,我在之前的《Big LLM Architecture Comparison》一文中对此进行了报道。)



带有这类效率调整的 Transformer 架构示意图。

  • 相关链接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

为什么大家都在卷「线性注意力」或「稀疏注意力」?

标准的 Transformer 注意力机制(Scaled Dot-Product Attention)具有 O(N^2) 的复杂度,这意味着随着上下文长度的增加,计算成本呈二次方爆炸式增长。

  • Qwen3-NextKimi Linear采用了一种混合策略:它们并非完全抛弃标准注意力,而是将高效的线性层(如 Gated DeltaNet)与全注意力层以一定比例(如 3:1)混合。这种设计试图在捕捉长距离依赖(全注意力的强项)和推理速度(线性层的强项)之间找到最佳平衡点。
  • DeepSeek V3.2则引入了稀疏注意力,通过只计算最重要的 Token 之间的相互作用,进一步降低了计算开销。

这些「微调」表明,2026 年的竞争不再仅仅是看谁的模型更聪明,而是看谁能在更长的上下文、更低的延迟下提供同等的智能。

扩散语言模型:

速度与代价的博弈

话说回来,除了 Transformer 的变体,扩散语言模型怎么样?

扩散语言模型之所以具有吸引力,是因为它们能够以相对快速且低廉的成本生成 Token。与自回归模型(AR)那种「一个字接一个字」的串行生成不同,扩散模型采用的是并行生成。

想象一下,自回归模型像是一个人在打字,必须打完上一个字才能打下一个;而扩散模型更像是在冲洗一张照片,整段文字从模糊的噪声中同时显现,经过数次「去噪」迭代后变得清晰。

我前阵子在《Beyond Standard LLMs》一文中对此多写了一些。简而言之,我认为 2026 年我们会看到更多相关内容,Google 可能会推出Gemini Diffusion作为其更便宜的 Flash 模型的替代品。Google 已经在其技术博客中暗示了这一点,强调其生成速度「明显快于我们目前最快的模型」。

  • 相关链接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

然而,虽然扩散语言模型的优势在于它们可以并行生成 Token,但这同时也是一个巨大的缺点。因为由于并行生成的特性,它们无法在响应链中原生地整合工具调用。

在自回归模型中,模型可以生成「调用计算器」的指令,暂停,等待结果,然后再继续生成。而在扩散模型中,整个响应是同时生成的,很难在中间插入一个外部工具的交互步骤。这使得它们在作为智能体使用时面临巨大挑战。



文本扩散过程示例。

此外,虽然众所周知文本扩散推理效率更高,但最近的研究也表明,如果你为了提升质量而增加去噪步数以匹配自回归模型的性能,那么最终的计算预算其实是相差无几的。

数据枯竭时代的「超级学习者」

那么,我想表达什么呢?既然扩散模型有这些缺陷,为什么我还认为它值得关注?

我原本计划讨论一月份发布的近期一系列有趣的研究,但我还是想简要重点介绍一篇我在「待读论文」清单上的、2025 年 11 月的有趣论文,它强调了扩散语言模型的一个有趣优势:《Diffusion Language Models are Super Data Learners》。

  • 论文地址:https://arxiv.org/abs/2511.03276



来自论文《Diffusion Language Models are Super Data Learners》的带注释图表。

这篇论文提出了一个在 2026 年至关重要的观点:当高质量数据变得稀缺时,扩散模型可能是更好的学习者。

众所周知,互联网上的高质量文本数据正在接近枯竭。对于自回归(AR)模型来说,通常我们只让模型把数据「看」一遍(1 Epoch)。如果让 AR 模型反复在同一份数据上训练,它们很容易过拟合,即死记硬背训练数据,导致在未见过的新任务上表现下降。

然而,上述论文表明,当进行多 Epoch 训练时,文本扩散模型的表现可能优于标准的自回归(AR)大语言模型。

根据论文的研究结果,在严格控制的预训练设置下,当唯一数据量有限时,通过增加训练轮数,扩散语言模型的表现持续超越了自回归模型。

这一现象被称为「Crossover(交叉点)」:

  • 当数据量充足时,AR 模型学得更快。
  • 但当数据受限时,DLM 是最终的赢家。例如,一个 10 亿参数的 DLM 模型,仅仅通过反复训练 10 亿个 Token(这在今天看是非常小的数据量),在 HellaSwag 和 MMLU 基准测试上分别达到了 >56% 和 >33% 的准确率,且没有使用任何特殊技巧。

为什么会这样?论文归结为三个因素:

  • 任意顺序建模:AR 模型被迫只能从左到右学习,而扩散模型可以学习文本中任意位置之间的依赖关系。
  • 超高密度计算:通过迭代的双向去噪,DLM 在训练时实际上对每个样本进行了更深度的压榨。
  • 内置的蒙特卡洛增强:扩散过程本身就是一种数据增强。同一个句子,每次加噪的方式都不一样,相当于把一条数据变成了无数条变体。

更有趣的是,论文发现,对于 DLM 来说,验证集损失的上升并不意味着下游能力的下降。即便模型在验证集上看起来「过拟合」了,它在实际任务(如代码生成、推理)上的表现仍在提升。

由于成本原因,过去没有人会在多个 Epoch 上训练大语言模型。但在数据枯竭的今天,如果我们不得不进行多 Epoch 训练,扩散模型似乎提供了一条新出路。

这确实是有趣的结果!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克赛程:决出4强,2大世界冠军PK,吴宜泽德比战对阵肖国栋!

斯诺克赛程:决出4强,2大世界冠军PK,吴宜泽德比战对阵肖国栋!

刘姚尧的文字城堡
2026-01-16 07:04:01
人类距离被锁死在地球表面,也许只剩2.8天

人类距离被锁死在地球表面,也许只剩2.8天

果壳
2026-01-15 20:49:45
重度污染!路都看不见了,网友吐槽上海今天的雾大到离谱,天气即将反转

重度污染!路都看不见了,网友吐槽上海今天的雾大到离谱,天气即将反转

鲁中晨报
2026-01-16 13:07:32
南博风波后续:全网追查“借画不还”的神秘老同志,揭开历史迷雾

南博风波后续:全网追查“借画不还”的神秘老同志,揭开历史迷雾

公子麦少
2025-12-21 14:54:43
美国风流总统:一天没女人就头疼,葬礼上半数女宾客与他有染

美国风流总统:一天没女人就头疼,葬礼上半数女宾客与他有染

小熊侃史
2025-12-31 11:54:10
电视真的被严重低估了!换个思路居然好用到惊呆,简直是人类之光

电视真的被严重低估了!换个思路居然好用到惊呆,简直是人类之光

Home范
2026-01-10 14:55:03
100英寸电视价格崩了:当年100万元一台,今年已经跌到5000元左右

100英寸电视价格崩了:当年100万元一台,今年已经跌到5000元左右

柳先说
2025-07-25 17:44:55
12.16今日金价:大家不必等待了!金价有可能会重演21年历史!

12.16今日金价:大家不必等待了!金价有可能会重演21年历史!

小鬼头体育
2026-01-16 14:41:40
金球奖这一夜,国际女星个个风情万种,但都被一位中国女星艳压了

金球奖这一夜,国际女星个个风情万种,但都被一位中国女星艳压了

八卦南风
2026-01-12 16:25:50
LV做梦也想不到,请了一堆流量大咖,却被一个00后运动员抢尽风头

LV做梦也想不到,请了一堆流量大咖,却被一个00后运动员抢尽风头

以茶带书
2026-01-15 15:06:31
短短48小时,“反高市联盟”亮相,大选没按剧本走,在野党或上位

短短48小时,“反高市联盟”亮相,大选没按剧本走,在野党或上位

小鬼头体育
2026-01-16 13:54:21
美军航母又上演“声东击西”?三面特朗普:发狠话,放软话,还在等关键临界点到来

美军航母又上演“声东击西”?三面特朗普:发狠话,放软话,还在等关键临界点到来

红星新闻
2026-01-15 14:30:15
央视曝光!同仁堂再度造假,3元成本翻20倍卖,家中有老人的速查

央视曝光!同仁堂再度造假,3元成本翻20倍卖,家中有老人的速查

丰谭笔录
2026-01-16 07:55:07
阿斯:阿韦洛亚当众呵斥塞瓦略斯不开窍,他出场顺位不及青训

阿斯:阿韦洛亚当众呵斥塞瓦略斯不开窍,他出场顺位不及青训

懂球帝
2026-01-16 13:11:14
从承诺归还抢走的土地,到提出出海权,俄国时隔100年又服软了?

从承诺归还抢走的土地,到提出出海权,俄国时隔100年又服软了?

近史博览
2025-12-20 10:50:02
湖人惨败黄蜂向附加赛靠拢,一数据显示詹姆斯根本不防守

湖人惨败黄蜂向附加赛靠拢,一数据显示詹姆斯根本不防守

姜大叔侃球
2026-01-16 14:25:01
为了让 iPad 不再「吃灰」,我做了一个能让你用上它的开源项目……

为了让 iPad 不再「吃灰」,我做了一个能让你用上它的开源项目……

少数派sspai
2026-01-07 12:29:01
盖伊+拉唐试枪!对手曾败在蓉城脚下 李昊身价疯涨,申花重新报价

盖伊+拉唐试枪!对手曾败在蓉城脚下 李昊身价疯涨,申花重新报价

刀锋体育
2026-01-16 12:32:45
1060万元买入锦绣公馆,如今980万元挂牌,房东一年亏近百万

1060万元买入锦绣公馆,如今980万元挂牌,房东一年亏近百万

极目新闻
2026-01-15 20:55:37
海南三亚 干部学校政府釆购项目屡遭投诉 堪比“最忙五人组”

海南三亚 干部学校政府釆购项目屡遭投诉 堪比“最忙五人组”

窗边信息集
2026-01-15 12:43:15
2026-01-16 15:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12133文章数 142542关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
艺术
手机
家居
公开课

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

手机要闻

消息称vivo X300 Ultra或配多光谱镜头,影像实力值得期待

家居要闻

岁月柔情 现代品质轻奢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版