冲破 AGI 迷雾，蚂蚁看到了一个新路标|翻译|模态|agi|深度思考模型

分享至

“大模型战场，走到了新秩序的边缘。”

作者丨齐铖湧

编辑丨陈彩娴

2024年12月14日，温哥华会展中心座无虚席，ChatGPT之父Ilya现身大银幕，在全球AI顶会上，Ilya向全行业预警：

「数据压榨已然到头，如果无法突破，AGI将难以实现。」

彼时，普罗大众还沉浸一场AI盛宴中，每天睁开双眼，就能体验到各种最新迭代的大模型。但台下观众眉头紧锁，作为全球顶尖AI学者，他们早已明白这位AI之神的言外之意。

AI时代，数据犹如工业时代的化石燃料，燃料挖掘殆尽，但AGI并未涌现，大模型领域，被迫走向新秩序的边缘。

通往AGI的路上，亟需找到一些新的方向。

埃隆马斯克率先出手，2025年中，这位“第一性原理”的忠实信徒，决定开启重写人类知识库的计划。用“提纯数据”的方式，尝试打开通往AGI的大门。

另一些资深学者，则瞄准了多模态。

斯坦福大学2025春季首次公开课上，AI顶级研究者李飞飞抛出观点“视觉不仅是智能的一部分，更是智能的基石”。

不久后，众多科学家们一呼百应，逐一验证“听说读写”等等多种模态，Open AI也发布GPT-4o，大家期待模型像人类一样感知与thinking后，能带领人类瞥见AGI的大门。

但无论是马斯克的“提纯数据”论，还是多模态的尝试，都依然沿着现有的自回归（AR）路径，在做小步迭代。

业内逐渐出现另一种声音：自回归到底是不是通往AGI的唯一路径？

无人能做出确切回答，但大洋对面，早已有一群年轻学者开始尝试新范式。

2025年9月11日，上海外滩大会人潮涌动。

在年轻学者含量最高的AGI见解论坛上，蓝振忠和李崇轩官宣了LLaDA-MoE的发布。不同于市面上主流模型，这是一个基于扩散理论的新范式。

李崇轩（左）、蓝振忠发布LLaDA-MoE模型

最近一两年，AI发展迅猛却极端割裂。

曾经出现过滑稽一幕，某个大模型一边已经发展到能秒杀人类博士生和奥数金牌得主，另一边却连简单的中译英“美国总统拜登……”，都翻译错误“US President Boo-”。

这是因为AI为了追求速度，翻译时不得不“边听边猜”，但一旦开头猜错就无法收回。

出现人名截断、语义颠倒尚可接受，但AI在严肃的医疗诊断领域也时常闯祸。

明明是“左肺下叶见结节，右肺未见结节，直径12 mm”，但由于AI “失忆”属性，导致左右肺判断颠倒。这些问题的出现，让很多研究者对当前大语言模型（LLM）的方向提出质疑。

上海AI Lab的青年科学家付杰，在公开场合直言：“他不觉得当前大语言模型的路子是对的”，因为“现在这样搞出来的LLM根本不懂它为什么能输出某些答案，本质上可能还是靠记忆”，清华计算机系的崔鹏教授也曾提出质疑，LLM是否真能理解什么是“数”。

这些基本错误的出现，要归结于一个原因：底层架构。

当下主流的大模型，底层架构几乎清一色采用自回归生成范式，它的特性是单向建模。

单向建模的原理，是从前往后吐出一个个token，用上一个字预测下一个字，因为只能从左往右的局限，就导致一个严重的缺陷：

这样的大模型，既没有逆向思维，也无法提前看到事物全貌。

科学家很早就意识到这个巨大缺陷。两年前，来自英国前沿人工智能工作组、纽约大学、牛津等机构的研究小组发现：一个训练于「A是B」的语言模型，无法推理出「B是A」。

他们向大模型提问，大模型明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」，但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。

论文地址：https://owainevans.github.io/reversal_curse.pdf

这个现象被写成论文发布后，不少研究者们复现实验，并将参数从350M扩展到175B，但「AB逆转」问题依旧无法解决。

大家逐渐意识到，这是自回归范式问题，是底层架构问题。

后来，靠着堆算力、打补丁，引入深思考Deep Research模式，这个缺陷被暂时掩盖，各大模型头部厂商还是以日更周更的速度，迭代各种大模型。

但随着深思考模式的出现，自回归范式的缺点不仅无法掩盖，并被放到更大，蓝振忠将自回归（AR）生成范式的内在缺陷，总结为三点：

01生成速度正比于输出长度（长文本速度慢）

02缺乏双向建模能力。

03缺乏直接修正错误能力

蓝振忠从谷歌回国后，加入西湖大学，后创立西湖心辰，现担任蚂蚁通用人工智能研究中心主任、西湖大学特聘研究员。在意识到自回归内在缺陷无法解决，AGI将“撞墙”后，蓝振忠开始思考另辟蹊径。

他注意到另一个范式：扩散（Diffusion）

蓝振忠意识到，自回归模型是从左往右预测下一个字，原理是逐步的条件概率；但扩散模型是在去噪过程中逐渐逼近数据分布，在并行中由粗到细去动态修正答案。

二者区别，类似于分别一根钢笔单独画画和好几支铅笔同时画画，钢笔必须一笔画成，但在扩散模型里，你可以用多根铅笔从一个简单的草图开始,逐步添加细节，并且随时可以用橡皮修正画面。

自回归的生成范式

扩散语言模型的生成范式

这意味着扩散生成模型在生成端，有三个特征正好弥补了自回归生成范式的缺点。

第一，扩散模型能做到并行解码，长文本的推理迭代和算力利用率都更高效。

第二，能够双向建模的优点，让扩散模型不仅避免了翻译场景下“边听边猜”和自回归模型无法「AB逆转」的缺陷，在多种模态场景中表现也更好。

第三，扩散模型能做到迭代修正，在生成代码等场景下，能够直接部分片段错误，不需要每次都重新生成。

与此同时，在数据的预训练中，扩散模型也有不少优势。

它类似于完形填空，随机扔掉一些词，然后填空。这意味着，同一份数据，自回归只能训一两遍，但扩散语言模型可以拿掉不同的空，多次训练。

蓝振忠举了一个例子：

“比如你拿到一本书，如果只是逐字阅读下一个字，你对书本内容的理解是有限的，但是如果每次都能往回看一下，那么你对书本的理解是更深的，你能学到的东西肯定更多的。”

从生成到训练都有优点，让蓝振忠对扩散语言模型有了极大的信心。

同时关注到扩散模型优点的，还有李崇轩。

李崇轩来自高瓴人工智能学院，连续做了很多基于扩散理论的文到图、文到视频的基础研究，是扩散模型方面的知名学者。

之前，大家都以为扩散模型是用来生图的，把扩散模型用到语言上看似不可思议。但在他看来，把扩散模型和语言结合，是很自然的想法。

李崇轩告诉雷峰网：扩散模型第一次提出是2015年，他一开始就关注并跟进研究，2021年，扩散模型在生图领域被证明可行后，越来越多学者和教授关注扩散模型。

“在大语言模型中，主流观点是从左到右的顺序，虽然是实际使用非常优的策略，但它的前提是不需要逆向思维，或者不需要反复打磨的情况下。”但李崇轩隐约感觉到：

“从左往右，并不一定是理论最优解。”

从理论基本准则上看，大语言模型源于生成范式，而非自回归独有，存在其他路径的可能性。

2022年，李崇轩敏锐地觉察到“把扩散模型应用到语言领域，理论上是可行的”，于是带着学生开始了深入的探索，开始尝试把扩散用到语言上。

“当时在机器学习领域里面，只有很少一部分人在做这个事情。”

2024年，OpenAI华人大牛宋飏靠着扩散模型领域的研究，火爆出圈，同一年，他的博士导师斯坦福大学Stefano Ermon教授也发了一篇关于扩散模型的论文，被业界称为扩散模型的“GPT2时刻”。

如此多顶尖学者都在关注扩散模型，让李崇轩非常兴奋，他想站在巨人的肩膀上，将扩散模型在语言方面再向前推进一步。

但要去做一个全新范式的原生大模型，对身处高校的李崇轩来说太难了。高校的算力，工程能力，数据资源等方面都非常局限。

但幸运的是，因为一些校企合作中，李崇轩跟蚂蚁集团有很多交集，校企合作结束后，双方还一直保持很好的联系。

去年以来，蚂蚁集团持续加大AGI的基础研究，在主流模型架构基础上，加强了前沿技术的实验。蓝振忠出任蚂蚁通用人工智能研究中心主任后，开启了对AGI更纯粹的探索之路。

因为把扩散模型用在语言上的想法高度重合，李崇轩和蓝振忠开始密切交流，世界线开始收缩。

蓝振忠跟雷峰网表示：“过去我们（蚂蚁）想做这件事情，我其实一直在找这个方向非常优秀的人，李崇轩老师我们是一拍即合。”

2025年2月份，蚂蚁和高瓴人工智能学院合作推出了LLaDA模型，将扩散语言模型（dLLM）扩展至8B参数规模。

比起现在动辄千亿、万亿的模型来说，LLaDA模型大小和榜单数据远远落后，但和业界主流的自回归（AR）生成范式不同，它是一个原生的扩散语言模型。

“它意味着我们从一个非常非常迷你的原型系统，一个根本不能说话的原型系统到一个能说话的东西，其实大概一年多就走完了。”

李崇轩谈到LLaDA的诞生过程，眼神坚定，语速很快。

其实，这个从头开始训练的新范式模型，不仅“能说话”，还实现上下文学习、指令遵循，在多轮对话方面表现也不错，性能对标LLaMA 3。

LLaDA的出现，像是插在山坡上的一面旗帜，让业内无数学者看到，语言模型在自回归范式外，似乎还有别的路线走得通。

LLaDA发布之后，李崇轩和蓝振忠带着团队开始了进一步探索，几个月后，对齐能力更强的LLaDA1.5和多模态版本的LLaDA-V又先后落地。

这些自回归模型里能做到的，扩散语言模型领域也在慢慢补齐。

用李崇轩的话来说：“我们想把前期能蹚的路都蹚了，这样才能让更多优秀的人，进入到扩散语言模型。”事实上正是如此，业内越来越多人开始关注LLaDA，并把它作为基础或主干模型来进一步微调或扩展。

但“蹚路”并不容易，一个模型想要真正大规模应用，除了模态和对齐能力等，还必须要做到规模化扩展（scaling）。

经过之前无数自回归模型的验证，要做到scaling，MoE是一个必要环节。

MoE简称“混合专家模型”，是最近大模型领域的热门词汇，简单地说是让不同“专家”回答不同问题，可以在保持相似算力消耗的前提下，让模型扩容变大。

因此MoE模式，也是LLaDA做大做强的路上绕不开的难题。

MoE本身很难训，外加扩散语言模型不仅是新范式，还是基于稠密架构。

“在一个新的东西上叠加一个很难训的东西，难上加难。“

李崇轩谈到训练LLaDA-MoE的过程提到：“一旦某一行代码数据处理不对就崩了，我们前面拖了两个月，就是不收敛。”

但好在蓝振忠和李崇轩团队，吸收了诸多此前蚂蚁智能探索的经验。

在之前的训练AI架构中，蚂蚁的工程团队有很强的积累，通过自研ATorch训练框架，已经具备专家并行（EP）等一系列并行加速技术。

不久前，蚂蚁百灵大模型团队开源了自回归MoE大模型Ling2.0，在训练过程中，产生了一组20T的高质量数据。

这组数据，成了蓝振忠和李崇轩团队关键的突破口。

如此高质量的数据加持，大大加速LLaDA-MoE的研发过程。

2025年9月12日，LLaDA-MoE正式版发布。

LLaDA-MoE的总参数量为7B，激活参数量为1.4B。在约20T数据上，这个从零训练MoE架构的扩散语言模型，验证了工业级大规模训练的扩展性和稳定性。

通向AGI之路，蚂蚁踏出了新的一步。也意味着在把dLLM训扩到更大规模的路上，国内团队又往前走了一步。

在参与benchmark测试中，LLaDA-MoE不仅超越了不少开源稠密dLLM模型领域前辈，比如LLaDA1.0/1.5和Dream-7B。而且LLaDA-MoE还追平了Qwen2.5-3B。

这意味着，稠密扩散语言模型和同数量级训练的稠密自回归模型，可以坐在同一桌掰手腕了。

更重要的是，从1.4B激活参数、2倍多参数稠密模型的等效比看，LLaDA-MoE验证了一件事：

MoE架构的放大效应，在扩散语言模型上同样奏效。

这为业内在扩散语言模型的scaling上，指出了一条明亮的路。

尽管LLaDA1.0完成了从零到一，LLaDA-MoE更是里程碑般的存在，但在登山的路上，LLaDA-MoE还有太多的路要走，蓝振忠谈到LLaDA-MoE需要克服的困难，滔滔不绝。

“比如在速度上，理论上比自回归好，但现在自回归每秒能吐300个token，但扩散语言模型开源最好也只能吐50个；再比如规模上，虽然可以做到MoE了，但更大的规模怎么跑？比如我们这次还没做类似于block diffusion等等，下一次······”

采访尾声，李崇轩再次提到了“蹚路”，我们想把前期能蹚的路都蹚了。

“这个方向需要更多聪明的人参与进来，就像自回归模型的发展依靠了全世界的贡献，扩散语言模型的发展同样需要借助社区的力量。”

因此，LLaDA-MoE在发布的第一时间，就把基础模型版LLaDA-MoE-7B-A1B-Base和指令微调版LLaDA-MoE-7B-A1B-Instruct两个版本全部开源。

HuggingFace链接：https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub链接：https://github.com/ML-GSAI/LLaDA

除了模型权重外，团队还将同步开源针对dLLM并行特性深度优化的推理引擎。相比NVIDIA官方fast-dLLM，该引擎实现了显著加速。

不仅如此，蚂蚁还在持续投入包括基于dLLM的AGI领域，在下一阶段，将联合学界和全球AI社区共同推动AGI新的突破。

发布会结束后，有媒体问到蓝振忠：

“听下来这是一个非常前沿的探索，蚂蚁拿出来资金和精力投入如此前沿的领域，万一未来种花得豆怎么办？”

蓝振忠这样回答：“如果不去探索那些在别人眼中可能充满风险的领域，（我们）就只能永远跟随他人已经确定的路径前进。要提升智能的上限，就不能一直follow。”

当巨兽仍在摩挲旧地图，微光已悄然改道。这是蚂蚁AGI的回答，也是一位位年轻学者的回答。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

冲破 AGI 迷雾，蚂蚁看到了一个新路标

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

媒体：中美外交盛事成"圈粉"现场 特朗普直呼"惊艳"

媒体：中美外交盛事成"圈粉"现场 特朗普直呼"惊艳"

争议抽象天王山，和季后赛最稳定中锋

何九华官宣当爸！全程不提孩子妈

李强会见美国工商界代表

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

绝对值分类讨论，一个视频学到精髓！

孤独症特教老师的工作，远不止“教说话”!（下）

抢跑618！iPhone 17 Pro系列首次官方降价，天猫官旗优惠超1000元

花园里，花丛中

乌克兰首都基辅遭空袭 死亡人数增至12人

马斯克说会谈很顺利黄仁勋点赞库克比耶

媒体：中美外交盛事成"圈粉"现场特朗普直呼"惊艳"

媒体：中美外交盛事成"圈粉"现场特朗普直呼"惊艳"

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

乌克兰首都基辅遭空袭死亡人数增至12人