网易首页 > 网易号 > 正文 申请入驻

冲破 AGI 迷雾,蚂蚁看到了一个新路标

0
分享至

“大模型战场,走到了新秩序的边缘。”

作者丨齐铖湧

编辑丨陈彩娴

01

2024年12月14日,温哥华会展中心座无虚席,ChatGPT之父Ilya现身大银幕,在全球AI顶会上,Ilya向全行业预警:

「数据压榨已然到头,如果无法突破,AGI将难以实现。」

彼时,普罗大众还沉浸一场AI盛宴中,每天睁开双眼,就能体验到各种最新迭代的大模型。但台下观众眉头紧锁,作为全球顶尖AI学者,他们早已明白这位AI之神的言外之意。

AI时代,数据犹如工业时代的化石燃料,燃料挖掘殆尽,但AGI并未涌现,大模型领域,被迫走向新秩序的边缘。

通往AGI的路上,亟需找到一些新的方向。

埃隆马斯克率先出手,2025年中,这位“第一性原理”的忠实信徒,决定开启重写人类知识库的计划。用“提纯数据”的方式,尝试打开通往AGI的大门。

另一些资深学者,则瞄准了多模态。

斯坦福大学2025春季首次公开课上,AI顶级研究者李飞飞抛出观点“视觉不仅是智能的一部分,更是智能的基石”。

不久后,众多科学家们一呼百应,逐一验证“听说读写”等等多种模态,Open AI也发布GPT-4o,大家期待模型像人类一样感知与thinking后,能带领人类瞥见AGI的大门。

但无论是马斯克的“提纯数据”论,还是多模态的尝试,都依然沿着现有的自回归(AR)路径,在做小步迭代。

业内逐渐出现另一种声音:自回归到底是不是通往AGI的唯一路径?

无人能做出确切回答,但大洋对面,早已有一群年轻学者开始尝试新范式。

2025年9月11日,上海外滩大会人潮涌动。

在年轻学者含量最高的AGI见解论坛上,蓝振忠和李崇轩官宣了LLaDA-MoE的发布。不同于市面上主流模型,这是一个基于扩散理论的新范式。

李崇轩(左)、蓝振忠发布LLaDA-MoE模型

最近一两年,AI发展迅猛却极端割裂。

曾经出现过滑稽一幕,某个大模型一边已经发展到能秒杀人类博士生和奥数金牌得主,另一边却连简单的中译英“美国总统拜登……”,都翻译错误“US President Boo-”。

这是因为AI为了追求速度,翻译时不得不“边听边猜”,但一旦开头猜错就无法收回。

出现人名截断、语义颠倒尚可接受,但AI在严肃的医疗诊断领域也时常闯祸。

明明是“左肺下叶见结节,右肺未见结节,直径12 mm”,但由于AI “失忆”属性,导致左右肺判断颠倒。这些问题的出现,让很多研究者对当前大语言模型(LLM)的方向提出质疑。

上海AI Lab的青年科学家付杰,在公开场合直言:“他不觉得当前大语言模型的路子是对的”,因为“现在这样搞出来的LLM根本不懂它为什么能输出某些答案,本质上可能还是靠记忆”,清华计算机系的崔鹏教授也曾提出质疑,LLM是否真能理解什么是“数”。

这些基本错误的出现,要归结于一个原因:底层架构。

当下主流的大模型,底层架构几乎清一色采用自回归生成范式,它的特性是单向建模。

单向建模的原理,是从前往后吐出一个个token,用上一个字预测下一个字,因为只能从左往右的局限,就导致一个严重的缺陷:

这样的大模型,既没有逆向思维,也无法提前看到事物全貌。

科学家很早就意识到这个巨大缺陷。两年前,来自英国前沿人工智能工作组、纽约大学、牛津等机构的研究小组发现:一个训练于「A是B」的语言模型,无法推理出「B是A」。

他们向大模型提问,大模型明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」,但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。

论文地址:https://owainevans.github.io/reversal_curse.pdf

这个现象被写成论文发布后,不少研究者们复现实验,并将参数从350M扩展到175B,但「AB逆转」问题依旧无法解决。

大家逐渐意识到,这是自回归范式问题,是底层架构问题。

后来,靠着堆算力、打补丁,引入深思考Deep Research模式,这个缺陷被暂时掩盖,各大模型头部厂商还是以日更周更的速度,迭代各种大模型。

02

但随着深思考模式的出现,自回归范式的缺点不仅无法掩盖,并被放到更大,蓝振忠将自回归(AR)生成范式的内在缺陷,总结为三点:

01生成速度正比于输出长度(长文本速度慢)

02缺乏双向建模能力。

03缺乏直接修正错误能力

蓝振忠从谷歌回国后,加入西湖大学,后创立西湖心辰,现担任蚂蚁通用人工智能研究中心主任、西湖大学特聘研究员。在意识到自回归内在缺陷无法解决,AGI将“撞墙”后,蓝振忠开始思考另辟蹊径。

他注意到另一个范式:扩散(Diffusion)

蓝振忠意识到,自回归模型是从左往右预测下一个字,原理是逐步的条件概率;但扩散模型是在去噪过程中逐渐逼近数据分布,在并行中由粗到细去动态修正答案。

二者区别,类似于分别一根钢笔单独画画和好几支铅笔同时画画,钢笔必须一笔画成,但在扩散模型里,你可以用多根铅笔从一个简单的草图开始,逐步添加细节,并且随时可以用橡皮修正画面。

自回归的生成范式

扩散语言模型的生成范式

这意味着扩散生成模型在生成端,有三个特征正好弥补了自回归生成范式的缺点。

第一,扩散模型能做到并行解码,长文本的推理迭代和算力利用率都更高效。

第二,能够双向建模的优点,让扩散模型不仅避免了翻译场景下“边听边猜”和自回归模型无法「AB逆转」的缺陷,在多种模态场景中表现也更好。

第三,扩散模型能做到迭代修正,在生成代码等场景下,能够直接部分片段错误,不需要每次都重新生成。

与此同时,在数据的预训练中,扩散模型也有不少优势。

它类似于完形填空,随机扔掉一些词,然后填空。这意味着,同一份数据,自回归只能训一两遍,但扩散语言模型可以拿掉不同的空,多次训练。

蓝振忠举了一个例子:

“比如你拿到一本书,如果只是逐字阅读下一个字,你对书本内容的理解是有限的,但是如果每次都能往回看一下,那么你对书本的理解是更深的,你能学到的东西肯定更多的。”

从生成到训练都有优点,让蓝振忠对扩散语言模型有了极大的信心。

同时关注到扩散模型优点的,还有李崇轩。

李崇轩来自高瓴人工智能学院,连续做了很多基于扩散理论的文到图、文到视频的基础研究,是扩散模型方面的知名学者。

之前,大家都以为扩散模型是用来生图的,把扩散模型用到语言上看似不可思议。但在他看来,把扩散模型和语言结合,是很自然的想法。

李崇轩告诉雷峰网:扩散模型第一次提出是2015年,他一开始就关注并跟进研究,2021年,扩散模型在生图领域被证明可行后,越来越多学者和教授关注扩散模型。

“在大语言模型中,主流观点是从左到右的顺序,虽然是实际使用非常优的策略,但它的前提是不需要逆向思维,或者不需要反复打磨的情况下。”但李崇轩隐约感觉到:

“从左往右,并不一定是理论最优解。”

从理论基本准则上看,大语言模型源于生成范式,而非自回归独有,存在其他路径的可能性。

2022年,李崇轩敏锐地觉察到“把扩散模型应用到语言领域,理论上是可行的”,于是带着学生开始了深入的探索,开始尝试把扩散用到语言上。

“当时在机器学习领域里面,只有很少一部分人在做这个事情。”

2024年,OpenAI华人大牛宋飏靠着扩散模型领域的研究,火爆出圈,同一年,他的博士导师斯坦福大学Stefano Ermon教授也发了一篇关于扩散模型的论文,被业界称为扩散模型的“GPT2时刻”。

如此多顶尖学者都在关注扩散模型,让李崇轩非常兴奋,他想站在巨人的肩膀上,将扩散模型在语言方面再向前推进一步。

但要去做一个全新范式的原生大模型,对身处高校的李崇轩来说太难了。高校的算力,工程能力,数据资源等方面都非常局限。

但幸运的是,因为一些校企合作中,李崇轩跟蚂蚁集团有很多交集,校企合作结束后,双方还一直保持很好的联系。

去年以来,蚂蚁集团持续加大AGI的基础研究,在主流模型架构基础上,加强了前沿技术的实验。蓝振忠出任蚂蚁通用人工智能研究中心主任后,开启了对AGI更纯粹的探索之路。

因为把扩散模型用在语言上的想法高度重合,李崇轩和蓝振忠开始密切交流,世界线开始收缩。

蓝振忠跟雷峰网表示:“过去我们(蚂蚁)想做这件事情,我其实一直在找这个方向非常优秀的人,李崇轩老师我们是一拍即合。”

2025年2月份,蚂蚁和高瓴人工智能学院合作推出了LLaDA模型,将扩散语言模型(dLLM)扩展至8B参数规模。

比起现在动辄千亿、万亿的模型来说,LLaDA模型大小和榜单数据远远落后,但和业界主流的自回归(AR)生成范式不同,它是一个原生的扩散语言模型。

“它意味着我们从一个非常非常迷你的原型系统,一个根本不能说话的原型系统到一个能说话的东西,其实大概一年多就走完了。”

李崇轩谈到LLaDA的诞生过程,眼神坚定,语速很快。

其实,这个从头开始训练的新范式模型,不仅“能说话”,还实现上下文学习、指令遵循,在多轮对话方面表现也不错,性能对标LLaMA 3。

LLaDA的出现,像是插在山坡上的一面旗帜,让业内无数学者看到,语言模型在自回归范式外,似乎还有别的路线走得通。

LLaDA发布之后,李崇轩和蓝振忠带着团队开始了进一步探索,几个月后,对齐能力更强的LLaDA1.5和多模态版本的LLaDA-V又先后落地。

这些自回归模型里能做到的,扩散语言模型领域也在慢慢补齐。

用李崇轩的话来说:“我们想把前期能蹚的路都蹚了,这样才能让更多优秀的人,进入到扩散语言模型。”事实上正是如此,业内越来越多人开始关注LLaDA,并把它作为基础或主干模型来进一步微调或扩展。

但“蹚路”并不容易,一个模型想要真正大规模应用,除了模态和对齐能力等,还必须要做到规模化扩展(scaling)。

经过之前无数自回归模型的验证,要做到scaling,MoE是一个必要环节。

MoE简称“混合专家模型”,是最近大模型领域的热门词汇,简单地说是让不同“专家”回答不同问题,可以在保持相似算力消耗的前提下,让模型扩容变大。

因此MoE模式,也是LLaDA做大做强的路上绕不开的难题。

MoE本身很难训,外加扩散语言模型不仅是新范式,还是基于稠密架构。

“在一个新的东西上叠加一个很难训的东西,难上加难。“

李崇轩谈到训练LLaDA-MoE的过程提到:“一旦某一行代码数据处理不对就崩了,我们前面拖了两个月,就是不收敛。”

但好在蓝振忠和李崇轩团队,吸收了诸多此前蚂蚁智能探索的经验。

在之前的训练AI架构中,蚂蚁的工程团队有很强的积累,通过自研ATorch训练框架,已经具备专家并行(EP)等一系列并行加速技术。

不久前,蚂蚁百灵大模型团队开源了自回归MoE大模型Ling2.0,在训练过程中,产生了一组20T的高质量数据。

这组数据,成了蓝振忠和李崇轩团队关键的突破口。

如此高质量的数据加持,大大加速LLaDA-MoE的研发过程。

2025年9月12日,LLaDA-MoE正式版发布。

LLaDA-MoE的总参数量为7B,激活参数量为1.4B。在约20T数据上,这个从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性。

通向AGI之路,蚂蚁踏出了新的一步。也意味着在把dLLM训扩到更大规模的路上,国内团队又往前走了一步。

在参与benchmark测试中,LLaDA-MoE不仅超越了不少开源稠密dLLM模型领域前辈,比如LLaDA1.0/1.5和Dream-7B。而且LLaDA-MoE还追平了Qwen2.5-3B。

这意味着,稠密扩散语言模型和同数量级训练的稠密自回归模型,可以坐在同一桌掰手腕了。

更重要的是,从1.4B激活参数、2倍多参数稠密模型的等效比看,LLaDA-MoE验证了一件事:

MoE架构的放大效应,在扩散语言模型上同样奏效。

这为业内在扩散语言模型的scaling上,指出了一条明亮的路。

尽管LLaDA1.0完成了从零到一,LLaDA-MoE更是里程碑般的存在,但在登山的路上,LLaDA-MoE还有太多的路要走,蓝振忠谈到LLaDA-MoE需要克服的困难,滔滔不绝。

“比如在速度上,理论上比自回归好,但现在自回归每秒能吐300个token,但扩散语言模型开源最好也只能吐50个;再比如规模上,虽然可以做到MoE了,但更大的规模怎么跑?比如我们这次还没做类似于block diffusion等等,下一次······”

03

采访尾声,李崇轩再次提到了“蹚路”,我们想把前期能蹚的路都蹚了。

“这个方向需要更多聪明的人参与进来,就像自回归模型的发展依靠了全世界的贡献,扩散语言模型的发展同样需要借助社区的力量。”

因此,LLaDA-MoE在发布的第一时间,就把基础模型版LLaDA-MoE-7B-A1B-Base和指令微调版LLaDA-MoE-7B-A1B-Instruct两个版本全部开源。

HuggingFace链接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub链接:https://github.com/ML-GSAI/LLaDA

除了模型权重外,团队还将同步开源针对dLLM并行特性深度优化的推理引擎。相比NVIDIA官方fast-dLLM,该引擎实现了显著加速。

不仅如此,蚂蚁还在持续投入包括基于dLLM的AGI领域,在下一阶段,将联合学界和全球AI社区共同推动AGI新的突破。

发布会结束后,有媒体问到蓝振忠:

“听下来这是一个非常前沿的探索,蚂蚁拿出来资金和精力投入如此前沿的领域,万一未来种花得豆怎么办?”

蓝振忠这样回答:“如果不去探索那些在别人眼中可能充满风险的领域,(我们)就只能永远跟随他人已经确定的路径前进。要提升智能的上限,就不能一直follow。”

当巨兽仍在摩挲旧地图,微光已悄然改道。这是蚂蚁AGI的回答,也是一位位年轻学者的回答。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪大爷收心了,每天都会去陪汪宝儿,汪小菲小时候都没有这个待遇

汪大爷收心了,每天都会去陪汪宝儿,汪小菲小时候都没有这个待遇

老羴学科普
2026-05-09 18:09:09
立夏后要“补虚”,早餐把水煮蛋换成它,坚持每天吃1个,精力足

立夏后要“补虚”,早餐把水煮蛋换成它,坚持每天吃1个,精力足

阿龙美食记
2026-05-08 08:02:24
巴尔韦德:“他们在荒谬的情况下进球了”

巴尔韦德:“他们在荒谬的情况下进球了”

绿茵情报局
2026-05-11 01:22:37
62年毛主席因李银桥离开落泪,杨尚昆提议将其调回,主席为何拒绝

62年毛主席因李银桥离开落泪,杨尚昆提议将其调回,主席为何拒绝

历史龙元阁
2026-05-10 09:30:26
“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

环球网资讯
2026-05-10 14:53:11
中美将举行新一轮经贸磋商

中美将举行新一轮经贸磋商

台州交通广播
2026-05-10 23:01:46
《欢乐满屋》男星确诊癌症,一年后再患舌癌

《欢乐满屋》男星确诊癌症,一年后再患舌癌

娱圈观察员
2026-05-09 16:27:20
光纤行业迎重大利好,外资悄然布局3家低价标的

光纤行业迎重大利好,外资悄然布局3家低价标的

王二哥老搞笑
2026-05-10 13:08:16
DeepSeek专家模式预测:现在100万的房子,到2030年能值多少钱?

DeepSeek专家模式预测:现在100万的房子,到2030年能值多少钱?

靓仔情感
2026-05-10 20:42:56
U17国足队长说真话!坦言亚洲杯和日本差距巨大,传接球没自信

U17国足队长说真话!坦言亚洲杯和日本差距巨大,传接球没自信

丁蓳解说
2026-05-10 20:32:26
王楚钦被表白了?女神身份曝光,18岁,长相甜美,孙颖莎一句话耐人寻味

王楚钦被表白了?女神身份曝光,18岁,长相甜美,孙颖莎一句话耐人寻味

乒乓网国球汇
2026-01-31 00:11:25
真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

马尔科故事会
2024-11-05 13:56:12
任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

心理观察局
2026-05-04 08:51:11
鲁尼:我感觉阿森纳和曼城都不会再丢分,阿森纳最终会夺冠

鲁尼:我感觉阿森纳和曼城都不会再丢分,阿森纳最终会夺冠

懂球帝
2026-05-10 21:10:26
江西省九江市,到底骗了多少人?居然拥有4个“中国之最”!

江西省九江市,到底骗了多少人?居然拥有4个“中国之最”!

三农老历
2026-05-11 01:39:27
他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

兴趣知识
2026-05-08 00:23:54
就算中产不装了,也不会买“保罗散步”

就算中产不装了,也不会买“保罗散步”

中国新闻周刊
2026-05-10 23:25:23
在全场“乌拉”声中,普京宣布胜利永远是俄罗斯的

在全场“乌拉”声中,普京宣布胜利永远是俄罗斯的

山河路口
2026-05-10 13:59:29
八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

马捗在解说
2026-05-08 14:50:30
签证收紧、绿卡无望:华人工程师十年梦碎,举家迁往广州

签证收紧、绿卡无望:华人工程师十年梦碎,举家迁往广州

纽约时间
2026-05-11 00:55:49
2026-05-11 04:07:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69273文章数 656122关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
游戏
房产
教育
旅游

艺术要闻

这些美人体摄影,简直美得让人窒息!

LPL第二赛段:拒绝让一追二!JDG三局战胜AL,挺进前三

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

教育要闻

高考地理中的共享经济

旅游要闻

北京“二绿地区”郊野公园焕新升级

无障碍浏览 进入关怀版