网易首页 > 网易号 > 正文 申请入驻

首个商业规模的扩散语言模型,究竟是什么来头?

0
分享至

前不久,硅谷的一家初创公司 Inception Labs 正式从隐身模式中浮出水面,推出了 Mercury,这是全球首个基于扩散模型(Diffusion Model)的商业级语言模型。与传统的自回归大语言模型不同,Mercury 采用了一种全新的方法来生成文本和代码,这使其在速度、效率和潜在应用方面都具有许多特殊的优势。

从一对一到并行处理

传统的大语言模型如都采用自回归方式工作。这种架构使得它们必须从左到右、一个标记(token)一个标记地预测和生成文本。这种顺序处理方式成为这类模型速度的主要瓶颈。

而 Mercury 却采用了扩散模型架构。我们都知道这种架构之前主要应用于图像、视频和音频生成模型,如 Midjourney、DALL-E 和 Sora 等。但 Inception Labs 却成功将这一技术引入文本生成领域:“我们从一个粗略的答案估计开始,然后通过神经网络不断精炼,直到得到最终答案。”Ermon 解释道,“关键优势在于神经网络能够并行修改多个标记、多个词语。”

具体来说,Mercury 以一种特殊的方式处理文本数据。虽然 Inception Labs 还未透露模型的参数数量、输入输出大小、训练数据和训练方法等详细信息,但我们可以从 2023 年 10 月由 Inception Labs 联合创始人共同发表的一篇研究论文中了解一些细节。该研究采用“分数熵”(score entropy)训练文本扩散模型,使模型学会估计两个标记之间的转换比率——即标记 y 正确的概率相对于当前标记 x 正确的概率。

在他们的实验中,研究者通过在多个步骤中随机逐渐掩盖越来越多的标记,来向标记添加“噪声”。在推理阶段,模型从掩盖的标记开始,然后通过多个步骤逐渐取消掩盖。估计的转换比率决定了在每个步骤中如何改变每个标记。这与图像扩散模型类似,后者通过逐步去除噪声来改善输出。

这种设计让它生成速度比传统的语言模型快了非常多,运行在英伟达 H100 图形处理单元上时,Mercury Coder Small 能够以每秒 737 个标记的速度生成文本,而 Mercury Coder Mini 甚至达到了每秒 1,109 个标记。相比之下,同类型的模型如 Qwen 2.5 Coder 7B 每秒能生成 207 个标记,GPT-4o Mini 则为每秒 59 个标记。相当于 Mercury 的 Small 和 Mini 版本比类似规模的编码模型快 3.5 至 18 倍。

而在性能表现上,在六项编码基准测试中,Mercury Coder Small 在至少四项中超过了 Gemini 2.0 Flash-Lite、Claude 3.5 Haiku、GPT-4o Mini 和 Qwen 2.5 Coder 7B 等竞争对手。同时,体积更小的 Mercury Coder Mini 也在至少两项基准测试中击败了这些模型。不过,在所有六项基准测试中,DeepSeek Coder V2 Lite 都优于两个版本的 Mercury Coder。

笔者用一道经典的小球碰撞题目进行了实测,并与其他模型进行了比较。Prompt 如下:写一段 html 代码,网页中间是一个正六边形,有一个具有初速度的质点在六边形中,碰到六边形的边界就反弹,每次碰到边界都时边界都随机变换颜色。

先让尖子生 o3-mini-high 来打个样。

相比之下,Mercury Coder 的表现可以说,要速度有速度,要质量有速度。碰撞检测非常简单粗暴,六边形实现也有误。

同类模型 Gpt-4o-mini 在碰撞效果和六边形实现上表现更好一点,但却没有变色效果。

当然这一道题目无法完全说明模型的真实能力,不过从各大社交媒体的用户实测来看,Mercury Coder 目前的能力的确相对有限,不过作为一种新的模型范式,我们也确实该给它更多的发展时间。

来自扩散模型作者的成果

Mercury 背后的故事始于 2019 年,当时美国斯坦福大学计算机科学教授 Stefano Ermon 开始探索将扩散模型应用于内容生成的可能性。当时主流的图像生成模型还在使用 GAN(生成对抗网络),但 Ermon 及其团队认为结果“不够好”,于是开始应用 Diffusion,这最终成为了 Midjourney、DALL-E 等图像生成模型采用的关键方法。

Ermon 的团队同时也在思考如何将扩散技术应用于文本和代码生成,但这是一个更具挑战性的问题,经过多年研究才取得突破。他们于 2023 年 10 月发表了关键性研究论文,详细描述了这一技术,并在 2024 年的国际机器学习会议(ICML)上获得了最佳论文奖。

在这篇论文中,Stefano Ermon 与 Aaron Lou 和 Chenlin Meng(Pika 的联合创始人)合作,提出了一种名为 Score Entropy Discrete Diffusion models(SEDD)的模型。

SEDD 的核心创新在于提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。传统扩散模型在图像等连续数据上取得了巨大成功,但在文本等离散数据上却一直面临挑战。研究者们设计了一种能够估计数据分布比率的参数化方法,使用分数熵作为训练目标,让模型学会预测标记之间的转换概率比。在推理过程中,模型从完全掩码状态开始,通过多个步骤逐渐去除“噪声”(即掩码)。

论文中报告的实验结果表明,SEDD 在语言建模任务上明显优于当时已有的语言模型,减少了 25-75% 的困惑度。

认识到这一技术的巨大潜力,Ermon 于 2024 年夏天创立了 Inception Labs,并邀请美国加利福尼亚大学洛杉矶分校教授 Aditya Grover 和美国康奈尔大学教授 Volodymyr Kuleshov 加入。这三位学者共同领导公司发展,希望“改变生成式 AI 技术的运作方式,不仅针对图像,还包括语言”。

虽然 Ermon 拒绝透露具体的融资细节,但据 TechCrunch 报道,Mayfield Fund 已向该公司投资。Ermon 表示公司已经“资金充足”,目前不在融资阶段。

目前,Inception Labs 已经推出了一系列基于扩散技术的大语言模型,名为 Mercury 系列,首款产品是一个名为 Mercury Coder 的编码助手,同时也能进行文本响应。该公司还计划推出 AI 聊天机器人和面向开发者的 API。

Mercury 以专有模型(非开源)的形式提供。该公司表示已经与多家财富 500 强企业建立合作关系,主要解决这些企业在 AI 延迟和速度方面的关键需求。Inception Labs 提供 API 以及本地部署和边缘设备部署选项,支持模型微调,并为各种用例提供开箱即用的扩散语言模型。

扩散语言模型的未来

虽然从性能表现上来说,它并不算出色,但其优势在于它比传统的大模型快 5-10 倍,这对一些实时应用来说非常重要,能显著提升用户体验和系统响应能力。官方宣称,由于 GPU 利用率更高,它的运行成本也能降低约 10 倍,让大规模部署 AI 系统变得更加经济实惠,也更便于在资源有限的端侧部署。

不过要注意的是,由于扩散模型的结构特性,其每次推理的成本实际上要高得多,这就抵消了其提高的速度优势。所以其具体能降低多少成本,还有待考量。

另外,扩散模型本质上更易于控制,类似于图像生成中的草图控制,为精确引导输出提供了更多可能性。最重要的是,这种技术为统一多模态创造了条件,意味着同一类型的生成式 AI 模型有潜力处理所有不同模态,包括文本、代码、图像、视频和音频,从而实现知识共享和跨模态学习。

Andrej Karpathy 在社交媒体上评论说,这种模型“有可能真正不同,并可能展示出全新的、独特的心理特性,或新的优势和弱点”。

比如从文本处理层面来说,扩散语言模型或许具有非常出色的风格处理能力——接收现有文本,添加“噪声“,然后在精确引导下逆转这一过程——在翻译和风格迁移方面可能会具有较大潜力。而且,扩散模型能同时处理文本的多个部分,在生成过程中考虑全局一致性,这也解决了自回归模型难以保证长文本连贯性的固有缺陷。

不过就目前而言,这种模型在性能表现上还有很大的进步空间。至于更大规模的扩散模型是否能够匹配 ChatGPT、Claude 和 DeepSeek 等顶级模型的性能,能否在不产生大量幻觉的情况下产生可靠结果,以及这种方法是否能够处理日益复杂的模拟推理任务,让我们拭目以待。

参考资料:

1.https://techcrunch.com/2025/02/26/inception-emerges-from-stealth-with-a-new-type-of-ai-model/

2.https://www.inceptionlabs.ai/news

3.https://arxiv.org/pdf/2310.16834

4.https://www.deeplearning.ai/the-batch/mercury-coder-may-be-the-first-commercially-available-language-diffusion-model/?utm_campaign=The%20Batch&utm_content=326668060&utm_medium=social&utm_source=twitter&hss_channel=tw-992153930095251456

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

垚垚分享健康
2026-03-26 16:09:56
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

娱乐圈圈圆
2026-03-26 21:47:07
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

茶韵浮生
2026-03-26 20:26:51
刚刚,《柳叶刀》杀人诛心:你每天灌再多的水,也防不了肾结石!

刚刚,《柳叶刀》杀人诛心:你每天灌再多的水,也防不了肾结石!

徐德文科学频道
2026-03-26 19:03:36
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
禁止将居民住宅专门用于安放骨灰!

禁止将居民住宅专门用于安放骨灰!

北青网-北京青年报
2026-03-26 16:11:05
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
2026-03-27 00:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
家居
时尚
军事航空

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

亲子要闻

看看把孩子吓得哈哈哈

家居要闻

傍海而居 静观蝴蝶海

400万人爱过的女孩,被黄谣网暴180天后

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版