网易首页 > 网易号 > 正文 申请入驻

扩散模型成最快深度思考!告别自回归每秒1009个tokens

0
分享至

首个会深度思考的扩散模型来了!

抛弃自回归范式,一举成为世界上生成速度最快的模型。

你瞅瞅,对比之下传统自回归的“打字机模式”(按顺序一个个token往外吐)是不是就有点像乌龟了:



实际测评显示,这款名为Mercury 2的扩散推理LLM在英伟达GPU上可实现1009个tokens/s

这个速度整整比GPT-5(mini)和Claude-4.5(haiku)这些传统模型快了5倍。



消息一出,英伟达第一时间跑来祝贺了(当然也可能是因为它投了Mercury 2背后的公司):



一众网友也纷纷坐不住,毕竟最近很火的“龙虾们”也少不了对速度的极限追求:



还有人已经开始怀念自回归曾经的风光了(doge)。



so,Mercury 2是谁?它又是如何突破速度瓶颈的呢?

不止是快,还稳

原理其实很简单。

前面已经说了,传统自回归就像打字机一样,一次只能处理一个token,且必须按照从左到右的顺序。

但扩散模型Mercury 2的工作方式更像一位编辑——

你不是在看它打字,而是看它拿到一份草稿后,立刻拿着红笔在整页纸上同时圈改。

换言之,一次生成答案草稿再整体编辑。

这种“并行优化”机制,使得Mercury 2不需要等待前一个字的结果就能生成下一个字,因此响应速度极快,延迟不再与输出长度成正比。

最终,Mercury 2能将生成速度提升5倍以上,且速度曲线截然不同

瞅瞅,在第三方测评中,其输出速度可谓一骑绝尘。



和市面主流的顶尖模型比,速度也是独一档的存在。



而且不止是快,它在性能、价格方面都具有一定优势。

延迟低至1.7s的情况下,在GPQA(科学问答)、LCB(编程)、AIME(数学)等多个基准测试中,Mercury 2的得分普遍高于或持平于那些速度较慢的“小型/轻量级”模型(如GPT-5 Nano, Claude 4.5 Haiku)。

甚至在AIME上的得分超过了公认的“性能怪兽”Gemini 3 Flash(推理版) 。

这说明Mercury 2在保持极高速度的同时,并不以牺牲智商为代价。



它目前支持128K上下文,输入价格为每百万token 0.25美元(约合人民币1.7元),输出价格为每百万token 0.75美元(约合人民币5.2元)。

综合速度与价格,Mercury 2也保持了较高性价比。



官方表示,Mercury 2的这种速度优势改变了推理。

  • 如今,更高的智能意味着更多的test-time计算——更长的链、更多的样本、更多的重试,而这直接以延迟和成本为代价。基于扩散的推理能够在实时延迟预算内实现推理级别的质量。

背后公司一开始就押注扩散模型

最后介绍一下Mercury 2背后的公司及团队。

它是由Inception Labs这家成立于2024年的硅谷初创公司推出的。

从一开始这家公司就力押扩散模型,其核心使命为——

用全新的、基于扩散/diffusion的生成机制替代传统的自回归Transformer模型,从根本上突破速度与成本瓶颈。

他们认为,传统自回归模型的缺陷不言自明——延迟和成本会随着token数量的增加而增加。

而扩散模型采用由粗到精的生成过程。它并非逐个提交数据,而是通过少量步骤并行迭代地细化输出。这使得在生成过程中可以进行修改,并带来截然不同的速度-成本曲线。一言以蔽之:

  • 人工智能不应该像单向打字机那样运作,而应该更像一个编辑。

基于此,他们开始在Mercury系列中践行这一理念。

2025年2月,发布全球首个基于扩散模型的商业级语言模型——初代Mercury,一开始就把生成速度拉到传统的5倍以上,而且同一时间还推出编程助手Mercury Coder。

一年之后,升级版Mercury 2问世,在推理和多智能体日益进入主流视线的今天,带来了更多可能。



事实上,早在2019年,这家公司的联创兼CEO Stefano Ermon就开始投身扩散模型的研究了。

时任斯坦福大学计算机科学教授的Stefano Ermon,很早就思忖着将扩散模型应用于内容生成。

当时主流的图像生成模型还在使用GAN(生成对抗网络),但他和团队认为结果“不够好”,于是开始尝试应用Diffusion。

而在看到Diffusion的效果不错后(后来Midjourney、DALL-E等都是用这种方法),他们开始将研究目光转向文本和代码生成。

  • 图像由连续的像素构成,而文本由离散的token构成。之前成功的扩散模型理论(如去噪得分匹配)是建立在连续空间上的,无法直接迁移到文本。

于是在2023年,他和团队发表了一篇关键性论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,里面介绍了一种名为Score Entropy Discrete Diffusion models(SEDD)的模型。

该模型创新性提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。

这使得扩散模型能够像理解图像一样,去理解和生成语言。



论文结果表明,SEDD的表现明显优于当时已有的语言模型,困惑度比未退火(未使用“动态调整温度”这个优化技巧)的GPT-2好6-8倍。

(注:后来这篇论文还获得了ICML 2024最佳论文奖)

见此,Stefano Ermon决定通过创业将技术价值放大。

于是在2024年夏天,他邀请美国加利福尼亚大学洛杉矶分校教授Aditya Grover(左)和美国康奈尔大学教授Volodymyr Kuleshov(右)加入Inception Labs。



去年11月,这家公司还宣布获得了5000万美元融资,而且投资阵容相当豪华。

除了NVentures(英伟达风投部门)、M12(微软旗下风险基金)、Menlo Ventures (领投方、知名长期风投机构)等明星机构,还不乏吴恩达、卡帕西这些AI大佬。

可以说,坚持走扩散模型路子的Inception Labs始终稳扎稳打并获得市场支持。

最后顺便一提,Mercury 2目前暂无开源计划,不过其API全面兼容OpenAI标准。

感兴趣的朋友也可亲自上手一试了。

体验地址:
https://chat.inceptionlabs.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多家上市公司回应津巴布韦暂停锂矿出口影响

多家上市公司回应津巴布韦暂停锂矿出口影响

财联社
2026-02-26 13:42:06
哈登加盟首场伤停骑士惜败雄鹿 波特准绝杀阿伦27+11扳平球无效

哈登加盟首场伤停骑士惜败雄鹿 波特准绝杀阿伦27+11扳平球无效

醉卧浮生
2026-02-26 11:27:00
河南一蜜雪冰城店被曝用垃圾车运冰块送后厨,店长疑删监控后称:你是同行吗?这么有正义感

河南一蜜雪冰城店被曝用垃圾车运冰块送后厨,店长疑删监控后称:你是同行吗?这么有正义感

爆角追踪
2026-02-26 08:12:43
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

笑饮孤鸿非
2026-02-24 16:59:29
不声不响从18涨到219,因为一个概念,1只股票年内偷偷涨了12倍!

不声不响从18涨到219,因为一个概念,1只股票年内偷偷涨了12倍!

财经智多星
2026-02-26 10:57:03
一对夫妻自驾从新疆喀什到重庆,因晚5秒错过免费高速时间付1700余元,“当时又好笑又好气,当长教训了”

一对夫妻自驾从新疆喀什到重庆,因晚5秒错过免费高速时间付1700余元,“当时又好笑又好气,当长教训了”

大象新闻
2026-02-25 23:41:07
大理拖车4公里1400元:车主硬刚到底,曝光换胎公司,谁都跑不了

大理拖车4公里1400元:车主硬刚到底,曝光换胎公司,谁都跑不了

离离言几许
2026-02-25 16:13:29
堵车的源头找到了!怀化一高速长达12公里拥堵,居然是司机睡着了

堵车的源头找到了!怀化一高速长达12公里拥堵,居然是司机睡着了

火山詩话
2026-02-26 10:07:44
父亲是中国人,母亲是短跑强国的黑人,球员朱正加入男篮成功落户

父亲是中国人,母亲是短跑强国的黑人,球员朱正加入男篮成功落户

以茶带书
2026-02-25 19:48:32
俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

网易新闻出品
2026-02-24 10:00:05
8岁高考760分,智商230超过爱因斯坦,神童陶哲轩如今怎么样了?

8岁高考760分,智商230超过爱因斯坦,神童陶哲轩如今怎么样了?

户外阿毽
2026-02-26 06:16:12
哈登!骨折?骑士接下来怎么办?

哈登!骨折?骑士接下来怎么办?

篮球盛世
2026-02-26 10:40:39
0比3惨败!毫无还手之力,桥本帆乃香被打成纸老虎,雷声大雨点小

0比3惨败!毫无还手之力,桥本帆乃香被打成纸老虎,雷声大雨点小

卿子书
2026-02-26 08:32:53
中国音乐家纽约路边换胎被撞身亡,年仅35岁

中国音乐家纽约路边换胎被撞身亡,年仅35岁

扬子晚报
2026-02-26 10:51:43
报告114伤1死,中国企业的血糖仪遭FDA警告

报告114伤1死,中国企业的血糖仪遭FDA警告

健识局
2026-02-25 20:07:55
中国公民大阪街头遇袭,现金被劫走!总领馆要求日方尽快破案

中国公民大阪街头遇袭,现金被劫走!总领馆要求日方尽快破案

南方都市报
2026-02-26 11:28:11
广州领跑开门红!2026,千年商都如何跑出加速度?

广州领跑开门红!2026,千年商都如何跑出加速度?

智谷趋势
2026-02-26 09:47:53
王健林预言成真!第3轮大涨来了?内行人:2026年房价将超乎想象

王健林预言成真!第3轮大涨来了?内行人:2026年房价将超乎想象

猫叔东山再起
2026-02-26 10:35:03
男子后备箱挂上4只鸡鹅返程,高速被追尾,大鹅当场逝世,当事人:对方懵了,赔近400元家禽损失,不想浪费父母心意,将鹅带回家吃了

男子后备箱挂上4只鸡鹅返程,高速被追尾,大鹅当场逝世,当事人:对方懵了,赔近400元家禽损失,不想浪费父母心意,将鹅带回家吃了

观威海
2026-02-26 09:18:15
央媒亲自下场!打人夫妻被正式批捕,真实身份曝光,势力大也没用

央媒亲自下场!打人夫妻被正式批捕,真实身份曝光,势力大也没用

吕甒极限手工
2026-02-26 02:22:31
2026-02-26 14:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12205文章数 176394关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

游戏
本地
艺术
旅游
亲子

PS港服三月会免来了!怪猎崛起 史莱姆牧场2等

本地新闻

津南好·四时总相宜

艺术要闻

2025年百家金陵画展 | 油画作品选刊

旅游要闻

水润寿乡 文旅焕新——眉山市彭山区擘画现代化都市圈文旅融合新图景

亲子要闻

孩子两岁学骑平衡车,奶奶却说“没用”,一年后孩子变化让人惊喜

无障碍浏览 进入关怀版