网易首页 > 网易号 > 正文 申请入驻

扩散模型成最快深度思考!告别自回归每秒1009个tokens

0
分享至

首个会深度思考的扩散模型来了!

抛弃自回归范式,一举成为世界上生成速度最快的模型。

你瞅瞅,对比之下传统自回归的“打字机模式”(按顺序一个个token往外吐)是不是就有点像乌龟了:



实际测评显示,这款名为Mercury 2的扩散推理LLM在英伟达GPU上可实现1009个tokens/s

这个速度整整比GPT-5(mini)和Claude-4.5(haiku)这些传统模型快了5倍。



消息一出,英伟达第一时间跑来祝贺了(当然也可能是因为它投了Mercury 2背后的公司):



一众网友也纷纷坐不住,毕竟最近很火的“龙虾们”也少不了对速度的极限追求:



还有人已经开始怀念自回归曾经的风光了(doge)。



so,Mercury 2是谁?它又是如何突破速度瓶颈的呢?

不止是快,还稳

原理其实很简单。

前面已经说了,传统自回归就像打字机一样,一次只能处理一个token,且必须按照从左到右的顺序。

但扩散模型Mercury 2的工作方式更像一位编辑——

你不是在看它打字,而是看它拿到一份草稿后,立刻拿着红笔在整页纸上同时圈改。

换言之,一次生成答案草稿再整体编辑。

这种“并行优化”机制,使得Mercury 2不需要等待前一个字的结果就能生成下一个字,因此响应速度极快,延迟不再与输出长度成正比。

最终,Mercury 2能将生成速度提升5倍以上,且速度曲线截然不同

瞅瞅,在第三方测评中,其输出速度可谓一骑绝尘。



和市面主流的顶尖模型比,速度也是独一档的存在。



而且不止是快,它在性能、价格方面都具有一定优势。

延迟低至1.7s的情况下,在GPQA(科学问答)、LCB(编程)、AIME(数学)等多个基准测试中,Mercury 2的得分普遍高于或持平于那些速度较慢的“小型/轻量级”模型(如GPT-5 Nano, Claude 4.5 Haiku)。

甚至在AIME上的得分超过了公认的“性能怪兽”Gemini 3 Flash(推理版) 。

这说明Mercury 2在保持极高速度的同时,并不以牺牲智商为代价。



它目前支持128K上下文,输入价格为每百万token 0.25美元(约合人民币1.7元),输出价格为每百万token 0.75美元(约合人民币5.2元)。

综合速度与价格,Mercury 2也保持了较高性价比。



官方表示,Mercury 2的这种速度优势改变了推理。

  • 如今,更高的智能意味着更多的test-time计算——更长的链、更多的样本、更多的重试,而这直接以延迟和成本为代价。基于扩散的推理能够在实时延迟预算内实现推理级别的质量。

背后公司一开始就押注扩散模型

最后介绍一下Mercury 2背后的公司及团队。

它是由Inception Labs这家成立于2024年的硅谷初创公司推出的。

从一开始这家公司就力押扩散模型,其核心使命为——

用全新的、基于扩散/diffusion的生成机制替代传统的自回归Transformer模型,从根本上突破速度与成本瓶颈。

他们认为,传统自回归模型的缺陷不言自明——延迟和成本会随着token数量的增加而增加。

而扩散模型采用由粗到精的生成过程。它并非逐个提交数据,而是通过少量步骤并行迭代地细化输出。这使得在生成过程中可以进行修改,并带来截然不同的速度-成本曲线。一言以蔽之:

  • 人工智能不应该像单向打字机那样运作,而应该更像一个编辑。

基于此,他们开始在Mercury系列中践行这一理念。

2025年2月,发布全球首个基于扩散模型的商业级语言模型——初代Mercury,一开始就把生成速度拉到传统的5倍以上,而且同一时间还推出编程助手Mercury Coder。

一年之后,升级版Mercury 2问世,在推理和多智能体日益进入主流视线的今天,带来了更多可能。



事实上,早在2019年,这家公司的联创兼CEO Stefano Ermon就开始投身扩散模型的研究了。

时任斯坦福大学计算机科学教授的Stefano Ermon,很早就思忖着将扩散模型应用于内容生成。

当时主流的图像生成模型还在使用GAN(生成对抗网络),但他和团队认为结果“不够好”,于是开始尝试应用Diffusion。

而在看到Diffusion的效果不错后(后来Midjourney、DALL-E等都是用这种方法),他们开始将研究目光转向文本和代码生成。

  • 图像由连续的像素构成,而文本由离散的token构成。之前成功的扩散模型理论(如去噪得分匹配)是建立在连续空间上的,无法直接迁移到文本。

于是在2023年,他和团队发表了一篇关键性论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,里面介绍了一种名为Score Entropy Discrete Diffusion models(SEDD)的模型。

该模型创新性提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。

这使得扩散模型能够像理解图像一样,去理解和生成语言。



论文结果表明,SEDD的表现明显优于当时已有的语言模型,困惑度比未退火(未使用“动态调整温度”这个优化技巧)的GPT-2好6-8倍。

(注:后来这篇论文还获得了ICML 2024最佳论文奖)

见此,Stefano Ermon决定通过创业将技术价值放大。

于是在2024年夏天,他邀请美国加利福尼亚大学洛杉矶分校教授Aditya Grover(左)和美国康奈尔大学教授Volodymyr Kuleshov(右)加入Inception Labs。



去年11月,这家公司还宣布获得了5000万美元融资,而且投资阵容相当豪华。

除了NVentures(英伟达风投部门)、M12(微软旗下风险基金)、Menlo Ventures (领投方、知名长期风投机构)等明星机构,还不乏吴恩达、卡帕西这些AI大佬。

可以说,坚持走扩散模型路子的Inception Labs始终稳扎稳打并获得市场支持。

最后顺便一提,Mercury 2目前暂无开源计划,不过其API全面兼容OpenAI标准。

感兴趣的朋友也可亲自上手一试了。

体验地址:
https://chat.inceptionlabs.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨梅泡药水被曝光,商户的话让人后背发凉:曝光我比我害人更可恶

杨梅泡药水被曝光,商户的话让人后背发凉:曝光我比我害人更可恶

金哥说新能源车
2026-05-23 10:05:23
巴萨黄金时代回来了!弗里克亲手打造新王朝

巴萨黄金时代回来了!弗里克亲手打造新王朝

阿友田侃故事
2026-05-23 12:45:49
她是汪精卫的地下情人,汪死后卷巨款失踪,九旬在香港被人认出来

她是汪精卫的地下情人,汪死后卷巨款失踪,九旬在香港被人认出来

鉴史录
2026-05-22 19:10:11
在山姆吃东西不付款,不只是缺德

在山姆吃东西不付款,不只是缺德

南方都市报
2026-05-23 01:08:45
亚历山大谈替补砍76分:他们真的拯救了我们

亚历山大谈替补砍76分:他们真的拯救了我们

体坛周报
2026-05-23 15:13:13
心理学上说,极度坦诚的人其实很可怕:开始,你可能觉得他傻、性子直,但慢慢会发现,他的境界极高,他的一切都可以摊开讲,打的全是明牌

心理学上说,极度坦诚的人其实很可怕:开始,你可能觉得他傻、性子直,但慢慢会发现,他的境界极高,他的一切都可以摊开讲,打的全是明牌

心理观察局
2026-05-22 07:29:28
从万众瞩目到黯然退场!伊万卡的十年梦醒与豪门权力真相

从万众瞩目到黯然退场!伊万卡的十年梦醒与豪门权力真相

别让往昔的悲伤和对未来的恐惧
2026-05-23 00:48:54
2盘6-3!中国金花绽放:掀翻16号种子,重返法网正赛,双喜临门!

2盘6-3!中国金花绽放:掀翻16号种子,重返法网正赛,双喜临门!

刘姚尧的文字城堡
2026-05-23 07:07:44
深度科普:狗交配过程为何会很难分开?下次看到狗交配请默默离开

深度科普:狗交配过程为何会很难分开?下次看到狗交配请默默离开

宇宙时空
2026-05-18 17:30:14
张嘉译宁赔千万也要换掉她,被半个娱乐圈封杀,如今的她过得怎样

张嘉译宁赔千万也要换掉她,被半个娱乐圈封杀,如今的她过得怎样

笑一个吧
2026-05-23 10:51:04
最后的疯狂!刘丁硕将橱窗商品价格改为100万,选择与球迷硬刚

最后的疯狂!刘丁硕将橱窗商品价格改为100万,选择与球迷硬刚

凤幻洋
2026-05-22 18:03:35
带5岁儿子拜佛,他见菩萨像跪拜,指着说:妈妈,这是我的朋友

带5岁儿子拜佛,他见菩萨像跪拜,指着说:妈妈,这是我的朋友

古怪奇谈录
2025-11-19 11:50:20
北京周末多云,山区有雷雨,下周一迎小雨降温

北京周末多云,山区有雷雨,下周一迎小雨降温

北青网-北京青年报
2026-05-23 13:18:35
9票:5票,菲最高法院驳回德拉罗萨的申请,最后法律保护伞没了

9票:5票,菲最高法院驳回德拉罗萨的申请,最后法律保护伞没了

纪中百大事
2026-05-22 09:32:59
欧文:对阿根廷的进球改变了我的人生,我热爱英格兰队生涯

欧文:对阿根廷的进球改变了我的人生,我热爱英格兰队生涯

懂球帝
2026-05-23 15:09:50
36岁西班牙后卫阿斯皮利奎塔退役!曾效力于切尔西、马竞等队

36岁西班牙后卫阿斯皮利奎塔退役!曾效力于切尔西、马竞等队

懂球帝
2026-05-22 16:03:06
安全事故零容忍!山西煤矿瓦斯爆炸事发后,涉事负责人已被控制

安全事故零容忍!山西煤矿瓦斯爆炸事发后,涉事负责人已被控制

呼呼历史论
2026-05-23 14:23:29
职校门口排起长队,家长重新计算教育账本

职校门口排起长队,家长重新计算教育账本

界面新闻
2026-05-22 10:05:17
2340万人创出5.65万亿GDP,台湾地区人均GDP远超京沪,凭啥?

2340万人创出5.65万亿GDP,台湾地区人均GDP远超京沪,凭啥?

观史搜寻着
2026-05-22 13:05:31
“原配老板娘”出镜直播!洁丽雅公关部天塌了

“原配老板娘”出镜直播!洁丽雅公关部天塌了

广告创意
2026-05-21 18:13:30
2026-05-23 15:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12675文章数 176468关注度
往期回顾 全部

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

头条要闻

总投资8亿的项目违规 民营建筑巨头诉广西贵港城管局

头条要闻

总投资8亿的项目违规 民营建筑巨头诉广西贵港城管局

体育要闻

少年意气,正在改变中国足球

娱乐要闻

歌手2026首播:胡彦斌破音 张碧晨跑调

财经要闻

股价暴跌!富途老虎是什么来头?

汽车要闻

与众07上市限时权益价10.99万起 首搭CEA架构

态度原创

旅游
数码
健康
公开课
军事航空

旅游要闻

汇聚65项非遗美食!首届中国新文创市集打造开放式游园体验

数码要闻

海信电视618开局登顶,RGB-Mini LED加速普及

外泌体 ≠ 生长因子!它们之间究竟有何区别?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普再酝酿对伊打击 美伊谈判连放信号

无障碍浏览 进入关怀版