网易首页 > 网易号 > 正文 申请入驻

扩散模型成最快深度思考!告别自回归每秒1009个tokens

0
分享至

首个会深度思考的扩散模型来了!

抛弃自回归范式,一举成为世界上生成速度最快的模型。

你瞅瞅,对比之下传统自回归的“打字机模式”(按顺序一个个token往外吐)是不是就有点像乌龟了:



实际测评显示,这款名为Mercury 2的扩散推理LLM在英伟达GPU上可实现1009个tokens/s

这个速度整整比GPT-5(mini)和Claude-4.5(haiku)这些传统模型快了5倍。



消息一出,英伟达第一时间跑来祝贺了(当然也可能是因为它投了Mercury 2背后的公司):



一众网友也纷纷坐不住,毕竟最近很火的“龙虾们”也少不了对速度的极限追求:



还有人已经开始怀念自回归曾经的风光了(doge)。



so,Mercury 2是谁?它又是如何突破速度瓶颈的呢?

不止是快,还稳

原理其实很简单。

前面已经说了,传统自回归就像打字机一样,一次只能处理一个token,且必须按照从左到右的顺序。

但扩散模型Mercury 2的工作方式更像一位编辑——

你不是在看它打字,而是看它拿到一份草稿后,立刻拿着红笔在整页纸上同时圈改。

换言之,一次生成答案草稿再整体编辑。

这种“并行优化”机制,使得Mercury 2不需要等待前一个字的结果就能生成下一个字,因此响应速度极快,延迟不再与输出长度成正比。

最终,Mercury 2能将生成速度提升5倍以上,且速度曲线截然不同

瞅瞅,在第三方测评中,其输出速度可谓一骑绝尘。



和市面主流的顶尖模型比,速度也是独一档的存在。



而且不止是快,它在性能、价格方面都具有一定优势。

延迟低至1.7s的情况下,在GPQA(科学问答)、LCB(编程)、AIME(数学)等多个基准测试中,Mercury 2的得分普遍高于或持平于那些速度较慢的“小型/轻量级”模型(如GPT-5 Nano, Claude 4.5 Haiku)。

甚至在AIME上的得分超过了公认的“性能怪兽”Gemini 3 Flash(推理版) 。

这说明Mercury 2在保持极高速度的同时,并不以牺牲智商为代价。



它目前支持128K上下文,输入价格为每百万token 0.25美元(约合人民币1.7元),输出价格为每百万token 0.75美元(约合人民币5.2元)。

综合速度与价格,Mercury 2也保持了较高性价比。



官方表示,Mercury 2的这种速度优势改变了推理。

  • 如今,更高的智能意味着更多的test-time计算——更长的链、更多的样本、更多的重试,而这直接以延迟和成本为代价。基于扩散的推理能够在实时延迟预算内实现推理级别的质量。

背后公司一开始就押注扩散模型

最后介绍一下Mercury 2背后的公司及团队。

它是由Inception Labs这家成立于2024年的硅谷初创公司推出的。

从一开始这家公司就力押扩散模型,其核心使命为——

用全新的、基于扩散/diffusion的生成机制替代传统的自回归Transformer模型,从根本上突破速度与成本瓶颈。

他们认为,传统自回归模型的缺陷不言自明——延迟和成本会随着token数量的增加而增加。

而扩散模型采用由粗到精的生成过程。它并非逐个提交数据,而是通过少量步骤并行迭代地细化输出。这使得在生成过程中可以进行修改,并带来截然不同的速度-成本曲线。一言以蔽之:

  • 人工智能不应该像单向打字机那样运作,而应该更像一个编辑。

基于此,他们开始在Mercury系列中践行这一理念。

2025年2月,发布全球首个基于扩散模型的商业级语言模型——初代Mercury,一开始就把生成速度拉到传统的5倍以上,而且同一时间还推出编程助手Mercury Coder。

一年之后,升级版Mercury 2问世,在推理和多智能体日益进入主流视线的今天,带来了更多可能。



事实上,早在2019年,这家公司的联创兼CEO Stefano Ermon就开始投身扩散模型的研究了。

时任斯坦福大学计算机科学教授的Stefano Ermon,很早就思忖着将扩散模型应用于内容生成。

当时主流的图像生成模型还在使用GAN(生成对抗网络),但他和团队认为结果“不够好”,于是开始尝试应用Diffusion。

而在看到Diffusion的效果不错后(后来Midjourney、DALL-E等都是用这种方法),他们开始将研究目光转向文本和代码生成。

  • 图像由连续的像素构成,而文本由离散的token构成。之前成功的扩散模型理论(如去噪得分匹配)是建立在连续空间上的,无法直接迁移到文本。

于是在2023年,他和团队发表了一篇关键性论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,里面介绍了一种名为Score Entropy Discrete Diffusion models(SEDD)的模型。

该模型创新性提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。

这使得扩散模型能够像理解图像一样,去理解和生成语言。



论文结果表明,SEDD的表现明显优于当时已有的语言模型,困惑度比未退火(未使用“动态调整温度”这个优化技巧)的GPT-2好6-8倍。

(注:后来这篇论文还获得了ICML 2024最佳论文奖)

见此,Stefano Ermon决定通过创业将技术价值放大。

于是在2024年夏天,他邀请美国加利福尼亚大学洛杉矶分校教授Aditya Grover(左)和美国康奈尔大学教授Volodymyr Kuleshov(右)加入Inception Labs。



去年11月,这家公司还宣布获得了5000万美元融资,而且投资阵容相当豪华。

除了NVentures(英伟达风投部门)、M12(微软旗下风险基金)、Menlo Ventures (领投方、知名长期风投机构)等明星机构,还不乏吴恩达、卡帕西这些AI大佬。

可以说,坚持走扩散模型路子的Inception Labs始终稳扎稳打并获得市场支持。

最后顺便一提,Mercury 2目前暂无开源计划,不过其API全面兼容OpenAI标准。

感兴趣的朋友也可亲自上手一试了。

体验地址:
https://chat.inceptionlabs.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰家人首发声:不设追思会丧事从简,谢绝所有人去家中慰问

张雪峰家人首发声:不设追思会丧事从简,谢绝所有人去家中慰问

娱乐圈圈圆
2026-03-26 11:08:26
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
封锁霍尔木兹海峡,伊朗丢掉的不只是底牌

封锁霍尔木兹海峡,伊朗丢掉的不只是底牌

冰川思想库
2026-03-26 00:05:12
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
吃饺子没蘸酱油进监狱了,这是真的

吃饺子没蘸酱油进监狱了,这是真的

深度报
2026-03-25 22:55:01
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
快讯!美军拒绝为以色列作战!

快讯!美军拒绝为以色列作战!

达文西看世界
2026-03-26 09:54:51
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
二战后首次!日自卫队将登陆菲律宾

二战后首次!日自卫队将登陆菲律宾

环球时报国际
2026-03-26 08:59:28
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
2026-03-26 14:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
数码
本地
公开课
军事航空

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

本地新闻

春日吃花第三站——广东

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版