网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI推理太慢？MIT和英伟达搞了个"预判副厨"

2026-04-28 23:23:02　来源: 码上闲叙

北京举报

0

分享至

你有没有算过，ChatGPT回你一条长消息要等多久？如果让它解一道数学题、写一段代码，那种"一个字一个字往外蹦"的等待感，到底卡在哪？

MIT和英伟达最近放了个新系统，名字叫DFlash。它没换模型，没堆算力，而是在"生成方式"上动了刀——让AI学会"批量猜答案"。

01 主厨的困境：一次只能切一颗葱

现在的语言模型，干活方式很像一位规矩极大的主厨：必须尝完上一道菜，才能动手做下一道。这叫自回归解码（autoregressive decoding）。

技术细节是：模型每输出一个词（token），都要把之前写好的全部内容再看一遍，预测下一个最可能的词，输出，再循环。几千次的"看-猜-写"，堆出一段回答。

GPU明明能并行算几百万个操作，却被迫排队等信号。复杂任务越长，硬件越闲。

原文打了个比方：厨房漂亮、厨师厉害、成品精美——但你得等很久。

02 副厨上岗：先猜一批，再验货

DFlash的核心不是新模型，是新分工。它给主厨配了个"副厨"，专门干一件事：往前猛跑，批量 draft 接下来的一串词。

这套思路有学名，叫推测解码（speculative decoding）。流程分三步：

• 小模型（副厨）快速生成候选序列——比如接下来5个词的猜测

• 大模型（主厨）一次性并行检验这5个词，逐个判断对错

• 遇到第一个错误就截断，从错处重新开始

关键指标是"接受长度"（acceptance length）——副厨猜对几个，直接决定省多少时间。猜得准，主厨少干很多活；猜得离谱，等于白折腾。

03 DFlash的改进：副厨也得升级

推测解码不是新东西。DFlash的贡献在于，它优化了"副厨怎么猜"和"主厨怎么验"的配合细节。

研究团队来自MIT和NVIDIA，论文聚焦的是让这套机制在真实推理任务上跑得更稳。具体技术包括调整 draft 策略、减少验证开销、让批量猜测的长度更自适应——但原文没展开算法细节，只强调了方向：不替换主厨，让协作更高效。

一个值得注意的设计是：副厨不需要和主厨一样强。它只要"够快+够准"——快是指生成候选的速度，准是指猜测被主厨认可的概率。这两个维度可以trade-off，DFlash试图找到更优的平衡点。

04 为什么现在才搞？

这个问题其实藏着行业趋势。

早期大模型以"聊天"为主，回复短，延迟不明显。但现在AI被塞进越来越多"思考链"场景：数学证明、代码调试、多步决策——输出长度暴涨，串行生成的瓶颈彻底暴露。

硬件利用率低是成本问题，也是体验问题。用户等得不耐烦，云厂商的GPU在空转。DFlash这类方案的价值，在于不增加卡、不扩大模型，纯靠系统优化榨出速度。

原文提到，GPU"原则上能同时执行数百万次计算"，却被迫闲置。这句话的潜台词是：算力不是不够，是用法太笨。

05 局限也很诚实

DFlash不是万能药。它的收益高度依赖"副厨的猜测质量"——而猜测质量又和任务类型强相关。

结构化强的任务（代码、公式）模式重复，副厨容易猜对；开放式创作（写诗、编故事）不确定性高，批量猜测的命中率会掉。原文没给具体数字，但逻辑很清楚：省多少时间不固定，场景决定一切。

另一个隐性成本：维护两套模型。副厨虽小，也是额外开销。训练、部署、版本对齐，都是工程负担。DFlash论文是否解决了这些，原文未提。

06 行业信号：优化进入"微架构"时代

2023-2024年，大模型的竞争主线是"更大、更多数据"。现在风向在变：GPT-4级别的模型已经够用，大家开始抠效率——推理成本、响应延迟、硬件利用率。

DFlash代表一类新思路：不卷基座模型，卷系统层创新。类似的还有量化压缩、投机采样、PagedAttention——本质都是让同样的模型跑得更快、更便宜。

对开发者的实际意义：如果你在做AI应用，延迟敏感、成本敏感，现在有一整套工具箱可以挖，不必苦等下一代大模型。

对硬件厂商的意义：NVIDIA参与这项研究不是偶然。GPU卖得多，但客户抱怨利用率低，长期会压采购意愿。帮客户把现有卡用满，是保生态的策略。

07 一个未解的问题

原文结尾留了个钩子：副厨的猜测被接受多少，"决定几乎一切"。

但这个接受率怎么提？是靠副厨自己变强，还是让主厨放宽标准？放宽标准会不会牺牲输出质量？DFlash的论文有没有给出答案，原文没提——这恰恰是落地时最痛的权衡。

想象一下：副厨猜了10个词，主厨只认前3个，后面全删。那这次批量操作省的时间，可能还不够弥补"猜错-重来"的损耗。最优的猜测长度是多少？动态调还是固定值？这些工程细节，决定了实验室论文和生产线代码之间的距离。

MIT和NVIDIA的组合，学术+工程的双背书，说明这方向被严肃对待。但"严肃"不等于"成熟"。推测解码从概念到DFlash，是进步；从DFlash到默认基础设施，还有段路。

原文的厨房比喻很准：主厨还在，规矩没废，只是多了个跑腿的。AI生成技术的进化，可能就是这个节奏——不是推翻重来，是分工细化、协作优化，一寸一寸地抠效率。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

英伟达谷歌抢投AI独角兽新秀，欧洲史上最大种子轮诞生

智东西 2026-04-28 22:16:03
0 跟贴 0
AI产业硬件利润大增、软件估值腰斩：机构用脚投票的真相

钛媒体APP 2026-04-28 12:53:09
2 跟贴 2

DeepSeek V4“寄予厚望”！国产算力“进攻的矛”--超节点

华尔街见闻官方 2026-04-26 20:21:15
60 跟贴 60

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
OpenAI强硬回击增长质疑：一切业务“运转如飞”

财联社 2026-04-29 02:06:06
0 跟贴 0

AI算力爆发引爆电力需求，海信史文伯：AI数据中心耗电激增，高压与液冷技术重构电力新格局

每日经济新闻 2026-04-29 01:28:04
0 跟贴 0

不换GPU，性能飙升2.8倍！英伟达用软件暴打摩尔定律

新智元 2026-04-27 20:23:16
3 跟贴 3
不造一颗芯片的Arm如何统治了世界？

DeepTech深科技 2026-01-05 16:58:33
81 跟贴 81

一加自研芯片级游戏技术，手机GPU首次看齐游戏主机？Ace 6至尊版2999元起

智东西 2026-04-28 21:43:07
0 跟贴 0
爆了！《黑旗RE》全档位强制光追！顶配需4090显卡

游民星空 2026-04-27 17:12:29
5 跟贴 5
伊朗转变谈判策略，自信占据主导地位，美方面临更高要价

李绍先观察 2026-04-28 13:11:35
1 跟贴 1
华为泰勒实验室提出SHAPE，给LLM推理装了个「推理税」

机器之心Pro 2026-04-28 16:10:00
0 跟贴 0
大摩科技展望：存储之后，EUV光刻机和CPU将成为新的瓶颈

华尔街见闻官方 2026-04-28 11:06:30
0 跟贴 0
MIT团队给机器人装上透视眼，藏在纸箱里的东西也能看见

DeepTech深科技 2026-03-24 14:52:33
0 跟贴 0
黄仁勋最担心的事发生了！DeepSeek V4华为芯片首发

快科技 2026-04-27 12:27:37
1 跟贴 1
首发被华为抢了！英伟达火速官宣适配DeepSeek V4

快科技 2026-04-26 08:38:35
0 跟贴 0
黄仁勋全世界穿皮衣，唯独在中国换上了大花袄

雷科技 2026-01-27 17:19:30
0 跟贴 0
不用一个字，MIT团队让细胞自动机教会了大模型推理

DeepTech深科技 2026-03-23 18:28:08
0 跟贴 0
沈亦晨的九年：从MIT一间实验室到港交所大堂

DeepTech深科技 2026-04-28 15:23:12
0 跟贴 0
来自MIT的科学写作工作坊｜Storyteen2026暑假线上招募开启

三明治 2026-04-28 18:30:52
0 跟贴 0
英伟达开源个量子AI

机器之心Pro 2026-04-15 12:05:50
0 跟贴 0
育碧又抬出经典大IP！《全境封锁》新作现已登陆PC

游民星空 2026-04-28 23:07:10
7 跟贴 7
上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15170 跟贴 15170
联发科推出主动式智能体座舱方案：3nm芯片算力400TOPS

凤凰网科技 2026-04-27 14:55:07
0 跟贴 0
困在“重资产”里的中国英伟达

虎嗅APP 2026-04-28 17:17:10
13 跟贴 13
一滴血如何锁定绑匪人数？FBI侧写师的推理

有态度网友ytd3049 2026-04-29 00:03:07
0 跟贴 0
王立群谈自我保护之道：揭秘最佳策略！

广韫素 2026-04-25 19:52:54
1 跟贴 1
超越DeepSeek-V4！罗福莉交出小米最强开源模型，首日适配5家国产芯片

智东西 2026-04-28 08:39:35
419 跟贴 419
伊朗战术精妙：帅化民解读伊朗军事策略

一寸时光a 2026-04-27 03:26:01
2 跟贴 2
产出等于价值？这种算法正在透支谁

时光慢邮啊 2026-04-29 00:36:47
0 跟贴 0
穿衣不会搭配项链？万能项链穿搭公式来了！网友：没那么麻烦，一条金项链配所有

河南都市频道 2026-04-24 17:11:33
0 跟贴 0
婚恋软件没告诉你的筛选逻辑

时光慢邮啊 2026-04-29 01:16:24
0 跟贴 0
照片里缺的那块，藏着什么秘密

晚风也遗憾 2026-04-29 01:14:00
0 跟贴 0
为什么有些故事会在特定时刻击中你

心事寄山海 2026-04-29 00:27:48
0 跟贴 0
开盘涨幅超390%，它会复制“易中天”的增长神话吗

虎嗅APP 2026-04-28 19:45:14
0 跟贴 0
全世界最贵的车！买了它是黄仁勋唯一的遗憾

雷科技 2026-02-06 23:52:44
0 跟贴 0
中办、国办发文：规范算法，合理确定分配规则

究竟视频 2026-04-27 17:53:51
0 跟贴 0
卢特尼克亲口承认：美H200对华销售零成交

零洛浮华 2026-04-28 22:22:40
0 跟贴 0
麻省理工学院物理学博士毕业师从诺贝尔物理学奖得主曦智科技创始人沈亦晨：稳步提升在全球市场的竞争力

每日经济新闻 2026-04-28 20:40:45
0 跟贴 0
哈佛、麻省理工、帝国理工、剑桥……跟着我们去全球交流！

华南理工大学 2026-04-25 17:28:30
0 跟贴 0

真硬汉！莫德里奇颧骨骨折脸部变形，手术前他问的却不是疼不疼

真硬汉！莫德里奇颧骨骨折脸部变形，手术前他问的却不是疼不疼

东方不败然多多

2026-04-28 12:09:14

51岁周迅变样：满头白发脸松垮，瘪嘴像老奶奶，无儿无女成遗憾

51岁周迅变样：满头白发脸松垮，瘪嘴像老奶奶，无儿无女成遗憾

悦君兮君不知

2026-03-20 12:19:00

5月天气或将反常，提前准备这五样东西，全家少遭罪

5月天气或将反常，提前准备这五样东西，全家少遭罪

江江食研社

2026-04-28 17:50:05

没等到访华邀请，高市准备报复？中方接到美媒消息，日本或掀桌

没等到访华邀请，高市准备报复？中方接到美媒消息，日本或掀桌

小祁谈历史

2026-04-27 17:05:07

山西重大刑事案后续，老家村干部发声，评论区有知情人说出了动机

山西重大刑事案后续，老家村干部发声，评论区有知情人说出了动机

离离言几许

2026-04-28 21:50:00

最大的铁饭碗要碎了吗：转岗、超编、过剩......

最大的铁饭碗要碎了吗：转岗、超编、过剩......

灯锦年

2026-04-26 20:25:53

不焯水等于“服毒”！武汉5人吃一盘菜全被放倒，路边拦警车求助

不焯水等于“服毒”！武汉5人吃一盘菜全被放倒，路边拦警车求助

万象硬核本尊

2026-04-28 19:20:02

给女领导代买早餐一个月，花费1000多，找她报销，女领导：早餐钱都算在绩效奖里了，不然为啥这个月多给你发一千多

给女领导代买早餐一个月，花费1000多，找她报销，女领导：早餐钱都算在绩效奖里了，不然为啥这个月多给你发一千多

大爱三湘

2026-04-28 19:40:50

63岁李修平独自逛太庙，素颜穿搭太朴素，退休生活太舒心

63岁李修平独自逛太庙，素颜穿搭太朴素，退休生活太舒心

手工制作阿歼

2026-04-28 11:39:42

刺杀特朗普的枪手终于开口，他的告白比枪声更刺耳

刺杀特朗普的枪手终于开口，他的告白比枪声更刺耳

阿凯销售场

2026-04-27 17:28:21

一个人对你做了这3件事，恶意已经很深了，就不要再来往了

一个人对你做了这3件事，恶意已经很深了，就不要再来往了

知和大叔

2026-04-16 23:43:13

傲人的身材：不是取悦别人的资本，是取悦自己的底气

傲人的身材：不是取悦别人的资本，是取悦自己的底气

疾跑的小蜗牛

2026-04-28 23:10:42

法院《出庭通知书》上引用的司法解释，被指已废止13年；第三方律师：建议积极处置

法院《出庭通知书》上引用的司法解释，被指已废止13年；第三方律师：建议积极处置

大风新闻

2026-04-28 18:53:17

泰勒·斯威夫特注册声音商标：AI时代明星维权新解法

泰勒·斯威夫特注册声音商标：AI时代明星维权新解法

赛博兰博

2026-04-28 13:52:45

演员陆毅嘴唇发紫，被网友提醒去医院体检；陆毅听劝后回应：心脏没问题，体重却超标了，身高1米8，体重180斤，“我是方的”

演员陆毅嘴唇发紫，被网友提醒去医院体检；陆毅听劝后回应：心脏没问题，体重却超标了，身高1米8，体重180斤，“我是方的”

浙江之声

2026-04-27 13:09:03

靠学历突破阶层的时代结束了

职场资深秘书

2026-04-26 22:03:17

以色列死局已定，无人能救！

大国观察眼

2026-04-28 06:05:05

中方必须无条件割让领土？美发话后，马来西亚叫嚣：中国放弃南海

中方必须无条件割让领土？美发话后，马来西亚叫嚣：中国放弃南海

诗酒趁的年华

2026-04-22 05:07:02

43岁金莎发文：我尽快会调整回来

43岁金莎发文：我尽快会调整回来

天津族

2026-04-29 00:12:09

大反转！孕妇花200元买水果被骂，妇联回应了，后续结局让人唏嘘

大反转！孕妇花200元买水果被骂，妇联回应了，后续结局让人唏嘘

派大星纪录片

2026-04-28 16:40:32

有态度网友ytd

3003文章数 36关注度

往期回顾全部

科技要闻

10亿周活目标落空！传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸交20万赎金园区仍未放人

体育要闻

魔术黑八活塞，一步之遥？！

娱乐要闻

蔡卓妍官宣结婚，老公比她小10岁

财经要闻

中央政治局会议定调，八大看点速览！

汽车要闻

拒绝疯狂套娃！现代艾尼氪金星长在未来审美点上

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

亲子

时尚

房产

旅游

教育要闻

教育部通知，今年9月份开始，上学的规则全变了

亲子要闻

有一点点近视，到底要不要戴眼镜？

普通女性春天穿什么好看？这些穿搭值得借鉴，自然舒适

房产要闻

红利爆发！海南，冲到全国人口增量第4省！

旅游要闻

莫让内卷式竞争削弱旅游消费信心

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版