Gemini灵魂人物、传奇工程师Jeff Dean最新访谈：未来人均50个虚拟实习生，用不上专家了！|算法|翻译|大模型|dean|jeff|神经网络

分享至

整理｜华卫

“简历基本上就是 AI 的时间线”，这是许多人对 Gemini 背后的核心推动者、谷歌首席人工智能科学家 Jeff Dean 的评价。从 2000 年代初重写谷歌搜索全栈到重启万亿参数稀疏模型，再到将 TPU 与前沿机器学习研究协同设计，Jeff Dean 以一种低调的方式，几乎塑造了现代 AI 技术栈的每一层。他亲历了多轮规模革命：从 CPU、分片索引，到能跨文本、视频、代码进行推理的多模态模型。

近日，他在一场深度对话中的犀利言论备受热议。不少业内人士直呼，“信息量超大”。在这场访谈中，Dean 抛出了诸多独家观点与极具前瞻性的判断。

“大一统模型的时代真的来了。关键在于，模型正在变得越来越强，不再需要领域专家。”他表示，未来是专用模型加模块化模型的组合，可以同时拥有并在不同场景下调用 200 种语言、超强机器人模块、超强医疗模块。“模型知识是可安装的，像下载软件包一样。”

作为“计算机历史上最高产的工程师之一”，Dean 还大方分享了自己现在用 AI 写代码的方式，并表示，“未来很可能每个人都能拥有 50 个虚拟实习生，让他们组成小组，只需要对接 5 个小组，让他们各自干活。”

而且，Dean 详细透露了谷歌内部“冲前沿”的模式和推动团队架构改进和模型能力升级的思考。除此之外，他还提出并拆解了多个有趣的问题，包括：为什么蒸馏是每一次 Flash 模型突破的核心驱动力、为何能耗而非算力正成为真正瓶颈、如何提前 2–6 年进行硬件与模型的协同设计、为什么下一次跃迁不只来自更大的上下文窗口而是来自能“仿佛在处理万亿 token” 的系统等。

以下是详细对话内容，我们在不改变原意的基础上进行了翻译和删减，以飨读者。

1 下一代模型，哪些旧思路值得捡起来？

Shawn Wang：今天我们请到了谷歌首席 AI 科学家 Jeff Dean，欢迎您。能邀请到您真的太荣幸了，我看过您无数场演讲，您的职业生涯堪称传奇。首先必须要说，恭喜你们拿下了"帕累托前沿"（Pareto Frontier）。

Jeff Dean：谢谢。帕累托前沿确实很棒，能站在这个位置很不错。

Shawn Wang：对，我觉得是两者兼备。你既要占据帕累托前沿，要有顶尖能力，也要兼顾效率，然后提供大家愿意用的一系列模型。这其中一部分源于你们的硬件工作，一部分来自模型工作，肯定还有很多日积月累的独门秘诀。能看到这一切如此丝滑地整合在一起，真的非常震撼。

Jeff Dean：是的没错。就像你说的，这不是单一因素，而是技术栈从上到下一整套东西的结合。所有这些加在一起，才让谷歌能够做出能力极强的大模型，同时也通过软件技术，把大模型的能力迁移到更小、更轻量的模型里，这些小模型成本更低、延迟更低，但在自身规模下依然能力很强。

Alessio Fanelli：那在守住帕累托前沿下限这方面，你们有多大压力？我感觉很多新实验室都在拼命冲性能上限，因为要融资之类的。而你们有数十亿用户。我记得你们早年做 CPU 的时候就讨论过：如果每个谷歌用户每天用三分钟语音模型，你们就得把 CPU 数量翻倍。现在谷歌内部是怎么讨论的？怎么权衡“冲前沿”和“必须落地部署”这两件事？

Jeff Dean：我们一直希望拥有前沿、甚至推动前沿的模型，因为只有这样才能看到去年、半年前不存在的新能力。但同时我们也知道，这些顶尖模型虽然有用，但对很多更广泛的场景来说，速度偏慢、成本偏高。所以我们的思路是：同时做两条线，一条是高能力、低成本的模型，支持低延迟场景，让大家能更轻松地用在智能体编程等任务上；另一条是高端前沿模型，用于深度推理、解决复杂数学问题这类场景。两者不是二选一，而是都有用。而且通过蒸馏这一关键技术，你必须先有前沿模型，才能把能力蒸馏到小模型里。所以这不是非此即彼，而是相辅相成。

Alessio Fanelli：你和 Jeffrey 在 2014 年就提出了相关方案。

Jeff Dean：别忘了还有 L’Oreal Vinyls 那篇工作。

Alessio Fanelli：都是很早以前了。我很好奇，你怎么看待这些思路的迭代周期？比如稀疏模型这类想法，你们会怎么重新评估？下一代模型里，哪些旧思路值得重新捡起来？你参与过很多后来影响巨大的想法，但在当时未必能看出来。

Jeff Dean：蒸馏最早的出发点是，我们当时有一个很大的图像数据集，3 亿张图。我们发现，如果为不同图像类别训练专用模型，比如这个专攻哺乳动物，那个专攻室内场景，先在更宽泛的图像上预训练，再对聚类后的类别用增强数据微调，效果会好很多。但如果把这 50 个模型当成一个大集成模型，实际部署并不现实。于是蒸馏的思路就来了：把这些独立的专家模型“压缩”成一个可以实际部署的形态。这和我们今天做的事本质差不多，只是现在我们不再用 50 个模型的集成，而是先训练一个超大模型，再把它蒸馏成小得多的模型。

Shawn Wang：我还在想，蒸馏是不是和强化学习的革新也有关系？我试着表达一下，强化学习会让模型在分布的某一部分突飞猛进，但可能在其他区域有损失，是一种不太均衡的技术。但或许可以通过蒸馏把它“收回来”。大家的普遍期望是：提升能力的同时不在其他地方退步。这种无损能力融合，我感觉一部分应该可以通过蒸馏实现，但我还没太理清，相关论文也不多。

Jeff Dean：我觉得蒸馏的一个核心优势就是：你可以用很小的模型，配合超大数据集，通过多次遍历数据，从超大模型那里拿到逻辑概率输出，引导小模型学到只用硬标签学不到的行为。我们观察到，蒸馏可以让小模型接近大模型的效果。这对很多人来说都是最佳平衡点。现在 Gemini 已经好几代了，我们都能让新一代的 Flash 版本达到甚至大幅超越上一代 Pro 版本的效果。我们会继续这么做，因为这是一个很健康的方向。

Shawn Wang：达拉之前问过：最早的路线图是 Flash、Pro、Ultra。你们是不是一直拿着 Ultra 当“母模型”，从它里面蒸馏？Ultra 就是那个终极源头吗？

Jeff Dean：我们有很多种模型，有些是内部模型，不对外发布或部署；有些是 Pro 级别模型，我们也可以从它蒸馏出 Flash 级别模型。这套能力很重要，推理时的动态扩展也能提升模型效果。

Shawn Wang：明白。而且显然 Flash 的成本优势带来了绝对统治力。最新数据好像是 50 万亿 token，我记不清了，反正每天都在变。

Jeff Dean：对，希望市场份额也在往上走。

Shawn Wang：我是说从成本上看，Flash 太经济了，几乎什么场景都能用。现在 Gmail 里有，YouTube 里有，到处都有。

Jeff Dean：我们也在越来越多的搜索产品里用上它，包括各种 AI 模式。

Shawn Wang：我的天，Flash 都进 AI 搜索模式了？我都没想到。

Jeff Dean：Flash 模型的一大优点不只是成本更低，还有延迟更低。延迟其实非常关键，因为未来我们会让模型做更复杂的事，生成更多令牌。比如你不再只让它写个循环，而是让它写一整套软件包。能低延迟完成这些就特别重要。Flash 是一条路径，我们的硬件平台也支撑了很多服务能力，比如 TPU，芯片间的互联性能极高，非常适合长上下文注意力、稀疏专家模型这类技术。这些对规模化部署至关重要。

Alessio Fanelli：那从 Pro 到 Flash 的蒸馏，会不会存在一个临界点，差不多滞后一代？我有种感觉：很多任务今天 Pro 已经饱和了，到下一代，同样任务在 Flash 的价位上就能饱和。再过两代，Flash 几乎能做所有人需要的一切。那当大部分用户都满足于 Flash 时，你们怎么说服内部继续投入去推 Pro 的前沿？我很好奇你怎么看。

Jeff Dean：如果用户的需求分布是静止不变的，那确实会这样。但现实往往是：模型越强，人们对它的期待就越高。我自己就有体会：一年前我用模型写代码，简单任务还行，复杂的就不行；现在我们在复杂代码上进步巨大，我就会让它做更难的事。不止编程，现在你会让它分析全球可再生能源部署、写一份太阳能报告，这些都是一年前没人会让模型做的复杂任务。所以你依然需要更强的模型去拓展边界，同时也能帮我们找到瓶颈：哪里还不行，该怎么改进，让下一代更强。

2 “把整个互联网纳入上下文”，让模型处理万亿 token

Alessio Fanelli：你们内部会用一些专属基准或测试集吗？因为每次公开的都是那几个基准，从 97% 涨到 99%，你们内部怎么推动团队：我们真正要做的目标是什么？

Jeff Dean：公开基准有它的价值，但生命周期有限。刚出来时很难，模型只有 10%–30% 正确率，你可以一路优化到 80%–90%。但一旦到 95% 左右，边际收益就极低了，要么是能力已经达标，要么是训练数据里出现了泄露或相似内容。所以我们有一批不公开的内部基准，确保训练数据里完全没有，代表模型目前还不具备、但我们希望它拥有的能力。然后我们去评估：是需要更专业的数据？还是架构改进？或是模型能力升级？怎样才能做得更好。

Shawn Wang：能不能举个例子：某个基准直接启发了架构改进？我正好顺着你刚才的话问。

Jeff Dean：我觉得 Gemini 模型尤其是 1.5 首次推出的长上下文能力，就是这么来的。我们当时的目标就是。

Shawn Wang：当时所有人一拥而上，全是一片飘绿的图表，我就在想：怎么大家同一时间都突破了？

Jeff Dean：Stack Benchmark 这种基准，在 1k、2k、8k 上下文长度上早就饱和了。我们真正在推的是 100 万、200 万上下文的前沿，因为这才有真实价值：你可以把上千页文本、几小时视频放进上下文里真正使用。单针查找已经饱和，我们需要更复杂的“多针查找”，或是更真实的长上下文理解与生成任务，才能衡量用户真正需要的能力，而不只是“你能不能找到这个商品编号”。

Shawn Wang：本质是检索，是机器学习里的检索。我想站在更底层一点说：你看到一个基准，发现需要改某个架构才能解决，但你真的应该改吗？有时候这只是一种归纳偏置。就像曾在谷歌工作的 Jason Wei 说的：你可能短期赢了，但长期不一定能扩展，甚至以后还要推翻重做。

Jeff Dean：我不太会纠结具体要用什么方案，而是先想清楚：我们到底需要什么能力？我们非常确定，长上下文是有用的，但现在的长度还远远不够。你真正想要的，其实是回答问题的时候能把整个互联网都纳入上下文，对吧？但这靠单纯扩容现有方案是做不到的，现在的算法复杂度是平方级的。一百万 tokens 已经是现有方案的极限了，你不可能做到十亿、更别说万亿 tokens。但如果你能营造出一种“模型可以关注万亿 tokens”的效果，那就太厉害了，应用场景会多到爆炸。

这相当于能把整个互联网当成上下文，能处理 YouTube 视频的所有像素，以及我们能提取到的深层表征；不只是单个视频，而是海量视频。在个人版 Gemini 层面，只要你授权，模型还能关联你所有的个人状态：你的邮件、照片、文档、机票信息等等。我觉得这会非常非常有用。问题在于，如何通过算法改进和系统级优化，让模型真正有意义地处理万亿 tokens。

Shawn Wang：对了，我之前算过一笔账：一个人每天不停说 8 小时话，一天最多也就生成 10 万 tokens 左右，这个量现在完全装得下。

Jeff Dean：没错。但如果你想理解所有人上传的视频内容，那就完全不是一个量级了。

Shawn Wang：而且还有个经典例子：一旦跳出文本，进入蛋白质这类信息密度极高的领域，数据量就爆炸了。

Jeff Dean：Gemini 从一开始就坚持做多模态。对很多人来说，多模态就是文本、图片、视频、音频这些人类熟悉的模态。但我认为，让 Gemini 理解非人类模态也非常重要。比如 Waymo 自动驾驶汽车的激光雷达数据、机器人传感器数据，还有各类医疗模态：X 光、核磁共振、医学影像、基因组信息等等。世界上可能有几百种数据模态，我们至少要让模型知道：这是一种有意义、有价值的模态。哪怕你没有在预训练里把所有激光雷达、MRI 数据都训进去，至少加一小部分进去也是很有用的，能让模型对这类信息有基本概念。

Shawn Wang：正好趁这个机会，我想问一个一直想问你的问题：有没有“王者模态”，也就是能统摄其他所有模态的模态？举个简单例子：视觉在像素级别就能编码文本，Deepseek 那篇 OCR 论文就证明了这点。而且视觉也能处理音频，因为可以转成语谱图，本质也是视觉任务。这么说的话，视觉是不是就是王者模态？

Jeff Dean：视觉和动态时序非常重要。这里说的动态，是视频，而不是静态图片。进化让眼睛独立演化了 23 次，是有原因的，感知周围世界的能力太关键了，而这正是我们希望这些模型具备的能力。模型要能解读我们看到、关注到的事物，并帮我们利用这些信息去做事。

Shawn Wang：说到动态理解，我必须夸一句：Gemini 目前依然是市面上唯一原生支持视频理解的模型，我经常用它看 YouTube。

Jeff Dean：其实很多人还没真正意识到 Gemini 模型的能力。我在演讲里举过一个例子：给模型一段过去 20 年里 18 个经典体育瞬间的 YouTube 集锦，里面有乔丹总决赛绝杀、足球进球等等。你直接把视频丢给它，说：“帮我做一个表格，列出所有事件、发生时间和简短描述。”

它真的能直接从视频里抽出信息，生成一张 18 行的表格。大多数人根本想不到，模型可以直接把视频转成结构化表格。

Alessio Fanelli：你刚才提到“把整个互联网纳入上下文”，谷歌本身就是因为人类处理不了全网信息，才需要做搜索排序。这对大模型来说逻辑完全不一样：人类看搜索结果可能只看前五六条，但对大模型来说，是不是要给它 20 条高度相关的内容？谷歌内部是怎么思考的：如何打造一种比传统人类搜索更宽泛、覆盖更广的 AI 模式？

Jeff Dean：即使在大模型出现之前，我们的排序系统也是这么做的：索引里有海量网页，大部分都不相关，先用轻量方法筛出一批相关的，比如缩到 3 万个文档，再一步步用更复杂的算法、更精细的信号去精排，最终只展示给用户 10 条左右结果。大模型系统的思路不会差太多。你看似要处理万亿 tokens，但实际流程是：先筛出大约 3 万个文档、大概 3000 万有用 tokens；再从中精挑细选出 117 个真正值得关注的文档，用来完成用户任务。

你可以想象这套系统：先用轻量模型、高并发处理，筛出初始 3 万候选；再用更强一点的模型把 3 万缩到 117；最后用最强的模型去深度理解这 117 个内容。只有这样的系统，才能营造出“模型能处理万亿 tokens”的效果，就像谷歌搜索确实在搜全网，但最终只给你最相关的一小部分。

Shawn Wang：我经常跟不了解谷歌搜索历史的人说，Bert 刚出来就直接用进了搜索，效果提升非常明显。这对谷歌来说肯定是最核心的数据。

Jeff Dean：大模型带来的文本表示方式，让我们跳出了“关键词必须精确匹配网页”的硬限制，真正做到主题和语义相关，而不是字面对应。

Shawn Wang：我觉得很多人根本没意识到，大模型已经接管了谷歌、YouTube 这种超高流量系统。YouTube 有个语义标识机制，每个 token 对应一个视频，用码本预测视频，以 YouTube 的规模来说，这太夸张了。

Jeff Dean：最近 Grok 也用在了可解释 AI 上。其实在大模型大规模用于搜索之前，我们就一直在弱化“用户输入什么就必须匹配什么”的思路。

Shawn Wang：你有没有梳理过这一路的演进历程？

Jeff Dean：我 2009 年在一个网络搜索与数据挖掘会议上做过一次演讲，讲了 1999 到 2004、2005 年左右，谷歌搜索和检索系统的五六代架构演进，那部分内容我们没有正式发过论文。2001 年发生了一件关键的事：我们在多个维度扩容系统。一是把索引做大，覆盖更多网页，质量自然会提升，索引里没有的页面，你永远搜不出来。二是扩容服务能力，因为流量暴涨。我们用的是分片架构，索引变大就加分片，比如从 30 片变成 60 片，以此控制延迟。流量变大就增加副本。

后来我们算了一笔账：一个数据中心有 60 个分片，每个分片 20 个副本，一共 1200 台带硬盘的机器。这些机器的内存加起来，刚好能把整个索引全放进内存。于是 2001 年，我们直接把全量索引塞进内存，效果直接起飞。在此之前，你必须非常谨慎，因为每个查询词都要在 60 个分片上触发一次磁盘寻道，索引越大效率越低。但全量内存索引后，哪怕用户只输入三四个词，你扩展成 50 个相关词都没问题，可以加同义词，比如 restaurant、restaurants、cafe、bistro 全都一起搜。我们终于能开始理解词义，而不是死磕用户输入的字面形式。

那是 2001 年，远在大模型之前，但思路已经是：放宽严格字面匹配，靠近语义理解。

3 “写大量代码前，先在脑子里推演一遍设计空间”

Alessio Fanelli：你设计系统的原则是什么？尤其是在 2001 年，互联网规模每年翻几倍、涨三倍，现在大模型也是每年规模和能力跳一大截。你有什么一贯的设计原则？

Jeff Dean：首先，设计系统时，必须先抓住最关键的设计参数：每秒要扛多少查询？互联网有多大？索引要做多大？每个文档存多少信息？怎么检索？流量再涨两三倍还能不能扛？我一个很重要的设计原则是：把系统设计成能扩容 5～10 倍，但不用更多。因为一旦变成 100 倍规模，整个设计空间会完全不一样，原来合理的方案会直接作废。比如从磁盘索引到内存索引，就是流量和机器足够多之后才变得可行的，一下子打开了全新架构。

我很喜欢在写大量代码之前，先在脑子里把设计空间推演一遍。回到谷歌早期，我们不仅在疯狂扩大索引，索引更新频率才是变化最夸张的指标。以前是一个月更新一次，后来我们做到了单页面一分钟内更新。

Shawn Wang：这就是核心竞争力对吧？

Jeff Dean：没错。新闻类查询，如果你的索引还是上个月的，那就完全没用。

Shawn Wang：新闻是个特殊场景，你们当时就不能把它拆成独立系统吗？

Jeff Dean：我们确实推出了谷歌新闻，但用户在主搜索里输新闻相关关键词，也必须拿到最新结果。

Shawn Wang：所以你们还要分类页面，判断哪些页面该高频更新、频率是多少。

Jeff Dean：背后有一整套系统，用来决定页面的更新频率和重要度。有些页面虽然变化概率低，但只要更新价值极高，依然会非常频繁地重新抓取。

Shawn Wang：说到延迟和存储，我必须提你的一篇经典之作：《每个程序员都该知道的延迟数字》。背后有什么故事吗？就是随手整理的？

Jeff Dean：里面大概列了八九种、十来项指标：缓存失效开销、分支预测失败开销、内存访问开销、从美国发数据包到荷兰的时间等等。

Shawn Wang：顺便问一下，为什么是荷兰？是因为 Chrome 的关系吗？

Jeff Dean：我们当时在荷兰有个数据中心。其实这就回到了快速估算这件事上。这些都是最基础的指标，你可以拿它们来做判断：比如我要做图片搜索、生成缩略图，我是提前算好缩略图，还是实时从大图里生成？需要多少带宽？会产生多少次磁盘寻道？你只要手里有这些基础数值，几十秒就能在脑子里做一遍推演。等你用更高级的库写软件时，也要培养出同样的直觉：比如在某种结构里查一次数据大概要多久。

Shawn Wang：这就是简单的字节换算，没什么特别的。我在想，如果你要更新那篇文章的话……

Jeff Dean：我觉得很有必要去算一下模型里的计算量，不管是训练还是推理。

Jeff Dean：一个很好的视角是：你需要从内存里搬运多少状态，片上 SRAM、加速器的 HBM、DRAM，还是网络传输？然后对比一下，数据搬运的成本，和矩阵乘法单元里一次实际乘法运算的成本差多少。其实计算成本非常非常低，根据精度不同，大概不到 1 pJ。

Shawn Wang：哦，懂了，你是用能耗来衡量的。

Jeff Dean：对，核心就是能耗，以及如何做出能效最高的系统。在同一块芯片上，只是从一边的 SRAM 传到另一边，能耗就可能达到 1000 pJ。这就是为什么加速器一定要用批处理（batching）。如果你把一个模型参数从片上 SRAM 搬到乘法单元，要花 1000 pJ，那你最好把这个参数重复用好多次。这就是 batch 维度的意义。batch 设成 256 就还好，但如果是 1，那就非常不划算。

Shawn Wang：对，没错。

Jeff Dean：因为你花了 1000 pJ，就为了做一次 1 pJ 的乘法。

Shawn Wang：我从来没听过从能耗角度去解释批处理。

Jeff Dean：这就是大家用 batch 的根本原因。理论上，batch=1 延迟最完美，但能耗和计算效率的浪费实在太大了。

Shawn Wang：延迟是最好的。

Jeff Dean：对，但代价太高。

4 TPU 的神级决策：反过来调整模型架构

Shawn Wang：那有没有类似当年“把索引全放进内存”这种神级技巧？比如 NVIDIA 这次押注 SRAM 搞 Grok，引起很大轰动。我在想，你们做 TPU 的时候是不是早就看到这一点了？毕竟要支撑你们的规模，肯定提前预判到了。从这些现象里，你们总结出了哪些硬件创新或洞察？

Jeff Dean：TPU 有很规整的结构，2D 或 3D 网格，很多芯片连在一起，每块都挂着 HBM。

在部署某些模型时，从 HBM 拿数据比从片上 SRAM 拿数据，成本和延迟都高得多。所以如果模型够小，你可以用模型并行，把它分散到很多芯片上，吞吐量和延迟都会明显提升。把一个中小模型打散到 16、64 块芯片上，如果全都能放进 SRAM，提升会非常巨大。这不算意外，但确实是个好技巧。

Alessio Fanelli：那 TPU 的设计呢？你们怎么决定改进方向？举个例子，有没有办法把 1000 pJ 降到 50？值得为了这个专门设计一颗新芯片吗？最极端的就是有人说，直接把模型烧进 ASIC。领域变化这么快，多少事值得用硬件来解决？内部是怎么讨论的？

Jeff Dean：我们 TPU 芯片设计架构团队和高层建模专家之间有大量协作。因为你需要协同设计：根据机器学习研究的未来方向，去定义下一代 TPU 应该长什么样。做 ML 硬件的人都知道，今天开始设计一颗芯片，可能两年后才进数据中心，还要用三四年。你必须预测未来 2～6 年，人们会想跑什么机器学习计算。所以，要有一批人去研究：哪些思路在那段时间里会起效、会更重要。这样我们才能把有用的硬件特性，加到未来几代的 TPU 里。

Shawn Wang：芯片迭代周期是两代之后？

Jeff Dean：差不多。小改动可以塞进下一代，大改动必须提前更早启动设计。只要条件允许，我们都会这么做。有时会加一些试探性的功能，占芯片面积不大，但如果成了，能直接快 10 倍；就算不成，也就浪费一点点面积，问题不大。但如果是特别大的改动，我们就会非常谨慎，做大量实验来确认方向是对的。

Alessio Fanelli：那有没有反过来的情况：因为芯片设计已经定了，所以模型架构不能那么走，因为不匹配？

Jeff Dean：肯定有。你会反过来调整模型架构，让它在那一代芯片上训练和推理更高效。两边是互相影响的。比如未来一代芯片支持更低精度，你甚至可以提前用那个精度训练，哪怕当前一代还不完全支持。

Shawn Wang：那精度到底能压到多低？

Jeff Dean：很多人在说三值精度。我个人非常支持极低精度，因为能省巨大量的能耗。能耗是按每比特传输算的，减少比特数是最直接的方式。业界已经在极低比特精度上取得了很多效果，再配上一组权重的缩放因子，效果就很稳。

Shawn Wang：有意思，低精度，但带缩放权重。我以前没想过这点。

Shawn Wang：说到这，我觉得精度这个概念本身在采样场景里就很奇怪。我们堆了这么多算力超强的芯片，最后前面还要挂一个随机数生成器。现在业界有往能量基模型、能量导向处理器发展的趋势，你显然也思考过，能说说你的看法吗？

Jeff Dean：确实有几个有意思的方向。能量基模型是一个，不按顺序逐 token 解码的扩散模型是另一个。还有 speculative decoding（推测解码），相当于一个很小的草稿 batch，先预测 8 个 token，有效 batch size 就扩大 8 倍，最后接受其中 5～6 个。这样分摊下来，把权重搬到乘法单元里的成本就被摊薄了，能带来几倍的提升。这些都是非常好的技巧。而且一定要从真实能耗、延迟、吞吐量这几个角度去看，你才会找到正确的方向：要么能服务更大模型，要么同等模型成本更低、延迟更低。

Shawn Wang：这个思路在理论上很吸引人，只是还没真正成为主流。但某种意义上还挺有美感的，如果从硬件底层就设计好，我们就不用搞那么多取巧的办法。

Jeff Dean：还有一些更前沿的方向，比如模拟计算基底，而不是数字电路。理论上能效可能极高，但问题是你要跟数字系统对接，数模、模数转换那部分会吃掉大部分能效优势。但即便只看数字方向，靠更专用、更高效的硬件，能效上我们还有巨大的提升空间。

5 大一统模型时代到来，不需要专家了？

Alessio Fanelli：你还看到哪些有意思的研究方向？或者有什么在谷歌暂时没法做，但希望其他研究者去尝试的方向？

Jeff Dean：我们的研究布局已经很广了。有很多开放问题：怎么让模型更可靠，能做更长、更复杂、包含大量子任务的事情？怎么实现模型调用其他模型当工具，组合起来完成远比单模型更有意义的工作？这部分非常有意思。还有，怎么让强化学习在不可验证的领域也能生效？这是个很棒的开放问题。如果能把数学、代码上的进步，复制到其他没那么容易验证的领域，模型能力会再上一个大台阶。

Alessio Fanelli：之前 Noam Brown 来节目里说，他们已经用深度推理证明了这点。某种意义上，你们的 AI 模式也是不可验证的。我在想这里面有没有共通的线索？比如都在做信息检索、返回 JSON。是不是检索就是那个可以打分、可以验证的部分？你怎么理解这个问题？

Jeff Dean：可以用其他模型来评估第一个模型的结果，甚至做检索。比如让另一个模型判断：检索回来的内容相关吗？2000 条里最相关的 50 条是哪些？这类方法其实非常有效。甚至可以就是同一个模型，只是换个提示词，从“检索系统”变成“评判器”。

Shawn Wang：我总觉得有一道很明显的坎：好像简单的事都做完了，剩下的都特别难。其实每年大家都这么觉得。尤其是 RLVR 这块，所有人都在问：不可验证问题的下一阶段到底怎么做？然后大家都说：不知道，等着评判。

Jeff Dean：这个领域好就好在，有无数聪明人在给这些难题想创造性的解法。大家都看得很清楚：模型在某些事上很强，但在边缘场景就会拉胯。提出技巧、验证效果、推动进步，就是这个领域研究的核心。你想想两年前，我们连 GSM8K 这种小学数学题都费劲。现在呢？模型已经能纯靠语言解国际奥数、埃尔德什级别的问题。一年半里能力的跃迁是惊人的，其他领域我们暂时还没完全看清楚路径，但有一些已经看到曙光，我们会全力把这种飞跃复制过去。

Shawn Wang：没错。

Alessio Fanelli：比如 YouTube 缩略图生成，这个功能会非常实用，我们太需要了。这简直就是 AGI 级别的需求。

Shawn Wang：对内容创作者来说绝对是。

Jeff Dean：我不是 YouTube 创作者，所以对这个问题没那么敏感，但我知道很多人很在意。

Shawn Wang：确实大家很看重。毕竟大家真的会“以封面论视频”。回到奥数那个话题，我到现在还觉得很不可思议：一年前我们还在搞 AlphaProof、AlphaGeometry 这些专门的系统，今年直接一句“算了，全都塞进 Gemini 就行”。你怎么看这件事？过去大家普遍认为，符号系统和大模型必须结合，但后来大家直接选择：全都用大模型解决。

Jeff Dean：我觉得这很合理。人类确实会操作符号，但我们脑子里大概率没有一个明确的符号系统，而是某种分布式表征，本质上接近神经网络。大量神经元在特定情况下产生激活模式，让我们能推理、规划、做思维链，发现一条路走不通就换一条。在很多方面，基于神经网络的模型，其实是在模拟我们直觉中大脑里发生的事情。所以对我来说，把完全离散、独立的符号系统，和另一套完全不同的思考机制分开，从来就不太合理。

Shawn Wang：有意思。对你来说可能理所当然，但一年前我可不是这么想的。

Jeff Dean：你看奥数任务也是一样，最开始要翻译成 Lean 语言、用专门工具，第二年还要专用几何模型，到今年直接换成一个统一模型，就是线上正式版模型，只是多给了一点推理资源。

这其实很好，说明通用模型的能力大幅提升，不再需要专用模型。这和 2013 到 2016 年那波机器学习的发展非常像：以前每个任务都要单独训模型，识别路标训一个，语音识别训一个。现在，大一统模型的时代真的来了。关键在于，这些模型在从未见过的新任务上泛化能力如何，而它们正在变得越来越强。

Shawn Wang：而且不再需要领域专家。我之前采访过相关团队的人，他说：我完全不懂奥数，不知道比赛在哪举行、规则是什么，我只管训模型。挺有意思的，现在只要有机器学习这种通用技能，给数据、给算力，就能搞定几乎任何任务。这大概就是所谓的“苦涩教训”吧。

Jeff Dean：我认为，通用模型在绝大多数情况下都会胜过专用模型。

6 未来模型知识直接“装”，“像下载软件包一样”

Shawn Wang：这点我想再追问一下。我觉得这里有个漏洞：模型的容量是抽象的，它能装下的知识只有参数量对应的比特数。谁都知道 Gemini Pro 有几万亿参数，但具体没人知道。但像 Gemma 这类模型，很多人想要开源、本地跑的小模型，它们必然装不下所有知识。大模型有条件什么都知道，但小模型在蒸馏、压缩的过程中，其实会记住很多没用的东西。所以我们能不能把知识和推理剥离开？

Jeff Dean：你确实希望模型把推理做到最强，同时具备检索能力。让宝贵的参数空间去记那些可以查到的冷僻知识，其实不是最优使用方式。你更希望参数用在更通用、更多场景都有用的能力上。但同时，你也不想让模型完全脱离世界知识。比如知道金门大桥大概有多长，对“桥有多长”有个基本概念，这类常识是有用的。它不需要知道世界上某个偏僻小桥的长度，但具备相当规模的世界知识是有帮助的，模型越大，能装的就越多。但我确实认为，把检索和推理结合起来，让模型擅长多轮检索，会是关键方向。

Shawn Wang：并且基于中间检索结果做推理，会让模型看起来比实际强得多。比如个人版 Gemini。

Jeff Dean：我们不太可能把我的邮件拿去训 Gemini。更合理的方式是：用一个统一模型，把检索我的邮件、我的照片当成工具，让模型基于这些信息去推理、交互，分多轮完成任务。这样才合理。

Alessio Fanelli：你觉得垂直领域模型有意义吗？比如很多人说“我们要做最好的医疗大模型、最好的法律大模型”。这些只是短期过渡方案吗？

Jeff Dean：不，我觉得垂直模型是有价值的。你可以从一个很强的基座模型出发，然后在医疗、机器人这类垂直领域富集数据分布。我们不太可能把所有机器人数据都塞进 Gemini 训练，因为要保持能力均衡。我们会给它看一部分机器人数据，但如果你想做一个极致优秀的机器人模型，就要在通用模型基础上，再用更多机器人数据去训练。它可能会因此损失一点翻译能力，但机器人能力会大幅提升。

我们训练基座 Gemini 时，一直在做这类数据配比权衡。我们很想加入 200 多种语言的数据，但这会挤占其他能力：可能 Pearl 编程就没那么强了，Python 还能保住，但其他小众语言或多模态能力可能会受影响。所以我认为，未来是专用模型加模块化模型的组合。你可以同时拥有 200 种语言、超强机器人模块、超强医疗模块，在不同场景下调用。比如处理医疗问题时，就把医疗模块和基座模型一起用上，效果会更好。

Shawn Wang：可安装的知识。

Jeff Dean：没错。

Shawn Wang：像下载软件包一样。

Jeff Dean：一部分可安装知识可以来自检索，另一部分应该来自预训练，比如提前用 1000 亿、1 万亿 token 的医疗数据训好。

Shawn Wang：Gemma 3 的论文里已经有一点这个味道了。

Alessio Fanelli：问题是，你到底需要几千亿 token，才能追上前沿基座模型的进步速度？如果我想做一个更强的医疗模型，而主模型 Gemini 还在不停进化，我需要 500 亿 token 吗？1000 亿？如果需要一万亿医疗 token，那数据根本就不存在。

Jeff Dean：医疗是一个特别有挑战的领域。很多医疗数据我们没有合适的访问权限，但很多医疗组织希望用自己的私有数据训模型。所以机会在于：和大型医疗机构合作，为它们定制模型，效果很可能比只用公开数据训练的通用模型更好。

Shawn Wang：对了，这和语言的话题也有点像。你最喜欢举的一个例子就是：把低资源语言放进上下文里，模型直接就能学会。

Jeff Dean：对，我们用过一个叫 Calaba 的语言，资源极度稀缺，全世界只有大概 120 个人说，还没有文字。

Shawn Wang：直接放进上下文就行，把整个数据集塞进去。

Jeff Dean：像索马里语、阿姆哈拉语这类语言，世界上是有一些文本的。我们不会把所有数据都放进 Gemini 训练，但放得越多，模型能力就越强。

Shawn Wang：我个人对语言学有副业兴趣，大学时修过几门课。如果我是语言学家，能用上这些模型，我会去问关于语言本身的根本性问题。比如萨丕尔—沃尔夫假说：你说的语言在多大程度上影响你的思维？有些语言里存在其他语言没有的概念，也有很多概念是重复的。还有一篇很有名的论文提到“柏拉图表征”：比如“杯子”的图片，配上大量带“cup”的文本，最后表征会收敛到差不多同一个位置。这套逻辑理论上也适用于语言，但有些地方不适用，而这些不适用的地方，恰恰反映了人类独有的概念差异，有些概念甚至英语里都不存在。这部分我觉得非常有意思。

Jeff Dean：我早年做过一个模型，把文本表征和图像模型结合起来，在 ImageNet 这类数据上训练，然后把顶层表征融合。你会发现，给模型一张它从未见过的新图片，它往往能给出正确标签。比如，模型学过望远镜和双筒望远镜，但没见过显微镜。给它看显微镜的图片，它居然能输出“microscope”这个标签，尽管从来没见过带这个标签的图。

Shawn Wang：这太酷了。

7 8 岁就开始琢磨：用算力做大神经网络

Shawn Wang：以你的视野，我们聊了硬件、模型、研究，你最希望被问到哪一类问题？

Jeff Dean：有件事我觉得挺有意思的。1990 年我本科毕业论文就做的是神经网络并行训练。那时候我就觉得，神经网络是正确的抽象方向，只是算力远远不够。系里那台 32 核的并行计算机，只能跑出稍微有趣一点的模型，远远解决不了真实问题。直到 2008、2009 年，摩尔定律带来了足够的算力，加上更大的数据集，神经网络才真正开始解决大家关心的真实问题：语音、视觉，最后是语言。

2011 年底我在谷歌开始做神经网络时，就坚定地认为：我们要用大规模并行计算，把神经网络的规模拉上去。我甚至把本科论文里的一些思路重新捡了起来，包括模型并行、数据并行，并且做了对比。可以说，我从 8 岁就开始琢磨这些事了，只不过那时候叫法不一样。

Shawn Wang：那篇论文是公开的吗？我们能找到吗？

Jeff Dean：可以的，网上就能查到。过去这 15 年里，把这些技术整合在一起，全力做规模化，是非常关键的。这既包括硬件层面的进步，比如推动 TPU 这类专用芯片的研发，也包括软件层面，做更高层的抽象，让人们能更方便地把想法交给计算机去实现。

Shawn Wang：你当时是否认同这个观点？或者现在有不同的复盘？

Jeff Dean：说的是算力配额的“大脑市场”机制？

Shawn Wang：对，算力配额。David 之前在 OpenAI 做负责工程的副总裁，后来也去过谷歌。他的核心观点是：OpenAI 敢于 all in，把赌注全压在一件事上；而谷歌更加“民主化”，每个人都有自己的配额。如果你相信规模化很重要，那这就是一个全公司层面的关键决策。

Jeff Dean：我部分同意。事实上，我当时还写过一页纸的备忘录，说我们把资源碎片化是很愚蠢的。那时候，谷歌研究室和 Brain 团队在做大语言模型，其他部门在做多模态，DeepMind 那边也在做 Chinchilla、Flamingo 这些模型。结果就是，我们不仅算力被拆分，最优秀的人才和精力也被拆分了。我当时就说，这样太傻了，为什么不合并起来，集中力量做一个从头就是多模态、全能的大一统模型？这就是 Gemini 项目的起源。

Shawn Wang：你这一页纸的备忘录成了，很不错。当时名字想好了吗？大家都知道，Gemini 是你取的。

Jeff Dean：是我取的。当时还有另一个候选名字，但我觉得，两个团队合在一起，某种意义上就像双胞胎。而且 NASA 也有 Gemini 计划，是阿波罗登月之前非常关键的一步。所以这个名字很合适，代表双子携手。

8 史上最高产工程师写代码：带 50 个“AI 实习生”

Alessio Fanelli：很棒。我知道时间不多了，最后很好奇：你现在怎么用 AI 写代码？你可以说是计算机历史上最高产的工程师之一。我看过一篇文章，讲你和 Sanjay 的合作方式，你说过：要找到和你思维合拍的人结对编程，两个人加起来才会是互补的合力。我就在想，你怎么看待代码智能体？你会怎么塑造一个和你思维兼容的代码助手？现在的工具你打几分？未来方向在哪？

Jeff Dean：首先，代码工具相比一两年前已经强太多了，现在真的可以把更复杂的任务交给它们。人类工程师和代码模型之间的互动方式，其实会反过来决定它怎么配合你。你可以让它写完备的测试，也可以让它帮你 brainstorm 性能优化思路。你和它交互的方式，会决定它的输出风格、解决问题的粒度，以及你希望它更自主，还是更频繁地和你对齐。没有哪一种风格是万能的。有些问题你需要高频交互，有些问题你直接说“帮我把这个实现出来”就行。

未来会出现更多独立软件智能体，帮你代劳各种事情。难点在于设计合适的人机交互模式、界面，决定它什么时候该打断你：“我需要更多指引”或者“我做完了，下一步做什么”。这部分我们还没有终极答案，模型变强之后，交互模式还会变。你可以想象成：你带了 50 个实习生，你会怎么管理？如果他们能力很强，你可能真的会想要 50 个。

Shawn Wang：但管理成本也很高。

Jeff Dean：没错。但未来很可能每个人都能拥有 50 个虚拟实习生。那你该怎么安排？你肯定会让他们组成小组，你不用管 50 个人，只需要对接 5 个小组，让他们各自干活。最终会演变成什么样，我也不完全确定。

Alessio Fanelli：那人与人的协作呢？AI 辅助编程的好处是能带来新的思路。但如果有大量代码智能体在并行写代码，其他人要介入就很困难，因为要追上巨量的上下文。你会不会担心，团队里的人会变得更孤立？

Jeff Dean：有可能。但反过来想，传统没有 AI 辅助的团队，50 个人干活，组织结构天然是层级化的，各组之间交互不多。但如果是 5 个人，每人管理 50 个虚拟智能体，这 5 个人之间的沟通带宽，反而可能比传统 5 个组长协调 50 个人的模式更高。

Alessio Fanelli：那你自己的工作节奏有改变吗？会不会花更多时间和人对齐架构、设计目标？

Jeff Dean：我觉得很有意思的一点是：以前教别人写软件，都会说要把需求文档写清楚，但大家其实都不当回事。但现在，如果你要让智能体帮你写代码，你必须极其清晰地定义需求，这会直接决定输出质量。你没说它要处理某种边界情况、没强调性能要求，它就可能不做。人们会越来越擅长清晰、无歧义地描述目标，这其实不是坏事，不管是不是工程师都是一项有用的技能。

Shawn Wang：我开玩笑说，现在给模型下指令，和高阶高管沟通没区别，像写内部备忘录一样，字斟句酌。而且我认为多模态非常重要。谷歌的 Anti-Gravity 团队一上来就做了很强的多模态，包括视频理解。这是你能给模型的、最高带宽的“提示词”，非常强。

Alessio Fanelli：你平时是怎么整理自己脑子里那些经验的？比如你那种超强的性能优化直觉，大家都说你一眼就能看出哪里能提效。那如果把这些经验写成通用文档，再让模型去检索学习，会不会很有价值？就像边界情况，就是个很好的例子。做系统的人脑子里都有特定的边界场景，但现在每次都要重复说一遍。你觉得人们会花更多时间去写文档、提炼通用经验吗？

Jeff Dean：我确实认为，写得好的软件工程指南会非常有用。既可以给模型当输入，也可以让其他开发者参考，让他们在写提示词时，更清楚底层系统应该实现什么。不一定需要为每个场景单独定制，只要有通用指南，放进代码智能体的上下文里，就会很有帮助。比如分布式系统，可以列出：要考虑哪些故障类型、有哪些处理方案，像 Paxos 复制、双写请求、只要一个返回即可容忍故障等。把 20 个这类分布式系统设计技巧总结一下，就能很大程度提升代码智能体生成可靠、健壮分布式系统的能力。

9 延迟能突破 1 万 token/s，人类不用读代码了

Shawn Wang：我就在想，Gemini 什么时候能自己造出 Spanner（解决了分布式系统 CAP 不可能三角的关系型数据库）？

Alessio Fanelli：搞不好代码它早就全看过了。这就是个好例子。CAP 定理是公认的真理，不能打破，但最后你们还是做出了看似打破它的东西。

Shawn Wang：我很好奇，模型算不算某种意义上“打破”了它？你会说你们打破了 CAP 定理吗？在特定假设下，比如精准时钟同步的前提下。

Alessio Fanelli：有时候你不必死守所谓的真理。但模型有时候会过于相信你告诉它的东西。

Jeff Dean：回到提示词和迭代的问题。我一直想做一个对比实验：一种是，用三次快速但普通的模型调用，中间加入人类对齐，人看一遍结果，再给新提示；另一种是，花很久写一个超长、超精细的提示词，直接丢给一个超强模型一次做完。我想看看这两种方式的效果差距。很多时候效果不好，不是模型不行，而是需求描述不完整，模型根本不可能猜到你想要什么。

Shawn Wang：就是定义不清晰，模型可以生成 10 个结果，只有一个是你想要的。而用轻量快模型多轮交互，反而够用。

Jeff Dean：我非常重视延迟。低延迟交互体验，比慢 10 倍、20 倍的系统舒服太多。未来我们会看到模型、软件、硬件整体延迟比现在低 20 倍、50 倍，这对需要大量交互的系统至关重要。

Shawn Wang：现在有两个极端，一边是极致快，另一边是 DeepThink 这种极致深思考。

Jeff Dean：如果不考虑成本和延迟，所有人都会一直用 DeepThink。如果底层硬件和系统把延迟再提 20 倍，成本下来，没理由不用。

Shawn Wang：帕累托曲线会一直往上走，不断外扩。我们来问点预测吧。你有没有什么一直关注的小测试，或者哪些东西你觉得现在还不够好，但很快能实现？

Jeff Dean：我说两个不算这一类的预测吧。第一，了解你、能访问你所有授权的个人数据的个性化模型，相比通用模型会带来巨大的价值提升。能关联我所有的邮件、照片、看过的视频、一切信息，这会非常有用。第二，越来越专用的硬件会让模型延迟更低、能力更强、成本更亲民，这一点也会非常关键。

Shawn Wang：你说的低延迟，大家一般用 token 每秒衡量。现在大概是 100 token/s，你觉得能到 1000？10000 有意义吗？

Jeff Dean：绝对有。因为有思维链推理。你可以并行做更多轮推演，生成更多代码，再用思维链校验正确性。10000 token/s 会非常强。

Shawn Wang：到 10000 token/s，人就不用读代码了，直接让模型生成。

Jeff Dean：它最终不一定输出 10000 token 代码，可能只有 1000 token 代码，但背后有 9000 token 的推理过程，这样的代码质量会高得多。

Alessio Fanelli：就像“如果我有更多时间，我会写一封更短的信”。Jeff，今天太棒了，感谢你的时间。

Jeff Dean：很开心，谢谢邀请。

https://youtu.be/F_1oDPWxpFQ

声明：本文为 InfoQ 整理，不代表平台观点，未经许可禁止转载。

InfoQ 新年礼物上线啦！

AI 快讯轮播推送正式上线，给你更优的阅读体验、更强的 AI 赋能、更懂 AI 行业的资讯检索～我们会持续优化体验，追求更深度的 AI 能力内化改造，欢迎大家体验并反馈！立即前往 InfoQ 官网，体验 AI 快讯带来的全新阅读感受吧！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.