Gemini 2.5弯道超车背后的灵魂人物|谷歌|编程|知名企业|gemini|deepmind

分享至

(点击收听本期音频）

采访｜泓君

图文｜孙泽平、梓沁

编辑｜泓君

从去年在大会前夜被OpenAI的4o模型“精准狙击”，到今年Gemini 2.5 Pro全面霸榜。短短一年时间，Gemini是如何完成从追赶者到领跑者的逆转？

《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei，一起和两位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。

欢迎关注《硅谷101视频号》的音频栏目直接收听本期播客。如果你喜欢我们的节目，更推荐大家使用音频客户端来收听，《硅谷101 》已覆盖各大主流音频平台（渠道见文末），欢迎订阅！

以下是这次对话内容的精选:

Gemini2.5崛起背后的底层逻辑

泓君：谷歌此次发布的Gemini 2.5 Pro，在当前各项评测中的数据都是所有大模型中最好的，Kimi你可以分析一下它是如何做到的吗？

Kimi：我已经离开DeepMind快一年时间了，也不太清楚我的前同事们在这一年中又做了哪些新的创新。但大语言模型训练根本的步骤是不变的，包括以下三点：Pre-training（预训练）、SFT （Supervised Fine-tuning，监督微调）和利用RLHF（基于人类反馈的强化学习）技术做的Alignment（对齐）。

大概在去年的NeurIPS（神经信息处理系统大会）上，业内已经普遍承认，公开网络数据基本都已经抓完了，就像化石燃料已经被消耗殆尽一样。因此，在过去这一年里，更多精力其实是投入到了对齐阶段，特别是强化学习方向，尤其是在“人类反馈”和“AI反馈”上的探索。比如在数学和编程类这类目标清晰且可验证的任务上。

对于Google来说，从Gemini 1到1.5再到2，已经积累了相当坚实的基座模型训练经验。再加上Google开始更加重视强化学习的作用，不只是依赖人类反馈，而是启动了一种“让AI批判AI”的机制。就像当年AlphaGo的成功，它的核心突破点就在于下出“第37手”那样超越人类常规理解的棋步，是AI突破人类认知的体现。

所以我认为，未来的AI模型需要在强化学习中能实现“自我判断正确性”。而在Gemini 2.5的训练过程中，很可能正是引入了更多此类强化学习策略，才使它在编程、数学等高确定性任务中，展现出如此令人惊艳的表现。

Google

泓君：对，在去年大模型的训练中出现了一个比较明显的趋势，各家都在预训练基础上加入了后训练。比如OpenAI的o1系列和DeepSeek的R1，都在推理任务上表现得很好。虽然Anthropic在很长一段时间内，并没有新推出推理模型，但Sonnet 3.5和3.7，它们在代码能力上出现了明显的质变。这也带动了Cursor、Windsurf这样一批编程类Agent的迅速崛起。这次发布会Google也特别强调了自己在代码生成上的质量提升。

我一直很好奇的一点是：为什么Anthropic生成的代码质量，明显优于其他家？代码质量的提升，主要是靠什么能力实现的？

Kimi：我还是从我刚提到的三个步骤展开。首先在预训练阶段，大家一定会面临数据配比的问题：比如要放多少代码，多少自然语言进去，其中中文和英文分别占多少等等。这件事现在并没有任何行业共识，没有人知道最优比例是什么。但我猜，对于Anthropic来说，代码的优先级是最高的。它们在预训练时可能就投入了大量高质量的代码数据，所以模型在基座层面的编程能力非常强。

接下来是对齐环节，在大公司里，我们私下会调侃它像是一个YOLO RUN（快速整合、节奏紧凑的大模型训练迭代方式）。比如今天我们三位分别在Google不同的团队，每个人在各自的方向上推进各类创新，然后我们定一个节奏，比如两周，把所有成果整合起来跑一个版本，看看最终迭代出了什么。这就意味着，模型在对齐的时候，不同团队的优先级是不同的。有的团队注重写作能力，有的注重数学能力。

我猜Anthropic的内部认为编程是第一优先级，也可能他们认为编程是解决推理模型的钥匙。所以无论是在预训练阶段，还是在后续的监督微调、强化学习环节，它们都倾向于引入更多的编程训练进去。这样会让它在Coding能力上表现好，但是这样做也会导致它在别的能力上稍有欠缺。

我举个我自己最近经历的有趣的例子。作为初创公司的创始人，我现在每天不只是写代码，也要做市场、销售、写文案的工作。我经常会用同一段提示词，分别输入给Gemini、ChatGPT、Claude、Perplexity，比如让它们都输出一段市场营销的文案。结果我对比发现，OpenAI写出来的内容最有调性，让我很愿意直接用。Claude写的文案就会显得特别枯燥，像是在和一个无聊的码农聊天，这是策略问题。

大语言模型的训练本来就是人们常说的：垃圾进，垃圾出。如果你喂进去大量高质量代码，自然产出的代码质量也会高，这还是数据配比的问题，我认为Anthropic在代码问题上思考的更多。

Anthropic

泓君：主要也是看团队把哪一块放成是重点，你觉得DeepMind之前的重点在哪里呢？

Kimi：我觉得其实DeepMind一直追求的是一种综合能力，包括在编程、数学、推理、写作等多个维度上都具备较强的表现。所以我们会设定一套通用的评估指标体系，用于覆盖多个不同的评估维度。

不过我也知道，我们过去确实有些能力是相对薄弱的，比如写代码。也正因为如此，整个团队在编程上投入了更多的精力和资源。这一轮我认为在代码能力上算是追上了Anthropic。

泓君：推理能力呢？也是取决于重视程度，还是需要在后训练阶段加入一些特别的技巧？

Kimi：我在Google的时候，Google还没有开始它的推理模型，但我离开Google的时候，是OpenAI的o1刚开始出来的时候，当时Google推理模型还没有排在优先级很高的位置上，Google当时还是在追赶OpenAI的写作能力和问题解决能力。

OpenAI刚出的时候，大家都很喜欢它输出的内容，所以Google最早做的是要追上OpenAI在人类偏好这方面的输出质量。但人类偏好的数据是非常有限的。所以后来大家开始思考：还有什么能力是更可量化、也更容易做出突破的？答案就是编程。

Anthropic在这方面做出了突破之后，Google接着也意识到，不能只输出人类偏好的内容，我还要写出非常牛的代码。而当大家都写出非常牛的代码之后，OpenAI又把重点转向了推理。它认为不能只是想写出人喜欢的内容，不能只是写出好的代码，还要做出逻辑严密的模型，能让用户真正看懂问题是怎么被解决的。

当这件事做成之后，目前我觉得Google已经开始凭借推理能力，在引领这股潮流了，让别人成为了追赶者。

techcrunch.com

泓君：在数学能力方面，我注意到Grok的表现挺不错的，XAI的模型。它们的创始团队里有很多非常顶尖的数学家，而且一直在尝试解决一些全球最难的数学问题。

Kimi：我的数学能力没有办法达到这个顶尖数学家的水平，这是一个“先有鸡还是先有蛋”的问题，你需要人有这个能力，才能评价模型好不好。我作为软件工程师，只有能力评价代码能力。但这个能力也分两个方面：模型是擅长写出商业可用的代码，还是只是擅长写代码这件事本身。

我记得Anthropic联合创始人Dario曾经说过一句很有意思的话：“我不希望我的编程模型只是能解决LeetCode题目。”因为LeetCode的题目本身不具备直接的商业价值。他希望编程模型生成的高质量代码，能直接进入像Shaun或者我们这样的初创公司的生产流程。这也是Anthropic非常专注的方向。

再说回数学问题本身。我觉得也分成两方面：一方面，有一部分人确实需要解决高难度的奥数题，这是模型能秀肌肉的地方。但另一方面，如何把这些数学问题接入不同的创业公司，从而创造商业价值。这可能是很多商业公司需要思考的问题。

三位灵魂人物撑起Gemini

泓君：你觉得谁是DeepMind的灵魂人物？谷歌模型的价值观会更偏向谁？

Kimi：“谷歌是谁”这个问题挺有意思的。我的理解是，在Gemini之前，Google的模型基本是由Jeff Dean和Oriol Vinyals共同主导的，他们也是Google的灵魂人物。

Jeff Dean可以说是计算机科学界的“活化石”。我们经常开玩笑说，他如果要写简历，可能直接写“没做过什么”比写“做过什么”还要短很多。因为Jeff Dean实在做了太多事，所以只需要写他“没做过什么”，这样可以在一页上写完他所有的人生成就。

Jeff Dean非常擅长对集群大量地调度，就是预训练。Oriol则是AlphaGo、AlphaStar、AlphaZero、MuZero这些项目的灵魂人物，他作为DeepMind的代表，在强化学习方面的研究更深入。

所以基于Google擅长的预训练，加上DeepMind擅长的强化学习与对齐，使得Google能快速地追赶上竞争对手的步伐。

后来，随着Google收购Character.AI，也重新赢回了Noam Shazee。他可能是我最敬重的一位人物，因为他是长期深耕在自然语言处理领域的，从他写的《Attention Is All You Need》，到后来的提出的Grouped Query Attention。

这三位巨头形成三足鼎立的格局，把预训练、强化学习、语言能力整合成一个有机的、迭代的整体流程，使模型能力不断得到提升，让Google也变得更好。我对这三位也都非常崇拜，我觉得Google这一波能快速赶上竞争对手，也是依靠这三位的能力，包括Jeff Dean代表预训练与基础设施的能力，Oriol代表对齐与强化学习的能力，Noam代表自然语言处理的能力。

Kimi：我觉得在Google Brain和DeepMind还没有合并之前，两边的思路是完全不同的。DeepMind强化学习的能力非常强，这也是Google收购它的原因。而Google瞬间调度大量资源来规模化训练的能力是非常强的，包括预训练与监督微调能力也很厉害。

最终我觉得这是一次强强联手的过程，Google和DeepMind把彼此最擅长的领域整合了起来。

我觉得Demis在团队里扮演的角色更多是管理者和领导者。比如，我以前做IC（Individual Contributor，个人贡献者）的时候，每天的工作只需要把代码写好就可以了。但当我真的去运营一家公司的时候就会意识到：真正难的不是完成任务，而是要怎样激励一群极其聪明的人，朝着同一个方向努力。

这其实是非常有挑战性的。因为越聪明的人，往往越有自己非常强的想法，他们是不愿意听从他人的指令的。而我觉得Demis在这方面做得非常好，他能把两个刚刚整合的公司团结成一个整体。并且能让所有人都发挥出最擅长的能力，一起朝着实现AGI（通用人工智能）的目标共同努力。

泓君：Jeff Dean和Demis之间的关系是怎么样的？

Kimi：Jeff Dean现在是首席科学家，Demis是Google DeepMind的CEO。我不确定现在如何，我记得我走的时候Demis和Jeff Dean都直接向Sundar Pichai汇报。

泓君：我看Sergey Brin在2023年的时候也回来了，不过最近才开始高调亮相。你觉得作为Google的创始人之一，他的回归会带来什么变化吗？

Kimi：我觉得Sergey Brin带给Google的，更多是一种“Founder Mode”，也就是创始人的工作状态。他让大家明白要以什么样的投入和方式，去完成这项工作。

如果创始人都亲自回来做这件事了，而且一周在办公室待60个小时，那你作为Google的一名员工，难道好意思只干40小时就回家吗？而且据我所知有些团队是真的一周工作60个小时的。比如我有朋友在图像生成团队，他们提到过，Sergey Brin有一次突然说：“Meta又发新模型了，我们的模型什么时候能出来？”大家一听，心想：“得了吧，周末加班吧。”所以我觉得他的回归更多的是带来“Founder Mode”，能非常鼓舞大家的士气。

泓君：Shaun你怎么看Gemini 2.5 Pro？

Shaun：我觉得Kimi把该讲的、不该讲的，都已经讲得非常好了，我就从一个相对“外部”的视角补充一些，毕竟我也在Google工作过。

大家都知道Google的人才密度非常高，但大部分人其实都处在一个比较“躺平”的状态。因为广告太赚钱了，很多团队并不需要太拼命。但这波AI浪潮真的起来之后，特别是去年OpenAI抢了Google不少风头，再加上Sergey Brin回归带来的“Founder Mode”，整个Gemini团队的士气都非常高涨。大家其实都为了拼一口气：如果AGI真的有人能做出来，那是不是就应该是Google。

因为Google有全球最强的计算机，有最优秀的人才，还有接近无限的资源，现在连创始人都亲自冲回来了。站在外部来看，这一波Gemini的崛起其实就花了一年时间。从去年的I/O被OpenAI抢了风头，到今年的Gemini 2.5直接霸榜，所有都是第一名，连OpenAI可能今年也没办法再抢风头了。

Google API价格优势揭秘

泓君：大家现在都能看到Gemini的模型做得很好，但很久之前，我记得在OpenAI和Anthropic的API价格还很高的时候，Gemini就把token价格就降到了大概只有OpenAI的五分之一、甚至十分之一。不过后续是否它也反向促使OpenAI和Anthropic跟着降价，我没有特别去跟进现在最新的数据。

但整体来看，在开发者社区里面，大家都知道Gemini的API接入成本和token使用成本是非常低的。我也很好奇，Google是如何把这个价格降下来的？

wired.com

Shaun：我认为主要有三方面的原因。

第一，Google大概从十年前就开始大量投入TPU了。当时它们就很清楚，如果整个Google Cloud发展起来后，就没办法不停地向NVIDIA或AMD采购GPU。所以Google从十年前就开始慢慢地深耕TPU生态，而且TPU的迭代速度在近几年也明显变快了。因为现在需求量非常大，如果拥有自己的TPU，就可以避开所谓的“NVIDIA税”，也不用等NVIDIA新的GPU出来之后和市场抢货。

第二是大家都知道Google Infra（基础设施）的能力非常强，所以相当于拥有几乎无限的资源。而且Google动态调度资源的能力也是远强于OpenAI和Anthropic的，因为这两家目前还没有自己的数据中心。Grok现在很强，做出了全球最大GPU集群。但行业内大多数AI公司还是没有调动如此大的集群的能力的，还是需要依赖Amazon、Microsoft这些第三方云服务来做这些事情。

第三，因为Google能够自行定制硬件，又能调用巨大的集群资源，在优化模型时就相当于软硬件一体化了，因此在硬件上发挥出的能力也会更强。并且Google还有自己整个开发者生态。

Kimi：我非常同意Shaun说的，Google内部的Infra能力确实非常强。很早之前，SemiAnalysis出过一篇很有意思的报告，对不同的GPU云服务进行了打分和排名。当时它们把CoreWeave排在了第一，我知道OpenAI用的就是CoreWeave来做整个GPU调度的。当时我还跟我的联合创始人开玩笑说，其实在CoreWeave之上还有一个，最牛的应该是Google自己内部的系统，它的Infra能力真的非常强。

关于API的价格，虽然我们现在都觉得API价格已经很便宜了，但其实我们都并不知道它的成本价是多少。唯一一个我们能看到的线索，是之前DeepSeek发布的一篇论文，里面提到：DeepSeek有80%的溢价空间，说明它的成本价格只有收取费用的20%左右。

对比DeepSeek用的GPU的体量，我们可以反推OpenAI的利润一定是非常高的。当然，我不是说Google的API一定是成本价，但它确实有足够的资本和能力去这么做。

【音频收听渠道】

公众号：硅谷101

收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客

海外用户：Apple Podcast｜Spotify｜TuneIn｜Amazon Music

联系我们：podcast@sv101.net

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.