网易首页 > 网易号 > 正文 申请入驻

Gemini 2.5弯道超车背后的灵魂人物

0
分享至

(点击收听本期音频)

采访|泓君

图文|孙泽平、梓沁

编辑|泓君

从去年在大会前夜被OpenAI的4o模型“精准狙击”,到今年Gemini 2.5 Pro全面霸榜。短短一年时间,Gemini是如何完成从追赶者到领跑者的逆转?

《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei,一起和两位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。

欢迎关注《硅谷101视频号》的音频栏目直接收听本期播客。 如 果你喜欢我们的 节目,更推荐大家使用音频客户端来收听,《硅谷101 》已覆盖各大主流音频平台(渠道见文末),欢迎订阅!

以下是这次对话内容的精选:

01

Gemini2.5崛起背后的底层逻辑

泓君:谷歌此次发布的Gemini 2.5 Pro,在当前各项评测中的数据都是所有大模型中最好的,Kimi你可以分析一下它是如何做到的吗?

Kimi:我已经离开DeepMind快一年时间了,也不太清楚我的前同事们在这一年中又做了哪些新的创新。但大语言模型训练根本的步骤是不变的,包括以下三点:Pre-training(预训练)、SFT (Supervised Fine-tuning,监督微调)和利用RLHF(基于人类反馈的强化学习)技术做的Alignment(对齐)。

大概在去年的NeurIPS(神经信息处理系统大会)上,业内已经普遍承认,公开网络数据基本都已经抓完了,就像化石燃料已经被消耗殆尽一样。因此,在过去这一年里,更多精力其实是投入到了对齐阶段,特别是强化学习方向,尤其是在“人类反馈”和“AI反馈”上的探索。比如在数学和编程类这类目标清晰且可验证的任务上。

对于Google来说,从Gemini 1到1.5再到2,已经积累了相当坚实的基座模型训练经验。再加上Google开始更加重视强化学习的作用,不只是依赖人类反馈,而是启动了一种“让AI批判AI”的机制。就像当年AlphaGo的成功,它的核心突破点就在于下出“第37手”那样超越人类常规理解的棋步,是AI突破人类认知的体现。

所以我认为,未来的AI模型需要在强化学习中能实现“自我判断正确性”。而在Gemini 2.5的训练过程中,很可能正是引入了更多此类强化学习策略,才使它在编程、数学等高确定性任务中,展现出如此令人惊艳的表现。

Google

泓君:对,在去年大模型的训练中出现了一个比较明显的趋势,各家都在预训练基础上加入了后训练。比如OpenAI的o1系列和DeepSeek的R1,都在推理任务上表现得很好。虽然Anthropic在很长一段时间内,并没有新推出推理模型,但Sonnet 3.5和3.7,它们在代码能力上出现了明显的质变。这也带动了Cursor、Windsurf这样一批编程类Agent的迅速崛起。这次发布会Google也特别强调了自己在代码生成上的质量提升。

我一直很好奇的一点是:为什么Anthropic生成的代码质量,明显优于其他家?代码质量的提升,主要是靠什么能力实现的?

Kimi:我还是从我刚提到的三个步骤展开。首先在预训练阶段,大家一定会面临数据配比的问题:比如要放多少代码,多少自然语言进去,其中中文和英文分别占多少等等。这件事现在并没有任何行业共识,没有人知道最优比例是什么。但我猜,对于Anthropic来说,代码的优先级是最高的。它们在预训练时可能就投入了大量高质量的代码数据,所以模型在基座层面的编程能力非常强。

接下来是对齐环节,在大公司里,我们私下会调侃它像是一个YOLO RUN(快速整合、节奏紧凑的大模型训练迭代方式)。比如今天我们三位分别在Google不同的团队,每个人在各自的方向上推进各类创新,然后我们定一个节奏,比如两周,把所有成果整合起来跑一个版本,看看最终迭代出了什么。这就意味着,模型在对齐的时候,不同团队的优先级是不同的。有的团队注重写作能力,有的注重数学能力。

我猜Anthropic的内部认为编程是第一优先级,也可能他们认为编程是解决推理模型的钥匙。所以无论是在预训练阶段,还是在后续的监督微调、强化学习环节,它们都倾向于引入更多的编程训练进去。这样会让它在Coding能力上表现好,但是这样做也会导致它在别的能力上稍有欠缺。

我举个我自己最近经历的有趣的例子。作为初创公司的创始人,我现在每天不只是写代码,也要做市场、销售、写文案的工作。我经常会用同一段提示词,分别输入给Gemini、ChatGPT、Claude、Perplexity,比如让它们都输出一段市场营销的文案。结果我对比发现,OpenAI写出来的内容最有调性,让我很愿意直接用。Claude写的文案就会显得特别枯燥,像是在和一个无聊的码农聊天,这是策略问题。

大语言模型的训练本来就是人们常说的:垃圾进,垃圾出。如果你喂进去大量高质量代码,自然产出的代码质量也会高,这还是数据配比的问题,我认为Anthropic在代码问题上思考的更多。

Anthropic

泓君:主要也是看团队把哪一块放成是重点,你觉得DeepMind之前的重点在哪里呢?

Kimi:我觉得其实DeepMind一直追求的是一种综合能力,包括在编程、数学、推理、写作等多个维度上都具备较强的表现。所以我们会设定一套通用的评估指标体系,用于覆盖多个不同的评估维度。

不过我也知道,我们过去确实有些能力是相对薄弱的,比如写代码。也正因为如此,整个团队在编程上投入了更多的精力和资源。这一轮我认为在代码能力上算是追上了Anthropic。

泓君:推理能力呢?也是取决于重视程度,还是需要在后训练阶段加入一些特别的技巧?

Kimi:我在Google的时候,Google还没有开始它的推理模型,但我离开Google的时候,是OpenAI的o1刚开始出来的时候,当时Google推理模型还没有排在优先级很高的位置上,Google当时还是在追赶OpenAI的写作能力和问题解决能力。

OpenAI刚出的时候,大家都很喜欢它输出的内容,所以Google最早做的是要追上OpenAI在人类偏好这方面的输出质量。但人类偏好的数据是非常有限的。所以后来大家开始思考:还有什么能力是更可量化、也更容易做出突破的? 答案就是编程。

Anthropic在这方面做出了突破之后,Google接着也意识到,不能只输出人类偏好的内容,我还要写出非常牛的代码。而当大家都写出非常牛的代码之后,OpenAI又把重点转向了推理。它认为不能只是想写出人喜欢的内容,不能只是写出好的代码,还要做出逻辑严密的模型,能让用户真正看懂问题是怎么被解决的。

当这件事做成之后,目前我觉得Google已经开始凭借推理能力,在引领这股潮流了,让别人成为了追赶者。

techcrunch.com

泓君:在数学能力方面,我注意到Grok的表现挺不错的,XAI的模型。它们的创始团队里有很多非常顶尖的数学家,而且一直在尝试解决一些全球最难的数学问题。

Kimi:我的数学能力没有办法达到这个顶尖数学家的水平,这是一个“先有鸡还是先有蛋”的问题,你需要人有这个能力,才能评价模型好不好。我作为软件工程师,只有能力评价代码能力。但这个能力也分两个方面:模型是擅长写出商业可用的代码,还是只是擅长写代码这件事本身。

我记得Anthropic联合创始人Dario曾经说过一句很有意思的话:“我不希望我的编程模型只是能解决LeetCode题目。”因为LeetCode的题目本身不具备直接的商业价值。他希望编程模型生成的高质量代码,能直接进入像Shaun或者我们这样的初创公司的生产流程。这也是Anthropic非常专注的方向。

再说回数学问题本身。我觉得也分成两方面:一方面,有一部分人确实需要解决高难度的奥数题,这是模型能秀肌肉的地方。但另一方面,如何把这些数学问题接入不同的创业公司,从而创造商业价值。这可能是很多商业公司需要思考的问题。

02

三位灵魂人物撑起Gemini

泓君:你觉得谁是DeepMind的灵魂人物?谷歌模型的价值观会更偏向谁?

Kimi:“谷歌是谁”这个问题挺有意思的。我的理解是,在Gemini之前,Google的模型基本是由Jeff Dean和Oriol Vinyals共同主导的,他们也是Google的灵魂人物。

Jeff Dean可以说是计算机科学界的“活化石”。我们经常开玩笑说,他如果要写简历,可能直接写“没做过什么”比写“做过什么”还要短很多。因为Jeff Dean实在做了太多事,所以只需要写他“没做过什么”,这样可以在一页上写完他所有的人生成就。

Jeff Dean非常擅长对集群大量地调度,就是预训练。Oriol则是AlphaGo、AlphaStar、AlphaZero、MuZero这些项目的灵魂人物他作为DeepMind的代表,在强化学习方面的研究更深入。


所以基于Google擅长的预训练,加上DeepMind擅长的强化学习与对齐,使得Google能快速地追赶上竞争对手的步伐。

后来,随着Google收购Character.AI,也重新赢回了Noam Shazee他可能是我最敬重的一位人物,因为他是长期深耕在自然语言处理领域的,从他写的《Attention Is All You Need》,到后来的提出的Grouped Query Attention。

这三位巨头形成三足鼎立的格局,把预训练、强化学习、语言能力整合成一个有机的、迭代的整体流程,使模型能力不断得到提升,让Google也变得更好。我对这三位也都非常崇拜,我觉得Google这一波能快速赶上竞争对手,也是依靠这三位的能力,包括Jeff Dean代表预训练与基础设施的能力,Oriol代表对齐与强化学习的能力,Noam代表自然语言处理的能力。

Kimi:我觉得在Google Brain和DeepMind还没有合并之前,两边的思路是完全不同的。DeepMind强化学习的能力非常强,这也是Google收购它的原因。而Google瞬间调度大量资源来规模化训练的能力是非常强的,包括预训练与监督微调能力也很厉害。

最终我觉得这是一次强强联手的过程,Google和DeepMind把彼此最擅长的领域整合了起来。

我觉得Demis在团队里扮演的角色更多是管理者和领导者。比如,我以前做IC(Individual Contributor,个人贡献者)的时候,每天的工作只需要把代码写好就可以了。但当我真的去运营一家公司的时候就会意识到:真正难的不是完成任务,而是要怎样激励一群极其聪明的人,朝着同一个方向努力。

这其实是非常有挑战性的。因为越聪明的人,往往越有自己非常强的想法,他们是不愿意听从他人的指令的。而我觉得Demis在这方面做得非常好,他能把两个刚刚整合的公司团结成一个整体。并且能让所有人都发挥出最擅长的能力,一起朝着实现AGI(通用人工智能)的目标共同努力。

泓君:Jeff Dean和Demis之间的关系是怎么样的?

Kimi:Jeff Dean现在是首席科学家,Demis是Google DeepMind的CEO。我不确定现在如何,我记得我走的时候Demis和Jeff Dean都直接向Sundar Pichai汇报。

泓君:我看Sergey Brin在2023年的时候也回来了,不过最近才开始高调亮相。你觉得作为Google的创始人之一,他的回归会带来什么变化吗?

Kimi:我觉得Sergey Brin带给Google的,更多是一种“Founder Mode”,也就是创始人的工作状态。他让大家明白要以什么样的投入和方式,去完成这项工作。

如果创始人都亲自回来做这件事了,而且一周在办公室待60个小时,那你作为Google的一名员工,难道好意思只干40小时就回家吗?而且据我所知有些团队是真的一周工作60个小时的。比如我有朋友在图像生成团队,他们提到过,Sergey Brin有一次突然说:“Meta又发新模型了,我们的模型什么时候能出来?”大家一听,心想:“得了吧,周末加班吧。”所以我觉得他的回归更多的是带来“Founder Mode”,能非常鼓舞大家的士气。

泓君:Shaun你怎么看Gemini 2.5 Pro?

Shaun:我觉得Kimi把该讲的、不该讲的,都已经讲得非常好了,我就从一个相对“外部”的视角补充一些,毕竟我也在Google工作过。

大家都知道Google的人才密度非常高,但大部分人其实都处在一个比较“躺平”的状态。因为广告太赚钱了,很多团队并不需要太拼命。但这波AI浪潮真的起来之后,特别是去年OpenAI抢了Google不少风头,再加上Sergey Brin回归带来的“Founder Mode”,整个Gemini团队的士气都非常高涨。大家其实都为了拼一口气:如果AGI真的有人能做出来,那是不是就应该是Google。

因为Google有全球最强的计算机,有最优秀的人才,还有接近无限的资源,现在连创始人都亲自冲回来了。站在外部来看,这一波Gemini的崛起其实就花了一年时间。从去年的I/O被OpenAI抢了风头,到今年的Gemini 2.5直接霸榜,所有都是第一名,连OpenAI可能今年也没办法再抢风头了。

03


Google API价格优势揭秘

泓君:大家现在都能看到Gemini的模型做得很好,但很久之前,我记得在OpenAI和Anthropic的API价格还很高的时候,Gemini就把token价格就降到了大概只有OpenAI的五分之一、甚至十分之一。不过后续是否它也反向促使OpenAI和Anthropic跟着降价,我没有特别去跟进现在最新的数据。

但整体来看,在开发者社区里面,大家都知道Gemini的API接入成本和token使用成本是非常低的。我也很好奇,Google是如何把这个价格降下来的?

wired.com

Shaun:我认为主要有三方面的原因。

第一,Google大概从十年前就开始大量投入TPU了。当时它们就很清楚,如果整个Google Cloud发展起来后,就没办法不停地向NVIDIA或AMD采购GPU。所以Google从十年前就开始慢慢地深耕TPU生态,而且TPU的迭代速度在近几年也明显变快了。因为现在需求量非常大,如果拥有自己的TPU,就可以避开所谓的“NVIDIA税”,也不用等NVIDIA新的GPU出来之后和市场抢货。

第二是大家都知道Google Infra(基础设施)的能力非常强,所以相当于拥有几乎无限的资源。而且Google动态调度资源的能力也是远强于OpenAI和Anthropic的,因为这两家目前还没有自己的数据中心。Grok现在很强,做出了全球最大GPU集群。但行业内大多数AI公司还是没有调动如此大的集群的能力的,还是需要依赖Amazon、Microsoft这些第三方云服务来做这些事情。

第三,因为Google能够自行定制硬件,又能调用巨大的集群资源,在优化模型时就相当于软硬件一体化了,因此在硬件上发挥出的能力也会更强。并且Google还有自己整个开发者生态。

Kimi:我非常同意Shaun说的,Google内部的Infra能力确实非常强。很早之前,SemiAnalysis出过一篇很有意思的报告,对不同的GPU云服务进行了打分和排名。当时它们把CoreWeave排在了第一,我知道OpenAI用的就是CoreWeave来做整个GPU调度的。当时我还跟我的联合创始人开玩笑说,其实在CoreWeave之上还有一个,最牛的应该是Google自己内部的系统,它的Infra能力真的非常强。

关于API的价格,虽然我们现在都觉得API价格已经很便宜了,但其实我们都并不知道它的成本价是多少。唯一一个我们能看到的线索,是之前DeepSeek发布的一篇论文,里面提到:DeepSeek有80%的溢价空间,说明它的成本价格只有收取费用的20%左右。

对比DeepSeek用的GPU的体量,我们可以反推OpenAI的利润一定是非常高的。当然,我不是说Google的API一定是成本价,但它确实有足够的资本和能力去这么做。

【音频收听渠道】

公众号:硅谷101

收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客

海外用户:Apple Podcast|Spotify|TuneIn|Amazon Music

联系我们:podcast@sv101.net

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赞助商阵容堪比欧洲杯!中国足球的面子,被苏超硬生生地挣了回来

赞助商阵容堪比欧洲杯!中国足球的面子,被苏超硬生生地挣了回来

十点街球体育
2026-04-20 06:00:03
与孔令辉分手12年,被黑人托在肩上的马苏,终是为自己的风流买单

与孔令辉分手12年,被黑人托在肩上的马苏,终是为自己的风流买单

情感大头说说
2026-04-18 21:06:00
曼城看到夺冠希望!剩5轮少3分,手握一大优势,阿森纳失去主动

曼城看到夺冠希望!剩5轮少3分,手握一大优势,阿森纳失去主动

奥拜尔
2026-04-20 01:34:45
5月1日正式落地!医院全面大整改,老百姓看病再也不用遭罪了!

5月1日正式落地!医院全面大整改,老百姓看病再也不用遭罪了!

老特有话说
2026-04-19 15:35:43
1983年,陈云亲自批示:立即枪毙广东县委书记王仲,原因为何?

1983年,陈云亲自批示:立即枪毙广东县委书记王仲,原因为何?

莫地方
2026-04-20 09:30:18
雷霆大胜太阳总分1-0:亚历山大25分17罚 布克23分杰伦22+7+6

雷霆大胜太阳总分1-0:亚历山大25分17罚 布克23分杰伦22+7+6

醉卧浮生
2026-04-20 06:07:58
重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

脆皮先生
2026-04-19 19:37:38
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

混沌录
2026-04-19 17:27:06
张雪回应:820RR爆缸是发动机问题,换新车还是退钱,车主选!

张雪回应:820RR爆缸是发动机问题,换新车还是退钱,车主选!

哄动一时啊
2026-04-18 19:39:31
伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

风信子的花
2026-04-19 16:46:59
湖人G2赛前做出争议决定,或将彻底激怒詹姆斯!

湖人G2赛前做出争议决定,或将彻底激怒詹姆斯!

夜白侃球
2026-04-20 10:12:53
19日凌晨,大批导弹密集射向日本海,高市早苗这下尝到后果了!

19日凌晨,大批导弹密集射向日本海,高市早苗这下尝到后果了!

荆楚寰宇文枢
2026-04-19 23:37:05
恩爱8年难抵残酷现实?鹿晗生日引爆热搜,被关晓彤彻底撕下体面

恩爱8年难抵残酷现实?鹿晗生日引爆热搜,被关晓彤彻底撕下体面

阿裤趣闻君
2026-04-20 09:55:19
美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

贱议你读史
2026-04-19 04:30:07
英国小妹歧视中国人后续:身份曝光社死,被告学校,下场大快人心

英国小妹歧视中国人后续:身份曝光社死,被告学校,下场大快人心

米果说识
2026-04-19 16:40:24
这个90后女演员凭什么击败章子怡、马丽,夺得金像影后桂冠

这个90后女演员凭什么击败章子怡、马丽,夺得金像影后桂冠

新民周刊
2026-04-20 11:37:22
贵州茅台股价盘中反超源杰科技,重新成为A股市场股价“一哥”

贵州茅台股价盘中反超源杰科技,重新成为A股市场股价“一哥”

界面新闻
2026-04-20 10:52:14
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

苗苗情感说
2026-04-19 12:38:15
世界台联一心促成中国德比?赵心童:我与晖哥比赛会刷新收视纪录

世界台联一心促成中国德比?赵心童:我与晖哥比赛会刷新收视纪录

杨华评论
2026-04-20 00:51:00
视频丨美伊停火仅剩两天 特朗普称将谈判 伊朗:不属实

视频丨美伊停火仅剩两天 特朗普称将谈判 伊朗:不属实

国际在线
2026-04-20 07:01:31
2026-04-20 12:27:00
硅谷101 incentive-icons
硅谷101
从这里驶向未来
168文章数 106关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

时尚
本地
艺术
亲子
数码

今年最流行的衣服竟然是它?高级又气质!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

亲子要闻

普通家庭养娃补钙,90% 家长都补错了!

数码要闻

小米米家中央空调人感风风管机双出风预售:超一级能效,8999元

无障碍浏览 进入关怀版