网易首页 > 网易号 > 正文 申请入驻

拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力【101直播】

0
分享至

撰稿:刘一鸣

毫无疑问,Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从“追赶者”变成了“领跑者”。

此次Gemini 3不仅在多模态能力上实现了新的飞跃,更被视为谷歌对Scaling Law最极致的一次执行。

硅谷101在11月20日举办了一场直播,邀请了四位处于AI研发与应用最前线的嘉宾:

  • 田渊栋,前Meta FAIR研究总监、AI科学家

  • 陈羽北,加州大学戴维斯分校助理教授、Aizip联合创始人

  • Gavin Wang,前Meta AI工程师、负责Llama 3后训练及多模态推理

  • Nathan Wang,资深AI开发者、硅谷101特约研究员



我们试图透过Gemini 3的发布,试图回答关于AI未来的几个关键问题:Gemini 3到底强在哪里?谷歌究竟做对了什么?全球大模型竞争格局将如何改变?LLM的未来走向,以及在LLM之外,最前沿的AI实验室正在关注什么?

以下是我们直播中的嘉宾浓缩观点,如果想收看完整直播内容,可以关注我们的YouTube和B站回放。

01

体验实测Gemini 3到底强在哪里?

在Gemini 3发布后的48小时内,各大榜单被迅速刷新。不同于以往模型仅在单一维度(如代码或文本)上的提升,Gemini 3被认为是真正意义上的“全模态原生”模型。对于使用者而言,这种技术参数上的提升转化为怎样的实际体感?


来源:LM Arena

陈茜:各位这两天都在高强度测试Gemini 3,它真的如排行榜那样霸榜吗?大家能不能举例讲讲,它到底好在哪里?

Nathan Wang:我这两天大概集中使用了三个主要产品:Gemini主App、针对开发者的Google AntiGravity,以及今天刚发布的Nano Banana Pro。

说实话,AntiGravity给我感觉非常像是一个Agentic时代的IDE(集成开发环境)。它和Cursor或者Claude Code不太一样的地方在于,它把界面分成了 "Manager View"(经理视角) 和 "Editor View"(编辑视角)。

以前我们在Cursor里,虽然AI帮我们写代码,但感觉还是“我”在写。但在AntiGravity里,Manager View让你感觉你是坐在那里的经理,底下有8到10个Agent小弟在干活。你可以看着它们分工,有的在写程序,有的在Run Unit Test(单元测试)。

最惊艳的是它结合了Browser Use的功能。比如我写了一个前端网页,它有一个叫Screenshot Pro的功能,跑分非常高。它可以直接调用Chrome浏览器打开那个网页,“看”着屏幕去测试。如果你让它上传一个文件、点击一个按钮,它能像人一样去操作。这意味着测试加上开发完全自动化了,变成了一体式的开发体验。

另外,Nano Banana Pro在生成幻灯片这个点上解决了我很大的痛点。以前我让AI做PPT,比如“解释一下Gemini从1.0到3.0的发展路线”,它往往逻辑链是断的。但这次我试了一下,它不仅能把逻辑理顺,还能生成非常复杂的图表。我觉得市面上那些做Slides(幻灯片)的软件可能都要被它取代了。


田渊栋

前Meta FAIR研究总监、AI科学家

田渊栋:我一般的习惯是,新模型出来先看它能不能“续写小说”。这是我个人的一个Benchmark,因为全世界除了我也没几个人这么测,所以它肯定不会Overfitting(过拟合),这比较客观。

在一两年前,模型写小说基本上是“公文风”,不管你给它什么开头,它写出来都是那种官方口吻,完全脱离语境。到了Gemini 2.5的时候,我发现它文笔变好了。比如我给它一个废墟的场景,它会描写得很细致:墙壁倒塌的样子、环境萧索的氛围,像个文科生写的,但情节上平铺直叙,没什么抓人的地方。

但这次Gemini 3让我有点惊喜。它不仅文笔好,它开始懂得“反转”了。它设计的情节互动非常有意思,甚至让我觉得:“咦,这个点子不错,也许我可以存下来用到我自己的小说里。”这是第一次我感觉到AI在情节构思上给了我启发,而不仅仅是词藻堆砌。它似乎对作者的深层动机有了理解。

不过,在科研Brain storming(头脑风暴)上,它还是那个老样子。怎么形容呢?它就像一个刚刚入学的、博闻强记的博士生。 你问它什么它都知道,能跳出很多新名词、新数学工具。你会觉得“哇,这个我没见过,很棒”。但如果你想跟它深入探讨一个问题的本质,或者让它判断哪个方向更有前途,它就做不到了。它缺乏那种只有资深人类研究员才有的直觉和深层思考。所以它依然是一个顶级的“做题家”,但在创造性思维上,暂时还没看到本质突破。

Gavin Wang :我首先感叹一下,Google的“大厂之力”真是恐怖如斯,生态系统太完整了。技术层面,我最关注的是ARC-AGI-2 Benchmark。这个测试很有意思,它不是考大数据记忆,而是考Few-shot Learning(少样本学习)甚至是元学习。它的创始人认为,那种靠背数据的不是智能,真正的智能是看一两个例子就能迅速提取出Pattern(模式)。

之前大家在这个榜单上都是个位数或者百分之十几,Gemini 3一下子达到了百分之三十几,这是一个质的飞跃。我认为这归功于它的Multimodal Reasoning(多模态推理)。

以前的Chain of Thoughts(思维链),模型是在那里自言自语,是纯语言维度的单模态推进。但Gemini 3是Model Native的,它把视觉、代码、语言的数据全部Mesh up together(混合在一起)做预训练。所以它在推理的时候,可能是一边看着屏幕上的图像,一边在语言层面做逻辑推演。这种跨模态的化学反应,打开了很多新机会的大门。


陈羽北

加州大学戴维斯分校助理教授、Aizip联合创始人

陈羽北:我这两天太忙还没自己跑,但我收集了我们团队不同小组的一手反馈,这里面有一些很有意思的Negative Feedback(负面反馈)。

首先是Vision组的反馈。他们在做一些内部Benchmark测试时发现,Gemini 3在Real-world Visual Understanding(真实世界视觉理解)上性能反而下降了。这听起来很反直觉对吧?

具体来说,就是当涉及到安防摄像头、门铃这种真实场景,去分析用户行为、潜在风险事件的时候,它的表现不如上一代。他们去查了Gemini 3的技术报告,发现报告里真正涉及到Real-world Visual Understanding的benchmark只有一个,而且并没有覆盖这种复杂场景。

这其实暴露了一个行业通病:公榜benchmark和实际落地场景之间存在巨大的Gap。 如果大家都为了刷榜去优化模型,那在实际产品中的性能可能会走偏。

另外,Coding组的学生也跟我说,在做Scientific Writing(科学写作)和辅助编程时,他们反而觉得Gemini 2.5更顺手。Gemini 3虽然Reasoning的长度增加了2到3倍,但在处理需要反复多跳(Multi-hop)搜索、整合二十年财报这种极度复杂的任务时,似乎还是不如OpenAI的GPT-5 Pro稳定。当然,这可能是早期版本大家还没摸透Prompt的原因。


02

谷歌技术秘密

是“Deep Thinking”还是“超能力”?

谷歌从落后到追平甚至反超,Gemini项目负责人曾透露秘密在于“改进了预训练和后训练”。这句看似官方的回答背后,隐藏着谷歌怎样的技术路线图?是算法本身的胜利,还是堆算力的暴力美学?


谷歌DeepMind首席科学家Oriol Vinyals X平台推文

陈茜:谷歌这次不仅是追赶,简直是超越。Gemini项目负责人在发布会中提到了新版本“改进了预训练和后训练”,这是否意味着Scaling Law并没有“撞墙”?谷歌的秘密武器到底是什么?

田渊栋:说实话,“改进了预训练和后训练”这句话基本等于废话(笑)。因为做模型本来就是个系统工程,数据更好、架构微调、训练稳定性增强,每一块都好一点,最后结果肯定强。

但我更关注的是,如果预训练做得足够好,模型本身变得非常“聪明”,那它在后训练阶段就会表现得像个天才学生,给几个样本就通了,不需要花大力气去教。现在看来Gemini 3的基座能力确实很强。

关于它是不是用了什么秘密武器,我听到一些传言,说Google终于把之前训练流程里的一些Bug给修掉了。当然这是传言啊,无法证实。不过对于Google这种量级的公司,只要工程上不犯错,把所有细节拉满,Scaling Law自然会发挥作用。


Gavin Wang

前Meta AI工程师,负责Llama 3后训练及多模态推理

Gavin Wang:我昨天试着跟Gemini 3聊了一下,问它“你为什么这么厉害?”(笑)。它跟我剖析了一下,提到了一个概念叫Tree of Thoughts(思维树)。

以前我们做CoT (Chain of Thoughts) 是线性的,像链表一样一步步推。但Gemini 3似乎在模型内部采用了树状搜索,并且配合了一个Self-rewarding(自我奖励)的机制。也就是说,它在内部会同时跑多条思路,然后自己有一个打分机制,觉得哪条路不Make sense就Drop掉,哪条路有前途就继续Adapt。

这其实是Engineering Wrapper(工程封装)和Model Science(模型科学)的深度结合。以前我们要在外面写Prompt搞这些,现在谷歌把它做进了模型内部环境里。这不仅是Scaling Law在垂直方向的堆料,更是在水平方向上引入了MoE和Search的机制。这让我想起三年前的GPT时刻,技术上非常Impressive。

Nathan Wang:我补充一个细节,我在查阅Gemini开发者API文档时,发现里面藏了一个彩蛋。它在一行注释里写道:"Context Engineering is a way to go.(语境工程是大势所趋)"

这句话让我思考了很久。以前我们说Prompt Engineering,现在谷歌提Context Engineering。我自己在使用时的体感是,比如我想写一条能引起“病毒式传播”的推文,我会先让AI去搜索“怎么写一条火爆的推文”,让它先把方法论总结出来,作为Context,然后再把我的内容填进去生成。

谷歌似乎把这个过程自动化了。它在模型生成答案之前,可能已经在后台自动抓取了大量相关的Context,构建了一个极其丰富的思维链环境,然后再生成结果。这可能就是为什么它用起来觉得“懂你”的原因。它不仅仅是在回答,而是在一个engineered environment(工程环境)里思考。

陈羽北:除了算法层面,我想提一个更底层的经济学视角。我的朋友Brian Cheng提过一个观点,我认为非常切中要害:谷歌之所以能如此坚决、彻底地执行Scaling Law,是因为它拥有无法比拟的硬件优势——TPU。

大家想一下,如果其他公司要训练大模型,必须买NVIDIA的显卡。NVIDIA的硬件利润率高达70%以上。但谷歌不同,它是完全的软硬件整合。它用自己的 TPU,没有中间商赚差价。这让它的Unit Economy(单位经济模型) 极其优秀。在同样的预算下,谷歌可以训练更大的模型、跑更多的数据、做更昂贵的多模态实验。

所以,只要Scaling Law还需要堆算力,谷歌这种硬件上的不对称优势就会对OpenAI和Anthropic形成巨大的挤压。除非NVIDIA降价,或者其他家也造出自己的芯片,否则这个护城河非常深。


03

开发者生态

Coding之争结束了吗?


随着Gemini 3和AntiGravity的发布,以及其在SWE-bench等代码榜单上的屠榜,社交媒体上出现了“Coding之争已结束”的言论。谷歌是否正在利用其庞大的生态系统(Chrome, Android, Cloud)构建一条让Cursor等创业公司无法逾越的护城河?

陈茜:很多人说Coding之争已经结束了,Gemini 3配合谷歌全家桶将横扫一切。这对Cursor等等这样的创业公司意味着什么?

Gavin Wang:我觉得谷歌这次确实有点“降维打击”的意思。AntiGravity直接对标Codex加Cursor,而且它因为拥有Chrome的底层权限,可以做到视觉与代码的完美对齐。

现在的体验是,AI一边看着网页(视觉),一边帮你改代码,这种Multimodal Native(多模态原生)的体验是Next Level的。相比之下,Figma或Cursor目前还更像是一个Chatbot。如果谷歌把Chrome、Cloud、IDE全部打通,对于创业公司来说,这确实很难受。

但这也催生了新的机会。比如Palantir 提出的Forward Deployed Engineer(前置部署工程师)概念。未来的工程师可能不再只是写代码,而是打通从商业化、产品定义(PM)到前后端开发的全链路。既然基模能力水涨船高,我们应该造一艘“小船”,站在巨人的肩膀上创造价值,而不是去卷基模已经能做的事。

就像Nathan说的,Web Coding这种简单的前端工作可能会被谷歌包圆,但这就逼着我们去寻找新的Business Model和Product Shape(产品形态)。


Nathan Wang

资深AI开发者、硅谷101特约研究员

Nathan Wang:我觉得说“结束”还言之过早。AntiGravity确实强,但我发现在实际使用中,它在处理后端(Backend)部署、复杂的系统架构时,依然很容易卡住。

比如我在用Browser use上传文件做测试时,它经常会停在那儿,需要我去干预。它目前更像是一个极其强大的前端生成器。而且,对于很多企业来说,把代码全部交给谷歌的生态系统,在数据隐私上也是有顾虑的。Cursor这种独立厂商依然有它的生存空间,特别是它在灵活性和特定语言优化上。

田渊栋:对,我也觉得网上的Demo有点误导性。现在的Demo很多是一键生成酷炫的前端页面,大家看的是“漂亮程度”和“完整性”。

但真正写Code的人,关注的是Instruction Following(指令遵循)。比如我要把这段代码的逻辑稍微改一点点,或者我要处理一个非常琐碎的Corner Case(边缘情况),模型能不能听懂?能不能改对?

我试过让它写一个3D第一人称射击游戏。它确实写出来了,画面也不错,但我一跑发现——方向键是反的。这种小Bug看起来不碍事,但在大规模工程里就是灾难。所以对于专业程序员来说,它目前还是一个能够降低门槛的辅助工具,而不是替代者。


04

后LLM时代

AI是否“绑架”了美国GDP?

尽管谷歌证明了Scaling Law依然有力,但硅谷的目光已经投向了更远的地方。近期,一批被称为“NeoLab”的非主流AI实验室(如Reflection AI、Periodic Labs)受到风投追捧,融资额都非常高。在LLM之外,AI的下一个范式转移将在哪里发生?


来源:The Information

陈茜:除了Scaling Law,大家看到什么非主流的、值得关注的AI发展趋势?特别是像NeoLab们所关注的那些领域。

田渊栋:我一直以来的观点是:Scaling Law是一个很有用的工程规律,但如果不去探索本质,我们总有一天会面临资源枯竭。难道我们真的要把整个地球变成一块巨大的显卡吗?如果算力需求是指数增长,而地球资源是有限的,这条路终究走不通。

所以我一直坚持做AI的可解释性(Interpretability)和 顿悟(Grokking)机制的研究。我相信一个如此高效的神经网络,背后一定有一个优美的数学内核。如果我们能从First Principle(第一性原理)出发,理解它是如何产生涌现(Emergence)的,也许有一天我们会发现,根本不需要梯度下降(Gradient Descent),就能找到更好的算法。

另外,我也在用AI加速我的研究。比如最近是ICML的Rebuttal(同行评审中的反驳/辩护过程)期间,我有个新想法,直接丢给Cursor,3分钟代码写完,图画出来,我马上就能验证这个Idea行不行。这种效率提升成百上千倍,这本身也会加速我们对AI本质的探索。

陈羽北:我非常同意渊栋学长的观点。如果Scaling Law是唯一的定律,那人类的未来太悲观了。我们既没有那么多电,以后数据也都交给AI了,那人类除了当宠物还有什么价值?

我观察到自然界有一个悖论,这可能是一个突破口:越高级的智能,其实越依赖学习,但所需的数据却越少。

你看人类小孩,在13岁之前,他接触到的所有Token(语言数据),加起来可能不到10Billion(100亿)。相比现在大模型动不动几Trillion的数据训练量,人类的数据效率是极高的。但人类的大脑结构非常复杂(上千亿神经元)。所以,大模型未必大在数据,可能应该大在架构。

我觉得我们现在的LLM更像是在Distill our existing civilization(蒸馏我们现有的文明),把它压缩得更好一点。但我希望未来的AI,比如Robotics(机器人)或者World Model(世界模型),能够像生物一样去探索未知,Invent a new civilization(发明新的文明)。这需要我们这些Researcher去做一些看起来 "Weird"(怪异)或者 "Crazy" 的研究,去寻找Scaling Law之外的第二条曲线。

Gavin Wang:顺着羽北的话说,我觉得World Model(世界模型)绝对是下一个战场。

现在的LLM还是纯语言维度的。但真正的世界模型,是要能理解物理规律的。目前主要有三条路线:一是像Genie 3这种Video-based的,虽然是2D视频但模拟3D世界;二是Mesh/Physics-based的,带有物理碰撞体积;三是像李飞飞老师团队做的Gaussian Splatting(高斯泼溅),用点云来表征空间。

另外,我特别想呼吁大家关注Open Source(开源)和Small Language Models(端侧小模型)。

现在的智能其实被“囚禁”在GPU Data Center里。普通人要用智能,得付费买 API,这就像我们还要给空气付费一样。这其实是一种Digital Centralization(数字集权)。

如果端侧小模型能发展起来,让每个人在自己的手机、电脑上就能跑得动高性能的 AI,不需要联网,不需要付昂贵的订阅费,这才是真正的AI for Everyone。这也需要我们在模型架构上做很多优化,而不仅仅是堆显卡。

05

泡沫还是奇点?

Gemini 3的发布,某种程度上是Google对“AI泡沫论”的一次强力回击。它证明了只要有足够的算力、数据和工程优化,Scaling Law仍有巨大的红利可吃。

然而,今天直播中很多嘉宾们的观点,也都在指出单纯的Scaling并不是通向AGI的唯一路径。

今天我们的直播,其实我们不仅想聊聊Gemini 3发布下的谷歌“技术秀肌肉”,还有来自硅谷一线的、冷静而深刻的思考。Gemini 3暂时领先了现在的战役,这对谷歌来说是重要的一个里程碑;但AI的大战役,才刚刚开始。

硅谷101将不定期开启直播,欢迎关注我们的Bilibili|Youtube收看完整版

【视频播放渠道】

国内:B站|腾讯|视频号|西瓜|头条|百家号|36kr|微博|虎嗅

海外:Youtube

联系我们:video@sv101.net

【创作团队】

监制|泓君 陈茜

主持 |陈茜

撰稿|刘一鸣

运营|王梓沁 孙泽平 何源清

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普称将于本月晚些时候访华,外交部回应

特朗普称将于本月晚些时候访华,外交部回应

中国网
2026-03-02 16:00:16
美国女足前队长:谷爱凌代表中国参赛是极其聪明的商业决策

美国女足前队长:谷爱凌代表中国参赛是极其聪明的商业决策

魔都姐姐杂谈
2026-03-02 08:25:44
尴尬!扣12分,春节最冤种司机出现!一粤s车牌两次驶入应急车道

尴尬!扣12分,春节最冤种司机出现!一粤s车牌两次驶入应急车道

火山詩话
2026-03-02 10:11:01
内贾德死亡真相

内贾德死亡真相

哲空空
2026-03-02 07:50:14
伊朗大阿亚图拉宣布圣战,他的地位如何?其发言会引发什么结果?

伊朗大阿亚图拉宣布圣战,他的地位如何?其发言会引发什么结果?

之乎者也小鱼儿
2026-03-02 09:13:10
李莉评论区被冲,过往言论被反复吐槽,伊朗半小时灭以,回旋镖!

李莉评论区被冲,过往言论被反复吐槽,伊朗半小时灭以,回旋镖!

眼光很亮
2026-03-01 15:39:43
特朗普:哈梅内伊接班人,在空袭中丧生!

特朗普:哈梅内伊接班人,在空袭中丧生!

扬子晚报
2026-03-02 15:15:28
伊朗:是我击落的

伊朗:是我击落的

南方都市报
2026-03-02 19:25:52
西班牙王室索菲亚公主盘发封神!颜值气质完胜姐姐诺拉

西班牙王室索菲亚公主盘发封神!颜值气质完胜姐姐诺拉

述家娱记
2026-03-02 16:08:17
亚运会冠军因病去世年仅34岁,曾参加奥运会,孩子仅2岁

亚运会冠军因病去世年仅34岁,曾参加奥运会,孩子仅2岁

米修体育
2026-03-03 00:06:54
丹·凯恩将军下命令:暂停联合参谋部主任弗雷德·库彻海军中将职务

丹·凯恩将军下命令:暂停联合参谋部主任弗雷德·库彻海军中将职务

安安说
2026-02-28 09:22:18
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

海佑讲史
2026-02-28 21:19:37
伊朗的援军到了!以色列再征兵10万,关键时刻,普京对中国做承诺

伊朗的援军到了!以色列再征兵10万,关键时刻,普京对中国做承诺

军机Talk
2026-03-02 09:50:33
为什么中国专家永远误判美国的战争行为

为什么中国专家永远误判美国的战争行为

凯利经济观察
2026-03-02 13:32:11
他亲手选的接班人,竟不是儿子?哈梅内伊之死藏着的最大反转!

他亲手选的接班人,竟不是儿子?哈梅内伊之死藏着的最大反转!

浯江孤舟
2026-03-02 09:49:10
NBA传闻:克里斯·米德尔顿为啥拒绝掘金的邀请,选择留在独行侠

NBA传闻:克里斯·米德尔顿为啥拒绝掘金的邀请,选择留在独行侠

好火子
2026-03-03 02:38:53
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
伊朗前总统内贾德亲信称其平安

伊朗前总统内贾德亲信称其平安

界面新闻
2026-03-02 11:52:29
如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

澎湃新闻
2026-03-02 15:36:48
2026-03-03 06:19:00
硅谷101 incentive-icons
硅谷101
从这里驶向未来
153文章数 104关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

时尚
教育
旅游
本地
艺术

今年春天一定要拥有的4件衣服,太好看了!

教育要闻

高考地理中的侵蚀类地貌

旅游要闻

不用远行!重庆家门口的花海,治愈所有疲惫

本地新闻

津南好·四时总相宜

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

无障碍浏览 进入关怀版