拆解Gemini 3：Scaling Law的极致执行与“全模态”的威力【101直播】|算法|谷歌|大模型|知名企业|gemini|scaling

分享至

撰稿：刘一鸣

毫无疑问，Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时，谷歌凭借其深厚的基建底蕴与全模态（Native Multimodal）路线，如今已从“追赶者”变成了“领跑者”。

此次Gemini 3不仅在多模态能力上实现了新的飞跃，更被视为谷歌对Scaling Law最极致的一次执行。

硅谷101在11月20日举办了一场直播，邀请了四位处于AI研发与应用最前线的嘉宾：

田渊栋，前Meta FAIR研究总监、AI科学家
陈羽北，加州大学戴维斯分校助理教授、Aizip联合创始人
Gavin Wang，前Meta AI工程师、负责Llama 3后训练及多模态推理
Nathan Wang，资深AI开发者、硅谷101特约研究员

我们试图透过Gemini 3的发布，试图回答关于AI未来的几个关键问题：Gemini 3到底强在哪里？谷歌究竟做对了什么？全球大模型竞争格局将如何改变？LLM的未来走向，以及在LLM之外，最前沿的AI实验室正在关注什么？

以下是我们直播中的嘉宾浓缩观点，如果想收看完整直播内容，可以关注我们的YouTube和B站回放。

体验实测Gemini 3到底强在哪里？

在Gemini 3发布后的48小时内，各大榜单被迅速刷新。不同于以往模型仅在单一维度（如代码或文本）上的提升，Gemini 3被认为是真正意义上的“全模态原生”模型。对于使用者而言，这种技术参数上的提升转化为怎样的实际体感？

来源：LM Arena

陈茜：各位这两天都在高强度测试Gemini 3，它真的如排行榜那样霸榜吗？大家能不能举例讲讲，它到底好在哪里？

Nathan Wang：我这两天大概集中使用了三个主要产品：Gemini主App、针对开发者的Google AntiGravity，以及今天刚发布的Nano Banana Pro。

说实话，AntiGravity给我感觉非常像是一个Agentic时代的IDE（集成开发环境）。它和Cursor或者Claude Code不太一样的地方在于，它把界面分成了 "Manager View"（经理视角）和 "Editor View"（编辑视角）。

以前我们在Cursor里，虽然AI帮我们写代码，但感觉还是“我”在写。但在AntiGravity里，Manager View让你感觉你是坐在那里的经理，底下有8到10个Agent小弟在干活。你可以看着它们分工，有的在写程序，有的在Run Unit Test（单元测试）。

最惊艳的是它结合了Browser Use的功能。比如我写了一个前端网页，它有一个叫Screenshot Pro的功能，跑分非常高。它可以直接调用Chrome浏览器打开那个网页，“看”着屏幕去测试。如果你让它上传一个文件、点击一个按钮，它能像人一样去操作。这意味着测试加上开发完全自动化了，变成了一体式的开发体验。

另外，Nano Banana Pro在生成幻灯片这个点上解决了我很大的痛点。以前我让AI做PPT，比如“解释一下Gemini从1.0到3.0的发展路线”，它往往逻辑链是断的。但这次我试了一下，它不仅能把逻辑理顺，还能生成非常复杂的图表。我觉得市面上那些做Slides（幻灯片）的软件可能都要被它取代了。

田渊栋

前Meta FAIR研究总监、AI科学家

田渊栋：我一般的习惯是，新模型出来先看它能不能“续写小说”。这是我个人的一个Benchmark，因为全世界除了我也没几个人这么测，所以它肯定不会Overfitting（过拟合），这比较客观。

在一两年前，模型写小说基本上是“公文风”，不管你给它什么开头，它写出来都是那种官方口吻，完全脱离语境。到了Gemini 2.5的时候，我发现它文笔变好了。比如我给它一个废墟的场景，它会描写得很细致：墙壁倒塌的样子、环境萧索的氛围，像个文科生写的，但情节上平铺直叙，没什么抓人的地方。

但这次Gemini 3让我有点惊喜。它不仅文笔好，它开始懂得“反转”了。它设计的情节互动非常有意思，甚至让我觉得：“咦，这个点子不错，也许我可以存下来用到我自己的小说里。”这是第一次我感觉到AI在情节构思上给了我启发，而不仅仅是词藻堆砌。它似乎对作者的深层动机有了理解。

不过，在科研Brain storming（头脑风暴）上，它还是那个老样子。怎么形容呢？它就像一个刚刚入学的、博闻强记的博士生。你问它什么它都知道，能跳出很多新名词、新数学工具。你会觉得“哇，这个我没见过，很棒”。但如果你想跟它深入探讨一个问题的本质，或者让它判断哪个方向更有前途，它就做不到了。它缺乏那种只有资深人类研究员才有的直觉和深层思考。所以它依然是一个顶级的“做题家”，但在创造性思维上，暂时还没看到本质突破。

Gavin Wang ：我首先感叹一下，Google的“大厂之力”真是恐怖如斯，生态系统太完整了。技术层面，我最关注的是ARC-AGI-2 Benchmark。这个测试很有意思，它不是考大数据记忆，而是考Few-shot Learning（少样本学习）甚至是元学习。它的创始人认为，那种靠背数据的不是智能，真正的智能是看一两个例子就能迅速提取出Pattern（模式）。

之前大家在这个榜单上都是个位数或者百分之十几，Gemini 3一下子达到了百分之三十几，这是一个质的飞跃。我认为这归功于它的Multimodal Reasoning（多模态推理）。

以前的Chain of Thoughts（思维链），模型是在那里自言自语，是纯语言维度的单模态推进。但Gemini 3是Model Native的，它把视觉、代码、语言的数据全部Mesh up together（混合在一起）做预训练。所以它在推理的时候，可能是一边看着屏幕上的图像，一边在语言层面做逻辑推演。这种跨模态的化学反应，打开了很多新机会的大门。

陈羽北

加州大学戴维斯分校助理教授、Aizip联合创始人

陈羽北：我这两天太忙还没自己跑，但我收集了我们团队不同小组的一手反馈，这里面有一些很有意思的Negative Feedback（负面反馈）。

首先是Vision组的反馈。他们在做一些内部Benchmark测试时发现，Gemini 3在Real-world Visual Understanding（真实世界视觉理解）上性能反而下降了。这听起来很反直觉对吧？

具体来说，就是当涉及到安防摄像头、门铃这种真实场景，去分析用户行为、潜在风险事件的时候，它的表现不如上一代。他们去查了Gemini 3的技术报告，发现报告里真正涉及到Real-world Visual Understanding的benchmark只有一个，而且并没有覆盖这种复杂场景。

这其实暴露了一个行业通病：公榜benchmark和实际落地场景之间存在巨大的Gap。如果大家都为了刷榜去优化模型，那在实际产品中的性能可能会走偏。

另外，Coding组的学生也跟我说，在做Scientific Writing（科学写作）和辅助编程时，他们反而觉得Gemini 2.5更顺手。Gemini 3虽然Reasoning的长度增加了2到3倍，但在处理需要反复多跳（Multi-hop）搜索、整合二十年财报这种极度复杂的任务时，似乎还是不如OpenAI的GPT-5 Pro稳定。当然，这可能是早期版本大家还没摸透Prompt的原因。

谷歌技术秘密

是“Deep Thinking”还是“超能力”?

谷歌从落后到追平甚至反超，Gemini项目负责人曾透露秘密在于“改进了预训练和后训练”。这句看似官方的回答背后，隐藏着谷歌怎样的技术路线图？是算法本身的胜利，还是堆算力的暴力美学？

谷歌DeepMind首席科学家Oriol Vinyals X平台推文

陈茜：谷歌这次不仅是追赶，简直是超越。Gemini项目负责人在发布会中提到了新版本“改进了预训练和后训练”，这是否意味着Scaling Law并没有“撞墙”？谷歌的秘密武器到底是什么？

田渊栋：说实话，“改进了预训练和后训练”这句话基本等于废话（笑）。因为做模型本来就是个系统工程，数据更好、架构微调、训练稳定性增强，每一块都好一点，最后结果肯定强。

但我更关注的是，如果预训练做得足够好，模型本身变得非常“聪明”，那它在后训练阶段就会表现得像个天才学生，给几个样本就通了，不需要花大力气去教。现在看来Gemini 3的基座能力确实很强。

关于它是不是用了什么秘密武器，我听到一些传言，说Google终于把之前训练流程里的一些Bug给修掉了。当然这是传言啊，无法证实。不过对于Google这种量级的公司，只要工程上不犯错，把所有细节拉满，Scaling Law自然会发挥作用。

Gavin Wang

前Meta AI工程师，负责Llama 3后训练及多模态推理

Gavin Wang：我昨天试着跟Gemini 3聊了一下，问它“你为什么这么厉害？”（笑）。它跟我剖析了一下，提到了一个概念叫Tree of Thoughts（思维树）。

以前我们做CoT (Chain of Thoughts) 是线性的，像链表一样一步步推。但Gemini 3似乎在模型内部采用了树状搜索，并且配合了一个Self-rewarding（自我奖励）的机制。也就是说，它在内部会同时跑多条思路，然后自己有一个打分机制，觉得哪条路不Make sense就Drop掉，哪条路有前途就继续Adapt。

这其实是Engineering Wrapper（工程封装）和Model Science（模型科学）的深度结合。以前我们要在外面写Prompt搞这些，现在谷歌把它做进了模型内部环境里。这不仅是Scaling Law在垂直方向的堆料，更是在水平方向上引入了MoE和Search的机制。这让我想起三年前的GPT时刻，技术上非常Impressive。

Nathan Wang：我补充一个细节，我在查阅Gemini开发者API文档时，发现里面藏了一个彩蛋。它在一行注释里写道："Context Engineering is a way to go.（语境工程是大势所趋）"

这句话让我思考了很久。以前我们说Prompt Engineering，现在谷歌提Context Engineering。我自己在使用时的体感是，比如我想写一条能引起“病毒式传播”的推文，我会先让AI去搜索“怎么写一条火爆的推文”，让它先把方法论总结出来，作为Context，然后再把我的内容填进去生成。

谷歌似乎把这个过程自动化了。它在模型生成答案之前，可能已经在后台自动抓取了大量相关的Context，构建了一个极其丰富的思维链环境，然后再生成结果。这可能就是为什么它用起来觉得“懂你”的原因。它不仅仅是在回答，而是在一个engineered environment（工程环境）里思考。

陈羽北：除了算法层面，我想提一个更底层的经济学视角。我的朋友Brian Cheng提过一个观点，我认为非常切中要害：谷歌之所以能如此坚决、彻底地执行Scaling Law，是因为它拥有无法比拟的硬件优势——TPU。

大家想一下，如果其他公司要训练大模型，必须买NVIDIA的显卡。NVIDIA的硬件利润率高达70%以上。但谷歌不同，它是完全的软硬件整合。它用自己的 TPU，没有中间商赚差价。这让它的Unit Economy（单位经济模型）极其优秀。在同样的预算下，谷歌可以训练更大的模型、跑更多的数据、做更昂贵的多模态实验。

所以，只要Scaling Law还需要堆算力，谷歌这种硬件上的不对称优势就会对OpenAI和Anthropic形成巨大的挤压。除非NVIDIA降价，或者其他家也造出自己的芯片，否则这个护城河非常深。

开发者生态

Coding之争结束了吗？

随着Gemini 3和AntiGravity的发布，以及其在SWE-bench等代码榜单上的屠榜，社交媒体上出现了“Coding之争已结束”的言论。谷歌是否正在利用其庞大的生态系统（Chrome, Android, Cloud）构建一条让Cursor等创业公司无法逾越的护城河？

陈茜：很多人说Coding之争已经结束了，Gemini 3配合谷歌全家桶将横扫一切。这对Cursor等等这样的创业公司意味着什么？

Gavin Wang：我觉得谷歌这次确实有点“降维打击”的意思。AntiGravity直接对标Codex加Cursor，而且它因为拥有Chrome的底层权限，可以做到视觉与代码的完美对齐。

现在的体验是，AI一边看着网页（视觉），一边帮你改代码，这种Multimodal Native（多模态原生）的体验是Next Level的。相比之下，Figma或Cursor目前还更像是一个Chatbot。如果谷歌把Chrome、Cloud、IDE全部打通，对于创业公司来说，这确实很难受。

但这也催生了新的机会。比如Palantir 提出的Forward Deployed Engineer（前置部署工程师）概念。未来的工程师可能不再只是写代码，而是打通从商业化、产品定义（PM）到前后端开发的全链路。既然基模能力水涨船高，我们应该造一艘“小船”，站在巨人的肩膀上创造价值，而不是去卷基模已经能做的事。

就像Nathan说的，Web Coding这种简单的前端工作可能会被谷歌包圆，但这就逼着我们去寻找新的Business Model和Product Shape（产品形态）。

Nathan Wang

资深AI开发者、硅谷101特约研究员

Nathan Wang：我觉得说“结束”还言之过早。AntiGravity确实强，但我发现在实际使用中，它在处理后端（Backend）部署、复杂的系统架构时，依然很容易卡住。

比如我在用Browser use上传文件做测试时，它经常会停在那儿，需要我去干预。它目前更像是一个极其强大的前端生成器。而且，对于很多企业来说，把代码全部交给谷歌的生态系统，在数据隐私上也是有顾虑的。Cursor这种独立厂商依然有它的生存空间，特别是它在灵活性和特定语言优化上。

田渊栋：对，我也觉得网上的Demo有点误导性。现在的Demo很多是一键生成酷炫的前端页面，大家看的是“漂亮程度”和“完整性”。

但真正写Code的人，关注的是Instruction Following（指令遵循）。比如我要把这段代码的逻辑稍微改一点点，或者我要处理一个非常琐碎的Corner Case（边缘情况），模型能不能听懂？能不能改对？

我试过让它写一个3D第一人称射击游戏。它确实写出来了，画面也不错，但我一跑发现——方向键是反的。这种小Bug看起来不碍事，但在大规模工程里就是灾难。所以对于专业程序员来说，它目前还是一个能够降低门槛的辅助工具，而不是替代者。

后LLM时代

AI是否“绑架”了美国GDP？

尽管谷歌证明了Scaling Law依然有力，但硅谷的目光已经投向了更远的地方。近期，一批被称为“NeoLab”的非主流AI实验室（如Reflection AI、Periodic Labs）受到风投追捧，融资额都非常高。在LLM之外，AI的下一个范式转移将在哪里发生？

来源：The Information

陈茜：除了Scaling Law，大家看到什么非主流的、值得关注的AI发展趋势？特别是像NeoLab们所关注的那些领域。

田渊栋：我一直以来的观点是：Scaling Law是一个很有用的工程规律，但如果不去探索本质，我们总有一天会面临资源枯竭。难道我们真的要把整个地球变成一块巨大的显卡吗？如果算力需求是指数增长，而地球资源是有限的，这条路终究走不通。

所以我一直坚持做AI的可解释性（Interpretability）和顿悟（Grokking）机制的研究。我相信一个如此高效的神经网络，背后一定有一个优美的数学内核。如果我们能从First Principle（第一性原理）出发，理解它是如何产生涌现（Emergence）的，也许有一天我们会发现，根本不需要梯度下降（Gradient Descent），就能找到更好的算法。

另外，我也在用AI加速我的研究。比如最近是ICML的Rebuttal（同行评审中的反驳/辩护过程）期间，我有个新想法，直接丢给Cursor，3分钟代码写完，图画出来，我马上就能验证这个Idea行不行。这种效率提升成百上千倍，这本身也会加速我们对AI本质的探索。

陈羽北：我非常同意渊栋学长的观点。如果Scaling Law是唯一的定律，那人类的未来太悲观了。我们既没有那么多电，以后数据也都交给AI了，那人类除了当宠物还有什么价值？

我观察到自然界有一个悖论，这可能是一个突破口：越高级的智能，其实越依赖学习，但所需的数据却越少。

你看人类小孩，在13岁之前，他接触到的所有Token（语言数据），加起来可能不到10Billion（100亿）。相比现在大模型动不动几Trillion的数据训练量，人类的数据效率是极高的。但人类的大脑结构非常复杂（上千亿神经元）。所以，大模型未必大在数据，可能应该大在架构。

我觉得我们现在的LLM更像是在Distill our existing civilization（蒸馏我们现有的文明），把它压缩得更好一点。但我希望未来的AI，比如Robotics（机器人）或者World Model（世界模型），能够像生物一样去探索未知，Invent a new civilization（发明新的文明）。这需要我们这些Researcher去做一些看起来 "Weird"（怪异）或者 "Crazy" 的研究，去寻找Scaling Law之外的第二条曲线。

Gavin Wang：顺着羽北的话说，我觉得World Model（世界模型）绝对是下一个战场。

现在的LLM还是纯语言维度的。但真正的世界模型，是要能理解物理规律的。目前主要有三条路线：一是像Genie 3这种Video-based的，虽然是2D视频但模拟3D世界；二是Mesh/Physics-based的，带有物理碰撞体积；三是像李飞飞老师团队做的Gaussian Splatting（高斯泼溅），用点云来表征空间。

另外，我特别想呼吁大家关注Open Source（开源）和Small Language Models（端侧小模型）。

现在的智能其实被“囚禁”在GPU Data Center里。普通人要用智能，得付费买 API，这就像我们还要给空气付费一样。这其实是一种Digital Centralization（数字集权）。

如果端侧小模型能发展起来，让每个人在自己的手机、电脑上就能跑得动高性能的 AI，不需要联网，不需要付昂贵的订阅费，这才是真正的AI for Everyone。这也需要我们在模型架构上做很多优化，而不仅仅是堆显卡。

泡沫还是奇点？

Gemini 3的发布，某种程度上是Google对“AI泡沫论”的一次强力回击。它证明了只要有足够的算力、数据和工程优化，Scaling Law仍有巨大的红利可吃。

然而，今天直播中很多嘉宾们的观点，也都在指出单纯的Scaling并不是通向AGI的唯一路径。

今天我们的直播，其实我们不仅想聊聊Gemini 3发布下的谷歌“技术秀肌肉”，还有来自硅谷一线的、冷静而深刻的思考。Gemini 3暂时领先了现在的战役，这对谷歌来说是重要的一个里程碑；但AI的大战役，才刚刚开始。

硅谷101将不定期开启直播，欢迎关注我们的Bilibili｜Youtube收看完整版

【视频播放渠道】

国内：B站｜腾讯｜视频号｜西瓜｜头条｜百家号｜36kr｜微博｜虎嗅

海外：Youtube

联系我们：video@sv101.net

【创作团队】

监制｜泓君陈茜

主持｜陈茜

撰稿｜刘一鸣

运营｜王梓沁孙泽平何源清

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.