谷歌Gemini 3，扩展才是AI硬道理|智能体|预训练|网络信息|知名企业|谷歌gemini3

谷歌Gemini 3，扩展才是AI硬道理

2025-11-19 23:43:55　来源: 未尽研究

上海举报

分享至

谷歌Gemini 3的发布，炸裂了笼罩AI的阴霾，让。有泡沫现象，但AGI并没有止步，预训练的扩展定律也没有死，谷歌正在大步朝这个方向前进，并且用TPU而不是GPU首次训练出了公认最好的前沿大模型。OpenAI的奥特曼与xAI的马斯克，都为此点了赞。

谷歌非常自信，称Gemini 3拥有最先进的推理能力，领先的多模态理解能力，带来了全新的智能体编码体验。这将支持Gemini应用从当前6.5亿月活成为10亿用户以上的超级应用，并深度重塑搜索、Gmail、地图等7个拥有20亿用户的产品体验。谷歌还拥有机器人、游戏、药物发现、材料科学等长期万亿级新赛道。

桑达尔·皮查伊已经看到，当前的AI热潮中存在一些“非理性”，但谷歌能够经受住这场潜在的风暴。也许，全栈AI能力的反脆弱性。谷歌正在建立起token经济学，算力需求将越来越大，真正的价值锚点在于任务执行与体验重构。

预训练扩展复活

相比曾备受期待的GPT-5，第一时间用上Gemini 3的人要幸福得多。它不仅打破了半年多来行业小步迭代的沉闷，更以全面而大幅度的跃升，重新验证了预训练扩展定律的关键路径。这对提升每一枚token所蕴含的价值影响巨大。

基准测试已然成为噪音，但谷歌成功地用它传递出更大的信息量来。这主要是因为现存基准趋于饱和，个别的小幅的进步，已经不足以反映它在现实任务中的实际能力，也就无法准确衡量其token价值。但是，全面领先且遥遥领先，意义就不一样了。

在行业主流的20个基准测试中，Gemini 3 Pro在其中的19个项目上获得了最高分，超越了Gemini 2.5 Pro、Claude Sonnet 4.5和GPT-5.1。尤其是在ARC-AGI-2上，Gemini 3和Gemini 3 Deep Think，更是将成本与精度的帕累托前沿，向有利方向推得更远了一些。该测试基准旨在衡量模型对从未见过的任务的推理能力，难以死记硬背。

很长一段时间以来，其他旗舰模型都无法在ARC-AGI 2上取得跨越式的进步，都挤在0%到15%的狭窄区间里内卷。这次，相对此前的标杆模型GPT-5.1 Thinking（High），Gemini 3 Pro不仅在得分上遥遥领先，超过13个百分点，每个任务还仅花费了0.81美元，便宜了0.36美元。Gemini 3 Deep Think更是疯狂，达到45%，证实了如果需要，可以用更多的token，去解决原本即使花再多的token也没办法解决的难题。

谷歌没有解释它是如何成功的，但有两个细节值得注意。第一，谷歌Gemini Deep Think上一次那么亮眼，是取得了（IMO）的金牌。当时，谷歌介绍这是一个尚未发布的能“并行思考”的进阶模型。第二，这次，谷歌DeepMind研究副总裁兼深度学习负责人Oriol Vinyals揭秘，团队在预训练扩展定律上取得了巨大的飞跃，而后训练同样仍然是一片全新的领域。

有人推测，Gemini 3的总参数规模或在5万亿（T）以上。此前，苹果就传出明年将用1.2万亿参数的Gemini模型彻底改造自己的Siri。

预训练扩展定理的复苏，对整个行业来说都是好消息。在Gemini 3发布后，哈萨比斯等人接受《纽约时报》采访称，AI的进步完全符合过去两年的轨迹，他维持AGI仍需5至10年以及若干重大突破的判断。在此之前，通过扩展基础模型规模持续推动性能，仍然是最有效的策略。

此外，在多模态与智能体相关的多项基准测试上，Gemini 3也大幅领先。据其模型卡，这个MOE模型原生支持文本、图像、音频和视频输入。它在幻觉相关基准上（SimpleQA Verified）的得分，也要比GPT-5高得多，当时，正是后者的重点营销方向。

一个小彩蛋是，在Gemini 3 Pro的模型评估官方文档中，它对图像测试基准OmniDocBench 1.5的方法论，严格遵循10月DeepSeek-OCR。

反重力的超级应用

不过，真正决定 token 经济学成立的，不是基准，而是能否为用户解决真实问题，以及解决这些问题创造的价值超过消耗的成本。市场对基准的诟病，在于它与实际用户体验之间的背离。这也是目前引发“AI泡沫”质疑的关键因素之一。

在前述采访中，Gemini 团队负责人沃德伍德（Josh Woodward）称，谷歌更关注的指标是，今天帮用户完成了多少项任务。他还对“情色伴侣”病毒式增长机会表示不屑。

同期发布的Google AntiGravity，其命名本身就是对当前AI应用困境的隐喻式的回应。“反重力”所要挣脱的，正是那些让用户体验“坠地”的束缚。为了实现真正的“体验飞升”（liftoff），这款新一代IDE（集成开发环境）产品并非仅为人类开发者优化，更是智能体优先（Agent-First），支持多智能体在长周期内主动规划、并行执行、自主验证。显然，在提升token价值的同时，也带来了更多的token消耗。

Gemini 3 现已能在百万行代码规模的系统中，深度稳定地多步推理与调试。一个智能体可在前台专注复杂编码，另一个则在后台同步调研资料；它们交付的“产物”（Artifacts），更易于用户验证。用户可在任意界面异步反馈（如圈注截图、评论文本），这些输入将自动融入智能体的执行流；而智能体的历史行动也会沉淀为知识资产，既包括可复用的显性知识（如代码片段），也涵盖完成子任务的隐性经验（如一系列步骤）。“人在回路中”（HITL）正从 “人类修复AI错误” 演变为“人类指挥AI工作”。

同样的逻辑也延伸至AI原生的搜索体验。这次，谷歌提出Generative UI，让搜索不再只是“回答问题”，呈现链接、文本或已有的视频，而是实时动态地生成一个为用户搜索量身定制的可视化或者可交互的界面。这涉及到大量的工具调用（Tool Access）与后处理（Post-processing）。

谷歌抵御在“AI 泡沫”中下坠的逻辑，在于让token在不断生成的过程中，就迅速得以消纳，源源不断地转化为现金流，以及用户黏性与使用时长。谷歌目前拥有7个20亿用户的超级应用，AI原生的超级应用Gemini的月活跃用户数量也从3月的3.5亿提升至目前的6.5 亿，并继续向着10亿用户成长。

在接受BBC采访时，皮查伊称，当前的AI热潮中存在一些“非理性”，没有哪家公司能够幸免，但谷歌能够经受住这场潜在的风暴。哈萨比斯也称，得益于谷歌同时拥有短期变现与长期万亿级新赛道，无论短期泡沫是否存在，谷歌都将胜出，“我们从未失去研究领先地位，现在只是产品落地终于跟上”。

TPU、Token与Talent

谷歌的研究地位与产品地位，日趋巩固。在定制化TPU芯片上的全栈优势，使谷歌的训练成本和推理效率超过依赖外部GPU资源的竞争者；庞大用户生态的终端数据反馈，也是其他竞争者无法逾越的护城河。如果AI进入短暂的泡沫破灭期，谷歌护城河的相对优势，反而会因此进一步放大。

在模型卡上，谷歌明确承认，Gemini 3的预训练建立在谷歌自己的TPU之上。除了公开可下载的数据集、通过爬虫获取的数据、AI生成的合成数据、通过商业许可协议获得的授权数据，它的预训练数据集还来自在“适当情况下尊重用户控制权”的用户数据，以及谷歌在其业务运营中获取或生成的其他数据。

谷歌的TPU保证了它拥有更低的总拥有成本，也就降低了单位token成本。这有助于它继续低成本地将用户与数据吸纳到自己的创新闭环中来。而谷歌Gemini 3对外的API价格，相对Gemini 2.5有所提价，部分也得益于它的模型竞争力的溢价，也就提高了单位token的利润率。Gemini 3比OpenAI标准款的GPT-5.1要贵一点，但又比Pro款便宜。

更重要的是，既然扩展定律仍然有效，AGI 仍需多年和更多突破，顶尖人才与研究投入就变得至关重要。激励与吸引人才的不仅是金钱，还包括不受限制的算力。据EpochAI对OpenAI去年开支的推断，它在推理上只消耗了约29%的token，剩下的绝大多数都用于研发，其中，旗舰模型GPT-4.5仅花费了不到6%，其他模型约1%，剩下的64%都用在了实验性探索或未发布模型的基础研究上。谷歌也不会例外，只是强大的算力支撑了它在AI研究方面的“贝尔实验室”地位。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.