Gemini 3 终于来了！登顶LMArena，碾压所有基准|谷歌|编程|新模型|知名企业|gemini

Gemini 3 终于来了！登顶LMArena，碾压所有基准

2025-11-19 11:10:12　来源: DeepTech深科技

北京举报

分享至

终于，千呼万唤之下，历经多次“预告”过后，Gemini 3 终于来了。

北京时间 11 月 19 日凌晨，Google 正式发布了其最新一代人工智能模型 Gemini 3。这款被 CEO 桑达尔·皮查伊（Sundar Pichai）称为“最智能模型”的产品，在发布前就已经在业界掀起了不小的波澜。事实上，早在10 月中旬，就有爆料称 Gemini 3 将在 10 月 22 日登场，但那次“狼来了”的传言最终没有兑现。

到了 11 月中旬，又有敏锐的开发者在移动端 Canvas 功能中发现了端倪：尽管界面显示仍是 Gemini 2.5 Pro，但输出质量已经发生了质的飞跃，特别是在 SVG（Scalable Vector Graphics，可缩放矢量图形）生成和网页设计方面，效果远超此前版本。

直到 AI Studio 和 Vertex AI 平台上开始隐约出现 Gemini 3 的踪迹，业界才意识到，这次是真的要来了。而现在，靴子终于落地。

此刻距离 Google 首次推出 Gemini 品牌已经过去近两年。相较于早期的慌乱和匆忙，这一次，Google 显然做足了准备。Gemini 3 的发布不再是试探性的小步快跑，而是一次全面的、自信的大规模推送——这是 Google 第一次在发布当天就将最新的 Gemini 模型整合进搜索引擎。用 Google 搜索产品副总裁罗比·斯坦（Robby Stein）的话说：“这是我们第一次在搜索中同步发布最新的 Gemini 模型。”对于一家以搜索起家、拥有数十亿用户的科技巨头而言，这一决策足以说明其对于新模型的自信。

这款稀疏混合专家（sparse MoE, Mixture-of-Experts）架构模型的核心卖点可以用 Google 自己的话来概括:“我们最智能的模型, 帮助你将任何想法变为现实。”

从各项基准测试的结果来看，Gemini 3 确实配得上我们这么久的期待。在 LMArena 排行榜上，它以 1501 分的 ELO 评级登顶。在学术界用来测试 AI 系统是否具备博士级推理能力的“人类最后的考试”（Humanity's Last Exam）中，Gemini 3 在不使用任何工具的情况下达到了 37.5% 的准确率；而在考察研究生水平科学问题理解能力的 GPQA Diamond 基准测试中，它的得分更是高达 91.9%。此外，在专门考察高难度数学问题求解的 MathArena Apex 测试中，Gemini 3 取得了 23.4% 的成绩，刷新了前沿模型在这一领域的纪录。

多模态能力是 Gemini 系列的传统强项，而 Gemini 3 将这一优势进一步扩大。在 MMMU-Pro（大规模多学科多模态理解）测试中，Gemini 3 得分 81%，在 Video-MMMU（视频多模态理解）中更是达到 87.6%，这两项指标都显著超越了竞争对手。

在 SimpleQA Verified 这一事实准确性测试中，Gemini 3 Pro 达到 72.1%，表明其在事实准确性方面也有长足进步，这对于实际应用场景至关重要。

Google 还推出了一个更强大的变体：Gemini 3 Deep Think。这是一个增强推理模式，旨在将 Gemini 3 的性能推向更高的高度。在测试中，Deep Think 模式在 Humanity's Last Exam 中达到 41.0%（不使用工具），在 GPQA Diamond 中达到 93.8%，在 ARC-AGI-2（Abstraction and Reasoning Corpus，抽象与推理语料库）中更是创下了 45.1% 的成绩。不过，Deep Think 模式目前还不能立即使用。Google 表示，这一模式正在进行额外的安全评估，并征求安全测试员的意见，预计在未来几周内向 Google AI Ultra 订阅用户开放。

除了这些性能的提升，Google 还特意强调了模型“性格”的转变。Gemini 3 的回应被设计得更加“聪明、简洁、直接，用真知灼见取代陈词滥调和阿谀奉承。告诉你需要听的，而不只是你想听的”。长期以来，为了追求所谓的安全与对齐，许多大模型患上了一种名为“Sycophancy”（阿谀奉承）的通病，即无底线地顺从用户的错误前提，或者给出模棱两可的废话。Gemini 系列此前在这一问题上似乎尤其明显，以至于许多网友戏称 Gemini 非常“自卑”，而 Google 这一次似乎下定决心要矫正这一点。

在具体应用场景上，谷歌着重强调了三个方向：“学习任何东西”、“构建任何东西”和“规划任何东西”。

在学习领域，依托 1 百万 token 的上下文窗口 (相当于约 75 万个单词), Gemini 3 可以处理长篇学术论文、多小时的视频讲座, 并将其转化为交互式学习材料。例如，它能够解析不同语言的手写食谱并生成可分享的家庭食谱书，可以将学术论文和视频讲座转化为交互式闪卡和可视化图表，甚至可以分析你的匹克球比赛视频，识别需要改进的地方并生成训练计划。

构建能力是 Gemini 3 最被看好的领域。在 WebDev Arena 排行榜上 1487 的 Elo 评分，在 Terminal-Bench 2.0（测试通过终端操作计算机的能力）上 54.2% 的得分，尤其是在 SWE-bench Verified 上 76.2% 的表现，都显示出这是一个在编程方面极具竞争力的模型。Google 称其为“我们打造过的最好的氛围编程（vibe coding）和智能体编程模型”。在奥赛级编程基准测试LiveCodeBench Pro 上，Gemini 3 拿下了 2439 的最高分数，比第二名 GPT-5.1-high 高了近 200 分。

LiveCodeBench Pro 团队的负责人之一、普林斯顿大学博士柴文浩也向 DeepTech 表示，Gemini 3 的进步称得上是“领先了一个代差”，“方方面面都非常强悍”。

为了配合 Gemini 3 的发布，Google 同时推出了一个名为 Antigravity 的全新开发平台。Antigravity 旨在让开发者从繁琐的编码细节中“悬浮”起来，在更高的任务层面操作。在这个平台上，智能体（agent）被提升到一个专门的界面，能够直接访问编辑器、终端和浏览器，自主规划和执行复杂的端到端软件任务，同时还能验证自己生成的代码。Antigravity 内置了最新的 Computer Use 模型（用于浏览器控制）和图像编辑模型 Nano Banana，构成了一个完整的智能体开发生态。

规划能力则体现在 Gemini 3 对长期任务的把控上。在 Vending-Bench 2 这个基准测试中，Gemini 3 需要经营一家模拟的自动售货机生意整整一年，在这个过程中保持一致的工具使用和决策，不偏离任务目标，最终产生更高的回报。这一过程实际上反映了现实世界中许多需要长期规划、中途调整策略的场景。对于 Google AI Ultra 订阅用户，一个名为 Gemini Agent 的新功能已经上线，可以帮助处理诸如预订本地服务、整理 Gmail 收件箱等多步骤工作流程。

纵览目前各大厂商的模型，相比于 Claude 那样明确聚焦编程，和 GPT-5 那样强调统一架构，Gemini 3 的策略显然是求全，试图在推理、多模态、编程、长上下文等各个维度都达到顶尖水平。这种“全能选手”可能在某些特定任务上面临激烈竞争，但 Google 有一张王牌：生态整合。

这种生态优势首先体现在硬件基础设施上。Gemini 3 基于 Google 最新的 Trillium TPU（Tensor Processing Unit，张量处理单元）芯片训练，这是 Google 自研的 AI 专用处理器的第六代产品。每颗 Trillium 芯片可提供 512 TOPS（万亿次运算每秒）的 AI 算力，相比上一代 TPU v5e 性能提升了 4 倍，而能耗却降低了 67%。这种从底层硅片到上层模型的垂直整合，让 Google 能够针对自家模型特点优化硬件设计，反过来也让模型训练更加高效，这是 OpenAI 依赖英伟达 GPU、Anthropic 租用云计算资源目前所难以企及的优势。

在软件和服务层面，Gemini 3 同步登陆 Google 搜索的 AI 模式、Gemini 应用、AI Studio、Vertex AI 以及 Antigravity 平台。特别是此次更新的 AI 模式搜索，能够做到根据查询动态生成沉浸式视觉布局、交互工具和模拟器，将搜索从“寻找信息”提升到“理解信息”。当你搜索“RNA 聚合酶如何工作”时，不再是一堆静态链接，而是交互式的动画演示和可操作的模拟器——这是只有掌控搜索入口的 Google 才能做到的整合。

在发布后不久的采访中，DeepMind CEO 德米斯·哈萨比斯就表示，Gemini 3 在推理能力上实现了“显著的跨越”。但他同时强调，Google 的野心远不止于此。在通往 AGI（通用人工智能）的道路上，Google 正在“深入个性化、记忆和语境（Context）”。哈萨比斯认为，正是通过与 Gmail、日历以及整个 Google 生态系统的深度连接，AI 助手才能在 AGI 正式到来之前，就已经变得“真正不可或缺”。

参考资料：

https://blog.google/products/gemini/gemini-3/#note-from-ceo

https://x.com/rowancheung/status/1990814463428059597

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.