Gemini 3深夜来袭：力压GPT 5.1，大模型谷歌时代来了|智能体|知名企业|gemini|深度思考按钮

Gemini 3深夜来袭：力压GPT 5.1，大模型谷歌时代来了

2025-11-19 10:37:26　来源: 机器之心Pro

北京举报

分享至

机器之心报道

机器之心编辑部

Gemini 3 还没现身，推特先崩为敬。

没有哪家模型的发布比 Gemini 3 更万众瞩目，根据 Gemini 之前 3 个月更新一次的频率，AI 社区自 9 月起便对 Gemini 3 翘首以盼。

今天，谷歌开发者关系负责人、Google AI Studio 负责人一条仅含「Gemini」一词的推文，积蓄了数月的期待终于迎来了爆发点，推特相关话题瞬间沸腾。

有趣的是，临近发布节点，推特竟「应景」地崩了几次。尽管「幕后黑手」是 Cloudflare，但这崩溃的时机简直精准得让人怀疑有人背后搞鬼（小声蛐蛐：毕竟推特是各家模型的宣传主阵地）。

不知道今早刚发了 Grok 4.1 的马斯克此时作何感想，反正网友的梗图已经铺天盖地了。

就在刚刚，Gemini 3 终于正式登场，让我们看看在万众瞩目下登场的它到底有多强。

最智能模型

事实证明，Google 没有让等待的人失望，Gemini 3 正式发布，再一次定义了 SOTA，奥特曼和马斯克也发来贺电。

Google 将其定义为「通往 AGI 的重要一步」，并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。

Gemini 3 不仅在基础推理能力上刷新了 SOTA 标准，更通过推出全新的 Google Antigravity 平台和 Deep Think 模式，试图重塑开发者生态与 AI 辅助体验。

全面霸榜的推理怪兽

Gemini 3 Pro 被官方称为「最先进的推理模型」，在几乎所有主流 AI 基准测试中均显著超越了前代 Gemini 2.5 Pro，并且全面压制了 Claude Sonnet 4.5 和 GPT-5.1 等主要竞品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登顶 LMArena Leaderboard，在 Humanity’s Last Exam（在不使用任何工具的情况下达到 37.5%）和 GPQA Diamond（91.9%）上获得最高分，展示了博士级的推理能力。它还在数学方面为前沿模型树立了新标准，在 MathArena Apex 上达到了 23.4% 的最新 SOTA 水平。

除了文本与逻辑，Gemini 3 Pro 还重新定义了多模态推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分别斩获了 81% 和 87.6% 的高分，这意味着无论是解析复杂的科学图表还是理解动态视频流，它都游刃有余。

更值得一提的是，它在 SimpleQA Verified 上取得了 72.1% 的成绩，显示出在事实准确性上的巨大进步 —— 它不仅强，而且可靠。

拒绝奉承的思维伙伴

Gemini 3 Pro 的进化不仅在于跑分，更在于交互的质感。它摒弃了以往 AI 常见的陈词滥调和过度奉承，变得聪明、简洁且直接：告诉你需要听到的，而不仅仅是你爱听的。

它充当真正的思维伙伴，为你提供理解信息和表达自我的新方式，从通过生成高保真可视化的代码来翻译晦涩的科学概念，到创造性的头脑风暴。

Gemini 3 编写代码可视化托卡马克装置中的等离子体流，并创作了一首捕捉聚变物理学原理的诗。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式进一步拓展了智能的边界，带来了 Gemini 3 在推理和多模态理解能力上的重大进步，帮助你解决更复杂的问题。

在测试中，Gemini 3 Deep Think 在 Humanity's Last Exam（不使用工具的情况下得分 41.0%）和 GPQA Diamond（得分 93.8%）上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外，它在 ARC-AGI-2（代码执行，已通过 ARC Prize 验证）上也取得了前所未有的 45.1% 的得分，展现了其解决全新挑战的能力。

Gemini 3 Deep Think 模式在一些最具挑战性的 AI 基准测试中表现出色。

学习、构建与规划

学习任何事情

Gemini 从一开始就旨在无缝整合任何主题的多种模态信息，包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口，进一步拓展了多模态推理的边界，帮助你以最适合自己的方式学习。

例如，如果你想学习如何烹饪家族传统菜肴，Gemini 3 可以解读并翻译不同语言的手写食谱，生成可与家人分享的食谱。

或者，如果你想学习某个新主题，就可以提供学术论文、长篇视频讲座或教程，它可以生成交互式记忆卡片、可视化或其他格式的代码，帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频，找出可以改进的地方，并制定训练计划，帮助你全面提升球技。

为了帮助你更好地理解网络上的信息，搜索中的 AI 模式现在使用 Gemini 3 来实现新的生成式 UI 体验，例如沉浸式视觉布局、交互式工具和模拟，所有这些都是根据你的查询即时生成的。

学习像 RNA 聚合酶如何在 AI 模式下的生成式 UI 中工作这样的复杂主题。

开发任何东西

在 2.5 Pro 成功的基础上，Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色，能够处理复杂的提示和指令，从而渲染出更丰富、更具交互性的 Web 用户界面。

Gemini 3 是谷歌迄今为止构建的最佳 Vibe 编码和 Agent 编码模型，它使谷歌的产品更加自主，并显著提升了开发者的效率。它在 WebDev Arena 排行榜上名列榜首，获得了令人瞩目的 1487 Elo 分数。此外，它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩，该测试旨在评估模型通过终端操作计算机的工具使用能力。同时，它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本（得分为 76.2%），该测试用于衡量编码代理的性能。

现在，用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古 3D 太空飞船游戏。

再比如编写更丰富、更具交互性的 Web UI 和应用程序：

规划任何事

自 Gemini 2 智能体之后，Gemini 显著提升了长周期任务中的规划能力。

Gemini 3 的规划能力在 Vending-Bench 2 测试中进一步得到印证：Gemini 3 在模拟售货机经营测试中登顶该排行榜，全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中，Gemini 3 Pro 始终保持稳定的工具调用与决策连贯性，在持续专注任务目标的同时实现了更高投资回报。

Gemini 3 Pro 展现出更卓越的长周期规划能力，与其他前沿模型相比，能创造更高的回报。

Gemini Agent 还可以帮助整理 Gmail 收件箱。

Gemini 3 现已全面开放。即日起，普通用户和订阅用户分别可通过 Gemini App 及搜索 AI 模式使用新模型；开发者与企业客户也能通过 AI Studio、Vertex AI 等渠道接入。至于备受期待的「深度思考模式」，预计将在未来几周内面向 Google AI Ultra 订阅用户独家上线。

另外，根据此前泄露的模型卡，还有许多值得关注的关键信息：Google 使用 TPU 从头开始训练这个模型，作为一个 MoE，具有 1M 输入和 64k token 输出，MoE 意味着他们可以负担得起使其变得便宜。

定价方面，Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制：200k tokens 以下的任务，输入 / 输出价格为 $2.00/$12.00（每百万 token）；超过 200k tokens 则分别为 $4.00 和 $18.00。

全新的「智能体优先」开发体验

Google Antigravity 是 Google 全新的智能体开发平台，使开发者能够在更高、以任务为导向的层面上进行操作。利用 Gemini 3 先进的推理、工具使用和智能体编程能力，Google Antigravity 将 AI 辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然 Google Antigravity 的核心是熟悉的 AI IDE（集成开发环境）体验，但其智能体已被提升到一个专用界面，并被赋予直接访问编辑器、终端和浏览器的权限。现在，智能体可以代表你自主规划并同时执行复杂的端到端软件任务，同时验证它们自己的代码。

除了 Gemini 3 Pro，Google Antigravity 还紧密结合了 Google 最新的用于浏览器控制的 Gemini 2.5 Computer Use 模型，以及其顶级的图像编辑模型 Nano Banana (Gemini 2.5 Image)。

一手体验

既然 Gemini 3 Pro 预览版上线了 AI Studio 平台，我们也来上手体验了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Prompt: Create a visually stunning Space Invaders game.

鹈鹕骑自行车曾难倒一众大模型，这次我们也让 Gemini 3 试了下。Prompt：An animated SVG of a pelican riding a bicycle.

相比之前版本，Gemini 3 已有较大进步，不过仍有 bug，比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词：Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次 Gemini 3 生成的自行车似乎没有脚蹬。

在 X 博主 Chubby 发起的「到 2026 年底，哪家公司拥有最好的 LLM?」投票中，Google Gemini 遥遥领先。

这种市场信心的回升也体现在了数据上，Alphabet CEO Sundar Pichai 在官方博客中回顾了 Gemini 过去两年的进展：AI Overviews 月活跃用户已达 20 亿，Gemini 应用月活突破 6.5 亿，此外更有超过 70% 的云客户以及 1300 万开发者正在使用其生成式模型。

回望过去两年，从 Bard（Gemini 前身）发布时的仓促应战与股价暴跌，到痛定思痛合并 Google DeepMind、召回创始人、斩获诺贝尔奖，Google 完成了一场教科书般的「大象转身」。

那个曾经定义了 Transformer、如今「All in Gemini」的巨人，已经做好了全面反击的准备。

至于它到底能不能终结「最好的 LLM」之争？别急，让子弹（和服务器）再飞一会儿。

https://blog.google/products/gemini/gemini-3/#gemini-3

文中视频链接：https://mp.weixin.qq.com/s/m5DnddinQuH_SxXEyUbYaA

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.