网易首页 > 网易号 > 正文 申请入驻

Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了

0
分享至

来源:市场资讯

(来源:机器之心)

Gemini 3 还没现身,推特先崩为敬。

没有哪家模型的发布比 Gemini 3 更万众瞩目,根据 Gemini 之前 3 个月更新一次的频率,AI 社区自 9 月起便对 Gemini 3 翘首以盼。

今天,谷歌开发者关系负责人、Google AI Studio 负责人一条仅含「Gemini」一词的推文,积蓄了数月的期待终于迎来了爆发点,推特相关话题瞬间沸腾。


有趣的是,临近发布节点,推特竟「应景」地崩了几次。尽管「幕后黑手」是 Cloudflare,但这崩溃的时机简直精准得让人怀疑有人背后搞鬼(小声蛐蛐:毕竟推特是各家模型的宣传主阵地)。

不知道今早刚发了 Grok 4.1 的马斯克此时作何感想,反正网友的梗图已经铺天盖地了。


就在刚刚,Gemini 3 终于正式登场,让我们看看在万众瞩目下登场的它到底有多强。

最智能模型

事实证明,Google 没有让等待的人失望,Gemini 3 正式发布,再一次定义了 SOTA,奥特曼和马斯克也发来贺电。



Google 将其定义为「通往 AGI 的重要一步」,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。

Gemini 3 不仅在基础推理能力上刷新了 SOTA 标准,更通过推出全新的 Google Antigravity 平台和 Deep Think 模式,试图重塑开发者生态与 AI 辅助体验。

全面霸榜的推理怪兽

Gemini 3 Pro 被官方称为「最先进的推理模型」,在几乎所有主流 AI 基准测试中均显著超越了前代 Gemini 2.5 Pro,并且全面压制了 Claude Sonnet 4.5 和 GPT-5.1 等主要竞品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登顶 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情况下达到 37.5%)和 GPQA Diamond(91.9%)上获得最高分,展示了博士级的推理能力。它还在数学方面为前沿模型树立了新标准,在 MathArena Apex 上达到了 23.4% 的最新 SOTA 水平。

除了文本与逻辑,Gemini 3 Pro 还重新定义了多模态推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分别斩获了 81% 和 87.6% 的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都游刃有余。

更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成绩,显示出在事实准确性上的巨大进步 —— 它不仅强,而且可靠。


拒绝奉承的思维伙伴

Gemini 3 Pro 的进化不仅在于跑分,更在于交互的质感。它摒弃了以往 AI 常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。

它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。

Gemini 3 编写代码可视化托卡马克装置中的等离子体流,并创作了一首捕捉聚变物理学原理的诗。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式进一步拓展了智能的边界,带来了 Gemini 3 在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。

在测试中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情况下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外,它在 ARC-AGI-2(代码执行,已通过 ARC Prize 验证)上也取得了前所未有的 45.1% 的得分,展现了其解决全新挑战的能力。


学习、构建与规划

学习任何事情

Gemini 从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。

例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。


或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。

为了帮助你更好地理解网络上的信息,搜索中的 AI 模式现在使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。

学习像 RNA 聚合酶如何在 AI 模式下的生成式 UI 中工作这样的复杂主题 。

开发任何东西

在 2.5 Pro 成功的基础上,Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的 Web 用户界面。

Gemini 3 是谷歌迄今为止构建的最佳 Vibe 编码和 Agent 编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在 WebDev Arena 排行榜上名列榜首,获得了令人瞩目的 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本(得分为 76.2%),该测试用于衡量编码代理的性能。

现在,用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建 。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古 3D 太空飞船游戏。


再比如编写更丰富、更具交互性的 Web UI 和应用程序:


规划任何事

自 Gemini 2 智能体之后,Gemini 显著提升了长周期任务中的规划能力。

Gemini 3 的规划能力在 Vending-Bench 2 测试中进一步得到印证:Gemini 3 在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中,Gemini 3 Pro 始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。


Gemini 3 Pro 展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。

Gemini Agent 还可以帮助整理 Gmail 收件箱。

Gemini 3 现已全面开放。即日起,普通用户和订阅用户分别可通过 Gemini App 及搜索 AI 模式使用新模型;开发者与企业客户也能通过 AI Studio、Vertex AI 等渠道接入。至于备受期待的「深度思考模式」,预计将在未来几周内面向 Google AI Ultra 订阅用户独家上线。

另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google 使用 TPU 从头开始训练这个模型,作为一个 MoE,具有 1M 输入和 64k token 输出,MoE 意味着他们可以负担得起使其变得便宜。


定价方面,Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制:200k tokens 以下的任务,输入 / 输出价格为 $2.00/$12.00(每百万 token);超过 200k tokens 则分别为 $4.00 和 $18.00。


全新的「智能体优先」开发体验

Google Antigravity 是 Google 全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用 Gemini 3 先进的推理、工具使用和智能体编程能力,Google Antigravity 将 AI 辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然 Google Antigravity 的核心是熟悉的 AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。

除了 Gemini 3 Pro,Google Antigravity 还紧密结合了 Google 最新的用于浏览器控制的 Gemini 2.5 Computer Use 模型,以及其顶级的图像编辑模型 Nano Banana (Gemini 2.5 Image)。

一手体验

既然 Gemini 3 Pro 预览版上线了 AI Studio 平台,我们也来上手体验了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.


Prompt: Create a visually stunning Space Invaders game.


鹈鹕骑自行车曾难倒一众大模型,这次我们也让 Gemini 3 试了下。Prompt:An animated SVG of a pelican riding a bicycle.


相比之前版本,Gemini 3 已有较大进步,不过仍有 bug,比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次 Gemini 3 生成的自行车似乎没有脚蹬。


在 X 博主 Chubby 发起的「到 2026 年底,哪家公司拥有最好的 LLM?」投票中,Google Gemini 遥遥领先。


这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai 在官方博客中回顾了 Gemini 过去两年的进展:AI Overviews 月活跃用户已达 20 亿,Gemini 应用月活突破 6.5 亿,此外更有超过 70% 的云客户以及 1300 万开发者正在使用其生成式模型。

回望过去两年,从 Bard(Gemini 前身)发布时的仓促应战与股价暴跌,到痛定思痛合并 Google DeepMind、召回创始人、斩获诺贝尔奖,Google 完成了一场教科书般的「大象转身」。


那个曾经定义了 Transformer、如今「All in Gemini」的巨人,已经做好了全面反击的准备。

至于它到底能不能终结「最好的 LLM」之争?别急,让子弹(和服务器)再飞一会儿。

https://blog.google/products/gemini/gemini-3/#gemini-3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最年轻的美女董事长上任了!

最年轻的美女董事长上任了!

微微热评
2025-11-08 13:47:08
裹足不前!波克罗夫斯克战役成现代斯大林格勒,俄军未能巩固优势

裹足不前!波克罗夫斯克战役成现代斯大林格勒,俄军未能巩固优势

军迷战情室
2025-11-18 20:18:13
霍启山和娜然恋情疑曝光!前任都是女明星,霍家三兄弟他最看颜值

霍启山和娜然恋情疑曝光!前任都是女明星,霍家三兄弟他最看颜值

鑫鑫说说
2025-11-19 13:47:40
055抵近日本!解放军报:若武力介入,日本全国都有沦为战场的风险

055抵近日本!解放军报:若武力介入,日本全国都有沦为战场的风险

青辉
2025-11-19 15:08:59
高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

国际在线
2025-11-18 23:09:22
丹麦给乌克兰送了8个多亿武器,结果一查账单,买单的竟是俄罗斯

丹麦给乌克兰送了8个多亿武器,结果一查账单,买单的竟是俄罗斯

扶苏聊历史
2025-11-18 17:45:46
冯唐直言:低级女人依仗姿色,高级女人靠的是这个

冯唐直言:低级女人依仗姿色,高级女人靠的是这个

杏花烟雨江南的碧园
2025-11-07 16:13:29
拼光2万亿美元!中国正在把日本打回原形

拼光2万亿美元!中国正在把日本打回原形

每日一见
2025-11-19 10:17:11
多动症患者取药需在户口簿盖“精神病”章,这是个什么规定?

多动症患者取药需在户口簿盖“精神病”章,这是个什么规定?

南方都市报
2025-11-18 23:46:10
叶剑英怒斥许世友:怎么才接电话,许:首长,连滚带爬来接的啊

叶剑英怒斥许世友:怎么才接电话,许:首长,连滚带爬来接的啊

兴趣知识
2025-11-19 03:29:04
不再沉默!郑丽文指桑骂槐,提醒高市:台湾没事,日本也就没事

不再沉默!郑丽文指桑骂槐,提醒高市:台湾没事,日本也就没事

时时有聊
2025-11-18 09:18:16
勇士又把文班亚马“废了”,这下马刺百分百跌出季后赛资格区…!

勇士又把文班亚马“废了”,这下马刺百分百跌出季后赛资格区…!

田先生篮球
2025-11-18 22:32:34
突然走红,深圳也有!有人吃完直接烧到39℃进ICU!

突然走红,深圳也有!有人吃完直接烧到39℃进ICU!

深圳晚报
2025-11-18 16:25:39
阿里开始严查午休

阿里开始严查午休

蚂蚁大喇叭
2025-11-17 09:56:58
美媒:贝弗利因家暴妹妹被捕,曾将妹妹往墙上撞并朝眼睛猛击重拳

美媒:贝弗利因家暴妹妹被捕,曾将妹妹往墙上撞并朝眼睛猛击重拳

懂球帝
2025-11-19 12:56:13
印度姑娘远嫁中国,回印度探亲被嘲笑:你的中国老公没本事

印度姑娘远嫁中国,回印度探亲被嘲笑:你的中国老公没本事

户外小阿隋
2025-11-19 14:39:38
赴日旅游男子称:不在乎政府呼吁,花钱是其自由,认为日本很安全

赴日旅游男子称:不在乎政府呼吁,花钱是其自由,认为日本很安全

扶苏聊历史
2025-11-19 10:00:55
斯普利特:让杨瀚森次节出场是计划好的,他能带来不同的打法

斯普利特:让杨瀚森次节出场是计划好的,他能带来不同的打法

懂球帝
2025-11-19 15:57:15
人社部:技能等级挂钩薪资

人社部:技能等级挂钩薪资

每日经济新闻
2025-11-18 13:23:13
央八首播!演员阵容雄厚,越看越上瘾,比《悬崖》还好看得谍战剧

央八首播!演员阵容雄厚,越看越上瘾,比《悬崖》还好看得谍战剧

乐枫电影
2025-11-19 15:13:37
2025-11-19 16:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1428522文章数 4571关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

男子吐槽乱插队被80多岁老人打伤 对方喊话"谁敢拦我"

头条要闻

男子吐槽乱插队被80多岁老人打伤 对方喊话"谁敢拦我"

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

本地
艺术
时尚
游戏
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

艺术要闻

启功:我是画家,但书名超过了画名

冬天出门的底气,袜子给的

KK官方对战平台StarsWar12线下赛圆满结束,传奇不老,战魂不灭!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版