网易首页 > 网易号 > 正文 申请入驻

Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了

0
分享至




机器之心报道

机器之心编辑部

Gemini 3 还没现身,推特先崩为敬。

没有哪家模型的发布比 Gemini 3 更万众瞩目,根据 Gemini 之前 3 个月更新一次的频率,AI 社区自 9 月起便对 Gemini 3 翘首以盼。

今天,谷歌开发者关系负责人、Google AI Studio 负责人一条仅含「Gemini」一词的推文,积蓄了数月的期待终于迎来了爆发点,推特相关话题瞬间沸腾。



有趣的是,临近发布节点,推特竟「应景」地崩了几次。尽管「幕后黑手」是 Cloudflare,但这崩溃的时机简直精准得让人怀疑有人背后搞鬼(小声蛐蛐:毕竟推特是各家模型的宣传主阵地)。

不知道今早刚发了 Grok 4.1 的马斯克此时作何感想,反正网友的梗图已经铺天盖地了。



就在刚刚,Gemini 3 终于正式登场,让我们看看在万众瞩目下登场的它到底有多强。

最智能模型

事实证明,Google 没有让等待的人失望,Gemini 3 正式发布,再一次定义了 SOTA,奥特曼和马斯克也发来贺电。





Google 将其定义为「通往 AGI 的重要一步」,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。

Gemini 3 不仅在基础推理能力上刷新了 SOTA 标准,更通过推出全新的 Google Antigravity 平台和 Deep Think 模式,试图重塑开发者生态与 AI 辅助体验。

全面霸榜的推理怪兽

Gemini 3 Pro 被官方称为「最先进的推理模型」,在几乎所有主流 AI 基准测试中均显著超越了前代 Gemini 2.5 Pro,并且全面压制了 Claude Sonnet 4.5 和 GPT-5.1 等主要竞品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登顶 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情况下达到 37.5%)和 GPQA Diamond(91.9%)上获得最高分,展示了博士级的推理能力。它还在数学方面为前沿模型树立了新标准,在 MathArena Apex 上达到了 23.4% 的最新 SOTA 水平。

除了文本与逻辑,Gemini 3 Pro 还重新定义了多模态推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分别斩获了 81% 和 87.6% 的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都游刃有余。

更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成绩,显示出在事实准确性上的巨大进步 —— 它不仅强,而且可靠。



拒绝奉承的思维伙伴

Gemini 3 Pro 的进化不仅在于跑分,更在于交互的质感。它摒弃了以往 AI 常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。

它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。



Gemini 3 编写代码可视化托卡马克装置中的等离子体流,并创作了一首捕捉聚变物理学原理的诗。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式进一步拓展了智能的边界,带来了 Gemini 3 在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。

在测试中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情况下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外,它在 ARC-AGI-2(代码执行,已通过 ARC Prize 验证)上也取得了前所未有的 45.1% 的得分,展现了其解决全新挑战的能力。



Gemini 3 Deep Think 模式在一些最具挑战性的 AI 基准测试中表现出色。

学习、构建与规划

学习任何事情

Gemini 从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。

例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。



或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。



为了帮助你更好地理解网络上的信息,搜索中的 AI 模式现在使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。

学习像 RNA 聚合酶如何在 AI 模式下的生成式 UI 中工作这样的复杂主题 。



开发任何东西

在 2.5 Pro 成功的基础上,Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的 Web 用户界面。

Gemini 3 是谷歌迄今为止构建的最佳 Vibe 编码和 Agent 编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在 WebDev Arena 排行榜上名列榜首,获得了令人瞩目的 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本(得分为 76.2%),该测试用于衡量编码代理的性能。

现在,用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建 。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古 3D 太空飞船游戏。



再比如编写更丰富、更具交互性的 Web UI 和应用程序:



规划任何事

自 Gemini 2 智能体之后,Gemini 显著提升了长周期任务中的规划能力。

Gemini 3 的规划能力在 Vending-Bench 2 测试中进一步得到印证:Gemini 3 在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中,Gemini 3 Pro 始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。



Gemini 3 Pro 展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。

Gemini Agent 还可以帮助整理 Gmail 收件箱。



Gemini 3 现已全面开放。即日起,普通用户和订阅用户分别可通过 Gemini App 及搜索 AI 模式使用新模型;开发者与企业客户也能通过 AI Studio、Vertex AI 等渠道接入。至于备受期待的「深度思考模式」,预计将在未来几周内面向 Google AI Ultra 订阅用户独家上线。

另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google 使用 TPU 从头开始训练这个模型,作为一个 MoE,具有 1M 输入和 64k token 输出,MoE 意味着他们可以负担得起使其变得便宜。



定价方面,Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制:200k tokens 以下的任务,输入 / 输出价格为 $2.00/$12.00(每百万 token);超过 200k tokens 则分别为 $4.00 和 $18.00。



全新的「智能体优先」开发体验

Google Antigravity 是 Google 全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用 Gemini 3 先进的推理、工具使用和智能体编程能力,Google Antigravity 将 AI 辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然 Google Antigravity 的核心是熟悉的 AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。

除了 Gemini 3 Pro,Google Antigravity 还紧密结合了 Google 最新的用于浏览器控制的 Gemini 2.5 Computer Use 模型,以及其顶级的图像编辑模型 Nano Banana (Gemini 2.5 Image)。

一手体验

既然 Gemini 3 Pro 预览版上线了 AI Studio 平台,我们也来上手体验了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.



Prompt: Create a visually stunning Space Invaders game.



鹈鹕骑自行车曾难倒一众大模型,这次我们也让 Gemini 3 试了下。Prompt:An animated SVG of a pelican riding a bicycle.



相比之前版本,Gemini 3 已有较大进步,不过仍有 bug,比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次 Gemini 3 生成的自行车似乎没有脚蹬。



在 X 博主 Chubby 发起的「到 2026 年底,哪家公司拥有最好的 LLM?」投票中,Google Gemini 遥遥领先。



这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai 在官方博客中回顾了 Gemini 过去两年的进展:AI Overviews 月活跃用户已达 20 亿,Gemini 应用月活突破 6.5 亿,此外更有超过 70% 的云客户以及 1300 万开发者正在使用其生成式模型。

回望过去两年,从 Bard(Gemini 前身)发布时的仓促应战与股价暴跌,到痛定思痛合并 Google DeepMind、召回创始人、斩获诺贝尔奖,Google 完成了一场教科书般的「大象转身」。



那个曾经定义了 Transformer、如今「All in Gemini」的巨人,已经做好了全面反击的准备。

至于它到底能不能终结「最好的 LLM」之争?别急,让子弹(和服务器)再飞一会儿。

https://blog.google/products/gemini/gemini-3/#gemini-3

文中视频链接:https://mp.weixin.qq.com/s/m5DnddinQuH_SxXEyUbYaA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

潇湘晨报
2026-03-26 16:25:20
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

涵豆说娱
2026-03-26 11:46:21
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
横店巨变!20万群演困境:美女泛滥懒汉遍地,降薪后路在何方?

横店巨变!20万群演困境:美女泛滥懒汉遍地,降薪后路在何方?

网络易不易
2026-03-25 10:31:12
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

极目新闻
2026-03-26 11:14:21
地平线员工撕开窗户纸,小鹏智驾成了"皇帝新衣"?

地平线员工撕开窗户纸,小鹏智驾成了"皇帝新衣"?

汽车大事记
2026-03-24 20:48:45
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
日本企业未受邀参加重要论坛?商务部回应

日本企业未受邀参加重要论坛?商务部回应

澎湃新闻
2026-03-26 15:28:26
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

椰黄娱乐
2026-03-26 15:45:32
快讯!美军拒绝为以色列作战!

快讯!美军拒绝为以色列作战!

达文西看世界
2026-03-26 09:54:51
美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

观察者网
2026-03-25 14:58:54
广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

天天话事
2026-03-26 09:30:14
2026-03-26 17:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
艺术
本地
时尚
公开课

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版