网易首页 > 网易号 > 正文 申请入驻

谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI

0
分享至


新王登基了。


作者|Li Yuan

来了。

预热了快一个月的 Gemini 3 Pro,就在刚刚,正式在 Google AI Studio 上线 Preview 版,API 也同步开放。接下来将陆续上线Google的各项产品中。

没有任何多余的废话,打开 Model Card,满眼写着的只有两个字:碾压

按照 Google 披露的测试数据,Gemini 3 Pro 毫无悬念地成为了目前地球上数学最强的 AI。在数学竞赛的「地狱模式」MathArena 里,当包括 GPT-5.1 在内的其他大模型还在 1% 上下挣扎时,Gemini 3 Pro 直接干到了23.4%

编程能力方面,虽然在 SWE-Bench 上未拿 SOTA——但绝对属于第一梯队。Live Code Bench 的 Elo 得分超过 2400 分 ,在工具调用和终端操作基准测试中更是名列第一。

真正炸裂的是它的「视觉智能」。对屏幕截图的理解能力高达72.7%,是目前最先进水平的两倍。这意味着 Agent 不再是瞎子,它将彻底重塑 AI 操作计算机的模式。

但这还没完,Google 今晚还顺手扔出了一个小王炸:自家的 Agentic 编程平台——Google Antigravity

此前网传 Gemini 3 能实现「端到端编程」,大家以为是模型成精了。但看起来,并不是模型成精,而是 Google 正在探索如何用更好的系统工程实现端到端编程。

如果说 Cursor 是目前最强的「外骨骼」,它通过 AI 补全让你写代码更快;那 Antigravity 就是奔着「自动驾驶」去的。它不再只是一个编辑器,而是一个智能体优先(Agent-first)发环境。集成了 Gemini 3 和能操控浏览器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己写代码、自己开终端跑测试、甚至自己打开浏览器验证 UI,发现报错自己修。

不讲故事,只拼肌肉。

Google 用这一波硬核发布宣告:新王已至

有趣的是,这次连 Sam Altman 都献上了自己的点赞。:)


01

霸榜的暴力美学:不止是智商洗榜,更是 Agent 能力的变化

在 AI 圈子里,大家习惯了模型之间你追我赶的微弱优势,但 Gemini 3 Pro 抛出的这份成绩单,可以说十分耀眼。

根据 Model Card 披露的数据,Gemini 3 Pro 在推理、多模态、Agent 工具使用等关键基准上,实现了全方位的霸榜。


让我们先看一看代表人类智力「天花板」的测试——Humanity's Last Exam(人类最终大考)。这是一个衡量学术推理极限的标尺,GPT-5.1 在此前的测试中得分为 26.5%,Claude Sonnet 4.5 仅为 13.7%。而 Gemini 3 Pro 它直接轰出了37.5%的高分。在高端推理层面,这 10 个百分点的差距,意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。

但这还不是极限。Google 甚至还藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情况下,它在 HLE 上的得分进一步飙升至41.0%。看起来人类最后的堡垒也并不能持续很久了。


数理方面的每一个领域,都能看出它的统治力。

AIME 2025(美国数学邀请赛):配合代码执行(Code Execution),Gemini 3 Pro 的准确率达到了惊人的100%。没错,是满分。即便是「裸考」(无工具模式),它也有 95.0% 的准确率(相比之下,GPT-5.1 为 94.0%,Claude Sonnet 4.5 为 87.0%)。

MathArena Apex(数学竞赛地狱模式):当包括 GPT-5.1 在内的其他大模型还在1%上下挣扎时,Gemini 3 Pro 直接干到了23.4%。这意味着在很多以前 AI 根本「看不懂题」的领域,Gemini 3 已经开始解题了。

而更关键的是 Agent 相关能力的提升。

Gemini 一向在多模态能力上领先,这一代更是专门优化了屏幕理解(Screen Understanding)。这是下一代 Agent 能否真正接管人类电脑的关键。

ScreenSpot-Pro这一栏数据:

  • GPT-5.1:3.5%(这基本意味着它是个「瞎子」)。

  • Gemini 3 Pro:72.7%

这是近乎20 倍的能力碾压!这标志着 Gemini 3 Pro 已经不再是一个单纯的对话框,它具备了真正意义上的「视觉智能」,能够像人类一样理解复杂的操作系统界面。

在一些传统强项上,Gemini 3 Pro 仍然表现出色——比如支持1M Token的超大上下文窗口、对多模态数据的「原生支持」、长视频和多语言处理等等。



有一个很有趣的标准也被 Google 挂了上来:在 一个模拟开店赚钱的基准 Vending-Bench 2 上,Gemini 3 Pro 最终赚取了$5,478.16的净资产,而 GPT-5.1 仅赚了 $1,473.43。

不过关于之前网传「彻底端到端终结程序员」的编程能力,Gemini 3 Pro 的状态是在 AI 届顶尖,但并没有「颠覆编程」。

在衡量软件工程能力的SWE-Bench Verified测试中,Gemini 3 Pro 得分为76.2%,虽然很强,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。这意味着在处理超长程、极其复杂的后端逻辑时,它依然有局限性。

这也很合理。每一个大模型目前都在全力卷编程的情况下,想要在这个领域一骑绝尘确实比较难。

目前 Gemini 的能力更偏向于,还不能帮你重构整个后端架构,但如果你想写一个极具现代设计美学的网站、一个 3D 飞船游戏,或者生成复杂的 SVG 交互动画,它能通过一次提示就给出极其惊艳的、可直接运行的结果。

02

Antigravity,Agentic 编程的探索

有了最强的模型和算力,谷歌开始在应用层「掀桌子」了。今晚,谷歌扔出了一个「小王炸」——Google Antigravity

前一阵新闻的风向还是模型公司努力收购 AI 编程应用公司呢,而 Google 这次则这么快的就发了自己的开发平台。

这不仅仅是一个新的 IDE,它是谷歌定义的Agent-first(智能体优先)开发平台。在这里,开发者从「码农」升级为「架构师」,而 Gemini 3 化身为拥有编辑器、终端和浏览器完整权限的「执行合伙人」。

为了达成这种体验,谷歌甚至在后台配置了一个「模型军团」协同作战:

  • Gemini 3:作为大脑,负责高级推理和代码编写。

  • Gemini 2.5 Computer Use:作为手眼,专门控制浏览器进行 UI 验证和测试。

  • Nano Banana:作为美工,负责生成图像和 UI 素材。这种打通了底层模型到顶层交互的闭环体验,对于 Cursor 等现有 AI 编辑器来说,无疑是一次降维打击。


Antigravity 最有趣的能力在于并行。官方材料明确提到,开发者可以与多个智能 Agent 协作,而这些 Agent 能够代表你同时 自主规划并执行复杂的端到端软件任务。

想象一下这种工作流:你下达一个指令,Antigravity 瞬间分裂出多个 Agent——Agent A 负责写后端逻辑,Agent B 负责在终端跑测试用例,Agent C 直接打开浏览器去验证前端 UI 的交互效果。它们并行不悖,像是一个配合默契的敏捷开发小组,而你只需要验收它们提交的「工件」。

Antigravity 是是一个免费平台,网络上目前对于 Antigravity 的使用体验不多,但基本上都是好评。

要达到替代 Cursor 本身,肯定不太行——端到端的复杂编程体验,肯定还需要模型更成熟。但是简单的项目进行编程,或许会更简单了。

03

全家桶齐发力:TPU 与搜索

在大模型发展的后半程,比拼的不再是单一算法的灵光一闪,而是谁的算力更冗余、谁的数据更广阔、谁的投入更持久。Gemini 3 Pro 的胜利,有一点是很特别的:Gemini 3 Pro 是使用 Google TPU 训练的

当全世界的 AI 公司都在苦苦等待英伟达 GPU 的发货周期时,谷歌依然坐在自家庞大的 TPU 矿山上。TPU 专为 LLM 训练设计,拥有极高的高带宽内存(HBM),这让它能够轻松处理海量的模型参数和超大的 Batch Size。正是 TPU 的算力冗余,给了 Gemini 3 Pro 肆意扩张参数规模的底气。

有了算力,还要有「燃料」。Gemini 3 Pro 的训练数据是全维度的覆盖:它吞噬了公共网络文档、代码库、图像、音频和视频。更关键的是,谷歌明确提到使用了User Data(用户数据)——当然是在隐私协议框架下,来自谷歌庞大产品生态的用户交互数据。

最后,这种溢出的智能被注入了 Google Search。Google 这次推出了一个全新的AI Mode in Search。当你搜索一个复杂概念(比如 RNA 聚合酶的工作原理)时,Gemini 3 不再是给你扔一堆冷冰冰的链接,而是利用其强大的推理能力,即时生成(Generated on the fly)一个沉浸式的互动图表或模拟工具。


从底层的 TPU 硅基霸权,到中间层的模型智能,再到顶层的 Antigravity 开发生态与生成式搜索——谷歌这一夜展示的,不仅仅是一个满分模型,而是一个只有巨头才能构建的、严丝合缝的未来。

04

实测体验

最后让我们看看网上的一些实测体验吧。

出名的六边形测试的升级款。


不少帖子提及了设计上的美感。


一些物理世界的建模。


前面提到的,Gemini 对于用户界面数据这块做了特别的优化。


开发应用。


在今天,大模型的性能已然超越了跑分的边界。即便是最顶尖、最复杂的前沿基准测试,其测量精度也开始失效。如何科学地量化模型之间的微妙差距,已经成为了一门专门的「量化科学」,仅凭用户简单的实测手感,很难窥见其中的全部玄机。

实测案例更多的也就是用来看看模型本身的审美和 one-shot 直出的状态。

Gemini 3 显然在这次的更新中,在直出的情况下,赢面很大。

当模型直出能力越来越好,对于开发者来说,未来更多的是要看你的品味能不能跑过模型,你的点子是不是足够与众不同了。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得人类的审美跑的过

AI 的直出审美吗?

扎克伯格:傲慢就会失败,创造应该服务群众

点赞关注 极客公园视频号 ,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不再沉默!郑丽文指桑骂槐,提醒高市:台湾没事,日本也就没事

不再沉默!郑丽文指桑骂槐,提醒高市:台湾没事,日本也就没事

时时有聊
2025-11-18 09:18:16
学术造假惊天大案!郭某英文名“Wei Guo”与海外华裔学者同名……

学术造假惊天大案!郭某英文名“Wei Guo”与海外华裔学者同名……

科学发掘
2025-11-19 10:51:13
父母“最高明” 的远见:永远不要让自己的儿女,跟这4种人结婚

父母“最高明” 的远见:永远不要让自己的儿女,跟这4种人结婚

阿凯销售场
2025-11-19 08:30:00
巴基斯坦出手!正式递交战书,中国最担心的局面终于出现了

巴基斯坦出手!正式递交战书,中国最担心的局面终于出现了

文雅笔墨
2025-11-19 12:42:44
注意!深圳这些地方将暂停开放!

注意!深圳这些地方将暂停开放!

深圳晚报
2025-11-19 08:00:52
全球最大弹药库:打一次世界大战也用不完,哪国野心如此之大?

全球最大弹药库:打一次世界大战也用不完,哪国野心如此之大?

近史谈
2025-11-19 12:54:35
霍启山和娜然恋情疑曝光!前任都是女明星,霍家三兄弟他最看颜值

霍启山和娜然恋情疑曝光!前任都是女明星,霍家三兄弟他最看颜值

鑫鑫说说
2025-11-19 13:47:40
贾乃亮方发声明否认直播卖假货,“产品均由官方旗舰店发货”;品牌方回应:无法查询到相关信息

贾乃亮方发声明否认直播卖假货,“产品均由官方旗舰店发货”;品牌方回应:无法查询到相关信息

大风新闻
2025-11-19 10:06:03
医生忠告:吃完降压药千万别碰这3样食物,患者要牢记,不能大意

医生忠告:吃完降压药千万别碰这3样食物,患者要牢记,不能大意

今日养生之道
2025-10-23 08:08:38
释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

刚哥说法365
2025-11-16 14:35:38
俄罗斯彻底看明白了:一旦停火,大批西方先进武器就要涌入乌克兰

俄罗斯彻底看明白了:一旦停火,大批西方先进武器就要涌入乌克兰

阿龙聊军事
2025-11-18 16:23:47
《一拳超人》动画完蛋了,把导演骂退网也没救了

《一拳超人》动画完蛋了,把导演骂退网也没救了

游研社
2025-11-18 07:23:37
又有更新!苹果再次发布一大批新系统固件

又有更新!苹果再次发布一大批新系统固件

XCiOS俱乐部
2025-11-19 09:49:30
日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

十三级台阶
2025-11-15 18:14:37
你见过哪些闷声发大财的行业?网友:做生意的都说自己不赚钱

你见过哪些闷声发大财的行业?网友:做生意的都说自己不赚钱

带你感受人间冷暖
2025-09-25 00:10:08
销量下滑22%!小米汽车卖不动了,雷军急坏了

销量下滑22%!小米汽车卖不动了,雷军急坏了

明月光
2025-11-19 11:04:17
80后已经有1100万人提前下车了。

80后已经有1100万人提前下车了。

爱吃糖的猫cat
2025-11-16 18:27:38
认干爹、拍风月片,被导演霸王硬上弓,靠山去世后如今沦为服务员

认干爹、拍风月片,被导演霸王硬上弓,靠山去世后如今沦为服务员

漫婷侃娱乐
2025-11-19 11:56:57
建议中老年人:若不差钱,少吃鸡肉多吃这8样,高蛋白低脂又美味

建议中老年人:若不差钱,少吃鸡肉多吃这8样,高蛋白低脂又美味

美食店主
2025-11-18 00:31:56
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
2025-11-19 14:28:49
极客公园
极客公园
让最棒的创新成为头条
11638文章数 78725关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

教育
家居
时尚
数码
健康

教育要闻

最负责任的交亲

家居要闻

水岸美学 书香人文生活

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

数码要闻

"满电Buff"续满!航嘉校园行xPConline即将上线对外经济贸易大学

警惕超声报告这六大"坑"

无障碍浏览 进入关怀版