网易首页 > 网易号 > 正文 申请入驻

Gemini 3 终于来了!登顶LMArena,碾压所有基准

0
分享至

终于,千呼万唤之下,历经多次“预告”过后,Gemini 3 终于来了。

北京时间 11 月 19 日凌晨,Google 正式发布了其最新一代人工智能模型 Gemini 3。这款被 CEO 桑达尔·皮查伊(Sundar Pichai)称为“最智能模型”的产品,在发布前就已经在业界掀起了不小的波澜。事实上,早在10 月中旬,就有爆料称 Gemini 3 将在 10 月 22 日登场,但那次“狼来了”的传言最终没有兑现。


(来源:Google)

到了 11 月中旬,又有敏锐的开发者在移动端 Canvas 功能中发现了端倪:尽管界面显示仍是 Gemini 2.5 Pro,但输出质量已经发生了质的飞跃,特别是在 SVG(Scalable Vector Graphics,可缩放矢量图形)生成和网页设计方面,效果远超此前版本。

直到 AI Studio 和 Vertex AI 平台上开始隐约出现 Gemini 3 的踪迹,业界才意识到,这次是真的要来了。而现在,靴子终于落地。

此刻距离 Google 首次推出 Gemini 品牌已经过去近两年。相较于早期的慌乱和匆忙,这一次,Google 显然做足了准备。Gemini 3 的发布不再是试探性的小步快跑,而是一次全面的、自信的大规模推送——这是 Google 第一次在发布当天就将最新的 Gemini 模型整合进搜索引擎。用 Google 搜索产品副总裁罗比·斯坦(Robby Stein)的话说:“这是我们第一次在搜索中同步发布最新的 Gemini 模型。”对于一家以搜索起家、拥有数十亿用户的科技巨头而言,这一决策足以说明其对于新模型的自信。

这款稀疏混合专家(sparse MoE, Mixture-of-Experts)架构模型的核心卖点可以用 Google 自己的话来概括:“我们最智能的模型, 帮助你将任何想法变为现实。”

从各项基准测试的结果来看,Gemini 3 确实配得上我们这么久的期待。在 LMArena 排行榜上,它以 1501 分的 ELO 评级登顶。在学术界用来测试 AI 系统是否具备博士级推理能力的“人类最后的考试”(Humanity's Last Exam)中,Gemini 3 在不使用任何工具的情况下达到了 37.5% 的准确率;而在考察研究生水平科学问题理解能力的 GPQA Diamond 基准测试中,它的得分更是高达 91.9%。此外,在专门考察高难度数学问题求解的 MathArena Apex 测试中,Gemini 3 取得了 23.4% 的成绩,刷新了前沿模型在这一领域的纪录。


图丨Gemini 3 的基准测试结果(来源:Google)

多模态能力是 Gemini 系列的传统强项,而 Gemini 3 将这一优势进一步扩大。在 MMMU-Pro(大规模多学科多模态理解)测试中,Gemini 3 得分 81%,在 Video-MMMU(视频多模态理解)中更是达到 87.6%,这两项指标都显著超越了竞争对手。

在 SimpleQA Verified 这一事实准确性测试中,Gemini 3 Pro 达到 72.1%,表明其在事实准确性方面也有长足进步,这对于实际应用场景至关重要。

Google 还推出了一个更强大的变体:Gemini 3 Deep Think。这是一个增强推理模式,旨在将 Gemini 3 的性能推向更高的高度。在测试中,Deep Think 模式在 Humanity's Last Exam 中达到 41.0%(不使用工具),在 GPQA Diamond 中达到 93.8%,在 ARC-AGI-2(Abstraction and Reasoning Corpus,抽象与推理语料库)中更是创下了 45.1% 的成绩。不过,Deep Think 模式目前还不能立即使用。Google 表示,这一模式正在进行额外的安全评估,并征求安全测试员的意见,预计在未来几周内向 Google AI Ultra 订阅用户开放。


(来源:Google)

除了这些性能的提升,Google 还特意强调了模型“性格”的转变。Gemini 3 的回应被设计得更加“聪明、简洁、直接,用真知灼见取代陈词滥调和阿谀奉承。告诉你需要听的,而不只是你想听的”。长期以来,为了追求所谓的安全与对齐,许多大模型患上了一种名为“Sycophancy”(阿谀奉承)的通病,即无底线地顺从用户的错误前提,或者给出模棱两可的废话。Gemini 系列此前在这一问题上似乎尤其明显,以至于许多网友戏称 Gemini 非常“自卑”,而 Google 这一次似乎下定决心要矫正这一点。

在具体应用场景上,谷歌着重强调了三个方向:“学习任何东西”、“构建任何东西”和“规划任何东西”。

在学习领域,依托 1 百万 token 的上下文窗口 (相当于约 75 万个单词), Gemini 3 可以处理长篇学术论文、多小时的视频讲座, 并将其转化为交互式学习材料。例如,它能够解析不同语言的手写食谱并生成可分享的家庭食谱书,可以将学术论文和视频讲座转化为交互式闪卡和可视化图表,甚至可以分析你的匹克球比赛视频,识别需要改进的地方并生成训练计划。

构建能力是 Gemini 3 最被看好的领域。在 WebDev Arena 排行榜上 1487 的 Elo 评分,在 Terminal-Bench 2.0(测试通过终端操作计算机的能力)上 54.2% 的得分,尤其是在 SWE-bench Verified 上 76.2% 的表现,都显示出这是一个在编程方面极具竞争力的模型。Google 称其为“我们打造过的最好的氛围编程(vibe coding)和智能体编程模型”。在奥赛级编程基准测试LiveCodeBench Pro 上,Gemini 3 拿下了 2439 的最高分数,比第二名 GPT-5.1-high 高了近 200 分。

LiveCodeBench Pro 团队的负责人之一、普林斯顿大学博士柴文浩也向 DeepTech 表示,Gemini 3 的进步称得上是“领先了一个代差”,“方方面面都非常强悍”。


(来源:LiveCodeBench Pro)

为了配合 Gemini 3 的发布,Google 同时推出了一个名为 Antigravity 的全新开发平台。Antigravity 旨在让开发者从繁琐的编码细节中“悬浮”起来,在更高的任务层面操作。在这个平台上,智能体(agent)被提升到一个专门的界面,能够直接访问编辑器、终端和浏览器,自主规划和执行复杂的端到端软件任务,同时还能验证自己生成的代码。Antigravity 内置了最新的 Computer Use 模型(用于浏览器控制)和图像编辑模型 Nano Banana,构成了一个完整的智能体开发生态。

规划能力则体现在 Gemini 3 对长期任务的把控上。在 Vending-Bench 2 这个基准测试中,Gemini 3 需要经营一家模拟的自动售货机生意整整一年,在这个过程中保持一致的工具使用和决策,不偏离任务目标,最终产生更高的回报。这一过程实际上反映了现实世界中许多需要长期规划、中途调整策略的场景。对于 Google AI Ultra 订阅用户,一个名为 Gemini Agent 的新功能已经上线,可以帮助处理诸如预订本地服务、整理 Gmail 收件箱等多步骤工作流程。


(来源:Google)

纵览目前各大厂商的模型,相比于 Claude 那样明确聚焦编程,和 GPT-5 那样强调统一架构,Gemini 3 的策略显然是求全,试图在推理、多模态、编程、长上下文等各个维度都达到顶尖水平。这种“全能选手”可能在某些特定任务上面临激烈竞争,但 Google 有一张王牌:生态整合。

这种生态优势首先体现在硬件基础设施上。Gemini 3 基于 Google 最新的 Trillium TPU(Tensor Processing Unit,张量处理单元)芯片训练,这是 Google 自研的 AI 专用处理器的第六代产品。每颗 Trillium 芯片可提供 512 TOPS(万亿次运算每秒)的 AI 算力,相比上一代 TPU v5e 性能提升了 4 倍,而能耗却降低了 67%。这种从底层硅片到上层模型的垂直整合,让 Google 能够针对自家模型特点优化硬件设计,反过来也让模型训练更加高效,这是 OpenAI 依赖英伟达 GPU、Anthropic 租用云计算资源目前所难以企及的优势。

在软件和服务层面,Gemini 3 同步登陆 Google 搜索的 AI 模式、Gemini 应用、AI Studio、Vertex AI 以及 Antigravity 平台。特别是此次更新的 AI 模式搜索,能够做到根据查询动态生成沉浸式视觉布局、交互工具和模拟器,将搜索从“寻找信息”提升到“理解信息”。当你搜索“RNA 聚合酶如何工作”时,不再是一堆静态链接,而是交互式的动画演示和可操作的模拟器——这是只有掌控搜索入口的 Google 才能做到的整合。

在发布后不久的采访中,DeepMind CEO 德米斯·哈萨比斯就表示,Gemini 3 在推理能力上实现了“显著的跨越”。但他同时强调,Google 的野心远不止于此。在通往 AGI(通用人工智能)的道路上,Google 正在“深入个性化、记忆和语境(Context)”。哈萨比斯认为,正是通过与 Gmail、日历以及整个 Google 生态系统的深度连接,AI 助手才能在 AGI 正式到来之前,就已经变得“真正不可或缺”。

参考资料:

https://blog.google/products/gemini/gemini-3/#note-from-ceo

https://x.com/rowancheung/status/1990814463428059597

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

寒士之言本尊
2025-11-18 23:53:07
施一公:这是中国潜伏的最大危机!(发人深省)

施一公:这是中国潜伏的最大危机!(发人深省)

霹雳炮
2025-11-18 20:38:34
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

时时有聊
2025-11-19 20:53:11
中方3项反制直击要害,面对2.2万亿损失,日本政府终于坐不住了

中方3项反制直击要害,面对2.2万亿损失,日本政府终于坐不住了

博览历史
2025-11-18 23:23:34
谢谢陈思诚,贡献出25年年底内娱最大的笑话!

谢谢陈思诚,贡献出25年年底内娱最大的笑话!

娱乐圈笔娱君
2025-11-18 18:12:15
郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

博览历史
2025-11-18 23:26:16
中方暂停进口日本水产品 外交部:即使日本水产品向中国出口也不会有市场

中方暂停进口日本水产品 外交部:即使日本水产品向中国出口也不会有市场

每日经济新闻
2025-11-19 17:41:46
汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

冷紫葉
2025-11-18 22:35:54
预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

大风新闻
2025-11-19 16:31:04
雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

霹雳炮
2025-11-17 23:20:46
特斯拉起诉30多家中国公司!

特斯拉起诉30多家中国公司!

鞭牛士
2025-11-19 21:15:57
因身材太好被骂擦边,击剑冠军秦雪回应:我有女儿要养,不偷不抢

因身材太好被骂擦边,击剑冠军秦雪回应:我有女儿要养,不偷不抢

没有偏旁的常庆
2025-11-10 12:35:03
“国际模特大赛”15号模特获广东冠军引争议,组委会回应:负责人生病无法接受采访,后续会给大家交代;有评委称“连评分表都没看到”

“国际模特大赛”15号模特获广东冠军引争议,组委会回应:负责人生病无法接受采访,后续会给大家交代;有评委称“连评分表都没看到”

极目新闻
2025-11-19 11:31:22
广东模特大赛冠军诞生后,我笑死在评论区

广东模特大赛冠军诞生后,我笑死在评论区

清书先生
2025-11-19 16:02:32
10战9败,球队老大摆烂,球队基石又选错人!你们还是趁早重建吧

10战9败,球队老大摆烂,球队基石又选错人!你们还是趁早重建吧

老梁体育漫谈
2025-11-20 00:30:12
为什么越南女子劫法场,却让全世界刮目相看?

为什么越南女子劫法场,却让全世界刮目相看?

历史总在押韵
2025-11-20 00:17:37
孙颖莎独得2分难救主,山东时隔12年再度加冕,陈梦夺全运会第2金

孙颖莎独得2分难救主,山东时隔12年再度加冕,陈梦夺全运会第2金

钉钉陌上花开
2025-11-19 21:26:07
今夜,跳水!不平静!

今夜,跳水!不平静!

中国基金报
2025-11-20 00:27:57
2025-11-20 01:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15877文章数 514311关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

亲子
本地
房产
时尚
公开课

亲子要闻

3岁女娃坑爹日常,吸粉超500w:东北人的家庭氛围,究竟有多搞笑?

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

辛芷蕾的炸裂10分钟,让人大受震撼

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版