网易首页 > 网易号 > 正文 申请入驻

Gemini 3 终于来了!登顶LMArena,碾压所有基准

0
分享至

终于,千呼万唤之下,历经多次“预告”过后,Gemini 3 终于来了。

北京时间 11 月 19 日凌晨,Google 正式发布了其最新一代人工智能模型 Gemini 3。这款被 CEO 桑达尔·皮查伊(Sundar Pichai)称为“最智能模型”的产品,在发布前就已经在业界掀起了不小的波澜。事实上,早在10 月中旬,就有爆料称 Gemini 3 将在 10 月 22 日登场,但那次“狼来了”的传言最终没有兑现。


(来源:Google)

到了 11 月中旬,又有敏锐的开发者在移动端 Canvas 功能中发现了端倪:尽管界面显示仍是 Gemini 2.5 Pro,但输出质量已经发生了质的飞跃,特别是在 SVG(Scalable Vector Graphics,可缩放矢量图形)生成和网页设计方面,效果远超此前版本。

直到 AI Studio 和 Vertex AI 平台上开始隐约出现 Gemini 3 的踪迹,业界才意识到,这次是真的要来了。而现在,靴子终于落地。

此刻距离 Google 首次推出 Gemini 品牌已经过去近两年。相较于早期的慌乱和匆忙,这一次,Google 显然做足了准备。Gemini 3 的发布不再是试探性的小步快跑,而是一次全面的、自信的大规模推送——这是 Google 第一次在发布当天就将最新的 Gemini 模型整合进搜索引擎。用 Google 搜索产品副总裁罗比·斯坦(Robby Stein)的话说:“这是我们第一次在搜索中同步发布最新的 Gemini 模型。”对于一家以搜索起家、拥有数十亿用户的科技巨头而言,这一决策足以说明其对于新模型的自信。

这款稀疏混合专家(sparse MoE, Mixture-of-Experts)架构模型的核心卖点可以用 Google 自己的话来概括:“我们最智能的模型, 帮助你将任何想法变为现实。”

从各项基准测试的结果来看,Gemini 3 确实配得上我们这么久的期待。在 LMArena 排行榜上,它以 1501 分的 ELO 评级登顶。在学术界用来测试 AI 系统是否具备博士级推理能力的“人类最后的考试”(Humanity's Last Exam)中,Gemini 3 在不使用任何工具的情况下达到了 37.5% 的准确率;而在考察研究生水平科学问题理解能力的 GPQA Diamond 基准测试中,它的得分更是高达 91.9%。此外,在专门考察高难度数学问题求解的 MathArena Apex 测试中,Gemini 3 取得了 23.4% 的成绩,刷新了前沿模型在这一领域的纪录。


图丨Gemini 3 的基准测试结果(来源:Google)

多模态能力是 Gemini 系列的传统强项,而 Gemini 3 将这一优势进一步扩大。在 MMMU-Pro(大规模多学科多模态理解)测试中,Gemini 3 得分 81%,在 Video-MMMU(视频多模态理解)中更是达到 87.6%,这两项指标都显著超越了竞争对手。

在 SimpleQA Verified 这一事实准确性测试中,Gemini 3 Pro 达到 72.1%,表明其在事实准确性方面也有长足进步,这对于实际应用场景至关重要。

Google 还推出了一个更强大的变体:Gemini 3 Deep Think。这是一个增强推理模式,旨在将 Gemini 3 的性能推向更高的高度。在测试中,Deep Think 模式在 Humanity's Last Exam 中达到 41.0%(不使用工具),在 GPQA Diamond 中达到 93.8%,在 ARC-AGI-2(Abstraction and Reasoning Corpus,抽象与推理语料库)中更是创下了 45.1% 的成绩。不过,Deep Think 模式目前还不能立即使用。Google 表示,这一模式正在进行额外的安全评估,并征求安全测试员的意见,预计在未来几周内向 Google AI Ultra 订阅用户开放。


(来源:Google)

除了这些性能的提升,Google 还特意强调了模型“性格”的转变。Gemini 3 的回应被设计得更加“聪明、简洁、直接,用真知灼见取代陈词滥调和阿谀奉承。告诉你需要听的,而不只是你想听的”。长期以来,为了追求所谓的安全与对齐,许多大模型患上了一种名为“Sycophancy”(阿谀奉承)的通病,即无底线地顺从用户的错误前提,或者给出模棱两可的废话。Gemini 系列此前在这一问题上似乎尤其明显,以至于许多网友戏称 Gemini 非常“自卑”,而 Google 这一次似乎下定决心要矫正这一点。

在具体应用场景上,谷歌着重强调了三个方向:“学习任何东西”、“构建任何东西”和“规划任何东西”。

在学习领域,依托 1 百万 token 的上下文窗口 (相当于约 75 万个单词), Gemini 3 可以处理长篇学术论文、多小时的视频讲座, 并将其转化为交互式学习材料。例如,它能够解析不同语言的手写食谱并生成可分享的家庭食谱书,可以将学术论文和视频讲座转化为交互式闪卡和可视化图表,甚至可以分析你的匹克球比赛视频,识别需要改进的地方并生成训练计划。

构建能力是 Gemini 3 最被看好的领域。在 WebDev Arena 排行榜上 1487 的 Elo 评分,在 Terminal-Bench 2.0(测试通过终端操作计算机的能力)上 54.2% 的得分,尤其是在 SWE-bench Verified 上 76.2% 的表现,都显示出这是一个在编程方面极具竞争力的模型。Google 称其为“我们打造过的最好的氛围编程(vibe coding)和智能体编程模型”。在奥赛级编程基准测试LiveCodeBench Pro 上,Gemini 3 拿下了 2439 的最高分数,比第二名 GPT-5.1-high 高了近 200 分。

LiveCodeBench Pro 团队的负责人之一、普林斯顿大学博士柴文浩也向 DeepTech 表示,Gemini 3 的进步称得上是“领先了一个代差”,“方方面面都非常强悍”。


(来源:LiveCodeBench Pro)

为了配合 Gemini 3 的发布,Google 同时推出了一个名为 Antigravity 的全新开发平台。Antigravity 旨在让开发者从繁琐的编码细节中“悬浮”起来,在更高的任务层面操作。在这个平台上,智能体(agent)被提升到一个专门的界面,能够直接访问编辑器、终端和浏览器,自主规划和执行复杂的端到端软件任务,同时还能验证自己生成的代码。Antigravity 内置了最新的 Computer Use 模型(用于浏览器控制)和图像编辑模型 Nano Banana,构成了一个完整的智能体开发生态。

规划能力则体现在 Gemini 3 对长期任务的把控上。在 Vending-Bench 2 这个基准测试中,Gemini 3 需要经营一家模拟的自动售货机生意整整一年,在这个过程中保持一致的工具使用和决策,不偏离任务目标,最终产生更高的回报。这一过程实际上反映了现实世界中许多需要长期规划、中途调整策略的场景。对于 Google AI Ultra 订阅用户,一个名为 Gemini Agent 的新功能已经上线,可以帮助处理诸如预订本地服务、整理 Gmail 收件箱等多步骤工作流程。


(来源:Google)

纵览目前各大厂商的模型,相比于 Claude 那样明确聚焦编程,和 GPT-5 那样强调统一架构,Gemini 3 的策略显然是求全,试图在推理、多模态、编程、长上下文等各个维度都达到顶尖水平。这种“全能选手”可能在某些特定任务上面临激烈竞争,但 Google 有一张王牌:生态整合。

这种生态优势首先体现在硬件基础设施上。Gemini 3 基于 Google 最新的 Trillium TPU(Tensor Processing Unit,张量处理单元)芯片训练,这是 Google 自研的 AI 专用处理器的第六代产品。每颗 Trillium 芯片可提供 512 TOPS(万亿次运算每秒)的 AI 算力,相比上一代 TPU v5e 性能提升了 4 倍,而能耗却降低了 67%。这种从底层硅片到上层模型的垂直整合,让 Google 能够针对自家模型特点优化硬件设计,反过来也让模型训练更加高效,这是 OpenAI 依赖英伟达 GPU、Anthropic 租用云计算资源目前所难以企及的优势。

在软件和服务层面,Gemini 3 同步登陆 Google 搜索的 AI 模式、Gemini 应用、AI Studio、Vertex AI 以及 Antigravity 平台。特别是此次更新的 AI 模式搜索,能够做到根据查询动态生成沉浸式视觉布局、交互工具和模拟器,将搜索从“寻找信息”提升到“理解信息”。当你搜索“RNA 聚合酶如何工作”时,不再是一堆静态链接,而是交互式的动画演示和可操作的模拟器——这是只有掌控搜索入口的 Google 才能做到的整合。

在发布后不久的采访中,DeepMind CEO 德米斯·哈萨比斯就表示,Gemini 3 在推理能力上实现了“显著的跨越”。但他同时强调,Google 的野心远不止于此。在通往 AGI(通用人工智能)的道路上,Google 正在“深入个性化、记忆和语境(Context)”。哈萨比斯认为,正是通过与 Gmail、日历以及整个 Google 生态系统的深度连接,AI 助手才能在 AGI 正式到来之前,就已经变得“真正不可或缺”。

参考资料:

https://blog.google/products/gemini/gemini-3/#note-from-ceo

https://x.com/rowancheung/status/1990814463428059597

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
11月,深圳又一家精密大厂宣布停止经营了

11月,深圳又一家精密大厂宣布停止经营了

微微热评
2025-11-19 13:44:44
在爱泼斯坦案件中躺枪的金刻羽,学术水平到底如何?

在爱泼斯坦案件中躺枪的金刻羽,学术水平到底如何?

爆角追踪
2025-11-19 14:35:56
杨瀚森单场9分超越周琦和孙悦,排在中国球员NBA单场得分榜第5

杨瀚森单场9分超越周琦和孙悦,排在中国球员NBA单场得分榜第5

懂球帝
2025-11-19 14:53:08
霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

手工制作阿歼
2025-11-19 09:56:53
2岁不丹小公主戴黄金发箍蜜蜡项链,撒娇比心,难怪王后为她封肚

2岁不丹小公主戴黄金发箍蜜蜡项链,撒娇比心,难怪王后为她封肚

夜深爱杂谈
2025-11-15 21:40:30
林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

热闹吃瓜大姐
2025-11-17 19:59:42
四川省人民政府发布一批人事任免,涉厅级领导职务

四川省人民政府发布一批人事任免,涉厅级领导职务

爱看头条
2025-11-19 22:03:05
李晨洋获全运男子撑杆跳金牌

李晨洋获全运男子撑杆跳金牌

体坛周报
2025-11-19 22:07:12
贪欲膨胀!广东中山市原民众镇党委委员、副镇长顾湛宽被“双开”

贪欲膨胀!广东中山市原民众镇党委委员、副镇长顾湛宽被“双开”

鲁中晨报
2025-11-19 11:18:07
甲流杀疯了!中年扛5天丢命,医生喊停3种饭,做好2件事能救命

甲流杀疯了!中年扛5天丢命,医生喊停3种饭,做好2件事能救命

荷兰豆爱健康
2025-11-18 07:03:47
终于,一场对网贷高利贷的严控要来了!

终于,一场对网贷高利贷的严控要来了!

深度报
2025-11-17 22:51:13
黑豆立大功!调查发现:黑豆可能对这4种慢性病有好处!可以常吃

黑豆立大功!调查发现:黑豆可能对这4种慢性病有好处!可以常吃

读懂世界历史
2025-11-19 16:28:51
俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

我心纵横天地间
2025-11-18 20:07:05
小罗回忆狱中经历:我以为他们会打我,结果在那里玩得还不错

小罗回忆狱中经历:我以为他们会打我,结果在那里玩得还不错

懂球帝
2025-11-19 21:25:10
冻了30年才发现,这些离谱但超好用的“过冬神器”,以前白挨冻了

冻了30年才发现,这些离谱但超好用的“过冬神器”,以前白挨冻了

室内设计师有料儿
2025-11-17 13:10:54
全世界找不出第二个国家,能把所有邻国都得罪遍,还都是领土问题

全世界找不出第二个国家,能把所有邻国都得罪遍,还都是领土问题

扶苏聊历史
2025-11-18 17:47:25
乌军大捷,俄没钱的时候战争就会停止

乌军大捷,俄没钱的时候战争就会停止

难得君
2025-11-16 16:47:26
男女食堂里亲热:肮脏画面流出,全过程披露,女方一动作令人作呕

男女食堂里亲热:肮脏画面流出,全过程披露,女方一动作令人作呕

博士观察
2025-11-19 10:45:17
北京发布22名干部任前公示

北京发布22名干部任前公示

新京报
2025-11-19 22:08:10
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

凡知
2025-11-19 21:28:17
2025-11-19 23:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15877文章数 514311关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

教育
艺术
游戏
数码
房产

教育要闻

体测全员满分!人航校长周建华:AI赋能,让体育教学精准高效

艺术要闻

启功:我是画家,但书名超过了画名

《33号远征队》总监大力称赞《失落的奥德赛》

数码要闻

华为MatePad Edge现场体验丨鸿蒙二合一平板电脑

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

无障碍浏览 进入关怀版