网易首页 > 网易号 > 正文 申请入驻

Gemini 3 终于来了!登顶LMArena,碾压所有基准

0
分享至

终于,千呼万唤之下,历经多次“预告”过后,Gemini 3 终于来了。

北京时间 11 月 19 日凌晨,Google 正式发布了其最新一代人工智能模型 Gemini 3。这款被 CEO 桑达尔·皮查伊(Sundar Pichai)称为“最智能模型”的产品,在发布前就已经在业界掀起了不小的波澜。事实上,早在10 月中旬,就有爆料称 Gemini 3 将在 10 月 22 日登场,但那次“狼来了”的传言最终没有兑现。


(来源:Google)

到了 11 月中旬,又有敏锐的开发者在移动端 Canvas 功能中发现了端倪:尽管界面显示仍是 Gemini 2.5 Pro,但输出质量已经发生了质的飞跃,特别是在 SVG(Scalable Vector Graphics,可缩放矢量图形)生成和网页设计方面,效果远超此前版本。

直到 AI Studio 和 Vertex AI 平台上开始隐约出现 Gemini 3 的踪迹,业界才意识到,这次是真的要来了。而现在,靴子终于落地。

此刻距离 Google 首次推出 Gemini 品牌已经过去近两年。相较于早期的慌乱和匆忙,这一次,Google 显然做足了准备。Gemini 3 的发布不再是试探性的小步快跑,而是一次全面的、自信的大规模推送——这是 Google 第一次在发布当天就将最新的 Gemini 模型整合进搜索引擎。用 Google 搜索产品副总裁罗比·斯坦(Robby Stein)的话说:“这是我们第一次在搜索中同步发布最新的 Gemini 模型。”对于一家以搜索起家、拥有数十亿用户的科技巨头而言,这一决策足以说明其对于新模型的自信。

这款稀疏混合专家(sparse MoE, Mixture-of-Experts)架构模型的核心卖点可以用 Google 自己的话来概括:“我们最智能的模型, 帮助你将任何想法变为现实。”

从各项基准测试的结果来看,Gemini 3 确实配得上我们这么久的期待。在 LMArena 排行榜上,它以 1501 分的 ELO 评级登顶。在学术界用来测试 AI 系统是否具备博士级推理能力的“人类最后的考试”(Humanity's Last Exam)中,Gemini 3 在不使用任何工具的情况下达到了 37.5% 的准确率;而在考察研究生水平科学问题理解能力的 GPQA Diamond 基准测试中,它的得分更是高达 91.9%。此外,在专门考察高难度数学问题求解的 MathArena Apex 测试中,Gemini 3 取得了 23.4% 的成绩,刷新了前沿模型在这一领域的纪录。


图丨Gemini 3 的基准测试结果(来源:Google)

多模态能力是 Gemini 系列的传统强项,而 Gemini 3 将这一优势进一步扩大。在 MMMU-Pro(大规模多学科多模态理解)测试中,Gemini 3 得分 81%,在 Video-MMMU(视频多模态理解)中更是达到 87.6%,这两项指标都显著超越了竞争对手。

在 SimpleQA Verified 这一事实准确性测试中,Gemini 3 Pro 达到 72.1%,表明其在事实准确性方面也有长足进步,这对于实际应用场景至关重要。

Google 还推出了一个更强大的变体:Gemini 3 Deep Think。这是一个增强推理模式,旨在将 Gemini 3 的性能推向更高的高度。在测试中,Deep Think 模式在 Humanity's Last Exam 中达到 41.0%(不使用工具),在 GPQA Diamond 中达到 93.8%,在 ARC-AGI-2(Abstraction and Reasoning Corpus,抽象与推理语料库)中更是创下了 45.1% 的成绩。不过,Deep Think 模式目前还不能立即使用。Google 表示,这一模式正在进行额外的安全评估,并征求安全测试员的意见,预计在未来几周内向 Google AI Ultra 订阅用户开放。


(来源:Google)

除了这些性能的提升,Google 还特意强调了模型“性格”的转变。Gemini 3 的回应被设计得更加“聪明、简洁、直接,用真知灼见取代陈词滥调和阿谀奉承。告诉你需要听的,而不只是你想听的”。长期以来,为了追求所谓的安全与对齐,许多大模型患上了一种名为“Sycophancy”(阿谀奉承)的通病,即无底线地顺从用户的错误前提,或者给出模棱两可的废话。Gemini 系列此前在这一问题上似乎尤其明显,以至于许多网友戏称 Gemini 非常“自卑”,而 Google 这一次似乎下定决心要矫正这一点。

在具体应用场景上,谷歌着重强调了三个方向:“学习任何东西”、“构建任何东西”和“规划任何东西”。

在学习领域,依托 1 百万 token 的上下文窗口 (相当于约 75 万个单词), Gemini 3 可以处理长篇学术论文、多小时的视频讲座, 并将其转化为交互式学习材料。例如,它能够解析不同语言的手写食谱并生成可分享的家庭食谱书,可以将学术论文和视频讲座转化为交互式闪卡和可视化图表,甚至可以分析你的匹克球比赛视频,识别需要改进的地方并生成训练计划。

构建能力是 Gemini 3 最被看好的领域。在 WebDev Arena 排行榜上 1487 的 Elo 评分,在 Terminal-Bench 2.0(测试通过终端操作计算机的能力)上 54.2% 的得分,尤其是在 SWE-bench Verified 上 76.2% 的表现,都显示出这是一个在编程方面极具竞争力的模型。Google 称其为“我们打造过的最好的氛围编程(vibe coding)和智能体编程模型”。在奥赛级编程基准测试LiveCodeBench Pro 上,Gemini 3 拿下了 2439 的最高分数,比第二名 GPT-5.1-high 高了近 200 分。

LiveCodeBench Pro 团队的负责人之一、普林斯顿大学博士柴文浩也向 DeepTech 表示,Gemini 3 的进步称得上是“领先了一个代差”,“方方面面都非常强悍”。


(来源:LiveCodeBench Pro)

为了配合 Gemini 3 的发布,Google 同时推出了一个名为 Antigravity 的全新开发平台。Antigravity 旨在让开发者从繁琐的编码细节中“悬浮”起来,在更高的任务层面操作。在这个平台上,智能体(agent)被提升到一个专门的界面,能够直接访问编辑器、终端和浏览器,自主规划和执行复杂的端到端软件任务,同时还能验证自己生成的代码。Antigravity 内置了最新的 Computer Use 模型(用于浏览器控制)和图像编辑模型 Nano Banana,构成了一个完整的智能体开发生态。

规划能力则体现在 Gemini 3 对长期任务的把控上。在 Vending-Bench 2 这个基准测试中,Gemini 3 需要经营一家模拟的自动售货机生意整整一年,在这个过程中保持一致的工具使用和决策,不偏离任务目标,最终产生更高的回报。这一过程实际上反映了现实世界中许多需要长期规划、中途调整策略的场景。对于 Google AI Ultra 订阅用户,一个名为 Gemini Agent 的新功能已经上线,可以帮助处理诸如预订本地服务、整理 Gmail 收件箱等多步骤工作流程。


(来源:Google)

纵览目前各大厂商的模型,相比于 Claude 那样明确聚焦编程,和 GPT-5 那样强调统一架构,Gemini 3 的策略显然是求全,试图在推理、多模态、编程、长上下文等各个维度都达到顶尖水平。这种“全能选手”可能在某些特定任务上面临激烈竞争,但 Google 有一张王牌:生态整合。

这种生态优势首先体现在硬件基础设施上。Gemini 3 基于 Google 最新的 Trillium TPU(Tensor Processing Unit,张量处理单元)芯片训练,这是 Google 自研的 AI 专用处理器的第六代产品。每颗 Trillium 芯片可提供 512 TOPS(万亿次运算每秒)的 AI 算力,相比上一代 TPU v5e 性能提升了 4 倍,而能耗却降低了 67%。这种从底层硅片到上层模型的垂直整合,让 Google 能够针对自家模型特点优化硬件设计,反过来也让模型训练更加高效,这是 OpenAI 依赖英伟达 GPU、Anthropic 租用云计算资源目前所难以企及的优势。

在软件和服务层面,Gemini 3 同步登陆 Google 搜索的 AI 模式、Gemini 应用、AI Studio、Vertex AI 以及 Antigravity 平台。特别是此次更新的 AI 模式搜索,能够做到根据查询动态生成沉浸式视觉布局、交互工具和模拟器,将搜索从“寻找信息”提升到“理解信息”。当你搜索“RNA 聚合酶如何工作”时,不再是一堆静态链接,而是交互式的动画演示和可操作的模拟器——这是只有掌控搜索入口的 Google 才能做到的整合。

在发布后不久的采访中,DeepMind CEO 德米斯·哈萨比斯就表示,Gemini 3 在推理能力上实现了“显著的跨越”。但他同时强调,Google 的野心远不止于此。在通往 AGI(通用人工智能)的道路上,Google 正在“深入个性化、记忆和语境(Context)”。哈萨比斯认为,正是通过与 Gmail、日历以及整个 Google 生态系统的深度连接,AI 助手才能在 AGI 正式到来之前,就已经变得“真正不可或缺”。

参考资料:

https://blog.google/products/gemini/gemini-3/#note-from-ceo

https://x.com/rowancheung/status/1990814463428059597

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中东最大港口暂停运营

中东最大港口暂停运营

时间财经
2026-03-02 16:17:05
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

荆医生科普
2026-02-28 23:05:03
关窗!关窗!即将抵达江苏

关窗!关窗!即将抵达江苏

最江阴
2026-03-02 14:33:29
演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

乐悠悠娱乐
2026-03-01 10:27:25
美以刺杀伊朗最高领袖和总统失败

美以刺杀伊朗最高领袖和总统失败

财联社
2026-02-28 18:48:32
美以袭击致伊朗555人死亡

美以袭击致伊朗555人死亡

财联社
2026-03-02 16:29:05
A股:大家要做好心理准备,明天(3月3日),股市或将这样变化

A股:大家要做好心理准备,明天(3月3日),股市或将这样变化

财经大拿
2026-03-02 14:09:44
内贾德死亡真相

内贾德死亡真相

哲空空
2026-03-02 07:50:14
明星过年大型 “卸妆现场”!全员恢复出厂设置,最接地气竟是他

明星过年大型 “卸妆现场”!全员恢复出厂设置,最接地气竟是他

艺能八卦局
2026-03-01 09:00:30
巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

阿讯说天下
2026-03-01 14:33:45
难以置信!网传深圳一数学名师一年靠补课能挣500万,一节课900元

难以置信!网传深圳一数学名师一年靠补课能挣500万,一节课900元

火山詩话
2026-03-02 09:07:10
记者:上海队延长李弘权假期,让新晋奶爸享受初为人父的喜悦

记者:上海队延长李弘权假期,让新晋奶爸享受初为人父的喜悦

懂球帝
2026-03-02 14:20:07
白宫紧急叫停,伊朗不战而胜,美专家:特朗普还有另一场硬仗要打

白宫紧急叫停,伊朗不战而胜,美专家:特朗普还有另一场硬仗要打

兵说
2026-03-01 21:13:28
一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

流苏晚晴
2026-03-01 16:54:18
伊朗发出警告:如果伊朗石油和天然气设施遭袭击,作为回应,该地区所有国家的油气设施都将被摧毁

伊朗发出警告:如果伊朗石油和天然气设施遭袭击,作为回应,该地区所有国家的油气设施都将被摧毁

大象新闻
2026-03-02 15:50:38
国际金价节节攀升 多家金店暂停投资金条销售 “预计短期内不会再销售投资金条”

国际金价节节攀升 多家金店暂停投资金条销售 “预计短期内不会再销售投资金条”

每日经济新闻
2026-03-02 18:00:18
再年轻也没用!江苏22岁樊宸铄去世,死因曝光,母亲含泪写悼文!

再年轻也没用!江苏22岁樊宸铄去世,死因曝光,母亲含泪写悼文!

阿纂看事
2026-03-01 16:52:47
外交部:一名中国公民在德黑兰遇难 ,对遇难同胞表示哀悼

外交部:一名中国公民在德黑兰遇难 ,对遇难同胞表示哀悼

每日经济新闻
2026-03-02 17:20:01
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

混沌录
2026-03-02 17:15:04
2026-03-02 20:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16346文章数 514695关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普称对伊行动还要打四周 学者:达成目标需"补枪"

头条要闻

特朗普称对伊行动还要打四周 学者:达成目标需"补枪"

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

本地
旅游
时尚
艺术
公开课

本地新闻

津南好·四时总相宜

旅游要闻

火龙巡夜,花灯入梦:在韶关湾头古村,看见四百年的中式浪漫

推广|| 春天第一双鞋!暴走不累、搭遍好看小裙子

艺术要闻

简约的风景画,美国画家Ben Bauer作品

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版