网易首页 > 网易号 > 正文 申请入驻

谷歌全新AI模型Gemini 3发布:宣称“全球最智能模型”,多项基准登顶

0
分享至


当地时间11月18日,Alphabet旗下的谷歌正式推出Gemini 3系列模型。Gemini 3 Pro已于即日起在Gemini应用、Search AI Mode、AI Studio、Vertex AI以及全新代理式开发平台Google Antigravity中开放预览。

性能全面跃升:多项前沿基准测试夺冠


谷歌表示,Gemini 3 Pro在推理与多模态能力上实现了“前所未有的深度与细腻度”,并在几乎所有主流AI基准上全面超越前代2.5 Pro。它以1501 Elo(Elo评分体系,用于衡量模型在盲测对战中的相对实力)的突破性成绩登顶LMArena榜单,在“人类终极考试”(Humanity’s Last Exam)中取得37.5%(无工具)成绩,并在高难度科学推理测试GPQA Diamond中拿下91.9%的顶级表现。

在数学方面,Gemini 3 Pro再次刷新前沿模型记录,以23.4%的成绩夺得MathArena Apex新高,显示出其在结构化逻辑思维与复杂计算上的强势提升。

作为一款完全多模态的基础模型,Gemini 3 Pro在视觉和视频理解同样创下新纪录:多模态大考MMMU-Pro得分81%,视频推理基准Video-MMMU得分87.6%,均创当前SOTA。在强调事实一致性的SimpleQA Verified中,它也以72.1%的成绩领先同类模型。

谷歌称,这些能力意味着Gemini 3 Pro可以在科学、数学、工程等高复杂度任务中提供更可靠的分析与建议,并在日常交互中给出“更直接、更有洞察力”的回应。

除了在多项基准测试中刷新纪录外,Gemini 3 Pro也为每一次交互带来了全新的深度与细腻度。谷歌表示,新模型的回答更加聪明、简洁且直截了当,避免陈词滥调和无谓的恭维,更倾向于提供具有洞见的结论与判断——“告诉你需要知道的,而不是你想听的”。

这一代模型更像一个真正的思考伙伴。它能够帮助用户以全新的方式理解信息和表达观点,例如将晦涩难懂的科学概念转译为高保真的可视化代码,或在创作、规划等场景中进行更具启发性的头脑风暴。谷歌强调,这种“深度交互体验”是Gemini 3 Pro在推理与多模态能力跃升后的自然结果,使其在专业分析与日常创意任务中都表现得更加可靠而富有洞察力。

Gemini 3 Deep Think:推理能力进一步跃升


谷歌同步预览了增强版Gemini 3 Deep Think。该模型进一步突破了智能边界,在Gemini 3的推理和多模态理解能力上实现了阶跃式提升,能够帮助用户解决更为复杂的问题。

Gemini 3 Deep Think在极难测试中再次刷新记录:Humanity’s Last Exam提升至41%(无工具),GPQA Diamond提升至93.8%,并在核心AGI测试ARC-AGI-2(带代码执行、官方验证)中获得前所未有的45.1%。谷歌称该模式代表其在自主推理与新颖任务解决能力上的重大突破。

Gemini 3系列模型的发布规划

谷歌表示,Gemini 3的推出只是新一代模型周期的起点。自发布起,Gemini 3已开始在不同产品与平台中分阶段上线:

·面向普通用户:Gemini应用已全面接入新模型;Google AI Pro与Ultra用户也可在谷歌搜索的AI Mode中直接体验。

·面向开发者:Gemini 3已同步登陆Gemini API、AI Studio,以及全新的智能体开发平台Google Antigravity,并可通过Gemini CLI使用。

·面向企业客户:Vertex AI与Gemini Enterprise现已支持Gemini 3部署,覆盖更多企业级应用场景。

对于高阶版本Gemini 3 Deep Think,谷歌强调正在进行额外的安全审查,并收集来自独立安全团队的反馈,预计将在未来几周向Google AI Ultra用户开放

谷歌同时透露,未来将陆续推出更多Gemini 3系列模型,以扩展其在不同场景下的能力与覆盖范围。“我们期待看到用户使用 Gemini 在学习、构建与规划中解锁更多可能性。”

演示环节:多模态推理、代码生成与视觉理解的全面展示

在发布现场,谷歌展示了一系列基于Gemini 3的实时演示,覆盖学习、构建与视觉分析等核心场景,重点体现其在多模态理解、跨介质推理以及端到端代码生成方面的跃升能力。


Gemini 3生成的生成带有封面与章节导航的数字化家庭食谱电子书

在学习场景的展示中,Gemini 3通过多模态处理能力展现出强大的信息整合能力。谷歌工程师向模型上传了一张带有折痕与油渍的手写家族食谱照片。Gemini 3能够准确识别并翻译不同语言的笔迹,再将内容自动排版,生成带有封面与章节导航的数字化家庭食谱电子书。


Gemini 3生成的RNA聚合酶结构与运动流程等交互式动画截图

随后,演示切换到科研学习场景:面对超40页的PDF学术论文与一段长时教学视频,Gemini 3一次性提取核心理论,生成变量关系图,并编写可执行的可视化代码,实时绘制出如RNA聚合酶结构与运动流程等交互式动画,同时自动产出可点击的学习闪卡与结构化学习指南。


Gemini 3在运动训练中展示其视觉理解与动作分析能力

在运动训练演示中,Gemini 3则展示其视觉理解与动作分析能力。模型对一段匹克球比赛视频进行逐帧解析,在画面中叠加挥拍角度轨迹、移动路径热力图以及失误动作标注,并基于分析结果给出专业训练建议与改进计划,类似一位具备视频分析能力的体育教练。


基于Gemini 3的Search AI Mode生成式界面

谷歌还首次展示了基于Gemini 3的Search AI Mode生成式界面。用户搜索“RNA 聚合酶如何工作?”时,系统会即时生成沉浸式、互动式的可视化布局,包括结构模型、工作模拟和可操控的动态图示,使复杂概念以全新方式呈现。


Gemini 3可用简单提示生成3D太空射击游戏

在构建类演示中,Gemini 3展示出面向开发者的强大代码生成能力。工程师仅以简短提示,即可让模型从零生成一个带有光影效果的 3D 太空射击游戏,包括可操控飞船、实时渲染场景与完整游戏逻辑。


Gemini 3生成的复杂3D voxel像素结构

Gemini 3还可根据自然语言描述生成复杂的3D voxel像素结构,支持自动拆解与重混,并能构建带有自定义shader的可探索科幻世界。谷歌表示,这些能力体现了 Gemini 3 在自主编码(agentic coding)与零样本生成方面的显著提升。

整场演示显示,Gemini 3 在理解文本、图像、视频与代码方面的能力已能支撑多类端到端工作流程,从数字化家庭记忆、科研学习到内容创作与应用开发,呈现出显著的灵活性与实用价值。

推出全新的“智能体优先”开发体验


随着Gemini 3模型智能能力的跃升,谷歌认为开发者体验正迎来一次被彻底重塑的机会。此次发布中,谷歌同步推出了面向未来“智能体开发环境”的Google Antigravity平台,让开发者能够以更高层次、更任务导向的方式进行软件构建。

借助Gemini 3的高级推理、工具使用能力与智能体编码(agentic coding)能力,Google Antigravity将AI从传统意义上“开发者工具箱中的一个工具”,提升为能够主动协作的开发伙伴。虽然 Antigravity的核心界面仍保留了AI IDE的常见形态,但平台为AI智能体提供了专属工作空间,并赋予其对编辑器、终端与浏览器的直接访问权限。开发者可以让这些智能体自主规划并执行复杂且端到端的软件任务,包括多步骤流程的并行执行与代码自我验证。

除了Gemini 3 Pro之外,Google Antigravity还与谷歌的Gemini 2.5 Computer Use(用于浏览器操作)以及图像编辑模型Nano Banana(Gemini 2.5 Image)深度集成,为自动化开发和跨工具操作提供更强支持。

规划能力:长链推理与自动化执行的大幅增强


Gemini 3在长链任务规划方面取得明显提升

在智能体能力不断增强的背景下,Gemini 3 在长链任务规划方面也取得了明显提升。谷歌指出,自Gemini 2引入“agentic”概念以来,团队持续强化模型的自主编码和任务执行能力,而Gemini 3则在更长时间尺度上的决策一致性上迈出关键一步。

在最新的Vending-Bench 2基准中,Gemini 3 Pro登顶榜首。该测试模拟经营一项自动售货机业务,要求模型在长达一年的虚拟运营周期内进行定价、补货、策略调整等决策。Gemini 3 Pro在整个过程中保持稳定的工具调用和策略一致性,不偏离任务目标,并最终获得明显高于其他前沿模型的整体收益。

谷歌表示,这意味着Gemini 3在现实生活中的“任务执行”能力也显著增强。通过更深的推理能力和更可靠的工具使用能力,模型能够在用户授权下完成更复杂的多步骤工作流,例如自动预订本地服务或整理电子邮箱,并从流程开始到结束保持连贯执行。

目前,Google AI Ultra用户已经可以在Gemini应用中试用这些智能体能力,包括由 Gemini Agent驱动的Gmail自动整理功能。谷歌称,随着相关能力不断完善,公司计划将其扩展至更多谷歌产品线。

附:Alphabet兼谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)的寄语

将近两年前,谷歌开启了Gemini时代,这是公司有史以来规模最大、影响最深远的科学与产品项目之一。此后,用户对它的喜爱超出了预期。AI Overviews每月活跃用户已达20亿,Gemini应用月活跃用户超过6.5亿,超过70%的谷歌云客户正在使用我们的 AI 服务,已有1300万开发者基于我们的生成式模型进行开发。这些仅仅是我们观察到影响力的冰山一角。

凭借在AI创新方面的全栈优势,包括领先的基础设施、世界一流的研究、模型与工具链,以及触达全球数十亿用户的终端产品,我们得以以前所未有的速度将前沿能力推向全世界。

每一代Gemini都在前一代的基础上持续进化,使用户能够实现更多可能。Gemini 1 实现了原生多模态和超长上下文窗口的突破,极大拓展了可处理的信息种类与规模。Gemini 2为代理能力奠定基础,并在推理与思考维度上大幅提升,帮助用户应对更复杂的任务与想法。Gemini 2.5 Pro在LMArena榜单上连续六个月稳居榜首。

今天,我们正式推出Gemini 3,这一代模型是迄今为止最智能的Gemini,将系列所有能力融为一体,帮助用户将任何想法转化为现实。Gemini 3在推理能力上达到全新高度,能够深刻把握细微差别与深层含义,无论是捕捉创意中的微妙线索,还是剖析复杂问题的多层结构。

它能够更精准地理解用户上下文与真实意图,使用户只需提供更少提示便能获得所需结果。短短两年时间,AI 已从单纯“读懂文字和图片”进化为能够理解场景和氛围的智能体。

从今天起,谷歌将以全球规模全面推送Gemini 3,包括在搜索的AI Mode中引入Gemini 3,以支持更复杂的推理和全新动态体验,这也是首次在发布当天将模型部署到搜索中。

同时,Gemini 3也在Gemini应用、开发者平台AI Studio、Vertex AI以及全新智能体开发平台Google Antigravity上同步上线。

与前几代模型一样,Gemini 3再次刷新了业界最先进水平。谷歌将持续推动智能、智能体能力和个性化的突破,致力于让AI成为每个人的得力助手。我们期待用户借助 Gemini 3创造出更多精彩作品,同时也将继续迭代优化,为未来带来更多惊喜。(文/腾讯科技特约编译无忌,编辑/阿肯

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家社科基金神成果:男人阴茎越短,智商越高

国家社科基金神成果:男人阴茎越短,智商越高

尚曦读史
2025-11-19 10:33:10
宝马X4才跑一年多,四条轮胎均出现龟裂 4S店:经检测存在老化,非轮胎品质问题

宝马X4才跑一年多,四条轮胎均出现龟裂 4S店:经检测存在老化,非轮胎品质问题

大风新闻
2025-11-17 18:00:05
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
南极游发全员信引吐槽,俞敏洪乘坐的邮轮被曝入住价最高约148万元

南极游发全员信引吐槽,俞敏洪乘坐的邮轮被曝入住价最高约148万元

界面新闻
2025-11-19 10:20:20
中日谈判完毕,日本官员灰溜溜离场,高市危机升级!美国撤导弹!

中日谈判完毕,日本官员灰溜溜离场,高市危机升级!美国撤导弹!

时时有聊
2025-11-18 21:01:34
赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

翻开历史和现实
2025-11-19 12:51:46
日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

之乎者也小鱼儿
2025-11-19 15:50:30
可耻的是,捅郭伟马蜂窝的是个学生

可耻的是,捅郭伟马蜂窝的是个学生

关尔东
2025-11-19 17:13:25
网红“橙子姐姐”柬埔寨失联?柬方:因涉嫌网络诈骗和跨境贩运人口被警方逮捕

网红“橙子姐姐”柬埔寨失联?柬方:因涉嫌网络诈骗和跨境贩运人口被警方逮捕

红星新闻
2025-11-19 16:18:09
遗憾!吴艳妮给自己打0分:跑出赛季最佳+只能拿第2 3战全运0金牌

遗憾!吴艳妮给自己打0分:跑出赛季最佳+只能拿第2 3战全运0金牌

风过乡
2025-11-19 22:05:53
泰国王后这一跪,这才是顶级外交,她拜的不是佛,是两国的情谊

泰国王后这一跪,这才是顶级外交,她拜的不是佛,是两国的情谊

井普椿的独白
2025-11-19 12:32:41
前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

不掉线电波
2025-11-19 16:31:08
特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

时时有聊
2025-11-19 16:51:16
预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

大风新闻
2025-11-19 16:31:04
中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

纵相新闻
2025-11-19 15:05:03
特朗普张口就来:中国拿着我们给的7220亿造军舰,养活了中国军队

特朗普张口就来:中国拿着我们给的7220亿造军舰,养活了中国军队

博览历史
2025-11-18 23:08:12
荷兰政府:已暂停对安世半导体的干预

荷兰政府:已暂停对安世半导体的干预

半导体产业纵横
2025-11-19 18:27:31
大批中国人依然执意去日本旅游,被日媒追问后,他们的回答太扎心

大批中国人依然执意去日本旅游,被日媒追问后,他们的回答太扎心

以茶带书
2025-11-19 12:26:38
史林子出轨对方前妻放锤!称其介入导致离婚,暧昧聊天记录曝光

史林子出轨对方前妻放锤!称其介入导致离婚,暧昧聊天记录曝光

萌神木木
2025-11-19 17:09:01
广东模特冠军的事,后续更加劲爆!

广东模特冠军的事,后续更加劲爆!

麦杰逊
2025-11-19 15:31:05
2025-11-20 01:11:00
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
182文章数 20057关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

数码
本地
健康
教育
公开课

数码要闻

Apple Watch Ultra 3、S11钛金属表壳怎么做的?苹果官方揭秘!

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

警惕超声报告这六大"坑"

教育要闻

1:1.5的比例录取是多少

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版