网易首页 > 网易号 > 正文 申请入驻

全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

0
分享至


智东西
作者 程茜
编辑 心缘

智东西11月19日报道,今天凌晨,谷歌最强推理模型Gemini 3终于亮相,一个模型囊括了原生多模态、推理、Agent多种能力

谷歌DeepMind研究团队称,这是全球最先进的多模态理解模型、谷歌最强大的Agent编程和氛围编程模型,能呈现更丰富的可视化效果和更深度的交互体验,且完全构建于最先进的推理技术基础之上。

该模型基于谷歌TPU进行训练,支持100万个token的上下文窗口,适用于需要以下功能的应用:Agent、高级编程、长上下文、多模态理解、算法开发。

刚一发布,Gemini 3就几乎屠榜所有评测集,以1501 Elo得分位列LMArena大模型竞技场第一


OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)和xAI创始人、CEO埃隆·马斯克(Elon Musk)纷纷向谷歌发来“贺信”。阿尔特曼发推评价“Gemini 3看起来很不错”,谷歌CEO桑达尔·皮查伊(Sundar Pichai)用了个表情包回复。


马斯克转发了谷歌DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)的推文称“干得不错”。


今天起,谷歌将在以下平台部署Gemini 3:

适用于Gemini应用的所有用户,以及在搜索的AI模式中使用Google AI Pro和Ultra订阅服务的用户;适用于Gemini API中的开发者、谷歌全新Agent开发平台Antigravity的开发者,以及Gemini CLI的开发者;适用于Vertex AI平台与Gemini企业版的企业用户

此外,谷歌将在未来几周向Google AI Ultra订阅者开放Gemini 3的深度思考模式,目前其还在进行安全评估。

对于Gemini 3的发布,皮查伊认为,这一模型可以让用户的任何想法变为现实

一、分分钟造出交互游戏、App,还能帮你学新知识

先来看下Gemini 3 Pro能做什么。

Gemini 3能编写托卡马克装置中等离子体流的可视化代码,并创作捕捉核聚变物理原理的诗歌。

如果用户想学习家族传统烹饪,Gemini 3可以解读并翻译不同语言的手写食谱,制作成可共享的家庭食谱。

或者如果用户想学习一个新话题,可以给Gemini 3输入学术论文、长视频讲座或教程,它还能生成交互式抽认卡、可视化或其他格式的代码,帮助用户掌握这些内容。


Gemini 3还可以分析用户的匹克球比赛视频,找出可以改进的地方,并生成整体动作提升的训练计划。


AI搜索模式下,Gemini 3能学习复杂主题内容,如借助搜索功能中AI模式的生成式用户界面,学习像RNA聚合酶作用机制这类复杂知识点。值得一提的是,这也是谷歌首次在模型发布首日,就将新模型直接集成至AI搜索功能中。


Gemini 3可以编写拥有丰富可视化界面和互动性的复古3D飞船游戏。

该模型通过代码构建、解构和重新创作精细的3D体素艺术,能让用户的想象变为现实。

Gemini 3能使用着色器创建可玩的科幻世界。


其还可以生成更具实用性的元素丰富的互动性网页和App。

二、屠榜评测集,刷新大模型能力天花板

再来看下Gemini 3 Pro的基准测试结果。

谷歌博客提到,Gemini 3 Pro在一系列基准测试中进行了评估,包括推理、多模态能力、Agent工具使用、多语言性能和长上下文,其在主要的AI基准测试中都远远优于Gemini 2.5 Pro,并以1501 Elo得分位列LMArena大模型竞技场第一


该模型展现出博士级推理能力,在“人类终极测试”(不使用任何工具情况下得分37.5%)和GPQA钻石级测试中均斩获最高分,在MathArena Apex测试中取得23.4%的最新顶尖成绩。

除了文本,Gemini 3 Pro在MMMU-Pro上获得了81%,在Video-MMMU上获得了87.6%的多模推理。它在SimpleQA Verify上也获得了最先进的 72.1%。

这意味着Gemini 3 Pro能够以高度可靠性解决涵盖科学和数学等广泛主题的复杂问题。

Gemini 3的深度思考和多模态理解能力更新,可以帮助用户解决更复杂的问题。测试中,Gemini 3 Deep Think在“人类终极测试”(未使用工具时为41.0%)和GPQA Diamond(93.8%)中表现优于Gemini 3 Pro。它在ARC-AGI-2(代码执行,ARC奖项认证)上取得了45.1%的成绩,均超过谷歌自家前代模型,以及OpenAI、Anthropic的模型


编程能力中,Gemini 3是谷歌迄今为止构建过的最佳氛围编程和Agent编程模型。

该模型以1487 Elo得分登顶WebDev竞技场排行榜。它在Terminal-Bench 2.0测试模型工具使用能力上,得分为54.2%,在衡量编程Agent能力的基准测试SWE-bench Verified上表现远超2.5 Pro。

开发者可以在Google AI Studio、Vertex AI、Gemini CLI以及谷歌全新的代理开发平台Google Antigravity中使用Gemini 3进行构建。它还支持第三方平台,如Cursor、GitHub、JetBrains、Manus、Replit等。

自Gemini 2以来,谷歌Gemini模型已经在Agent方面取得诸多进展,此次Gemini 3还登顶了Vending-Bench 2排行榜。该基准测试通过模拟自动售货机业务运营来考核模型的长期规划能力,其结果显示,Gemini 3 Pro在一整年的模拟运营中,始终保持稳定的工具使用和决策连贯性,既未偏离任务目标,又实现了更高收益


这意味着Gemini 3能帮助用户完成日常生活中的事务,如预约本地服务或整理收件箱等。


三、全新Agent开发平台亮相,实现端到端软件开发自动化

今天谷歌还发布了全新的Agent开发平台Google Antigravity

借助Gemini 3的高级推理、工具使用及Agent编程能力,谷歌Antigravity将AI辅助功能从开发者工具包里的一个工具,转变为积极主动的合作伙伴。

尽管谷歌Antigravity的核心仍是AI集成开发环境(AI IDE)体验,但其Agent已升级至专属界面,并能直接访问编辑器、终端和浏览器。如今,这些Agent可以自主规划并同步为开发者执行复杂的端到端软件任务,同时还能对自身代码进行验证。

除了Gemini 3 Pro,Google Antigravity还将结合谷歌最新的Gemini 2.5电脑使用浏览器模型,以及图像编辑模型Nano Banana

谷歌Antigravity借助Gemini 3,为航班追踪应用打造了端到端的Agent工作流。该Agent能够自主规划、编写应用代码,并通过基于浏览器的计算机操作来验证其执行效果。


最后谷歌还提到,Gemini 3是其迄今为止最安全的模型,并且经历了谷歌AI模型中最全面的安全评估。模型评测结果显示,其谄媚行为减少,对即时注射的抵抗力增强,并增强了对网络攻击滥用的防护。

从2023年12月Gemini模型发布至今已近两年:Gemini 1在原生多模态和长上下文窗口上的突破,扩展了可处理信息的种类以及处理量;Gemini 2可帮助用户处理更复杂的任务和想法,使Gemini 2.5 Pro的排名在LMArena中领先超过六个月。

如今,谷歌基于Gemini模型的搜索功能AI Overviews现在月活用户达到20亿,Gemini应用月活用户超过6.5亿,超过70%的云端客户使用谷歌AI功能,1300万开发者用其生成模型构建了作品。

结语:免费开放+性能飙升!Gemini 3搅动大模型竞争格局

谷歌Gemini 3相比前几代模型性能大幅提升,可以感知用户提示词中的细微线索及复杂问题,还能理解用户请求的背景和背后意图,让用户用更少的提示获得所需信息。谷歌博客提到,在Gemini 3发布的下一个新篇章中,他们将继续突破智能、Agent和个性化的前沿,让AI真正惠及所有人。

随着Gemini 3正式亮相,加之谷歌此次免费开放其使用权限,一场围绕大模型的新一轮行业竞争已全面打响。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张含韵的奶欲更勾人,36岁依旧童颜,身材却饱满成熟韵味满满

张含韵的奶欲更勾人,36岁依旧童颜,身材却饱满成熟韵味满满

TVB的四小花
2025-11-18 03:15:15
忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

起喜电影
2025-11-18 01:24:21
华为新折叠屏手机Mate X7玄武岩结构首曝:确立折叠屏耐用新基准

华为新折叠屏手机Mate X7玄武岩结构首曝:确立折叠屏耐用新基准

叮当当科技
2025-11-19 09:36:30
浙江:女子远嫁11年,如今离婚了,从始至终老公都看不上她娘家人

浙江:女子远嫁11年,如今离婚了,从始至终老公都看不上她娘家人

小霍霍
2025-11-18 13:48:34
交易回赵睿?赵睿表态,朱芳雨官宣:我觉得赵睿对广东非常有感情

交易回赵睿?赵睿表态,朱芳雨官宣:我觉得赵睿对广东非常有感情

乐聊球
2025-11-18 10:35:47
江苏一市纪委监委通报:李宏兴被查,涉嫌严重违纪违法

江苏一市纪委监委通报:李宏兴被查,涉嫌严重违纪违法

鲁中晨报
2025-11-19 07:44:05
美军的最后底牌,我军短期很难破解,未来台海之战或埋下重大隐患

美军的最后底牌,我军短期很难破解,未来台海之战或埋下重大隐患

芳芳历史烩
2025-11-01 19:35:58
辽宁男篮官宣韩德君王者归来,四大外援就位,目标总冠军

辽宁男篮官宣韩德君王者归来,四大外援就位,目标总冠军

无意争春
2025-11-19 07:23:05
医生建议:这种维生素可能让你的肾脏多活10年!很多人还不了解

医生建议:这种维生素可能让你的肾脏多活10年!很多人还不了解

涵豆说娱
2025-11-18 14:28:13
王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

舞指飞扬
2025-11-18 09:10:27
“首席科学家”郭某学历实为高中生?江苏科技大学通报

“首席科学家”郭某学历实为高中生?江苏科技大学通报

观察者网
2025-11-19 08:10:22
“太子集团”头目陈志被曝在日本买豪宅并成立3家公司,“以获得长期居留资格”

“太子集团”头目陈志被曝在日本买豪宅并成立3家公司,“以获得长期居留资格”

每日经济新闻
2025-11-18 16:15:33
停飞中国航班,拒绝中国游客,这个专和我国作对的小国,如今怎样

停飞中国航班,拒绝中国游客,这个专和我国作对的小国,如今怎样

安珈使者啊
2025-10-31 14:27:27
林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

热闹吃瓜大姐
2025-11-17 19:59:42
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
云南原副省长李石松受贿超1亿获刑15年:有重大立功表现被减轻处罚

云南原副省长李石松受贿超1亿获刑15年:有重大立功表现被减轻处罚

界面新闻
2025-11-18 17:34:56
未成年人驾兰博基尼深夜炸街,北京民警:拘了!

未成年人驾兰博基尼深夜炸街,北京民警:拘了!

BRTV新闻
2025-11-18 23:09:25
尺度惊艳,Netflix制作的3部成人动漫,太过瘾了

尺度惊艳,Netflix制作的3部成人动漫,太过瘾了

来看美剧
2025-10-12 21:22:41
落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

来科点谱
2025-11-17 09:05:36
过继到舅舅家后,杨志刚被从医大哥、经商二哥、导演三哥宠上天

过继到舅舅家后,杨志刚被从医大哥、经商二哥、导演三哥宠上天

书咚咚
2025-11-17 20:50:29
2025-11-19 10:55:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10758文章数 116900关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子被男友辱骂殴打后持刀刺胸口自杀 法院:男友无罪

头条要闻

女子被男友辱骂殴打后持刀刺胸口自杀 法院:男友无罪

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

时尚
游戏
房产
家居
军事航空

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

《Everdream Village》12月Steam抢测 3D农场经营

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

家居要闻

彰显奢华 意式经典风格

军事要闻

中方代表:日本毫无资格要求成为安理会常任理事国

无障碍浏览 进入关怀版