网易首页 > 网易号 > 正文 申请入驻

谷歌发布Gemini 3,AI竞赛转向比拼“执行力”

0
分享至

21世纪经济报道记者 董静怡

大模型领域的竞赛,在2025年年末又迎来一波新高潮。

OpenAI在8月初发布GPT-5,Anthropic在9月底推出Claude Sonnet 4.5,而科技巨头谷歌也终于亮出了自己的王牌。美国当地时间11月18日,Google正式发布了其最新一代人工智能模型 Gemini 3,即日起在Google AI Studio开放预览,API接口同步上线,即将全面集成到谷歌搜索、Android系统等产品中。

这一发布距离上次Gemini 2.5的发布仅过去七个月,被视为谷歌在AI领域的“绝地反击”关键一战。

在谷歌官方的描述中,Gemini 3可以助力“学习、构建和规划一切”。该模型不仅刷新多项性能纪录,还突出展现了AI从“回答问题”到“完成工作”的转变。

“Gemini 3是我们目前最智能的模型,目标是让用户把任何想法变成现实。”谷歌CEO Sundar Pichai在官方博客中写道。

Gemini 3的发布在行业内引发了巨大反响,被认为是谷歌重回AI第一阵营的标志。OpenAI联合创始人、CEO Sam Altman和xAI创始人、CEO Elon Musk均第一时间向谷歌发来“贺信”。

对于行业来讲,大模型的深度落地和商业化路径正变得更加清晰。

多重突破

Gemini 3.0之所以引发如此大的震动,源于它在三个关键领域的突破性进展。

在深度推理能力方面,“Gemini 3的推理能力有了巨大的飞跃,”谷歌Gemini模型产品负责人Tulsee Doshi表示,“它的响应深度和细致程度是我们以前从未见过的。”

在LMSys Elo Arena排行榜上,Gemini 3 Pro 以1501分的突破性分数登顶,比其前代Gemini 2.5 Pro高出50个等级分。

此外,在更考验深层理解的基准测试中,它的表现同样突出:在Humanity’s Last Exam中(要求多步逻辑和专家级推理的基准测试),Gemini 3 Pro在未使用任何工具的情况下得分率达 37.5%,在GPQA Diamond中(衡量研究生水平推理与知识的基准测试)准确率高达 91.9%。

数学能力也得到进一步突破,在“地狱难度”的MathArena测试中,以23.4%的得分率碾压群雄,而GPT-5.1等对手仅在1%左右。

这种推理能力不仅体现在抽象逻辑和复杂问题拆解上,还延伸至长时程规划任务。在Vending-Bench 2的全年模拟运营测试中,Gemini 3 Pro能持续保持决策一致性,实现业务回报最大化,为现实世界中的自动化工作流,如邮件分类、行程协调、资源调度等提供了可靠支撑。

在多模态理解方面,Gemini系列从诞生之初就以“原生多模态”为核心优势。Sundar Pichai在博客中写道:“近两年前,我们开启了Gemini时代,这是我们公司有史以来最大的科学和产品项目之一。仅仅两年时间,人工智能就从单纯阅读文本和图像发展到能够读懂场景。”

在测试中,Gemini 3 Pro在多学科多模态理解测试MMMU-Pro上取得81%的成绩,在专门评估视频理解能力的Video-MMMU上达到87.6%。

在官方演示里,它拿到一叠手写字体潦草、包含各种符号的菜谱照片后,自动生成一本结构化的电子家庭菜谱,包含食物图片、食材类别、烹饪顺序等核心信息,条理清晰。

同时,该模型在事实准确性指标SimpleQA Verified基准测试中也斩获了当前最先进的72.1%得分。谷歌明确表示,新模型将摒弃过去AI常见的“奉承式回应”或“安全但空洞”的话术,转而提供“你需要听到的真相”。

值得一提等是,与竞争对手相比,Gemini 3.0的记忆容量实现了质的飞跃,支持高达100万tokens的超长上下文长度,约相当于700页英文书籍或2小时的4K视频,这使其能够处理超长、复杂的多模态输入,并在其中建立连贯的语义关联。

在编程与软件工程领域,Gemini 3同样展现出接近专业开发者的综合能力。

在WebDev Arena编码竞赛中,Gemini 3以1487分的成绩位居榜首;在基于真实开源项目的SWE-bench Verified测试中,其修复并通过验证的代码占比达76.2%;而在Terminal-Bench 2.0终端操作测试中也取得了54.2%的高分。

谷歌表示,Gemini 3让产品更具自主性,同时提高开发者生产力。

这一突破的核心载体则是Antigravity,一个用于构建人工智能驱动编码代理的新开发平台。平台中,“代理或智能体”被提升到一个专门的界面,DeepMind首席技术官Koray Kavukcuoglu解释说:“智能体可以在你的编辑器、终端和浏览器之间工作,以最佳方式帮助你构建应用程序。”

在演示中,谷歌展示了一个AI智能体生成完整航班跟踪应用的过程:用户只需要一句自然语言指令“帮我做一个航班跟踪应用”,平台就会自动完成规划结构、编写代码、验证输出并生成文档。这也标志着AI编程已从“辅助”迈入“自主”的新阶段。


重回第一阵营

事实上,自2022年底ChatGPT引爆生成式AI浪潮以来,谷歌一度陷入被动。内部“红色警报”的传闻、产品迭代节奏滞后、市场信心动摇,使其在公众认知中沦为“追赶者”。

不过,Gemini 3的发布显示出谷歌开始主动定义下一代AI的竞争,尤其是“智能体”范式的落地。

过去两年,AI行业陷入“模型军备竞赛”,但资本市场对单纯的技术突破已显疲态。Meta虽开源Llama系列却难变现,OpenAI因治理动荡和商业化路径模糊遭遇估值回调,投资者关注焦点已从谁的模型更强转向谁的AI能赚钱。

此次Gemini 3的发布正是着重展示了AI作为“执行任务的代理”的角色。谷歌Gemini团队负责人Josh Woodward在一个访谈中表示,谷歌将其定位为“超级工具”而非情感伴侣,核心价值是帮助用户高效完成日常任务,提升生产力,“这更接近初代谷歌搜索的核心价值——效率。”

这种转变不仅契合企业级客户对自动化工作流的真实需求,也使谷歌得以将其庞大的产品生态转化为AI落地的天然试验场和变现通道。在业内看来,这一战略转向极具商业价值。

而谷歌也进行了迅速的商业部署。Gemini 3模型发布首日,谷歌就将其全面整合进其搜索产品生态,这是谷歌首次在模型发布当天就将其引入搜索。同时,Gemini 3也在发布当天同步向Gemini App用户、AI Studio和Vertex AI的开发者开放,并在智能体开发平台Google Antigravity推出,支持开发者构建更强大的AI应用。

“我们正将Gemini注入Maps、YouTube、安卓、搜索、Workspace等产品,这个分发网络和终端数据反馈环是无法逾越的护城河。”DeepMind CEO Demis Hassabis在一场访谈中表示。

据谷歌披露数据,Gemini应用目前月活跃用户已达6.5 亿,而搜索的AI Overviews拥有20亿月活用户。

Needham分析师Laura Martin在Gemini发布前的一份报告中指出,谷歌的搜索、YouTube、安卓、云等业务部门在分发AI产品方面具有战略优势,使其能够“捕获”AI投资的回报。

最新财报数据看,AI已成为谷歌增长的重要引擎。谷歌云业务第三季度营收达152亿美元,同比增长33.5%,营业利润率提升至23.7%,其中AI相关收入已达到“每季度数十亿美元”规模,基于生成式AI模型构建的产品收入,同比增长超过200%,显示出AI驱动商业化的强劲势头。

同时,巨额的资本支出仍在持续。CFO Anat Ashkenazi在财报会议上表示,2025年资本支出预期从此前的850亿美元上调至910-930亿美元,远超市场预期的806.7亿美元,并且预计2026年资本支出将大幅增长。

虽然和众多加码AI的科技巨头一样,谷歌仍面临着投资回报的压力,但大模型也带来了新的想象空间。当AI真正开始规模化理解、规划并执行复杂任务时,一个由智能体驱动的生产力革命,才算是真正拉开序幕。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
AI会在所有事情上超越我们!3800亿估值公司CEO警告:海啸将至人类却假装没看到

AI会在所有事情上超越我们!3800亿估值公司CEO警告:海啸将至人类却假装没看到

知识圈
2026-02-27 16:57:06
王思聪母亲林宁疑似低调探视孩子!母爱无声却温暖人心

王思聪母亲林宁疑似低调探视孩子!母爱无声却温暖人心

草莓解说体育
2026-03-01 01:40:14
持续4天空袭!从德黑兰到伊斯法罕:美以优先瘫痪伊朗指挥体系

持续4天空袭!从德黑兰到伊斯法罕:美以优先瘫痪伊朗指挥体系

装甲铲史官
2026-02-28 16:11:24
率队2-1绝杀!U23国足队长留洋爆发:穿10号送助攻双响 视频曝光

率队2-1绝杀!U23国足队长留洋爆发:穿10号送助攻双响 视频曝光

侃球熊弟
2026-02-28 10:06:33
罗马皇帝征服帕尔米拉,下命羞辱反叛女皇芝诺比娅碾碎她的尊严

罗马皇帝征服帕尔米拉,下命羞辱反叛女皇芝诺比娅碾碎她的尊严

唠叨说历史
2026-01-15 16:34:01
搬家前我拔了路由器,隔壁宝妈竟报警抓我,当晚,我让她没招了

搬家前我拔了路由器,隔壁宝妈竟报警抓我,当晚,我让她没招了

奶茶麦子
2026-02-28 18:51:07
第一批免签去俄罗斯的中产傻眼了

第一批免签去俄罗斯的中产傻眼了

风向观察
2025-12-16 18:26:08
基辛格直言,美国100年搞垮了4个世界老二,第五个会反手干掉美国

基辛格直言,美国100年搞垮了4个世界老二,第五个会反手干掉美国

文史达观
2024-03-07 14:02:52
多米尼加总统称发现逾1.5亿吨稀土矿藏 或将成关键矿产供应国

多米尼加总统称发现逾1.5亿吨稀土矿藏 或将成关键矿产供应国

财联社
2026-02-28 19:05:08
中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:56:09
荷兰半导体专家:ASML花费40年钻研光刻机,中国企业竟比ASML还狠

荷兰半导体专家:ASML花费40年钻研光刻机,中国企业竟比ASML还狠

策略述
2026-02-28 17:11:40
中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

妙知
2025-08-28 10:19:43
美媒称自由式滑雪女王谷爱凌“浮现新谜团” ,出生记录父亲栏为空白

美媒称自由式滑雪女王谷爱凌“浮现新谜团” ,出生记录父亲栏为空白

阿废冷眼观察所
2026-02-28 16:14:52
大炮一响,黄金万两:美伊画风突变,市场预期直接被“炸”翻

大炮一响,黄金万两:美伊画风突变,市场预期直接被“炸”翻

债市邦
2026-02-28 17:24:38
你占过最大的便宜是啥?网友:我也是,捡漏一个老公

你占过最大的便宜是啥?网友:我也是,捡漏一个老公

带你感受人间冷暖
2026-02-25 00:17:46
上海政府给他们外地人每人免费送套房子,未来可行,短期内还不会

上海政府给他们外地人每人免费送套房子,未来可行,短期内还不会

上海云河
2026-02-28 19:06:33
伊朗的投降王牌:只要美国松绑,出卖中国利益绝不会有半点犹豫

伊朗的投降王牌:只要美国松绑,出卖中国利益绝不会有半点犹豫

老范谈史
2026-02-28 06:45:51
“黄暴”美剧《斯巴达克斯》中最让人垂涎欲滴的三个女角色

“黄暴”美剧《斯巴达克斯》中最让人垂涎欲滴的三个女角色

小徐讲八卦
2026-02-17 12:05:05
澳门的赌台,正在批量消失!不是没人赌了而是算法让赌客彻底破防

澳门的赌台,正在批量消失!不是没人赌了而是算法让赌客彻底破防

芭比衣橱
2026-02-28 00:22:21
商务部:自2026年3月1日起,对原产于加拿大的进口油菜籽征收反倾销税

商务部:自2026年3月1日起,对原产于加拿大的进口油菜籽征收反倾销税

界面新闻
2026-02-28 15:35:48
2026-03-01 08:28:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
234975文章数 743759关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

手机
家居
健康
教育
时尚

手机要闻

小米17/17 Ultra国际版发布:售价过万 国行版用户看完直呼赚了

家居要闻

素色肌理 品意式格调

转头就晕的耳石症,能开车上班吗?

教育要闻

一年学费仅3800美金的语言学校,适合你吗?

这6款发色居然这么火?50张图可以直接给tony

无障碍浏览 进入关怀版