网易首页 > 网易号 > 正文 申请入驻

新模型“屠榜”,对话谷歌团队:AI“新旗手”如何诞生

0
分享至

11月19日,预热已久、全网热议的Gemini 3终于正式亮相。谷歌这次打出的不是小修小补的普通升级,而是一张“王牌”——在几乎所有主流基准测试中实现全面领先,大模型的竞争格局可能就此改写。甚至有业内人士预言:“未来六个月内,很难有公司能够超越这一成绩。”

发布不久,OpenAI CEO 奥尔特曼与特斯拉CEO 马斯克便先后公开表示祝贺。奥尔特曼称其“看起来是个很棒的模型”,评论区则调侃“这句来自竞争对手的夸奖真是暖心”。马斯克也一如既往地送上“Nice work”的评价。

一向风格严谨的谷歌,这次也显得格外高调。官方博客标题直接打出“开启智慧新纪元”,内容中多次强调“最佳”“最先进”。谷歌员工也纷纷在社交媒体上为自家产品助阵,谷歌CEO桑达尔·皮查伊(Sundar Pichai)今天已经连发了8条帖子介绍Gemini 3。

: center;">


在正式发布前,第一财经参与了谷歌面向媒体的小范围沟通会,尽管对模型进展已有预期,但行业的热烈反响仍超出想象。大家惊叹于谷歌的进步速度,三个月前做不到的设计现在可以一键生成了,AI编程也是“Next Level”了,有人感慨“这行业发展速度太快了”。

谷歌在三年间完成了从追赶到领先的反超,谷歌DeepMind的CTO 科雷·卡武克乔格鲁(Koray Kavukcuoglu)在媒体沟通会上认为,谷歌差异化的全栈市技术方案很重要,从硬件到研究所有环节环环相扣。第一财经也问及如何看待缩放定律(Scaling laws)放缓的问题,他回答称,技术进步不一定体现在全新能力的诞生,更体现在 “模型能赋能的新场景”上。

新模型“屠榜”

今天凌晨皮查伊发了条帖子,内容只有一张图,但这张图足够有说服力,Gemini 3 Pro几乎“屠榜”,在所有主要竞技场排行榜上排名第一。

: center;">


具体来看,在 “人类最后一次考试”(Humanities's Last Exam,一项衡量深度理解能力的基准测试,要求模型具备多步骤逻辑推理与专家级演绎能力)中,Gemini 3 Pro 在不使用工具的情况下取得了 37.5%的成绩,而排名第二的GPT.5.1只有26.5%,领先了10个百分点。

在衡量研究生水平推理与知识储备的 GPQA Diamond 测试中,Gemini 3 Pro的得分更是达到 91.9%,紧随其后的GPT.5.1是88.1%。这意味着,Gemini 3 Pro 在解决科学与数学问题时,不仅能力强,而且可靠性极高。

在多模态能力上,它的理解和推理都达到新高度:Gemini 3 Pro以81%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了多模态推理的纪录。

在推理能力上,Gemini 3 Pro刷新了Grok4.1刚刚取得的成绩,以1501分登顶LMArena排行榜,而Grok4.1的思考模型是1484分。

榜单仅仅是能力的一部分,谷歌对新模型的定义是,“Gemini 3 能将任何想法变为现实”,因此,作为用户的实际体验更为重要。

有用户测试了一款高难度光影质感的海报,在3个月前,谷歌的Nano Banana还和GPT有明显的差距,但现在已经成了,“没想到这段很长的路谷歌只走了三个月”。还有一位博主感慨“Gemini 3 Pro实在是太强了”,让模型复刻一个Mac OS的网页,“预期已经很高了,它仍然超过了我的预期”。“亲眼看Gemini 3 Pro一口气写完一个web操作系统,脑子里嗡嗡的”,另一个用户表示。

: center;">


在沟通会中,媒体也问及产品团队训练这款新模型过程中的一些“顿悟时刻”(Aha moments),谷歌DeepMindGemini模型产品总监图西·多西(TulseeDoshi)表示,第一次用它进行代码生成时,最令人惊叹的是,只需简单提示,就能生成各类游戏,且在精细度上极具优势。比如,生成 3D 可视化内容,还能在其中直接玩游戏,这种体验非常棒。

谷歌DeepMindCEO戴密斯·哈萨比斯(Demis Hassabis)也在用模型做游戏,他在帖子中很自豪地表示,模型“当然在各大排行榜上都名列前茅”,但除了这些基准测试之外,它也凭借独特的风格和强大的功能,在日常任务中有出色表现。他提及自己最近一直在用 Gemini 3玩一些编程,比如用了几个小时就重现了一款游戏,且细节呈现很出色。

Gemini智能体还有哪些潜在使用场景?斯特鲁哈尔在会上提到,他个人已经在用模型处理两类事情,效果很好。一个是购买票务,另一个是用智能体模式整理邮件收件箱。

“我每天早上醒来都会收到 50 多封邮件,逐一查看、判断该如何处理要花很久。现在我会用智能体帮忙梳理:它会提炼出邮件里的待办任务,筛选出需要我回复的邮件,还会标注出可以忽略的邮件,这真的节省了大量时间。”斯特鲁哈尔表示,自己也会用模型来买演唱会门票,让智能体根据家庭成员直接筛选出合适的票务组合,而他只需点击一个“购买”。

谷歌团队的期望是,用户可以用新的模型来处理生活中遇到的 “多步骤复杂的任务”,这是这款模型的强项。

AI行业“新的旗手”来了?

除了能力上的跃升,谷歌此次还有两个动作较为值得关注,一个是在发布的第一天就将Gemini 3带入谷歌搜索,另一个则是发布了全新的“类IDE”AI编程产品Antigravity,押注编程领域。

这意味着,新发布的模型已经足够成熟,能在商业化的场景中应用。官方表示,Gemini 3为搜索引擎带来了很强的推理能力,还解锁了新的生成UI体验,用户可以使用专门生成的交互式工具和模拟来获得动态视觉布局。

比如,当用户询问关于物理学里的三体问题,能直接得到一个可以交互的模拟界面,用户能通过改变变量来观察结果。

: center;">


团队认为,此次发布的模型也是内部迄今为止最强的“氛围式代码生成”模型,而谷歌基于此推出的Antigravity则更进一步完善产品体验,类似AI IDE,智能体可以代表用户自主地规划和执行复杂的端到端软件任务。

在沟通会中谈及Antigravity时,卡武克乔格鲁认为,大语言模型已经彻底改变了编程方式,它们能让工程师和软件开发者 “站在更高层面”工作,在智能体的帮助下处理复杂任务,而 Antigravity正是在这一基础上构建的。

目前市场上也有其他 IDE 产品,卡武克乔格鲁表示,谷歌的模型仍将在各类 IDE 中可用,也会通过 API 向开发者开放,但Antigravity能为团队提供“另一种与开发者互动的方式”,团队能借此了解用户的使用场景、真实任务需求和面临的挑战,进而反过来优化模型。

谷歌此次的动作也让外界开始猜测是否在AI编程领域与Anthropic和Cursor这样的编程模型和工具展开竞争。

卡武克乔格鲁回应表示,在这次发布中谷歌仍与 Cursor 保持着紧密的合作关系。他们的目的不是竞争,对团队来说看重的是“在用户所在的场景触达他们”。目前,人工智能开发仍处于早期阶段,它对不同领域、不同行业的影响还在探索中。“我们认为,保持开放实验的态度很重要。”

但无论如何,谷歌确实已经甩开了竞争对手一步,这些动作也必然会让同类产品有所忌惮,比如“Anthropic或许已经满头大汗了”,此前靠着在编程领域的领先性能,Anthropic的营收快速增长,估值也一路走高,但看起来这个优势已经被谷歌追平了。

市场认为,对于谷歌而言,Gemini 3或许也是重要的里程碑。自2022年底ChatGPT发布以来,谷歌一直被认为“起大早赶晚集”,在AI竞赛中处于追赶OpenAI的状态,但新的模型可能会改写格局,谷歌有机会夺得领先地位,尤其是OpenAI的GPT-5被指“噱头大于实际”的情况下,AI产业正需要一个新的旗手。

甚至有声音称“谷歌正在托起AI牛市叙事”,近日海外的Loop Capital (路普资本)将谷歌母公司的评级从“持有”上调至“买入”,目标股价从每股 260美元上调至 320美元。而谷歌前几日股价一度大涨,市值突破3.5万亿美元,创历史新高,目前回落到3.43万亿美元,但仍然是历史高位。

此前巴菲特旗下伯克希尔·哈撒韦披露已经重仓买入谷歌,成为该公司第十大股票持仓,引发资本市场围观。Loop Capital的分析指出,“搜索担忧不再有效”,因为 Gemini 的流量份额同比翻了一番。这种日益增长的参与度凸显了一个关键洞察:谷歌正在有效利用其庞大的用户基础和产品生态系统来推动AI的采用,将生成能力直接嵌入数百万人的日常数字体验中。

在沟通会上,卡武克乔格鲁公布了Gemini用户的数据:月活跃用户已超过 6.5 亿,有超过 1300 万名开发者正在基于 Gemini 构建模型与人工智能应用,而由 Gemini 支持的搜索中的AI概览功能,每月用户量超过 20 亿。

谷歌为什么能在三年之间就完成了从追赶到领先的反超?卡武克乔格鲁分析认为,核心原因之一是团队始终保持着极快的发展节奏,而其中最关键的支撑,是谷歌极具差异化的全栈式技术方案。

这套全栈方案从硬件投资开始:首先是数据中心的基础设施建设,接着是芯片,尤其是谷歌高性能TPU(张量处理单元),这些芯片之间的网络连接方式构建成了支持模型训练的计算集群,进而支撑谷歌前沿的AI研究。简单来说,从硬件的设计,到大规模训练的实现,再到突破性的研究成果,最后到基础模型的能力提升,所有环节环环相扣、协同作用。

就在这半年,Gemini 应用的用户增长显著,斯特鲁哈尔认为其中一个关键因素是生图产品Nano Banana带来的病毒式传播效应,尤其是在泰国、印度尼西亚、印度等国家,这是一款非常成功的产品,很多人都喜欢用它互动,还会分享给朋友,并且引发了手办的潮流。

从去年底开始,就有声音认为,大模型的迭代速度已经放缓,缩放定律也不再有效,但谷歌此次的大模型似乎仍取得了一些显著的进步,谷歌如何看待目前的发展趋势?

卡武克乔格鲁对第一财经记者表示,观察一个领域的发展,关键要看它对各个行业的实际影响,而AI领域的影响正在日益扩大,越来越多的职业人士用 AI 辅助工作。

“AI 模型在日常生活中的影响力越来越大,从这个角度来看,技术进步的速度其实非常快。从我们自身的模型能力迭代来看,也能看到很多令人兴奋的进展。”卡武克乔格鲁认为,不应该将技术进步限制在全新能力的诞生,“模型能赋能的新场景”同样是一个指标。从预训练到后训练的整个模型开发流程中,他们都看到了全方位的积极进展,而且这种趋势还会持续一段时间。

谷歌认为,Gemini 3 是团队迈向通用人工智能 (AGI)的下一步。目前这一步显然比OpenAI和xAI这样的同类竞争对手更快。

在奥尔特曼恭喜谷歌新模型发布的评论区里,热门评论是,“你的口袋里还有什么”?下一步该轮到对手们出牌了。

: center;">


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
停止对宁波妇儿医院医生网曝!恐会引发医学生不再当儿科医生念头

停止对宁波妇儿医院医生网曝!恐会引发医学生不再当儿科医生念头

阿燕姐说育儿
2025-11-19 12:38:09
汕头潮阳区人大常委会党组书记、主任马文玲涉嫌严重违纪违法

汕头潮阳区人大常委会党组书记、主任马文玲涉嫌严重违纪违法

南方都市报
2025-11-19 11:13:15
邱泽、许玮甯宣布11月28日举办婚礼,二人4年前结婚,许玮甯8月顺利生产

邱泽、许玮甯宣布11月28日举办婚礼,二人4年前结婚,许玮甯8月顺利生产

极目新闻
2025-11-19 15:04:29
俄乌和平28点路线图曝光,乌方称已知情,俄方认为“俄罗斯的立场真的被听到了”

俄乌和平28点路线图曝光,乌方称已知情,俄方认为“俄罗斯的立场真的被听到了”

红星新闻
2025-11-19 12:35:14
李圣律师辩词披露:郭、申两人的伤情对比,指导意见中写得很清楚

李圣律师辩词披露:郭、申两人的伤情对比,指导意见中写得很清楚

阿纂看事
2025-11-19 17:14:53
得了便宜还卖乖?退出春晚、被综艺"开除",贾玲的下场怪不了别人

得了便宜还卖乖?退出春晚、被综艺"开除",贾玲的下场怪不了别人

凡知
2025-11-19 21:51:36
都别争了,放着我来:Gemini 3生成一切

都别争了,放着我来:Gemini 3生成一切

果壳
2025-11-19 07:13:54
河南女教师被奸杀,法医保留精斑25年,凶手身份令人难以置信

河南女教师被奸杀,法医保留精斑25年,凶手身份令人难以置信

飞云如水
2024-06-04 20:56:33
一场140-125让火箭坐立难安!西部前3难保,悍将赛季报销太遗憾

一场140-125让火箭坐立难安!西部前3难保,悍将赛季报销太遗憾

杨仔述
2025-11-19 15:13:06
48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

金风说
2025-11-01 15:41:57
多地医院新规:男50岁女44岁不再续聘,这类医务人员退出管理岗

多地医院新规:男50岁女44岁不再续聘,这类医务人员退出管理岗

医客
2025-11-16 12:08:46
王欣瑜双线失金 布云朝克特无缘男双金牌!全运会网球突然有点冷

王欣瑜双线失金 布云朝克特无缘男双金牌!全运会网球突然有点冷

体谈
2025-11-19 23:25:49
退休人员有福了!工龄超过30年以上,还有这些福利可以享受!

退休人员有福了!工龄超过30年以上,还有这些福利可以享受!

振华观史
2025-11-19 14:54:54
人大代表一席话问住养犬人:你的宠物狗,凭什么让他人付出代价?

人大代表一席话问住养犬人:你的宠物狗,凭什么让他人付出代价?

知鉴明史
2025-11-19 18:41:03
还好没选国足!25岁华裔球员转换会籍仅3月,如今要去踢世界杯了

还好没选国足!25岁华裔球员转换会籍仅3月,如今要去踢世界杯了

绿茵舞着
2025-11-20 00:03:16
绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

蜉蝣说
2025-10-22 11:38:49
徐璐的也这么大了吗

徐璐的也这么大了吗

陈意小可爱
2025-11-19 10:46:23
沈伯洋选台北市长?谢寒冰喊话赖清德:如果提名他,我就跪着直播

沈伯洋选台北市长?谢寒冰喊话赖清德:如果提名他,我就跪着直播

乐天闲聊
2025-11-18 13:54:11
新一代卡罗拉正式发布 轴距加长50毫米/12月上市

新一代卡罗拉正式发布 轴距加长50毫米/12月上市

太平洋汽车
2025-11-19 22:09:10
刘景扬突破自己夺冠!吴艳妮十五运百米栏再摘银

刘景扬突破自己夺冠!吴艳妮十五运百米栏再摘银

封面新闻
2025-11-19 22:47:12
2025-11-20 01:08:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
236192文章数 620638关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

亲子
房产
手机
本地
公开课

亲子要闻

3岁女娃坑爹日常,吸粉超500w:东北人的家庭氛围,究竟有多搞笑?

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

手机要闻

荣耀GT2 Pro再次被确认:8500mAh电池+骁龙8E5,12月发布引期待!

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版