网易首页 > 网易号 > 正文 申请入驻

新模型“屠榜”,对话谷歌团队:AI“新旗手”如何诞生

0
分享至

来源:市场资讯

(来源:第一财经资讯)

11月19日,预热已久、全网热议的Gemini 3终于正式亮相。谷歌这次打出的不是小修小补的普通升级,而是一张“王牌”——在几乎所有主流基准测试中实现全面领先,大模型的竞争格局可能就此改写。甚至有业内人士预言:“未来六个月内,很难有公司能够超越这一成绩。”

发布不久,OpenAI CEO 奥尔特曼与特斯拉CEO 马斯克便先后公开表示祝贺。奥尔特曼称其“看起来是个很棒的模型”,评论区则调侃“这句来自竞争对手的夸奖真是暖心”。马斯克也一如既往地送上“Nice work”的评价。

一向风格严谨的谷歌,这次也显得格外高调。官方博客标题直接打出“开启智慧新纪元”,内容中多次强调“最佳”“最先进”。谷歌员工也纷纷在社交媒体上为自家产品助阵,谷歌CEO桑达尔·皮查伊(Sundar Pichai)今天已经连发了8条帖子介绍Gemini 3。

: center;">


在正式发布前,第一财经参与了谷歌面向媒体的小范围沟通会,尽管对模型进展已有预期,但行业的热烈反响仍超出想象。大家惊叹于谷歌的进步速度,三个月前做不到的设计现在可以一键生成了,AI编程也是“Next Level”了,有人感慨“这行业发展速度太快了”。

谷歌在三年间完成了从追赶到领先的反超,谷歌DeepMind的CTO 科雷·卡武克乔格鲁(Koray Kavukcuoglu)在媒体沟通会上认为,谷歌差异化的全栈市技术方案很重要,从硬件到研究所有环节环环相扣。第一财经也问及如何看待缩放定律(Scaling laws)放缓的问题,他回答称,技术进步不一定体现在全新能力的诞生,更体现在 “模型能赋能的新场景”上。

新模型“屠榜”

今天凌晨皮查伊发了条帖子,内容只有一张图,但这张图足够有说服力,Gemini 3 Pro几乎“屠榜”,在所有主要竞技场排行榜上排名第一。

: center;">


具体来看,在 “人类最后一次考试”(Humanities's Last Exam,一项衡量深度理解能力的基准测试,要求模型具备多步骤逻辑推理与专家级演绎能力)中,Gemini 3 Pro 在不使用工具的情况下取得了 37.5%的成绩,而排名第二的GPT.5.1只有26.5%,领先了10个百分点。

在衡量研究生水平推理与知识储备的 GPQA Diamond 测试中,Gemini 3 Pro的得分更是达到 91.9%,紧随其后的GPT.5.1是88.1%。这意味着,Gemini 3 Pro 在解决科学与数学问题时,不仅能力强,而且可靠性极高。

在多模态能力上,它的理解和推理都达到新高度:Gemini 3 Pro以81%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了多模态推理的纪录。

在推理能力上,Gemini 3 Pro刷新了Grok4.1刚刚取得的成绩,以1501分登顶LMArena排行榜,而Grok4.1的思考模型是1484分。

榜单仅仅是能力的一部分,谷歌对新模型的定义是,“Gemini 3 能将任何想法变为现实”,因此,作为用户的实际体验更为重要。

有用户测试了一款高难度光影质感的海报,在3个月前,谷歌的Nano Banana还和GPT有明显的差距,但现在已经成了,“没想到这段很长的路谷歌只走了三个月”。还有一位博主感慨“Gemini 3 Pro实在是太强了”,让模型复刻一个Mac OS的网页,“预期已经很高了,它仍然超过了我的预期”。“亲眼看Gemini 3 Pro一口气写完一个web操作系统,脑子里嗡嗡的”,另一个用户表示。

: center;">


在沟通会中,媒体也问及产品团队训练这款新模型过程中的一些“顿悟时刻”(Aha moments),谷歌DeepMindGemini模型产品总监图西·多西(TulseeDoshi)表示,第一次用它进行代码生成时,最令人惊叹的是,只需简单提示,就能生成各类游戏,且在精细度上极具优势。比如,生成 3D 可视化内容,还能在其中直接玩游戏,这种体验非常棒。

谷歌DeepMindCEO戴密斯·哈萨比斯(Demis Hassabis)也在用模型做游戏,他在帖子中很自豪地表示,模型“当然在各大排行榜上都名列前茅”,但除了这些基准测试之外,它也凭借独特的风格和强大的功能,在日常任务中有出色表现。他提及自己最近一直在用 Gemini 3玩一些编程,比如用了几个小时就重现了一款游戏,且细节呈现很出色。

Gemini智能体还有哪些潜在使用场景?斯特鲁哈尔在会上提到,他个人已经在用模型处理两类事情,效果很好。一个是购买票务,另一个是用智能体模式整理邮件收件箱。

“我每天早上醒来都会收到 50 多封邮件,逐一查看、判断该如何处理要花很久。现在我会用智能体帮忙梳理:它会提炼出邮件里的待办任务,筛选出需要我回复的邮件,还会标注出可以忽略的邮件,这真的节省了大量时间。”斯特鲁哈尔表示,自己也会用模型来买演唱会门票,让智能体根据家庭成员直接筛选出合适的票务组合,而他只需点击一个“购买”。

谷歌团队的期望是,用户可以用新的模型来处理生活中遇到的 “多步骤复杂的任务”,这是这款模型的强项。

AI行业“新的旗手”来了?

除了能力上的跃升,谷歌此次还有两个动作较为值得关注,一个是在发布的第一天就将Gemini 3带入谷歌搜索,另一个则是发布了全新的“类IDE”AI编程产品Antigravity,押注编程领域。

这意味着,新发布的模型已经足够成熟,能在商业化的场景中应用。官方表示,Gemini 3为搜索引擎带来了很强的推理能力,还解锁了新的生成UI体验,用户可以使用专门生成的交互式工具和模拟来获得动态视觉布局。

比如,当用户询问关于物理学里的三体问题,能直接得到一个可以交互的模拟界面,用户能通过改变变量来观察结果。

: center;">


团队认为,此次发布的模型也是内部迄今为止最强的“氛围式代码生成”模型,而谷歌基于此推出的Antigravity则更进一步完善产品体验,类似AI IDE,智能体可以代表用户自主地规划和执行复杂的端到端软件任务。

在沟通会中谈及Antigravity时,卡武克乔格鲁认为,大语言模型已经彻底改变了编程方式,它们能让工程师和软件开发者 “站在更高层面”工作,在智能体的帮助下处理复杂任务,而 Antigravity正是在这一基础上构建的。

目前市场上也有其他 IDE 产品,卡武克乔格鲁表示,谷歌的模型仍将在各类 IDE 中可用,也会通过 API 向开发者开放,但Antigravity能为团队提供“另一种与开发者互动的方式”,团队能借此了解用户的使用场景、真实任务需求和面临的挑战,进而反过来优化模型。

谷歌此次的动作也让外界开始猜测是否在AI编程领域与Anthropic和Cursor这样的编程模型和工具展开竞争。

卡武克乔格鲁回应表示,在这次发布中谷歌仍与 Cursor 保持着紧密的合作关系。他们的目的不是竞争,对团队来说看重的是“在用户所在的场景触达他们”。目前,人工智能开发仍处于早期阶段,它对不同领域、不同行业的影响还在探索中。“我们认为,保持开放实验的态度很重要。”

但无论如何,谷歌确实已经甩开了竞争对手一步,这些动作也必然会让同类产品有所忌惮,比如“Anthropic或许已经满头大汗了”,此前靠着在编程领域的领先性能,Anthropic的营收快速增长,估值也一路走高,但看起来这个优势已经被谷歌追平了。

市场认为,对于谷歌而言,Gemini 3或许也是重要的里程碑。自2022年底ChatGPT发布以来,谷歌一直被认为“起大早赶晚集”,在AI竞赛中处于追赶OpenAI的状态,但新的模型可能会改写格局,谷歌有机会夺得领先地位,尤其是OpenAI的GPT-5被指“噱头大于实际”的情况下,AI产业正需要一个新的旗手。

甚至有声音称“谷歌正在托起AI牛市叙事”,近日海外的Loop Capital (路普资本)将谷歌母公司的评级从“持有”上调至“买入”,目标股价从每股 260美元上调至 320美元。而谷歌前几日股价一度大涨,市值突破3.5万亿美元,创历史新高,目前回落到3.43万亿美元,但仍然是历史高位。

此前巴菲特旗下伯克希尔·哈撒韦披露已经重仓买入谷歌,成为该公司第十大股票持仓,引发资本市场围观。Loop Capital的分析指出,“搜索担忧不再有效”,因为 Gemini 的流量份额同比翻了一番。这种日益增长的参与度凸显了一个关键洞察:谷歌正在有效利用其庞大的用户基础和产品生态系统来推动AI的采用,将生成能力直接嵌入数百万人的日常数字体验中。

在沟通会上,卡武克乔格鲁公布了Gemini用户的数据:月活跃用户已超过 6.5 亿,有超过 1300 万名开发者正在基于 Gemini 构建模型与人工智能应用,而由 Gemini 支持的搜索中的AI概览功能,每月用户量超过 20 亿。

谷歌为什么能在三年之间就完成了从追赶到领先的反超?卡武克乔格鲁分析认为,核心原因之一是团队始终保持着极快的发展节奏,而其中最关键的支撑,是谷歌极具差异化的全栈式技术方案。

这套全栈方案从硬件投资开始:首先是数据中心的基础设施建设,接着是芯片,尤其是谷歌高性能TPU(张量处理单元),这些芯片之间的网络连接方式构建成了支持模型训练的计算集群,进而支撑谷歌前沿的AI研究。简单来说,从硬件的设计,到大规模训练的实现,再到突破性的研究成果,最后到基础模型的能力提升,所有环节环环相扣、协同作用。

就在这半年,Gemini 应用的用户增长显著,斯特鲁哈尔认为其中一个关键因素是生图产品Nano Banana带来的病毒式传播效应,尤其是在泰国、印度尼西亚、印度等国家,这是一款非常成功的产品,很多人都喜欢用它互动,还会分享给朋友,并且引发了手办的潮流。

从去年底开始,就有声音认为,大模型的迭代速度已经放缓,缩放定律也不再有效,但谷歌此次的大模型似乎仍取得了一些显著的进步,谷歌如何看待目前的发展趋势?

卡武克乔格鲁对第一财经记者表示,观察一个领域的发展,关键要看它对各个行业的实际影响,而AI领域的影响正在日益扩大,越来越多的职业人士用 AI 辅助工作。

“AI 模型在日常生活中的影响力越来越大,从这个角度来看,技术进步的速度其实非常快。从我们自身的模型能力迭代来看,也能看到很多令人兴奋的进展。”卡武克乔格鲁认为,不应该将技术进步限制在全新能力的诞生,“模型能赋能的新场景”同样是一个指标。从预训练到后训练的整个模型开发流程中,他们都看到了全方位的积极进展,而且这种趋势还会持续一段时间。

谷歌认为,Gemini 3 是团队迈向通用人工智能 (AGI)的下一步。目前这一步显然比OpenAI和xAI这样的同类竞争对手更快。

在奥尔特曼恭喜谷歌新模型发布的评论区里,热门评论是,“你的口袋里还有什么”?下一步该轮到对手们出牌了。

: center;">


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

卡西莫多的故事
2025-11-14 10:21:28
不愧老将出马!刘诗雯带领广东队成功晋级,她还有3个点让人叹服

不愧老将出马!刘诗雯带领广东队成功晋级,她还有3个点让人叹服

白面书誏
2025-11-14 17:12:53
如果中国与欧美全面脱钩会怎样?基于数据的深度分析,结果让人触目惊心!

如果中国与欧美全面脱钩会怎样?基于数据的深度分析,结果让人触目惊心!

V记录号
2025-11-19 09:07:34
江青被捕4年后,邓小平从电视屏幕中见到了她:久违了,江青女士

江青被捕4年后,邓小平从电视屏幕中见到了她:久违了,江青女士

大运河时空
2025-11-19 22:00:02
陈梦率队问鼎全运会!山东苦战5盘险胜河北,孙颖莎空砍2分获亚军

陈梦率队问鼎全运会!山东苦战5盘险胜河北,孙颖莎空砍2分获亚军

烧体坛
2025-11-19 21:31:02
国家都警告不要去日本旅游,怎么还那么多人去!

国家都警告不要去日本旅游,怎么还那么多人去!

花千重
2025-11-18 14:17:53
李玟加拿大丈夫也没想到,妻子去世两年后,姐姐竟意外承受了恶意

李玟加拿大丈夫也没想到,妻子去世两年后,姐姐竟意外承受了恶意

TVB的四小花
2025-11-18 13:31:48
A股:大家做好准备了,明天(11月20日),A股或将迎来大变盘?

A股:大家做好准备了,明天(11月20日),A股或将迎来大变盘?

财经大拿
2025-11-19 12:13:34
明日寒衣节,牢记:1要洗,2不晒,3不回,4要吃,传统习俗要重视

明日寒衣节,牢记:1要洗,2不晒,3不回,4要吃,传统习俗要重视

小茉莉美食记
2025-11-19 01:35:03
怒批Win11!马斯克、Epic CEO接连下场吐槽:把我的任务栏竖起来,别再逼我登录微软账户...

怒批Win11!马斯克、Epic CEO接连下场吐槽:把我的任务栏竖起来,别再逼我登录微软账户...

CSDN
2025-11-19 19:05:01
解放军刚说不介意让日本沦为主战场,美国连夜撤走堤丰,是巧合吗

解放军刚说不介意让日本沦为主战场,美国连夜撤走堤丰,是巧合吗

通文知史
2025-11-18 20:30:03
黑马脱颖而出!女子100米栏:刘景扬12秒81夺冠,吴艳妮获银牌

黑马脱颖而出!女子100米栏:刘景扬12秒81夺冠,吴艳妮获银牌

全景体育V
2025-11-19 21:21:32
小雪添喜!3生肖贵人到,财气渐旺

小雪添喜!3生肖贵人到,财气渐旺

白龙王
2025-11-19 20:11:06
全运会再获银牌!吴艳妮:给自己打0分,就比差了,期待亚运会

全运会再获银牌!吴艳妮:给自己打0分,就比差了,期待亚运会

奥拜尔
2025-11-19 21:57:05
天津奥城着火了!

天津奥城着火了!

天津族
2025-11-19 17:18:54
适可而止!澳大利亚警告日本:若武力介入台海,朝鲜必参战

适可而止!澳大利亚警告日本:若武力介入台海,朝鲜必参战

林子说事
2025-11-19 14:56:10
大阪府前知事:派官员赴华解释的瞬间,日本已经“输了”

大阪府前知事:派官员赴华解释的瞬间,日本已经“输了”

中国青年报
2025-11-19 16:07:30
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
神仙打架!5款豪华旗舰大六座SUV大乱斗:谁才是终极豪华王者?

神仙打架!5款豪华旗舰大六座SUV大乱斗:谁才是终极豪华王者?

艾米手工作品
2025-11-19 00:48:07
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
2025-11-19 23:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1434835文章数 4572关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

亲子
游戏
时尚
房产
军事航空

亲子要闻

宝妈必学,孩子被做坏事不说,和年龄无关!

炸裂!小吕布离开T1,或加盟Hle联手宙斯组银河战舰

毛衣+阔腿裤、羽绒服+裙子,这5组搭配照着穿就很时髦!

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版