网易首页 > 网易号 > 正文 申请入驻

奥特曼都点赞,谷歌Gemini 3 Pro到底强在哪?

0
分享至


本文来自微信公众号:直面AI,作者:苗正,题图来自:AI生成

谷歌可算是发布Gemini 3 Pro了,很突然,而且很“低调”。

虽然谷歌在Gemini 3 Pro之前发布了图片编辑模型Nano Banana,进而刷了一波存在感。但是在基座模型方面,谷歌已经静默太久。

过去这大半年,大家都在热议OpenAI的新动作,或者感叹Claude在代码领域的统治力,唯独没有人提及8个月没有版本号升级的Gemini。

纵使谷歌的云业务和财报再漂亮,可在AI开发者的核心圈子里,谷歌的存在感仍然被一点点的稀释。

好在的是,小榜在第一时间体验过后发现,Gemini 3 Pro并没有让我们失望。

但现在还不能过早下结论。因为现在的AI赛道早就已经过了靠参数量吓人的阶段,大家都在卷应用、卷落地、卷成本。

谷歌能不能适应新版本和新环境,还是个未知数。


我让Gemini 3 Pro用一句话来形容自己,它是这么回答我的。

“不再急于向世界证明自己有多聪明,而是开始琢磨如何让自己变得更有用。”——Gemini 3 Pro

在LMArena排行榜上,Gemini 3 Pro以1501的Elo分数登顶,这是AI模型在综合能力评估中的新纪录。这是一个相当优秀的成绩,就连奥特曼也发推表示祝贺。


数学能力测试中,该模型在AIME2025(美国数学邀请赛)的代码执行模式下达到了100%的准确率。在GPQADiamond科学知识测试中,Gemini 3 Pro的准确率为91.9%。

MathArenaApex数学竞赛的测试结果显示,Gemini 3 Pro获得了23.4%的得分,而其他主流模型的得分普遍在2%以下。此外,在名为Humanity'sLastExam的测试中,该模型在不使用工具的情况下达到了37.5%的得分。

Google在此次更新中引入了名为“vibecoding”的代码生成功能。这项功能允许用户通过自然语言描述需求,系统随后生成相应的代码和应用程序。

在Canvas编程环境的测试中,用户描述“制作一个可以调节转速的电风扇”后,系统在约30秒内生成了包含旋转动画、速度控制滑块和开关按钮的完整代码。


官方展示的案例还包括核聚变过程的可视化模拟。

在交互方式上,Gemini 3 Pro增加了“生成式界面”(GenerativeUI)功能。与传统AI助手只返回文本回答不同,该系统可以根据查询内容自动生成定制化的界面布局。

例如,当用户询问量子计算相关问题时,系统可能生成包含概念解释、动态图表和相关论文链接的交互式界面。

针对不同受众的同一问题,系统会生成不同的界面设计,举个简单例子,向儿童和成人解释同一概念时,会采用不同的呈现方式。儿童的就会偏可爱,成人则会偏简洁明了。

Google Labs中提供的Visual Layout实验功能展示了这种界面的应用,用户可以获得杂志风格的视图布局,包含图片、模块和可调节的UI元素。

此次发布还包含了名为Gemini Agent的智能体系统,目前处于实验阶段。该系统可以执行多步骤任务,并连接到Gmail、Google Calendar和Reminders等谷歌服务。

在收件箱管理场景中,系统可以自动筛选邮件、标记优先级和起草回复。旅行规划是另一个应用场景,用户只需提供目的地和大致时间,系统会查询日历、搜索航班和酒店选项,并添加行程安排。而这项功能目前仅向美国地区的Google AI Ultra订阅用户开放。

在多模态处理方面,Gemini 3 Pro基于稀疏混合专家架构构建,支持文本、图像、音频和视频输入。模型的上下文窗口为100万token,意味着可以处理较长的文档或视频内容。

加拿大劳瑞尔大学历史学教授Mark Humphries的测试显示,该模型在识别18世纪手写文稿时的字符错误率为0.56%,相比前代版本降低了50%到70%。

Google表示,训练数据包括公开网络文档、代码、图像、音频和视频内容,后训练阶段使用了强化学习技术。

Google还推出了名为Gemini 3 Deep Think的优化版本,专门用于复杂推理任务。该模式目前正在进行安全评估,计划在未来几周向Google AI Ultra订阅者开放。

在Google Search的AI模式中,用户可以点击“thinking”选项卡查看该模式的推理过程。与标准模式相比,Deep Think模式会在生成回答前进行更多步骤的分析。

除了官方提供的资料外,我还将Gemini 3 Pro和ChatGPT-5.1进行了对比。

第一个对比就是生成图片。

提示词:给我生成一张iPhone17。

ChatGPT-5.1:


Gemini 3 Pro:


主观上来讲,ChatGPT-5.1更符合我的需求,因此这回合是ChatGPT-5.1胜出。

第二个对比的就是两者的智能体水平。

提示词:去给我研究研究字母榜这个微信公众号,然后评论一下这个号的水平。

GPT-5.1:


Gemini 3 Pro:


虽然从主观上来讲,我更喜欢Gemini 3 Pro的解读,但是太过于鼓吹,ChatGPT-5.1能发现小榜还有所不足,更客观真实。

最后是代码能力,也是目前所有大模型最关注的一块。

我选的项目是GitHub上最近星数非常高的项目,叫做LightRAG。这是通过整合图结构来增强上下文感知和高效信息检索,从而改进检索增强生成,实现了更高的准确性和更快的响应时间。(项目地址https://github.com/HKUDS/LightRAG)

提示词:跟我说说这个项目如何。

GPT-5.1:


Gemini 3 Pro:


同时,Gemini 3 Pro也获得了业内人士的高度评价。




虽然Gemini 3 Pro发布的非常低调,但实际上谷歌已经为Gemini 3 Pro预热了很久。

在谷歌第三季度财报电话会上,谷歌CEO皮查伊说了这么一句话:“Gemini 3 Pro将在2025年内发布。”没有具体日期,没有更多细节,却拉开了科技行业一场营销大戏的序幕。

谷歌不断释放信号,让整个AI社区保持高度关注,却始终拒绝给出任何确定的发布时间表。

从10月开始,各种“意外泄露”接踵而至。10月23日开始流传一份日历,在其11月12日“Gemini 3 Pro Release”的内部日历截图疯传。


而且眼尖的开发者还在Vertex AI的API文档中发现了“gemini-3-pro-preview-11-2025”的字样。


紧接着,Reddit 和 X上开始出现各种截图。有用户声称在 Gemini Canvas 工具中看到了新模型的身影,有人在移动应用的某些版本中发现了异常的模型标识。

然后就是,下面这张测试数据开始在社交媒体流传。


这些“泄露”看似偶然,实则构成了一场精心编排的预热。

每一次泄露都恰到好处地展示了Gemini 3 Pro 的某项核心能力,每一次讨论都将期待值推向新的高度。而 谷歌官方账号的态度则耐人寻味,他们会转发社区的讨论,会用“即将到来”这样的措辞吊胃口,甚至谷歌AI实验室的高层,还在关于发布日期预测的推文下回复了两个“思考”表情符号,但就是不肯说出一个准确日期。

预热了将近1个月,谷歌终于将新鲜的Gemini 3 Pro端了上来。然而Gemini 3 Pro性能虽然强劲,但是谷歌的更新频率多少让人有点着急。

早在今年3月份的时候,谷歌就发布了Gemini 2.5 Pro的预览版本,后续又陆续推出了Gemini 2.5 Flash预览版等衍生预览版本。直至Gemini 3 Pro问世,Gemini系列在此期间无任何版本号升级。

可谷歌的对手们并不会等待Gemini。

OpenAI在8月7日推出了GPT-5,并在11月12日进一步升级到 GPT-5.1。而且这段时间里,OpenAI还推出了自己的AI浏览器Atlas,直指谷歌腹地。

Anthropic 的迭代速度更为密集:2月24日发布 Claude 3.7 Sonnet(首个混合推理模型),5月22日推出 Claude Opus 4 和 Sonnet 4,8月5日发布 Claude Opus 4.1,9月29日推出 Claude Sonnet 4.5,10月15日又发布了 Claude Haiku 4.5。

这一系列攻势打得谷歌有些措手不及,不过目前来看,谷歌顶住了。


谷歌之所以耗时8个月才更新Gemini 3 Pro,最大的原因可能来自于人员上的变更。

2025年7月至8月前后,微软对谷歌发起了一波猛烈的人才攻势,成功招募了超过20名DeepMind的核心专家和高管。

这其中就包括DeepMind高级产品总监(Senior Director of Product)戴夫·希创(Dave Citron),负责其核心AI产品的落地。以及Gemini的工程副总裁(VP of Engineering)阿玛尔·苏布拉马尼亚(Amar Subramanya),他是 Google最重要模型Gemini的核心工程负责人之一。

另外一方面,谷歌Nano Banana团队曾表示,谷歌在发布Gemini 2.5 Pro后很长一段时间里,都在纠结AI生图领域,进而放缓了基座模型的更新。

谷歌认为,只有攻克了角色一致性(Character Consistency)、语境编辑(In-context Editing)、文字乱码(Text Rendering)这三个生成图片领域的难关后,才能让基座模型的表现更好。

Nano Banana团队表示,模型不仅能“画得好看”,更重要的是能“听懂人话”并“受人控制”,从而让 AI 生图真正进入商业落地阶段。

这时回头来看Gemini 3 Pro,它是一份合格的答卷,但在这个只争朝夕的 AI 战场,及格早已不够。

谷歌既然选择了在此时此刻交卷,就必须准备好面对最苛刻的阅卷人,那些已经被竞品“喂刁”了口味的用户和开发者。接下来的几个月,将不是模型参数的比拼,而是生态整合能力的肉搏。谷歌这头大象不仅要学会跳舞,还得跳得比所有人都快。

本文来自微信公众号:直面AI,作者:苗正

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4806992.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
45金!41金!39金!19日凌晨全运会最新金牌榜:山东+江苏单日3金

45金!41金!39金!19日凌晨全运会最新金牌榜:山东+江苏单日3金

大秦壁虎白话体育
2025-11-19 09:41:19
别再争议广东模特冠军了,辟谣了是太太组冠军,实际冠军另有其人

别再争议广东模特冠军了,辟谣了是太太组冠军,实际冠军另有其人

乡野小珥
2025-11-20 05:32:37
俄乌多条战线激烈厮杀,扎波罗热乌军以血明志

俄乌多条战线激烈厮杀,扎波罗热乌军以血明志

史政先锋
2025-11-19 16:17:02
烧一赔三!新能源史上最狠承诺来了,比亚迪看懵了!

烧一赔三!新能源史上最狠承诺来了,比亚迪看懵了!

趣味萌宠的日常
2025-11-19 15:30:15
易烊千玺组合三人现状:一位金鸡奖影帝,一位被吐槽,一位最可怜

易烊千玺组合三人现状:一位金鸡奖影帝,一位被吐槽,一位最可怜

观察者海风
2025-11-18 18:55:01
“黑马”力压吴艳妮、林雨薇!广东刘景扬折桂女子100米栏

“黑马”力压吴艳妮、林雨薇!广东刘景扬折桂女子100米栏

南方都市报
2025-11-19 23:03:10
吃饼吃到吐!艾顿性价比超浓眉哥 湖人四巨头冲冠

吃饼吃到吐!艾顿性价比超浓眉哥 湖人四巨头冲冠

体坛周报
2025-11-19 17:41:13
《四喜》这反转没想到吧,冯家破产后,沈明珠的救星终于出现了

《四喜》这反转没想到吧,冯家破产后,沈明珠的救星终于出现了

小猫追剧
2025-11-19 19:17:26
斯诺克战报!墨菲开门红,4-0过关会师奥沙利文,丁俊晖登场!

斯诺克战报!墨菲开门红,4-0过关会师奥沙利文,丁俊晖登场!

刘姚尧的文字城堡
2025-11-20 00:23:39
一个美艳少妇,一个风流局长,曾经爱得轰轰烈烈,却最终祸起萧墙

一个美艳少妇,一个风流局长,曾经爱得轰轰烈烈,却最终祸起萧墙

忽晚山河
2024-02-05 20:01:47
8-0,塞内加尔踢疯,33岁马内戴帽,24岁拜仁悍将雅克松梅开二度

8-0,塞内加尔踢疯,33岁马内戴帽,24岁拜仁悍将雅克松梅开二度

凌空倒钩
2025-11-19 07:03:19
心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

可达鸭面面观
2025-10-11 15:09:06
盘点岛国10位老面孔,在岛国人气已经超高,但是还有很多人没见过

盘点岛国10位老面孔,在岛国人气已经超高,但是还有很多人没见过

素然追光
2025-11-20 02:40:03
王菲女儿与陈奕迅女儿、甄子丹女儿合影,网友:仨人长的都像妈妈

王菲女儿与陈奕迅女儿、甄子丹女儿合影,网友:仨人长的都像妈妈

小咪侃娱圈
2025-11-18 11:35:27
台湾名师区桂芝大声质问和痛斥国民党“反共”、丧失“中国”党魂

台湾名师区桂芝大声质问和痛斥国民党“反共”、丧失“中国”党魂

文史旺旺旺
2025-11-18 19:36:13
香港失业率冲上3.9%,超15万人失业,未来前景堪忧

香港失业率冲上3.9%,超15万人失业,未来前景堪忧

麦小柒
2025-11-17 15:28:17
小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

五元讲堂
2025-10-16 14:41:16
外媒:俄罗斯对乌克兰发动大规模夜间袭击

外媒:俄罗斯对乌克兰发动大规模夜间袭击

参考消息
2025-11-19 21:57:10
年薪12万美元招不到人!福特CEO称美国技能工人严重短缺,此前白宫称:美国需要的是电工、水管工,而不是哈佛研究生

年薪12万美元招不到人!福特CEO称美国技能工人严重短缺,此前白宫称:美国需要的是电工、水管工,而不是哈佛研究生

每日经济新闻
2025-11-18 21:23:06
大量食用油被检测出致癌物?自查厨房是否有3种油,别再吃了

大量食用油被检测出致癌物?自查厨房是否有3种油,别再吃了

新时代的两性情感
2025-11-19 12:52:43
2025-11-20 06:59:00
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25303文章数 687098关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

房产
旅游
健康
教育
时尚

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

旅游要闻

金槐染晋南!六百年移民史诗,洪洞大槐树藏着亿万人的根!

警惕超声报告这六大"坑"

教育要闻

高考选科时候这样做更靠谱!

辛芷蕾的炸裂10分钟,让人大受震撼

无障碍浏览 进入关怀版