网易首页 > 网易号 > 正文 申请入驻

Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点

0
分享至

当地时间周二,Alphabet旗下的谷歌宣布发布其最新的人工智能(AI)模型Gemini 3。这款被业内称为 “全能型选手” 的模型,以百万级上下文窗口、断层领先的多模态理解、颠覆式的 Agent 开发平台和全栈技术生态支撑,不仅实现了对前代产品的代际级超越,更在多个核心基准测试中对标甚至超越GPT-5.1、Claude 4.5等竞品,标志着AI从“工具辅助”向“主动代理”的跨越式演进。

据悉,Gemini 3将被整合进Gemini应用、谷歌的AI搜索产品AI Mode和AI Overviews,以及其企业级产品。该模型将自周二起向部分订阅用户开放,并将在未来几周更大范围上线。

在2025年11月的财报电话会议上,谷歌CEO桑达尔・皮查伊就已确认Gemini 3的发布计划,他当时强调:“前沿模型的进一步发展需要更多时间,我们既要追求迭代速度,更要确保显著的能力突破”。这种“慢工出细活”的策略,在Gemini 3的产品形态中得到充分体现——它不是对2.5 Pro的简单微调,而是从架构、能力到生态的全面重构。

推理是AI解决复杂问题的核心,Gemini 3在这一领域实现了双重突破:基础性能的全面提升与推理模式的产品化创新。在基础推理能力上,Gemini 3 Pro在多个权威基准测试中创下新高:GPQA Diamond(研究生级推理)测试准确率达91.9%,Humanity’s Last Exam(多步逻辑推理)无工具状态下得分37.5%,SimpleQA Verified(事实准确性)以72.1%的分数领跑业界。

这些数据意味着模型在科学研究、专业咨询等需要深度思考的场景中,可靠性达到了新高度。例如它能独立完成托卡马克装置等离子体流动的可视化代码编写,并同步创作诠释聚变物理学精髓的诗歌,实现理性与感性的结合。

在多模态推理方面,Gemini 3同样表现出色,在MMMU-Pro测试中获得81%的分数,在Video-MMMU测试中达到87.6%。这意味着该模型能够高度可靠地处理科学和数学等广泛领域的复杂问题。

除标准版本外,谷歌还推出了Gemini 3 Deep Think增强推理模式,通过“思维签名”和“思考等级”两大创新,将思维链(Chain of Thought)技术产品化:思维签名会在API返回中包含加密的推理过程,确保长链路任务中逻辑不跑偏;思考等级则允许开发者根据任务复杂度配置模型“思考时间”,实现速度与精度的平衡。

数据显示,增强推理模式在Humanity's Last Exam测试中达到41.0%的成绩,在GPQA Diamond测试中获得93.8%的分数。在ARC-AGI-2测试中,Deep Think模式创下了45.1%的前所未有成绩,展示了其解决新颖挑战的能力。谷歌表示,该模式正在接受额外的安全评估,将在未来几周内向Google AI Ultra订阅用户开放。

长上下文处理是AI从“短对话”迈向“复杂任务”的关键。Gemini 3.0 Pro最令人震撼的特性,莫过于其支持高达100万tokens的超长上下文长度(约相当于700页英文书籍或2小时的4K视频),这一数字远远超过当前主流模型——GPT-4 Turbo的128K tokens和Claude 3.5的200K tokens,较谷歌自身的Gemini 2(12.8万token)提升7倍,且保持90%以上的信息保留率。

而在多模态方面,Gemini 系列从诞生之初就以“原生多模态”为核心优势,Gemini 3则将这一优势推向新高度,实现了从“处理多模态” 到 “理解多模态关联”的跨越。在权威基准测试中,Gemini 3 Pro 的多模态能力全面领跑:MMMU-Pro(多模态综合推理)得分81%,Video-MMMU(视频理解)以87.6%的成绩重新定义行业标准,成为 “世界上最先进的多模态理解模型”。

如果说推理和多模态是Gemini 3的“大脑”,那么编码与Agent能力就是它的“双手”。谷歌通过 “代理式编码(Agentic Coding)”和“可视化编码(Vibe Coding)”两大创新,彻底重塑了开发者与AI的协作模式。

在代码生成领域,Gemini 3被谷歌称为"迄今构建的最佳vibe coding和智能体编码模型"。该模型在LiveCodeBench Pro(接近 ICPC/Codeforces 难度的竞技编程测试)中,模型以2439的Elo得分远超GPT-5.1的2243和Claude 4.5的1418,逼近专业程序员水平。

Agent能力的跃升是Gemini 3最具颠覆性的更新。模型不再是被动响应指令的工具,而是能自主规划、拆解任务、调用工具的 “数字代理”。在Terminal-Bench 2.0测试(终端操作能力)中,它以54.2% 的得分展现出强大的工具使用能力;而在Vending-Bench 2测试(长程规划能力)中,Gemini 3 Pro在模拟运营自动售货机业务的年度周期中,通过一致的决策和工具使用实现了更高回报,位居测试榜首。这种长程规划能力让AI能独立完成复杂工作流,例如自动爬取数据、分析趋势、生成报告并部署可视化界面,全程无需人工干预。

为了让 Agent 能力落地,谷歌同步推出了全新的开发平台 Google Antigravity,让开发者得以在更高抽象层级上进行任务导向型编程。谷歌实验室与Gemini副总裁Josh Woodward表示,Gemini 3是谷歌有史以来最契合“氛围编程”的模型。氛围编程指一个快速兴起的AI工具市场,允许软件开发者通过提示词即可生成代码。

谷歌称,新模型将支持“生成式界面”,以类似数字杂志的方式呈现某些答案。例如,新模型被要求结合梵高生平背景解读其作品,系统为每幅画作生成了图文并茂、色彩丰富的阐释。

在Gemini 3.0模型发布之前,网上就已有不少针对该模型的测试。测试结果显示,该模型在专业领域的测试结果显示出突破性进展。加拿大劳瑞尔大学历史学教授Mark Humphries通过Google AI Studio测试了疑似Gemini 3.0的未发布模型,发现其在识别18世纪手写文稿方面接近完美,字符错误率仅为0.56%,词错误率为1.22%,相比前代Gemini 2.5 Pro提升50%-70%,达到专家级人类水平。

测试结果显示,前代Gemini 2.5 Pro在这些复杂文档上的字符错误率约为4%,大致相当于专业人类转录员的水平。新模型将字符错误率降至0.56%,词错误率降至1.22%,达到专家级人类表现标准。

更值得注意的是模型展现出的推理能力。Humphries发现模型能够自发进行逐步符号推理,例如在18世纪商人账本中将"145"推断为"14磅5盎司",这不仅是文本识别,而是对生成这些记录的经济和文化系统的理解。

对于谷歌而言,Gemini 3.0的发布具有战略意义。自2022年底ChatGPT发布以来,谷歌一度被认为在AI竞赛中处于追赶状态,甚至内部发布了"红色警报"。Business Insider援引内部人士称,新模型可能让谷歌有机会夺得领先地位,特别是在OpenAI的ChatGPT-5未能立即产生重大影响之后。

尽管谷歌在AI竞赛中起步较慢,但其仍拥有OpenAI等初创公司所没有的众多优势:自研专用芯片;在在线搜索中拥有约90%的市场份额;以及数以百万计的Gmail、Google Docs等用户,如今这些产品正逐步被注入AI功能。谷歌上月还公布了创纪录的收入,并计划在AI建设上投入数十亿美元。

对于企业和开发者而言,Gemini 3的价值不仅在于其强大的能力,更在于它提供了一个“可扩展、可定制、可落地”的智能基座。随着生态的完善,我们有理由相信,Gemini 3将加速AI从“实验室”走向“生产线”,最终渗透到每个人的生活与工作中。

对于行业而言,Gemini 3的发布不是竞争的终点,而是新的起点。它将倒逼竞争对手加速技术创新,推动AI行业在推理能力、多模态融合、Agent开发等领域的全面进步;对于用户和开发者而言,Gemini 3带来的不仅是更强大的工具,更是全新的工作和交互方式。

(文|Leo张ToB杂谈,作者|张申宇,编辑丨盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朝鲜阅兵式现场大将仅剩5人!战略军直接被裁?

朝鲜阅兵式现场大将仅剩5人!战略军直接被裁?

IN朝鲜
2026-02-28 10:45:32
特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

安珈使者啊
2026-03-01 12:15:35
为什么北京像莫斯科?

为什么北京像莫斯科?

虔青
2026-02-26 11:39:20
1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

寄史言志
2026-01-24 17:53:13
1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

磊子讲史
2026-01-14 10:12:21
让领导先走?以色列彻底改变了战争习惯,自此食肉者得三思而后行

让领导先走?以色列彻底改变了战争习惯,自此食肉者得三思而后行

寻途
2025-08-22 20:22:00
哈梅内伊的死,将了特朗普的军!哈梅内伊最后“阳谋”,有多毒?

哈梅内伊的死,将了特朗普的军!哈梅内伊最后“阳谋”,有多毒?

军机Talk
2026-03-01 14:05:59
印度游客添乱,泰国悔悟:还是中国游客香

印度游客添乱,泰国悔悟:还是中国游客香

华山穹剑
2026-02-27 19:47:38
网传新能源汽车开征“里程税” 收费0.12元/公里 多地回应

网传新能源汽车开征“里程税” 收费0.12元/公里 多地回应

快科技
2026-02-27 21:58:15
骑士106-102篮网!阿特金森赛后把话挑明,哈登复出带来一大变化

骑士106-102篮网!阿特金森赛后把话挑明,哈登复出带来一大变化

鱼崖大话篮球
2026-03-02 10:21:28
香港昂船洲政府船坞发生爆炸,已造成5人受伤

香港昂船洲政府船坞发生爆炸,已造成5人受伤

界面新闻
2026-03-02 12:00:42
演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

乐悠悠娱乐
2026-03-01 10:27:25
34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

小书生吃瓜
2026-02-15 22:41:52
护照姐丢人丢到国外!老外纷纷举护照玩梗,洋老公:她只是保姆

护照姐丢人丢到国外!老外纷纷举护照玩梗,洋老公:她只是保姆

寒士之言本尊
2025-10-09 11:12:44
英国宣布参与对伊朗军事行动 战机已升空

英国宣布参与对伊朗军事行动 战机已升空

桂系007
2026-02-28 23:56:12
法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

蜉蝣说
2026-02-03 16:31:54
张一鸣第一个IPO,要来了?

张一鸣第一个IPO,要来了?

字母榜
2026-03-02 11:57:54
哈梅内伊真死了,二儿子掌控军队,三儿子掌控政府,大儿子消失了

哈梅内伊真死了,二儿子掌控军队,三儿子掌控政府,大儿子消失了

关系新篇章
2026-03-01 18:00:53
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
2026-03-02 13:08:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
130079文章数 861847关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

房产
数码
手机
旅游
本地

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

数码要闻

军规可靠:联想发布ThinkTab X11强固型Android平板电脑

手机要闻

安卓小平板性能王!全新联想拯救者Y700官宣搭载骁龙8E5 跑分破453万

旅游要闻

游客点赞!甘孜州终身门票政策昨日迎来“开门红”

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版