网易首页 > 网易科技 > 网易科技 > 正文

谷歌发布Gemini 2.5 Deep Think:月费250美元会员可用

0
分享至
核心提示
  • 01 谷歌DeepMind正式推出其迄今最先进的AI推理模型Gemini 2.5 Deep Think。该模型是谷歌首个公开发布的多智能体系统,能同时探索并权衡多种解题路径以选出最优答案。订阅了Ultra服务的用户可率先体验。
  • 02 谷歌称,该模型在HLE和高难度编程竞赛等基准测试中,表现均超越了OpenAI、xAI和Anthropic的同类模型。公司认为其有望助力科研人员,并“有可能加速科学发现的进程”。因运营成本高昂,这类系统或将成为顶级付费订阅的专属功能。
  • 03 多智能体系统已成为业界前沿探索方向。xAI、OpenAI、Anthropic等主要竞争对手近期均已推出或被披露正在采用类似的多智能体架构。

8月2日消息,据TechCrunch报道,谷歌DeepMind正式推出Gemini 2.5 Deep Think。据公司介绍,这是其迄今为止最先进的AI推理模型,能够在回答问题时同时探索并权衡多种解题路径,进而选出最优答案。

从本周五起,订阅了每月250美元Ultra订阅服务的用户,将可在Gemini应用中率先体验Gemini 2.5 Deep Think。

Gemini 2.5 Deep Think最早亮相于2025年的谷歌I/O大会,是谷歌公开发布的首个多智能体(multi-agent)模型。这类系统可同时生成多个AI智能体,并行处理同一问题,虽然对算力资源的消耗远超单一智能体,但通常能获得更优的解答。

谷歌曾以Gemini 2.5 Deep Think的一个变体,在今年的国际数学奥林匹克(IMO)上斩获金牌。

与此同时,谷歌还宣布向部分经过筛选的数学家和学者群体,开放其在IMO赛事中使用的那一版模型。公司表示,这一AI模型完成一次推理“需要数小时”,远超绝大多数面向消费级用户的AI模型(通常仅需数秒或数分钟)。谷歌希望该IMO模型能助力科研,并收集反馈,以便进一步优化多智能体系统在学术场景下的应用。

谷歌指出,相较于I/O大会上首次亮相的版本,如今的Gemini 2.5 Deep Think已有显著提升。公司还宣称已开发出“全新的强化学习技术”,以促使Gemini 2.5 Deep Think更高效地利用其推理路径。

谷歌在一篇博文中表示:“Deep Think能帮助用户解决需要创造力、战略规划和逐步改进的问题。”

公司称,Gemini 2.5 Deep Think在“人类终极大考”(Humanity’s Last Exam,HLE)上取得了顶尖水平(state-of-the-art)的表现。HLE是一项极具挑战性的测试,旨在评估AI回答数千道来自数学、人文、科学等领域众包问题的能力。谷歌称,其模型在不借助外部工具的情况下,HLE得分为34.8%,而xAI的Grok 4得分为25.4%,OpenAI的o3得分为20.3%。

此外,Gemini 2.5 Deep Think在LiveCodeBench 6这一高难度编程竞赛测试中,表现同样超越了OpenAI、xAI和Anthropic的AI模型。谷歌模型的得分为87.6%,Grok 4为79%,OpenAI的o3为72%。

Gemini 2.5 Deep Think能自动调用代码执行、谷歌搜索等工具,并且公司表示,该模型生成的回应“篇幅远超传统AI模型”。

在谷歌的内部测试中,相较于其他AI模型,Gemini 2.5 Deep Think完成的网页开发任务在细节丰富度和视觉美感上均更胜一筹。公司认为,该模型有望为科研人员提供助力,“并有可能加速科学发现的进程”。

目前,多智能体系统已成为业界前沿的探索方向。埃隆·马斯克(Elon Musk)旗下的xAI近期也推出了多智能体系统Grok 4 Heavy,据称在多项基准测试中取得领先成绩。OpenAI研究员诺姆·布朗(Noam Brown)在播客中透露,公司今年在IMO上获得金牌所用的未公开模型,同样采用了多智能体架构。与此同时,Anthropic旗下能生成详尽研究简报的工具Research agent,也同样依托多智能体系统提供支持。

尽管多智能体系统表现突出,但其运营成本甚至高于传统AI模型。这也意味着,科技公司很可能会将这类高成本的系统,作为其顶级付费订阅服务的一项专属功能,正如xAI和谷歌目前所做的那样。

在接下来的几周,谷歌计划通过Gemini API,邀请一小批测试者体验Gemini 2.5 Deep Think。公司表示,此举是希望进一步了解开发者和企业用户可能会如何利用其多智能体系统。(易句)

(本文由AI翻译,网易编辑负责校对)

相关推荐
热点推荐
关系藏不住了?罗晋最新近况曝光,原来他和任素汐还有这一层关系

关系藏不住了?罗晋最新近况曝光,原来他和任素汐还有这一层关系

湘村大余
2025-12-20 20:36:10
太难了!今年南方天气太暖,衣服卖不出去,金华一制衣厂提前放假

太难了!今年南方天气太暖,衣服卖不出去,金华一制衣厂提前放假

火山詩话
2025-12-20 15:15:29
婚变传闻后,罗晋携任素汐与母亲去祈福,撕碎了唐嫣最后一丝体面

婚变传闻后,罗晋携任素汐与母亲去祈福,撕碎了唐嫣最后一丝体面

春晓暖语声
2025-12-20 00:07:46
摩尔线程与“Physical AI第一股”展开合作,智能驾驶与具身智能是物理AI最具想象空间的两大应用

摩尔线程与“Physical AI第一股”展开合作,智能驾驶与具身智能是物理AI最具想象空间的两大应用

财联社
2025-12-20 19:27:10
印度约8000名考生坐机场跑道上答题考试,竞争仅有的187个政府职位

印度约8000名考生坐机场跑道上答题考试,竞争仅有的187个政府职位

观威海
2025-12-20 16:42:05
你敢信吗?以后农村最苦的不是无儿无女的“老光棍”,而是这三类人,但愿没你

你敢信吗?以后农村最苦的不是无儿无女的“老光棍”,而是这三类人,但愿没你

农夫也疯狂
2025-12-19 21:21:51
山东换房破局:卖不掉的旧房,竟是换新房的“通关钥匙”!

山东换房破局:卖不掉的旧房,竟是换新房的“通关钥匙”!

石辰搞笑日常
2025-12-20 08:03:15
“中国保险经纪第一人”、江泰保险经纪董事长沈开涛疑似失联,此前公司有多人被带走协查

“中国保险经纪第一人”、江泰保险经纪董事长沈开涛疑似失联,此前公司有多人被带走协查

红星新闻
2025-12-19 20:27:12
癫出新高度!比安卡穿乳胶衣,把自己扭成家具?网友:看不懂但大受震撼

癫出新高度!比安卡穿乳胶衣,把自己扭成家具?网友:看不懂但大受震撼

最黑科技
2025-12-16 22:49:00
比美国B2还先进!轰20造价有多贵?印专家:一架能抵20架歼20战机

比美国B2还先进!轰20造价有多贵?印专家:一架能抵20架歼20战机

青途历史
2025-12-08 19:40:13
回归意甲!罗马租借+买断与曼联就齐尔克泽转会达成协议

回归意甲!罗马租借+买断与曼联就齐尔克泽转会达成协议

智道足球
2025-12-20 10:28:18
北京一男子,因“挑战全网最牛朱顶红”走红,网友:是要卷上天?

北京一男子,因“挑战全网最牛朱顶红”走红,网友:是要卷上天?

观察鉴娱
2025-12-19 08:35:51
1976年尼克松重返北京,执意要去周总理墓前磕头,秘书一句话让他瞬间泪崩

1976年尼克松重返北京,执意要去周总理墓前磕头,秘书一句话让他瞬间泪崩

史海残云
2025-12-19 14:26:17
1986年陈永贵病逝后,追悼会规格引起争议,邓小平一句话最终定调

1986年陈永贵病逝后,追悼会规格引起争议,邓小平一句话最终定调

寄史言志
2025-12-19 15:28:23
我退休后回老家养老,村书记摆架子要给我上一课,不料县长来考察

我退休后回老家养老,村书记摆架子要给我上一课,不料县长来考察

五元讲堂
2025-12-04 11:49:42
41岁朱珠参加演出,小肚子抢镜,但身材完美依然掩盖不住她的美!

41岁朱珠参加演出,小肚子抢镜,但身材完美依然掩盖不住她的美!

阿废冷眼观察所
2025-12-20 14:07:15
A股:不出意外 下周一 市场很有可能会迎来更大级别的反弹?

A股:不出意外 下周一 市场很有可能会迎来更大级别的反弹?

夜深爱杂谈
2025-12-20 16:32:16
知名主持王小骞崩溃大哭!自称女儿患上“正食症”,心率高达120

知名主持王小骞崩溃大哭!自称女儿患上“正食症”,心率高达120

凡知
2025-12-20 10:40:25
范迪塞尔官宣!C罗加盟,巨石强森回归,《速度与激情11》要爆了

范迪塞尔官宣!C罗加盟,巨石强森回归,《速度与激情11》要爆了

娱乐圈十三太保
2025-12-19 16:48:24
从历史第四到无缘前十!东契奇五年MVP陪跑之路,今年能否破局?

从历史第四到无缘前十!东契奇五年MVP陪跑之路,今年能否破局?

奕辰说球
2025-12-20 13:09:35
2025-12-20 22:43:00

科技要闻

许四清:具身智能的"ChatGPT时刻"还未到来

头条要闻

美方最新表态:不会强迫乌克兰接受协议

头条要闻

美方最新表态:不会强迫乌克兰接受协议

体育要闻

我开了20年大巴,现在是一名西甲主帅

娱乐要闻

2026央视跨年晚会阵容曝光,豪华阵仗

财经要闻

求解“地方财政困难”

汽车要闻

岚图推进L3量产测试 已完成11万公里实际道路验证

态度原创

旅游
艺术
教育
游戏
军事航空

旅游要闻

虹口新春“五必”榜单来啦!一季度“乐购乐游”攻略轻松拿捏!

艺术要闻

惊!肢体语言竟如此迷人,让人无法抗拒!

教育要闻

建邺教育:全区中考连续19年超市均分,三所学校高考成绩再攀新高

新劳拉·克劳馥演员回忆《完美黑暗》项目取消经历

军事要闻

泽连斯基:前线局势愈发艰难

无障碍浏览 进入关怀版
×