网易首页 > 网易号 > 正文 申请入驻

谷歌深夜放出 IMO 金牌模型,多项测试力压 Grok 4、OpenAI o3!网友评论两极分化

0
分享至

整理 | 冬梅

昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。

谷歌亮相 IMO 竞赛夺冠模型

谷歌表示,这是其最先进的人工智能推理模型,能够通过同时探索和考虑多个想法来回答问题,然后使用这些输出来选择最佳答案。

从昨天起,谷歌每月 250 美元的 Ultra 订阅用户将可以在 Gemini 应用程序中访问 Gemini 2.5 Deep Think。

Gemini 2.5 Deep Think 于 2025 年 5 月在 Google I/O 开发者大会上首次亮相,是谷歌首个公开的多智能体模型。这些系统会生成多个 AI 智能体来并行处理一个问题,这个过程比单个智能体消耗更多的计算资源,但往往会得到更好的答案。

除了 Gemini 2.5 Deep Think 之外,谷歌还表示将向特定数学家和学者群体发布其在国际海事组织 (IMO) 中使用的模型。

谷歌表示,该 AI 模型“推理只需数小时”,而不像大多数面向消费者的 AI 模型那样只需几秒或几分钟。该公司希望 IMO 模型能够加强研究工作,并旨在收集关于如何改进多智能体系统以用于学术用例的反馈。

谷歌指出,Gemini 2.5 Deep Think 模型比其在 I/O 大会上发布的模型有了显著改进。该公司还声称已经开发出“新颖的强化学习技术”,以鼓励 Gemini 2.5 Deep Think 更好地利用其推理路径。

谷歌在与 TechCrunch 分享的博客文章中表示:“Deep Think 可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”

工作原理:延长模型的平行“思考时间”

正如人们会花时间探索不同的角度、权衡各种潜在解决方案并最终完善答案,从而解决复杂问题一样,Deep Think 也通过运用并行思维技巧,突破了思维能力的界限。这种方法让 Gemini 能够同时产生多个想法,并同时进行思考,甚至随着时间的推移不断修改或整合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind 研发团队给了 Gemini 更多的时间来探索不同的假设,并为复杂问题找到创造性的解决方案。

此外,谷歌还开发了新颖的强化学习技术,鼓励模型利用这些扩展的推理路径,从而使 Deep Think 随着时间的推移成为更好、更直观的问题解决者。

Deep Think 表现如何?

深度思考可以帮助人们解决需要创造力、战略规划和逐步改进的问题,例如:

  • 迭代开发和设计: Deep Think 在处理需要逐个构建复杂内容的任务时表现出色,这给我们留下了深刻的印象。例如,技术团队观察到 Deep Think 可以同时提升 Web 开发任务的美观度和功能性。

Gemini 应用程序中的 Deep Think 使用平行思维技术来提供更详细、更有创意和更周到的回应。

  • 科学和数学发现:由于深度思考能够推理高度复杂的问题,它可以成为研究人员的强大工具。它可以帮助构建和探索数学猜想,或推理复杂的科学文献,从而有可能加速发现的进程。

  • 算法开发和代码: Deep Think 特别擅长解决棘手的编码问题,其中问题的制定和对权衡和时间复杂性的仔细考虑至关重要。

Deep Think 在衡量编码、科学、知识和推理能力的挑战性基准测试中也表现突出。

例如,与其他不使用工具的模型相比,Gemini 2.5 Deep Think 在 LiveCodeBench V6(用于衡量竞争性代码性能)和 Humanity's Last Exam(HLE 是一项极具挑战性的测试,旨在衡量 AI 回答数千道数学、人文和科学领域众包问题的能力)中均取得了最佳性能。

谷歌声称,其模型在 HLE(不使用工具)上的得分为 34.8%,而 xAI 的 Grok 4 得分为 25.4%,OpenAI 的 o3 得分为 20.3%。

谷歌还表示,Gemini 2.5 Deep Think 在 LiveCodeBench 6 中的表现优于 OpenAI、xAI 和 Anthropic 的 AI 模型。谷歌的模型得分为 87.6%,Grok 4 得分为 79%,OpenAI 的 o3 得分为 72%。

网友怎么看?

谷歌最新发布的 Gemini 2.5 Deep Think 模型在社交媒体和科技论坛上引发了热烈讨论,尤其是在 Hacker News、Reddit 和 X(原 Twitter) 等平台上。许多网友第一时间进行了测试,并分享了他们的使用体验和看法。

在 X 上,有网友尝试过 Gemini 2.5 Deep Think 后表示,其上下文窗口比 Gemini 2.5 Pro 要短。

有网友认为这款新模型棒极了,并考虑买个 Ultra sub。

还有网友认为,这款模型的一些基准测试结果好得让人震惊,即便这样谷歌也没有高调宣传它。

但也有网友对这款模型并不买账,认为与顶级模型相比,其性能没什么竞争力。该网友表示:

“我开始用这个新的 Deep Think 代理进行一些实验,但五次提示后就达到了每日使用上限。每月 250 美元的价格实在令人难以接受。与 o3-pro 和 Grok 4 Heavy 相比,它简直毫无竞争力。 在性能方面,目前为止我甚至还没能看出什么明显优势。我向它提出了一个我公司面临的棘手组织问题,并提供了相关背景信息,它确实提出了一个清晰、经过深思熟虑的解决方案,与我们内部讨论的内容一致。但值得注意的是,o3 以更低的成本得出了同样有效的结论,尽管它的报告在“综合能力”方面略逊一筹。”

也有网友认为,不能指望谷歌新模型做到十分完美,因为即使最顶尖的模型也有时候会“拖后腿”,而且“输入一个问题就能生成代码”也不是件新鲜事,大模型出来前就已经有了,只不过没那么好用罢了。

“它们在训练集中见过但未加权的数据上表现得非常糟糕。即使是最优秀的模型——比如表现出色的 Opus 4,以及时常带来惊喜的 Qwen 和 K2——在一些不那么显眼的方面也会拖后腿。

最明显的例子可能就是构建系统相关的内容:你一眼就能看出哪些模型“见过”大量的 nixpkgs 数据。而即便是最好的模型,似乎也很难很好地处理 Bazel,甚至有时连 CMake 都搞不定。

那些顶级的搜索引擎每天烧掉超过一百美元的成本,我认为它们比 SEO 时代之前的 Google 或 Stack Overflow 有了明显的提升……但如果和一个真正好用的搜索索引相比,还算不上“遥遥领先”。曾经,几乎所有编程主题的源代码、文档和故障排除信息,Google 搜索首页都能展示出来。那时候的体验就像是:你在那个神奇的搜索框里输入一个问题,立马就能弹出一段能用的代码。在 FAANG 的黄金时期,内部也有那种超强的 grep 工具,效果类似。

我感觉有一两代人会觉得“输入一个问题就能生成代码”是一件很新奇的事。但其实,这根本不是什么新鲜事——只是我们过去这五到十年里没再用过而已。”

https://techcrunch.com/2025/08/01/google-rolls-out-gemini-deep-think-ai-a-reasoning-model-that-tests-multiple-ideas-in-parallel/

https://blog.google/products/gemini/gemini-2-5-deep-think/

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拿中国钱、用中国数据,转头140亿卖给美国!商务部制裁太解气

拿中国钱、用中国数据,转头140亿卖给美国!商务部制裁太解气

你是我心中最美星空
2026-02-22 19:40:23
“不停工、不停产”,这家企业初一到初五累计在岗1.43万人,产值超4亿元!“最爱发钱老板”旗下公司今天也开工,客户已排起长队

“不停工、不停产”,这家企业初一到初五累计在岗1.43万人,产值超4亿元!“最爱发钱老板”旗下公司今天也开工,客户已排起长队

每日经济新闻
2026-02-22 17:42:10
李易峰“选妃”画面曝光!现场看视频选人,随后其床照被公开太辣眼

李易峰“选妃”画面曝光!现场看视频选人,随后其床照被公开太辣眼

八卦王者
2026-02-22 14:06:04
CCTV5直播中日男篮世预赛,徐杰被曝缺席,谁能顶替王俊杰的位置

CCTV5直播中日男篮世预赛,徐杰被曝缺席,谁能顶替王俊杰的位置

体育大学僧
2026-02-22 10:09:56
谷爱凌绝地翻盘!中国压哨再夺1金,冬奥奖牌榜:日本锁定亚洲第1

谷爱凌绝地翻盘!中国压哨再夺1金,冬奥奖牌榜:日本锁定亚洲第1

何老师呀
2026-02-22 19:19:58
果然,出门在外“胡说八道”能省去很多麻烦,这些方法太管用了!

果然,出门在外“胡说八道”能省去很多麻烦,这些方法太管用了!

另子维爱读史
2025-12-12 20:08:38
2-1!20岁边卫双响 12.9亿豪门力挫强敌3连胜 英超争冠形势又生变

2-1!20岁边卫双响 12.9亿豪门力挫强敌3连胜 英超争冠形势又生变

狍子歪解体坛
2026-02-22 05:56:15
我国5600余个姓氏中只有8个姓氏从未衰落,看一下有你的姓氏吗?

我国5600余个姓氏中只有8个姓氏从未衰落,看一下有你的姓氏吗?

铭记历史呀
2026-01-07 02:22:59
你见过最离谱的网购经历是什么?网友:快递员笑着笑着脸就红了

你见过最离谱的网购经历是什么?网友:快递员笑着笑着脸就红了

夜深爱杂谈
2026-02-16 20:26:28
1999年,迟浩田设局抓捕一位少将,对方被捕后挑衅:我爸知道吗?

1999年,迟浩田设局抓捕一位少将,对方被捕后挑衅:我爸知道吗?

叹为观止易
2026-02-20 13:32:06
新疆“火焰山”:历史上烧了129年,损失超万亿!扑灭后惊艳世人

新疆“火焰山”:历史上烧了129年,损失超万亿!扑灭后惊艳世人

疯狂的小历史
2026-01-22 11:24:25
周总理为什么不愿在人民大会堂国画《江山如此多娇》上题词?

周总理为什么不愿在人民大会堂国画《江山如此多娇》上题词?

老杉说历史
2026-02-16 18:05:07
我爸和我二叔十年不说话,我出嫁的前一天,二叔却把我拦在了村口

我爸和我二叔十年不说话,我出嫁的前一天,二叔却把我拦在了村口

人间百态大全
2025-12-14 06:45:03
U型场地女王!谷爱凌夺中国第五金:两届冬奥拿牌率100%

U型场地女王!谷爱凌夺中国第五金:两届冬奥拿牌率100%

南方都市报
2026-02-22 21:36:32
正式官宣!广东宏远旧将重返CBA,加盟黑马球队,冲击季后赛

正式官宣!广东宏远旧将重返CBA,加盟黑马球队,冲击季后赛

体坛瞎白话
2026-02-22 18:30:38
朝鲜开九大,金正恩为什么戴上了前代像章?

朝鲜开九大,金正恩为什么戴上了前代像章?

IN朝鲜
2026-02-22 16:06:41
皇马球员赫伊森辱华!皇马会开除他并道歉吗?

皇马球员赫伊森辱华!皇马会开除他并道歉吗?

氧气是个地铁
2026-02-22 12:13:02
许家印,在恒大王国里,过足了官瘾、钱瘾、色瘾,金蝉脱壳玩死了

许家印,在恒大王国里,过足了官瘾、钱瘾、色瘾,金蝉脱壳玩死了

混沌录
2025-09-12 00:29:10
男子参加王婆说媒炫富引质疑:自称在机关单位上班 家里有宾利保时捷 房子很多;当地称正核实

男子参加王婆说媒炫富引质疑:自称在机关单位上班 家里有宾利保时捷 房子很多;当地称正核实

大风新闻
2026-02-22 11:23:09
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
2026-02-22 23:12:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12068文章数 51761关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

顾及中国 韩国拒绝美军韩美日三边军演邀请

头条要闻

顾及中国 韩国拒绝美军韩美日三边军演邀请

体育要闻

自由式滑雪U型池 谷爱凌成功卫冕

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
时尚
旅游
本地
军事航空

教育要闻

我悟了,不花一分钱2招拯救复试哑巴口语

50+女人更适合基础款,掌握3个高段位搭配思路,轻松提升品味

旅游要闻

春节假期北京商圈+京郊文旅双出圈!每一处都藏着最浓年味儿

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

约旦基地美军战机骤增 包括F-35隐形战斗机

无障碍浏览 进入关怀版