网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。

根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。

整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。

  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。

参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一旦武统台湾,解放军将四面受敌,俄媒曾言:真正的威胁来自内部

一旦武统台湾,解放军将四面受敌,俄媒曾言:真正的威胁来自内部

向日葵向阳西晒
2026-07-05 09:10:57
1941年,日本少将践踏张子政遗体,一伪军忍无可忍,向少将开了火

1941年,日本少将践踏张子政遗体,一伪军忍无可忍,向少将开了火

兴趣知识
2026-07-04 01:21:00
太脏了吧,差点被干废,还是姆巴佩…

太脏了吧,差点被干废,还是姆巴佩…

刺猬篮球
2026-07-05 08:11:44
看完这7件事,我终于懂了:中国足球的离谱,早就超出了人类认知

看完这7件事,我终于懂了:中国足球的离谱,早就超出了人类认知

圣西罗的太阳
2026-04-23 13:24:10
湖人过早放弃得分猛将,马刺捡漏成功,悄悄签下北卡王牌后卫

湖人过早放弃得分猛将,马刺捡漏成功,悄悄签下北卡王牌后卫

夜白侃球
2026-07-04 23:38:11
正式官宣!前国安金靴离队,本月将回北京,有望在工体与球迷见面

正式官宣!前国安金靴离队,本月将回北京,有望在工体与球迷见面

体坛鉴春秋
2026-07-05 12:54:07
窦骁谈和何超莲的婚姻:我很认真眼里容不下沙子,但也会去妥协

窦骁谈和何超莲的婚姻:我很认真眼里容不下沙子,但也会去妥协

天马幸福的人生
2026-07-05 14:48:58
湖南一32岁大龄剩女相亲开口慢热小伙当场AA,女子:小气!

湖南一32岁大龄剩女相亲开口慢热小伙当场AA,女子:小气!

尘埃里的看客
2026-07-05 14:04:54
詹姆斯9大下家谁最有机会争冠?不是骑士,不是勇士,更不是热火

詹姆斯9大下家谁最有机会争冠?不是骑士,不是勇士,更不是热火

锅子篮球
2026-07-05 13:48:34
暴雨、10级以上雷暴大风!江苏天气最新预测

暴雨、10级以上雷暴大风!江苏天气最新预测

最江阴
2026-07-05 13:43:39
伊朗消失5个月的幽灵将军现身!已故将军竟出现在哈梅内伊棺材旁

伊朗消失5个月的幽灵将军现身!已故将军竟出现在哈梅内伊棺材旁

史智文道
2026-07-05 14:15:25
魏敏芝现状:在美国当导演,全家定居夏威夷,如今40岁胖到不敢认

魏敏芝现状:在美国当导演,全家定居夏威夷,如今40岁胖到不敢认

白面书誏
2026-06-29 21:16:24
重要通知!2026高考首批高校录取分数线公布,考生可查询!

重要通知!2026高考首批高校录取分数线公布,考生可查询!

教材帮
2026-07-04 20:08:27
1977年南京争司令:内定李水清没上,体弱聂凤智意外上位

1977年南京争司令:内定李水清没上,体弱聂凤智意外上位

唠叨说历史
2026-06-06 15:59:47
金价7月5日,大家要有心理准备了,下周,金价或将迎来更大变盘

金价7月5日,大家要有心理准备了,下周,金价或将迎来更大变盘

别人都叫我阿腈
2026-07-05 03:09:03
王楚钦也没想到,男单全军覆没不到24小时,樊振东传来重磅好消息

王楚钦也没想到,男单全军覆没不到24小时,樊振东传来重磅好消息

大鱼简科
2026-07-04 16:42:52
拯救无数人的著名心理治疗师,自杀了

拯救无数人的著名心理治疗师,自杀了

中国新闻周刊
2026-07-04 18:31:03
德尚:因为怕姆巴佩被铲伤,我让最强壮的两名球员去把他围住

德尚:因为怕姆巴佩被铲伤,我让最强壮的两名球员去把他围住

懂球帝
2026-07-05 07:42:08
东风导弹泄密案中,间谍郭万钧一家三口均被依法执行死刑

东风导弹泄密案中,间谍郭万钧一家三口均被依法执行死刑

人生录
2026-06-17 20:53:45
AI引爆存储,江波龙上半年净利暴涨超600倍

AI引爆存储,江波龙上半年净利暴涨超600倍

钛媒体APP
2026-07-05 09:29:19
2026-07-05 15:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12895文章数 176510关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

日本史上最年轻民选女市长因休16周产假遭全国围攻

头条要闻

日本史上最年轻民选女市长因休16周产假遭全国围攻

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
房产
时尚
家居
公开课

教育要闻

暑假想废掉一个孩子,就让他长期宅在恒温26度的家里

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

为什么女明星体重涨了,身材反而更辣了?

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版