网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。

根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。

整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。

  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。

参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州女子与前夫发生关系后报警称被侵犯,儿子同室未听见反抗

广州女子与前夫发生关系后报警称被侵犯,儿子同室未听见反抗

观世记
2026-04-18 15:55:41
4大名帅候选曝光!那个人才是伯纳乌最想要的

4大名帅候选曝光!那个人才是伯纳乌最想要的

茅塞盾开本尊
2026-04-19 12:27:00
3-2,中甲第9掀翻中甲第3,大连鲲城终结2轮不胜,穆谢奎双响炮

3-2,中甲第9掀翻中甲第3,大连鲲城终结2轮不胜,穆谢奎双响炮

凌空倒钩
2026-04-19 17:07:51
A股:大家做好准备,不出意外,明天周一,4月20日,很可能这样走

A股:大家做好准备,不出意外,明天周一,4月20日,很可能这样走

云鹏叙事
2026-04-19 09:14:33
有人说她要“背锅”

有人说她要“背锅”

徐静波静说日本
2026-04-19 07:11:41
不辞职就开除!特朗普彻底摊牌:必须卷铺盖走人,鲍威尔退无可退

不辞职就开除!特朗普彻底摊牌:必须卷铺盖走人,鲍威尔退无可退

娱乐小可爱蛙
2026-04-19 18:29:23
沈腾携妻子参加聚会,王琦穿新中式又白又美,两人私下穿搭反差大

沈腾携妻子参加聚会,王琦穿新中式又白又美,两人私下穿搭反差大

古希腊掌管松饼的神
2026-04-18 13:08:33
39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

揽星河的笔记
2026-04-14 15:18:30
CBA罚单:山西主帅潘江辱骂裁判 停赛3场罚6万 无缘首场季后赛

CBA罚单:山西主帅潘江辱骂裁判 停赛3场罚6万 无缘首场季后赛

醉卧浮生
2026-04-19 17:22:23
郑丽文之后,洪秀柱也抵达北京,曾喊:两岸必须统一,也必然统一

郑丽文之后,洪秀柱也抵达北京,曾喊:两岸必须统一,也必然统一

叹知
2026-04-19 18:05:33
1963年,陈诚做了两个噩梦,醒来就对蒋介石说:不能再反攻大陆了

1963年,陈诚做了两个噩梦,醒来就对蒋介石说:不能再反攻大陆了

浩渺青史
2026-04-19 17:31:04
费舍尔:詹姆斯如今的风格就像魔术师,他依然可以赢得总冠军

费舍尔:詹姆斯如今的风格就像魔术师,他依然可以赢得总冠军

懂球帝
2026-04-19 12:10:10
信阳市负责同志职务调整

信阳市负责同志职务调整

大象新闻
2026-04-19 13:11:02
被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

夜深爱杂谈
2025-12-02 20:51:10
贬低全红婵、移居国外、儿子入英国籍?白岩松到底动了谁的蛋糕

贬低全红婵、移居国外、儿子入英国籍?白岩松到底动了谁的蛋糕

许三岁
2026-04-18 09:36:18
33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

阿讯说天下
2026-04-18 14:53:39
虚报77亿、9.6亿投资凭空造,河南:坚决整改 追责问责

虚报77亿、9.6亿投资凭空造,河南:坚决整改 追责问责

新京报
2026-04-19 17:01:05
9岁小酒窝职业假笑浓妆营业,评论区差评一片,董璇后悔了吗?

9岁小酒窝职业假笑浓妆营业,评论区差评一片,董璇后悔了吗?

蒂蒂茱家
2026-04-17 15:28:38
暂停新增客户12个月!又一投顾机构被处罚

暂停新增客户12个月!又一投顾机构被处罚

券商中国
2026-04-19 18:46:31
日本军舰闯台海后,美国接到通知,中国东海划5处警戒区,有动作

日本军舰闯台海后,美国接到通知,中国东海划5处警戒区,有动作

肖兹探秘说
2026-04-19 16:35:16
2026-04-19 19:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12497文章数 176455关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

特朗普1个月骂了4次"纸老虎" 北约秘书长:他不会退群

头条要闻

特朗普1个月骂了4次"纸老虎" 北约秘书长:他不会退群

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

艺术
家居
亲子
公开课
军事航空

艺术要闻

俄罗斯画家季莫申科 小幅风景油画写生(二)

家居要闻

法式线条 时光静淌

亲子要闻

吹多少拿多少

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版