网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。

根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。

整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。

  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。

参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京圈隐形富婆曝光:宋丹丹百亿家底,陈丽华550亿,刘嘉玲9亿房产

京圈隐形富婆曝光:宋丹丹百亿家底,陈丽华550亿,刘嘉玲9亿房产

子芫伴你成长
2026-04-23 23:15:49
他今年58岁了,你敢信?!

他今年58岁了,你敢信?!

健身迷
2026-04-13 09:34:17
广东3消息!胡明轩正式发声,徐昕回应直面杜锋,徐杰获MVP候选

广东3消息!胡明轩正式发声,徐昕回应直面杜锋,徐杰获MVP候选

多特体育说
2026-04-25 11:24:28
史上最大规模化债,已经开始!坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!坚持了30年的信仰,进入倒计时

律法刑道
2026-04-26 08:44:05
可惜,大s永远不会知道了,到最后,护着她两个孩子的是婆婆张兰

可惜,大s永远不会知道了,到最后,护着她两个孩子的是婆婆张兰

喜欢历史的阿繁
2026-04-25 10:15:34
片酬不少拿,演啥啥不行的“戏混子”明星,求求放过观众眼睛吧!

片酬不少拿,演啥啥不行的“戏混子”明星,求求放过观众眼睛吧!

橙星文娱
2026-04-26 10:32:05
医生1分钟复位收100元被举报,卫健委回怼:应收110,你还少给了!家长拒缴溜走!

医生1分钟复位收100元被举报,卫健委回怼:应收110,你还少给了!家长拒缴溜走!

医客
2026-04-23 12:09:21
为艺术突破边界!艾丽西亚·维坎德的6部大尺度电影,好看又养眼

为艺术突破边界!艾丽西亚·维坎德的6部大尺度电影,好看又养眼

影唠安利社
2026-04-26 10:12:55
“张雪的机车”,账号被封禁!

“张雪的机车”,账号被封禁!

营销报
2026-04-07 13:54:34
比罗伯逊更重要!利物浦若卖走这位 3000 万天才,芬威就是真糊涂

比罗伯逊更重要!利物浦若卖走这位 3000 万天才,芬威就是真糊涂

澜归序
2026-04-26 06:15:08
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
傅首尔暴瘦引全网质疑:自律vs高科技?对比颜如晶,不怪网友怀疑

傅首尔暴瘦引全网质疑:自律vs高科技?对比颜如晶,不怪网友怀疑

老吴教育课堂
2026-04-26 01:55:21
现金行贿真的查不到?纪委不靠流水锁定证据,贪腐者别再痴心妄想

现金行贿真的查不到?纪委不靠流水锁定证据,贪腐者别再痴心妄想

芳姐侃社会
2026-04-24 22:35:09
100 日元兑 4.33 元:日本用三十年,把自己熬成了 “廉价国家”

100 日元兑 4.33 元:日本用三十年,把自己熬成了 “廉价国家”

深析古今
2026-03-31 10:10:57
五指山舰女兵受访“一问三不知”,没被骂反被夸,真实原因太戳人

五指山舰女兵受访“一问三不知”,没被骂反被夸,真实原因太戳人

奇思妙想草叶君
2026-04-24 17:11:11
克莱犯满离场!TMZ:马冬梅亲承已和克莱分手 尊重和信任是底线

克莱犯满离场!TMZ:马冬梅亲承已和克莱分手 尊重和信任是底线

画夕
2026-04-26 07:12:19
中国再破世界第一!化学合成粮食即将量产,不用种地粮食自由了

中国再破世界第一!化学合成粮食即将量产,不用种地粮食自由了

历史甄有趣
2026-04-25 06:00:17
俄朝图们江上第二座桥已建成,将于6月通车

俄朝图们江上第二座桥已建成,将于6月通车

名人苟或
2026-04-26 07:02:25
一天一个价!多款电脑集体涨价,店员透露:27日以后会大幅涨价

一天一个价!多款电脑集体涨价,店员透露:27日以后会大幅涨价

极目新闻
2026-04-24 18:58:46
80岁丧偶独居至104岁,不靠子女养老院独自终老一生

80岁丧偶独居至104岁,不靠子女养老院独自终老一生

君笙的拂兮
2026-04-25 17:14:53
2026-04-26 11:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12534文章数 176457关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫突发枪击案 250名记者联名要求将晚宴变维权现场

头条要闻

白宫突发枪击案 250名记者联名要求将晚宴变维权现场

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

艺术
亲子
手机
本地
公开课

艺术要闻

郑丽文访问清华附中引发热议,蒋中正信札字迹真实性遭质疑

亲子要闻

早上叫孩子起床,记住三说,三不说

手机要闻

姚安娜喜提华为Pura X Max 网友:又美又飒

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版