网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。



根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。



整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。



  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。



参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
穿黑色瑜伽裤的美女,配上吊带背心,清新不失性感,让人流连忘返

穿黑色瑜伽裤的美女,配上吊带背心,清新不失性感,让人流连忘返

小乔古装汉服
2025-09-19 12:32:48
经纪人官宣麦考尔正式加盟广东男篮,上赛季场均23+5+5

经纪人官宣麦考尔正式加盟广东男篮,上赛季场均23+5+5

雷速体育
2025-09-19 18:38:09
淮阴工学院破局而出,江苏首个新大学即将落户淮安!

淮阴工学院破局而出,江苏首个新大学即将落户淮安!

鬼菜生活
2025-09-19 15:31:43
郑丽文喊话大陆网友,绝不辜负信任!马英九罕见“下注”

郑丽文喊话大陆网友,绝不辜负信任!马英九罕见“下注”

法老不说教
2025-09-18 14:18:41
喊上门按摩,发现是女同学妈妈,结束后她问我:还要别的服务吗?

喊上门按摩,发现是女同学妈妈,结束后她问我:还要别的服务吗?

凯裕说故事
2025-09-03 16:59:48
“彻底解释不清楚了”,新疆街头,帽子叔叔带着警犬执勤

“彻底解释不清楚了”,新疆街头,帽子叔叔带着警犬执勤

老友科普
2025-09-19 13:34:41
iPhone 18 Pro 首曝,太强了!

iPhone 18 Pro 首曝,太强了!

果粉俱乐部
2025-09-18 11:46:01
同为战神,为何四野名将不敢顶撞林总,而三野却有多人不服粟裕?

同为战神,为何四野名将不敢顶撞林总,而三野却有多人不服粟裕?

言今忆史
2025-09-16 09:25:03
马科斯做梦都没想到,失败来得那么快!担心跟他父亲一样

马科斯做梦都没想到,失败来得那么快!担心跟他父亲一样

寰球视听
2025-09-18 10:08:13
八国联军侵华已过百年,至今没有一个中国人能笑着走出俄罗斯冬宫

八国联军侵华已过百年,至今没有一个中国人能笑着走出俄罗斯冬宫

通文知史
2025-09-16 02:50:04
看不上王思聪,拒绝霍启山,比天仙美却坚持“0恋爱”,她啥来头

看不上王思聪,拒绝霍启山,比天仙美却坚持“0恋爱”,她啥来头

查尔菲的笔记
2025-09-16 16:02:47
辛柏青没想到,《731》上映仅1天,李乃文因一特殊举动口碑暴涨

辛柏青没想到,《731》上映仅1天,李乃文因一特殊举动口碑暴涨

凡知
2025-09-19 12:25:16
特朗普被裁定性侵,79岁女作家:他强迫我靠墙上,之后强奸了我

特朗普被裁定性侵,79岁女作家:他强迫我靠墙上,之后强奸了我

妙知
2025-09-15 15:09:35
特朗普收到访华邀请,美财长叫嚣能“搞定”中国,结果大失所望

特朗普收到访华邀请,美财长叫嚣能“搞定”中国,结果大失所望

罗列思维
2025-09-18 19:00:50
小县城的留守妇女,到底有多缺钱?

小县城的留守妇女,到底有多缺钱?

英军眼
2025-07-30 14:55:01
强援就位!NBA级前锋加盟广东宏远,杜锋已经敲定三名超级外援

强援就位!NBA级前锋加盟广东宏远,杜锋已经敲定三名超级外援

老叶评球
2025-09-19 17:38:19
斯诺克赛程:决出4强,周跃龙PK卢卡,2名将或会师,黑马对手待定

斯诺克赛程:决出4强,周跃龙PK卢卡,2名将或会师,黑马对手待定

刘姚尧的文字城堡
2025-09-19 07:05:11
中介正在让房价越来越低

中介正在让房价越来越低

拾榴询财
2025-09-19 15:43:56
何猷君乘国产豪车现身南宁,新座驾崭新,传何超莲给家人买了30台

何猷君乘国产豪车现身南宁,新座驾崭新,传何超莲给家人买了30台

柠檬有娱乐
2025-09-19 14:14:57
刚刚!605255,连续13个一字涨停!

刚刚!605255,连续13个一字涨停!

证券时报e公司
2025-09-19 10:55:27
2025-09-19 19:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
11353文章数 176280关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

女子误踩氢氟酸身亡 专家回应"为何遗弃10年仍致命"

头条要闻

女子误踩氢氟酸身亡 专家回应"为何遗弃10年仍致命"

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

"矿霸"填埋万吨危废 当地政府成立调查组

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

房产
手机
健康
亲子
军事航空

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

手机要闻

追觅将推出首款智能手机Dreame Space,海外预售已获超1亿元订单

内分泌科专家破解身高八大谣言

亲子要闻

尊重孩子睡眠规律,任何口头猜测都不能代替你的观察

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版