网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。

根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。

整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。

  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。

参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

老马拉车莫少装
2026-03-01 21:19:35
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

兰妮搞笑分享
2026-03-26 13:55:33
银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

蓝色海边
2026-03-26 13:44:58
伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

华人星光
2026-03-25 11:24:58
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
张雪峰不是留几手的爹!?

张雪峰不是留几手的爹!?

八卦疯叔
2026-03-26 11:23:27
张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

护理传真
2026-03-25 15:46:16
张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

阿凯销售场
2026-03-26 15:48:07
今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

阿凫爱吐槽
2026-03-26 15:54:03
黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

新浪财经
2026-03-26 16:24:17
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

袁周院长
2026-03-26 16:08:54
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

福建第一帮帮团
2026-03-25 19:38:24
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
2026-03-26 17:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
游戏
本地
房产
公开课

教育要闻

2026湖北高职单招工作启动

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版