网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。



根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。



整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。



  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。



参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4.99万!刘强东不给雷军留活路!

4.99万!刘强东不给雷军留活路!

广告创意
2025-11-10 17:24:49
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

寒士之言本尊
2025-11-10 22:51:59
詹姆斯复出倒计时!确定今日下放发展联盟:与南湾湖人一起训练

詹姆斯复出倒计时!确定今日下放发展联盟:与南湾湖人一起训练

罗说NBA
2025-11-11 07:13:06
为中小学教师减负!教育部发布8条措施:不得要求教师上街执勤;无学生在校期间,原则上不安排专任教师值班值守

为中小学教师减负!教育部发布8条措施:不得要求教师上街执勤;无学生在校期间,原则上不安排专任教师值班值守

每日经济新闻
2025-11-10 14:08:19
江西临川三中党总支书记梅军水查看教学楼屋顶漏水时意外坠楼,不幸去世

江西临川三中党总支书记梅军水查看教学楼屋顶漏水时意外坠楼,不幸去世

澎湃新闻
2025-11-11 10:22:30
3换3!史诗级交易!送走超巨,跟老板彻底决裂

3换3!史诗级交易!送走超巨,跟老板彻底决裂

篮球教学论坛
2025-11-11 09:57:09
不是,刘涛这是垫的吧

不是,刘涛这是垫的吧

小鹿姐姐情感说
2025-11-11 09:23:52
东契奇38+6+7湖人一节发力击退黄蜂,里夫斯24+5+7布里奇斯34+8+5

东契奇38+6+7湖人一节发力击退黄蜂,里夫斯24+5+7布里奇斯34+8+5

湖人崛起
2025-11-11 10:27:18
社评:欧洲的焦虑不该由中国电动大巴“背锅”

社评:欧洲的焦虑不该由中国电动大巴“背锅”

环球网资讯
2025-11-10 23:39:07
一个母亲真能毁好几代人吗?网友:孩子的智商大部分取决于母亲

一个母亲真能毁好几代人吗?网友:孩子的智商大部分取决于母亲

带你感受人间冷暖
2025-11-11 01:15:18
朱芝松,被提起公诉

朱芝松,被提起公诉

第一财经资讯
2025-11-11 10:12:00
震惊!航班登机口一瞒报孕期孕妇坦言已超36周,出问题要航司负责

震惊!航班登机口一瞒报孕期孕妇坦言已超36周,出问题要航司负责

火山诗话
2025-11-11 06:06:29
德军司令:柏林已做好“开战准备”

德军司令:柏林已做好“开战准备”

环球时报国际
2025-11-11 00:09:28
丈夫驻边20年不回家,我带着孩子千里探亲,部队:他压根没入伍

丈夫驻边20年不回家,我带着孩子千里探亲,部队:他压根没入伍

红豆讲堂
2025-10-14 16:22:44
“不许补贴” 抖音通知酒商:卖茅台低于市场行情价将被处罚

“不许补贴” 抖音通知酒商:卖茅台低于市场行情价将被处罚

财联社
2025-11-10 19:02:15
太荒唐了!湖南人民医院事件原因流出,视频拍摄者竟然是他

太荒唐了!湖南人民医院事件原因流出,视频拍摄者竟然是他

平老师666
2025-11-10 12:52:30
“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

妍妍教育日记
2025-11-09 10:44:07
跑偏了!新加坡媒体报道福建号:中国航母靠近或引起突发事件

跑偏了!新加坡媒体报道福建号:中国航母靠近或引起突发事件

现代小青青慕慕
2025-11-10 10:53:05
美国人肠胃真脆弱!汪小菲的麻六记洛杉矶开店10天就关停整改,多人用餐后腹泻

美国人肠胃真脆弱!汪小菲的麻六记洛杉矶开店10天就关停整改,多人用餐后腹泻

界面新闻
2025-11-07 13:07:50
向太小儿子养废了!向佑搂新女友现身酒吧,又胖又颓、烟酒不离手

向太小儿子养废了!向佑搂新女友现身酒吧,又胖又颓、烟酒不离手

小咪侃娱圈
2025-11-11 09:48:37
2025-11-11 12:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
11654文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

53岁独身女子寻"外包儿女"提供陪伴服务:每次两百元

头条要闻

53岁独身女子寻"外包儿女"提供陪伴服务:每次两百元

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

这届干饭人,已经把博物馆吃成了食堂

今年冬天最经典的4双鞋,年年穿都好看!

教育要闻

「滴滴」招实习生啦!200/天!实习证明!免费班车&餐补!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版