网易首页 > 网易号 > 正文 申请入驻

谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。



根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

  • 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。



整体来看,Gemini 2.5 Deep Think功能具备以下优势:

  • 迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。



  • 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
  • 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

  • 扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

  • 它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。



参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最年轻全满贯!阿尔卡拉斯3-1逆转德约 澳网首冠+大满贯第7冠

最年轻全满贯!阿尔卡拉斯3-1逆转德约 澳网首冠+大满贯第7冠

醉卧浮生
2026-02-01 19:48:18
离谱!零跑年会寒酸到被称“年度渡劫”,员工:办不起别办

离谱!零跑年会寒酸到被称“年度渡劫”,员工:办不起别办

雷科技
2026-01-31 21:22:32
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

细雨中的呼喊
2026-01-31 15:43:54
爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

眼光很亮
2026-02-01 17:15:19
新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

红星资本局
2026-02-01 21:43:04
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
维尼修斯破105天球荒!1V3轰超级世界波,亲吻队徽回击嘘声

维尼修斯破105天球荒!1V3轰超级世界波,亲吻队徽回击嘘声

奥拜尔
2026-02-01 21:27:19
赵四走了,观众集体失眠,一个抽搐的背影成了时代注脚

赵四走了,观众集体失眠,一个抽搐的背影成了时代注脚

阿废冷眼观察所
2026-02-01 05:52:53
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
突发!银行利率降至0%?

突发!银行利率降至0%?

新浪财经
2026-02-01 19:48:39
“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

南方都市报
2026-02-01 12:50:46
小米、鸿蒙、理想等多家车企公布1月交付量,鸿蒙智行排名第一

小米、鸿蒙、理想等多家车企公布1月交付量,鸿蒙智行排名第一

新浪财经
2026-02-01 11:25:16
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
理性!不要梭哈!

理性!不要梭哈!

一莎观察
2026-02-01 13:37:59
比亚迪:1月新能源汽车销量210051辆,同比下降30.11%

比亚迪:1月新能源汽车销量210051辆,同比下降30.11%

界面新闻
2026-02-01 18:44:35
1岁幼童喂兔子被咬断手指,家长为找断指将兔子开膛破肚……医生提醒→

1岁幼童喂兔子被咬断手指,家长为找断指将兔子开膛破肚……医生提醒→

纵相新闻
2026-02-01 15:09:04
演员宋小宝自曝“动了600刀做微调”!网友:无人相信

演员宋小宝自曝“动了600刀做微调”!网友:无人相信

扬子晚报
2026-02-01 15:22:23
狱中离世14年后获无罪,当事人律师发声

狱中离世14年后获无罪,当事人律师发声

澎湃新闻
2026-02-01 11:55:05
金价急跌之下,银行密集提示风险,部分实物金全线售罄

金价急跌之下,银行密集提示风险,部分实物金全线售罄

第一财经资讯
2026-02-01 20:36:14
2026-02-01 22:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

亲子
艺术
数码
家居
手机

亲子要闻

萌娃和弟弟吃醋,让妈妈把弟弟放回肚子里

艺术要闻

意大利画家尼古拉·辛巴里,色块之美震撼人心!

数码要闻

2026款小新Pro GT笔记本预热:标配PCIe 5.0 SSD,内存速度再升级

家居要闻

蓝调空舍 自由与个性

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

无障碍浏览 进入关怀版