网易首页 > 网易号 > 正文 申请入驻

刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想

0
分享至

机器之心报道

编辑:泽南、杨文

网友:Deep Think 简直太疯狂了。

本周五,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,并将全版本的 Gemini 2.5 Deep Think 模型(用于 IMO 竞赛)提供给部分数学家使用。



新版本融合了一系列早期测试人员的反馈和研究突破,比今年 I/O 大会上首次发布的版本有了显著改进。

谷歌表示,2.5 Deep Think 是最近在今年国际数学奥林匹克(IMO)比赛中获得金牌的模型的变体。虽然该模型需要数小时才能推理复杂的数学问题,但今天发布的版本速度更快,日常使用体验也更佳,根据内部评估,其在 2025 年 IMO 基准测试中仍能达到铜牌级的性能。

Google DeepMind 表示,Gemini 2.5 Deep Think 对于正在解决难题的研究人员、科学家和学者很有用。它不仅能回答问题,还能运用并行思维和强化学习技术进行头脑风暴。

谷歌展示了一名数学家 Michel van Garrel 使用深度思考能力证明猜想的经历。

现在, Google AI Ultra 订阅用户可以在 Gemini 应用中使用 Deep Think,只需在模型下拉菜单中选择 2.5 Pro,并在提示栏中切换「Deep Think」即可使用。Deep Think 会自动与代码执行、 Google 搜索等工具配合使用,并且可以生成更长的响应。

已经有很多网友第一时间进行了测试,看看他们实现的效果。设计一个小游戏:



赛博朋克核反应堆控制界面:



测试过的人表示,使用次数限制似乎是 5 条 / 24 小时。

1X 机器人的 Eric Jang 表示,看起来我们距离一个能证明简单猜想,做出新数学发现的 AI 模型只有不到 12 个月时间了,距离大语言模型的「初步」自我完善还有不到 24 个月的时间。



谷歌还计划在未来几周内通过 Gemini API 向受信任的测试者发布带工具和不带工具的 Deep Think,以便更好地了解其在开发者和企业用例中的可用性。

延长 Gemini 的并行「思考时间」

就像人们通过探索不同的角度、权衡潜在的解决方案并完善最终答案来解决复杂问题一样,Deep Think 通过使用并行思维技术推动了思维能力的边界。这种方法让 Gemini 能够同时生成多个想法并同时考虑它们,甚至可以随着时间的推移修订或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或「思考时间」,谷歌为 Gemini 提供了更多的时间来探索不同的假设,进而为复杂问题找到创造性的解决方案。

谷歌还开发了新颖的强化学习技术,鼓励模型利用这些延长的推理路径,使 Deep Think 能随着时间的推移成为一个更好的、更直观的解决问题者。

最先进的性能

Deep Think 能够帮助人们解决需要创造力、战略规划和逐步改进的难题,例如:

  • 迭代开发与设计: Deep Think 在需要分步骤构建复杂事物的任务中的表现亮眼。比如,Deep Think 可以同时改进网页开发任务的美学和功能性,仅使用一个提示词就能让模型生成了一幅宝塔的体素艺术图像。与 2.5 Pro 相比,Deep Think 为场景的各个方面添加了越来越多的细节,从宝塔的建筑结构,到树木的保真度,再到地平面的多样性,提示的各个方面都得到了更深入的处理。



Deep Think 在 Gemini 应用中使用并行思维技术,提供更详细、创造性和深思熟虑的回应。

  • 科学与数学发现:由于它能够推理高度复杂的问题,Deep Think 成为研究人员的强大工具。它可以帮助提出和探索数学猜想,或推理复杂的科学文献,从而加速发现的过程。
  • 算法开发与编程:Deep Think 在处理需要精确问题表述、权衡取舍和时间复杂度的重要编码问题时表现尤为出色。

此外,Gemini 2.5 Deep Think 在多个基准测试中取得了优秀成绩,分别在 HLE(34.8%,无外部工具使用)、Live Code Bench V6(87.6%)、IMO2025(60.7%)和 AIME 2025(99.2%)中表现突出,展现了其在复杂问题解决、编程和数学领域的强大推理能力。



Gemini 2.5 Deep Think Model Card:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf

谷歌表示,在 Gemini 的整个训练和部署阶段着重提升了安全性。测试中,Gemini 2.5 Deep Think 的内容安全性和语气客观性相比 Gemini 2.5 Pro 有所提升,但拒绝良性请求的倾向有所增强。随着 Gemini 问题解决能力的提升,谷歌正在评估相关风险并实施安全缓解措施,确保其高级功能的安全性。

参考链接:

https://blog.google/products/gemini/gemini-2-5-deep-think/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年首月中纪委连打8“虎”,2名中央委员任上被查

今年首月中纪委连打8“虎”,2名中央委员任上被查

上观新闻
2026-02-02 12:31:08
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
美菲划演习禁飞区?咱们直接挂弹飞过去,你猜他们什么反应

美菲划演习禁飞区?咱们直接挂弹飞过去,你猜他们什么反应

老木说
2026-02-01 21:24:23
细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

新民周刊
2026-02-01 15:53:41
爱泼斯坦案“诡异照片”曝光!那张“鸡肉照”到底藏着什么?

爱泼斯坦案“诡异照片”曝光!那张“鸡肉照”到底藏着什么?

墨印斋
2026-02-01 17:46:13
《环球时报》记者独家连线格陵兰岛居民:“我们对美国的认知已发生永久性改变”

《环球时报》记者独家连线格陵兰岛居民:“我们对美国的认知已发生永久性改变”

环球网资讯
2026-02-02 06:55:05
惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

老特有话说
2026-01-30 22:51:04
纽约期银日内涨9%

纽约期银日内涨9%

每日经济新闻
2026-02-02 08:19:11
白所成因病死亡,白家犯罪集团案另4名罪犯被执行死刑

白所成因病死亡,白家犯罪集团案另4名罪犯被执行死刑

界面新闻
2026-02-02 10:59:16
1746个螺母被认定为枪支散件,五金厂老板获刑四年,其父:螺母系玩具商定制安装在玩具水弹枪上

1746个螺母被认定为枪支散件,五金厂老板获刑四年,其父:螺母系玩具商定制安装在玩具水弹枪上

黄河新闻网吕梁频道
2026-02-02 11:53:29
离开上海又去了东京:斯塔默“不做选择”的“英式务实主义”

离开上海又去了东京:斯塔默“不做选择”的“英式务实主义”

澎湃新闻
2026-02-02 11:45:05
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

高博新视野
2026-01-30 17:15:24
创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

每日经济新闻
2026-02-02 08:19:12
85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

大风新闻
2026-02-01 20:16:03
中方接连“被做局”,美国真能“赢麻了”?

中方接连“被做局”,美国真能“赢麻了”?

头条爆料007
2026-02-02 06:25:51
杨瀚森0+1+1!开拓者惨负骑士吞5连败 阿伦40+17+4帽生涯新高

杨瀚森0+1+1!开拓者惨负骑士吞5连败 阿伦40+17+4帽生涯新高

醉卧浮生
2026-02-02 12:19:03
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
特朗普拒谈支付美国拖欠的联合国会费

特朗普拒谈支付美国拖欠的联合国会费

海外网
2026-02-02 09:40:07
2026-02-02 13:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12233文章数 142562关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

游戏
教育
手机
亲子
旅游

英雄联盟IP首次新春集结:峡谷拜年秀与WRL年度总决赛双耀上海

教育要闻

这篇小学生的作文《我的爸爸》,真实了多少中年老父亲

手机要闻

苹果探索小折叠屏:iPhone也能翻盖了

亲子要闻

“妊娠”竟然不读rèn chén,正确读音是什么?你知道吗?

旅游要闻

破解“小语种”瓶颈:河南集训150名导游,抢抓入境游机遇

无障碍浏览 进入关怀版