网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌Gemini 3杀疯了！陶哲轩亲测：10分钟干翻百年数学难题

2025-11-23 17:02:10　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：犀牛

　　【新智元导读】Gemini 3一日霸榜数学、物理两个顶级基准测试！与此同时，陶哲轩用Gemini DeepThink十分钟便搞定了一道埃尔德什难题。

　　继续领跑！

　　Gemini 3本周一发布，便开启了横扫各大基准测试之旅，频繁登上各种排行榜的榜首。

　　用现实证明了自己就是目前最强模型！

　　这不，就在昨天，知名研究机构Epoch AI再添一力证——

　　Gemini 3 Pro在FrontierMath基准测试中创下新纪录：Tier 1-3准确率达 38%，Tier 4达19%。

　　在综合多项基准测试的Epoch能力指数（ECI）中，Gemini 3 Pro获得154分，超越了GPT-5.1此前保持的151分的最高纪录。

　　FrontierMath是由Epoch AI联合众多职业数学家打造的一个高级数学基准。

　　它由数百道原创、从未公开的难题构成，被设计成一块专门测量AI高阶数学推理能力的「试金石」。

　　这些题目几乎覆盖现代数学的主要分支：从需要大量计算的数论、实分析，到高度抽象的代数几何、范畴论。

　　普通一道题就足以让相关领域的研究者思考数小时甚至数天。

　　这些题目大概长这样，大家可以感受一下。

　　完整数据集包含350道题：其中300题构成Tiers 1–3，难度大致对应从高年级本科到初级研究生水平。

　　另外50题被归入极端困难的Tier 4，接近乃至达到数学的前沿研究问题。

　　为便于社区实验，FrontierMath只开放了少量公开子集，其余题目则严格保密，用于评测。

　　在评测时，模型必须为每道题提交一个Python函数answer()，返回整数（通常）或SymPy等Python对象，由系统自动运行与校验。

　　这一设计既允许模型调用代码深度推理，又用程序化判分确保结果客观可重复，使FrontierMath成为当前衡量AI数学前沿能力最严苛、也最具说服力的基准之一。

　　截至目前，FrontierMath排行榜上的领先模型，都是由Gemini和GPT系列占据。

　　从「跑分最强」到「实战破题」

　　虽说Gemini 3确实很强，但只是一味的霸榜基准测试，还是差点意思。

　　至少，缺少点说服力。

　　还好，Gemini 3很快就在实战中证明了自己。

　　就在昨天，数学大神陶哲轩发帖表示，他用Gemini Deepthink模式十分钟，便解决了埃尔德什问题的关键证明！

　　为了更清楚地说明这个过程，我们先来简单了解一下埃尔德什问题。

　　简单说就是把每个整数拆成积木，凡是只出现1次的积木丢掉，只留下能成对出现、能拼成平方的那一部分，叫B₂(n)。

　　比如12=2×2×3，只留2×2，所以B₂(12)=4。

　　现在看一小段连续整数n,n+1,…,n+k-1，对每个数算出B₂，再把这些B₂全部相乘。

　　埃尔德什问题的问题是：不管这段连续整数多长，这个乘积是不是都不会比n²增长得更快？

　　也就是说：整数里「平方因子扎堆」的程度，天花板究竟在哪里？

　　为了更方便理解，我用最近最火的Nano Banana Pro画了张信息图。

　　大家看看怎么样？

　　言归正传。关于这个问题，陶哲轩在帖子中给出了一条时间线。

　　11月20号，Wouter van Doorn用AI提出了该问题第二部分的反证，他的论证基于一个还未被证明的同余恒等式。

　　几个小时后，陶哲轩将这个不等式交给了Gemini Deepthink。

　　只用了大概十分钟，Gemini Deepthink便解决了这个证明。

　　太夸张了！

　　陶哲轩还附上了整个的论证过程。

　　论证地址： https://gemini.google.com/share/81a65aecfd70

　　看来这种问题对于Gemini 3还真算不上什么。

　　随后，陶哲轩手动把证明转化为了一个更加基础的版本，花费了他半个小时的时间。

　　两天后，Boris Alexeev最终完成了这个证明的Lean形式化，耗时2、3个小时。

　　陶哲轩用Gemini 3来研究埃尔德什难题，厉害之处不只是「AI 超会算」。

　　更重要的是：世界顶级数学家，真的把大模型当成工作伙伴了。

　　以后做数学，不再只是一个人苦苦推导。

　　而是把枯燥的枚举、尝试、检验丢给AI，人类集中精力抓核心思路、做关键判断。

　　谁先学会和这类工具高效协作，谁就等于多了一个「超级合作者」。

　　数学之外的物理「试金石」

　　在登顶数学基准测试的同时，Gemini也霸榜了一项最新的物理基准测试——CritPt。

　　CritPt的诞生基于研究者们开始追问一个问题：大模型真的能像物理学家那样，完整推进一场前沿研究吗？

　　其全称为「Complex Research using Integrated Thinking – Physics Test」，要测的，正是 AI 从「像样回答」跨越到「真正推理」的那道临界线。

　　目前已在Artificial Analysis平台上线。

　　与以往基于教科书或公开题库的物理题库不同，CritPt是首个专门面向「未公开、真研究级」物理问题的大模型基准。

　　它由来自阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位活跃物理学者共同打造，涵盖凝聚态、量子、原子分子与光学、天体物理、高能物理等现代物理的十一大分支。

　　每道题目都像是交给一名优秀物理学博士新生的一次独立小课题：需要建模、推导、近似与跨领域联想，却又保证答案可机读、可自动严格判分。

　　CritPt测试的挑战示例如下图所示。

　　不出意外，Gemini 3 Pro再次霸榜该项物理研究测试。

　　同样的，GPT-5.1紧随其后。

　　看来，这两模型还真是代表了当前最前沿的模型水平。

　　不过，虽然登顶了CritPt，Gemini 3 Pro的成绩也才有9.1%，与满分表现还有些距离。

　　参考资料：

　　https://x.com/EpochAIResearch/status/1991945942174761050

　　https://x.com/ArtificialAnlys/status/1991913465968222555?s=20

　　https://x.com/kimmonismus/status/1991968861747339508?s=20

　　https://mathstodon.xyz/@tao/115591487350860999

　　https://mathstodon.xyz/@tao/115585571504291318

　　https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-3/overview

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

媒体：继稻城亚丁后湖北神农架也被指“圈路收费”，游客被迫多绕百公里

澎湃新闻 2026-06-03 17:13:12
17837 跟贴 17837
2026年全国高考报名人数为1290万人

央视新闻客户端 2026-06-03 14:02:58
17287 跟贴 17287

湖南一老人正走路遭男子挥掌击打，男子走开十多米突然折返将老人打倒

大风新闻 2026-06-04 05:06:25
5 跟贴 5

25℃！中到大雨！江苏天气最新预测

江南晚报 2026-06-04 03:14:23
6 跟贴 6
业主多次投诉小区违建别墅结果房屋越建越高各方回应

贵州日报 2026-06-03 19:33:06
569 跟贴 569

新赛季国际赛场首秀，中国女排0比3不敌捷克女排

澎湃新闻 2026-06-03 21:16:36
263 跟贴 263

“让人无语！”小区电瓶车扫码充电要过五关，关关都有广告，一不小心就被引导去充值

都市快报橙柿互动 2026-06-03 16:48:38
948 跟贴 948
全球首个！荔枝×龙眼杂交新品种“怀石”来了：是荔枝，却有龙眼味

大象新闻 2026-06-03 18:04:43
67 跟贴 67

成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

新京报 2026-06-01 12:09:13
430 跟贴 430
买票时没提醒，登机才知要花钱！为何多家航司对随身行李收费？

大象新闻 2026-06-03 19:56:47
17 跟贴 17
长桥证券：暂停在中国大陆境内加仓交易

界面新闻 2026-06-03 21:22:30
497 跟贴 497
年度最强打工人！杭州38岁会计师跳槽甲方公司，支付379万元5.5折认购30万股，不到半年暴涨至6200万元

都市快报橙柿互动 2026-06-03 17:53:25
25 跟贴 25
网民反映“吃粉遇王祖蓝进店被清场” 广西玉林致歉

新京报 2026-06-03 21:07:49
2 跟贴 2
31条中日航线5月取消全部航班

财联社 2026-06-03 15:56:05
0 跟贴 0
美国番茄价格大涨，美厨师：购买时“需反复权衡”

环球网资讯 2026-06-01 06:36:08
563 跟贴 563
晋陕联动一张票可在壶口瀑布两侧景区跨区游览

大象新闻 2026-06-03 08:31:03
207 跟贴 207
夜空中最亮的星

国际在线 2026-05-29 08:57:49
1522 跟贴 1522
挪威深海发现载有中国瓷器的18世纪沉船：大量青花瓷碗重见天日，文物达数千件，目前正开展船只溯源工作并努力还原历史真相

大风新闻 2026-06-02 12:15:18
0 跟贴 0
安徽一宝妈称带5岁儿子进山姆是“托举”后续，账号彻底凉凉

九方鱼论 2026-06-04 06:19:40
0 跟贴 0
摩托车两次冲卡撞伤交警，叫嚣“直接冲就完了”；警方通报：黎某某（19岁）被刑拘

蓬勃新闻 2026-06-04 06:30:02
0 跟贴 0
霍尔木兹大消息，美军宣布：“林肯”号航母参与封锁，战机空袭开往伊朗哈尔克岛油轮，致机舱起火！国际油价上涨，特朗普：尽快达成协议

每日经济新闻 2026-06-03 07:49:10
0 跟贴 0

河北一对母子骑电动车，被右转大货车撞倒碾压致死，货车肇事后起火，驾驶室被焚毁

河北一对母子骑电动车，被右转大货车撞倒碾压致死，货车肇事后起火，驾驶室被焚毁

台州交通广播

2026-06-02 20:16:01

穿旗袍要的就是这种感觉

牛弹琴123456

2026-05-28 08:45:21

快停下！5 种运动最容易长血栓，很多人天天在练

快停下！5 种运动最容易长血栓，很多人天天在练

猫大夫医学科普

2026-06-02 06:57:44

有性生活和没性生活，身体会出卖你！第三个区别，很多人没想到

有性生活和没性生活，身体会出卖你！第三个区别，很多人没想到

健康科普365

2026-05-30 16:30:29

一场0-1爆出大冷门，世界第7轰然倒下，穆萨第86分钟绝杀

一场0-1爆出大冷门，世界第7轰然倒下，穆萨第86分钟绝杀

足球狗说

2026-06-04 05:15:04

被曝与未成年发生关系！季新杰自称被盗号博主：已调查没被盗

被曝与未成年发生关系！季新杰自称被盗号博主：已调查没被盗

念洲

2026-06-03 18:50:14

没想到，赵海燕儿子大婚，却意外撕下闫学晶的体面，赵本山说对了

没想到，赵海燕儿子大婚，却意外撕下闫学晶的体面，赵本山说对了

阿笎评论哥

2026-06-02 19:02:06

孩子成为空调第二节电池副管理员，母亲高兴炫耀，评论区遍地同款

孩子成为空调第二节电池副管理员，母亲高兴炫耀，评论区遍地同款

谭谈社会

2026-06-03 19:08:00

卢伟权威再遭挑战！一人被换下与他争吵，拒绝听战术，刺头管不住

卢伟权威再遭挑战！一人被换下与他争吵，拒绝听战术，刺头管不住

南海浪花

2026-06-03 10:14:30

刚打完就想谈？美伊开启新一轮互袭后，特朗普坦言“感到不安”

刚打完就想谈？美伊开启新一轮互袭后，特朗普坦言“感到不安”

上游新闻

2026-06-03 19:51:30

法网女单四强出炉，本届将产生新的大满贯冠军

法网女单四强出炉，本届将产生新的大满贯冠军

懂球帝

2026-06-03 22:39:17

赵海燕儿子大婚发生恶心一幕，儿媳妇动作被嘲，大姑闫学晶缺席

赵海燕儿子大婚发生恶心一幕，儿媳妇动作被嘲，大姑闫学晶缺席

胡一舸南游y

2026-06-03 13:31:41

叙利亚，为什么没人再提了？

民间胡扯老哥

2026-05-22 06:48:12

A股算电协同隐藏龙头，三年不飞三年不叫，高盛、瑞银却重仓？

A股算电协同隐藏龙头，三年不飞三年不叫，高盛、瑞银却重仓？

长风价值掘金

2026-06-03 21:58:54

成为迷人的姐姐：不是年龄，是魅力

成为迷人的姐姐：不是年龄，是魅力

疾跑的小蜗牛

2026-06-03 21:02:09

俄军狼狈撤退！大规模攻势彻底翻车了

俄军狼狈撤退！大规模攻势彻底翻车了

知兵

2026-06-03 10:00:23

2000元“股王”诞生，联讯仪器飙涨23倍，三位实控人身家550亿

2000元“股王”诞生，联讯仪器飙涨23倍，三位实控人身家550亿

达摩财经

2026-06-03 22:42:43

男篮热身赛让5将成失意者！崔永熙仍在恢复，另4将无贡献恐跌名单

男篮热身赛让5将成失意者！崔永熙仍在恢复，另4将无贡献恐跌名单

篮球资讯达人

2026-06-03 23:45:36

娶妻娶贤又娶色，真的绝妻！

贵圈真乱

2026-06-02 12:02:35

陪睡只是入门！认干爹、舔手指，背地里的阴暗面完全藏不住了...

陪睡只是入门！认干爹、舔手指，背地里的阴暗面完全藏不住了...

芳华青年

2026-05-18 13:07:54

AI产业主平台领航智能+时代

15376文章数 66899关注度

往期回顾全部

科技要闻

传DeepSeek融资意向500亿：腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里，和他们的巨大野心

娱乐要闻

官方痛批乱象刘涛郑恺等艺人遭点名

财经要闻

AI，开始偷懒了？

汽车要闻

专访蒋平：安全不做高低配长安要让安全技术普惠

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

本地

房产

手机

公开课

艺术要闻

去这8个地方走走~过一个五彩斑斓的夏天！

本地新闻

用杨柳青年画的方式，打开天津

房产要闻

突发！254亩调规，海口江东的超级学校真的快来了！

手机要闻

小米18系列不装了，标准版接近中屏，Pro系列有独占新技术！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版