网易首页 > 网易号 > 正文 申请入驻

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题

0
分享至

  

  新智元报道

  编辑:犀牛

  【新智元导读】Gemini 3一日霸榜数学、物理两个顶级基准测试!与此同时,陶哲轩用Gemini DeepThink十分钟便搞定了一道埃尔德什难题。

  继续领跑!

  Gemini 3本周一发布,便开启了横扫各大基准测试之旅,频繁登上各种排行榜的榜首。

  

  用现实证明了自己就是目前最强模型!

  这不,就在昨天,知名研究机构Epoch AI再添一力证——

  Gemini 3 Pro在FrontierMath基准测试中创下新纪录:Tier 1-3准确率达 38%,Tier 4达19%。

  在综合多项基准测试的Epoch能力指数(ECI)中,Gemini 3 Pro获得154分,超越了GPT-5.1此前保持的151分的最高纪录。

  

  FrontierMath是由Epoch AI联合众多职业数学家打造的一个高级数学基准。

  它由数百道原创、从未公开的难题构成,被设计成一块专门测量AI高阶数学推理能力的「试金石」。

  这些题目几乎覆盖现代数学的主要分支:从需要大量计算的数论、实分析,到高度抽象的代数几何、范畴论。

  普通一道题就足以让相关领域的研究者思考数小时甚至数天。

  这些题目大概长这样,大家可以感受一下。

  


  完整数据集包含350道题:其中300题构成Tiers 1–3,难度大致对应从高年级本科到初级研究生水平。

  另外50题被归入极端困难的Tier 4,接近乃至达到数学的前沿研究问题。

  为便于社区实验,FrontierMath只开放了少量公开子集,其余题目则严格保密,用于评测。

  在评测时,模型必须为每道题提交一个Python函数answer(),返回整数(通常)或SymPy等Python对象,由系统自动运行与校验。

  这一设计既允许模型调用代码深度推理,又用程序化判分确保结果客观可重复,使FrontierMath成为当前衡量AI数学前沿能力最严苛、也最具说服力的基准之一。

  截至目前,FrontierMath排行榜上的领先模型,都是由Gemini和GPT系列占据。

  

  从「跑分最强」到「实战破题」

  虽说Gemini 3确实很强,但只是一味的霸榜基准测试,还是差点意思。

  至少,缺少点说服力。

  还好,Gemini 3很快就在实战中证明了自己。

  就在昨天,数学大神陶哲轩发帖表示,他用Gemini Deepthink模式十分钟,便解决了埃尔德什问题的关键证明

  

  为了更清楚地说明这个过程,我们先来简单了解一下埃尔德什问题。

  简单说就是把每个整数拆成积木,凡是只出现1次的积木丢掉,只留下能成对出现、能拼成平方的那一部分,叫B₂(n)。

  比如12=2×2×3,只留2×2,所以B₂(12)=4。

  现在看一小段连续整数n,n+1,…,n+k-1,对每个数算出B₂,再把这些B₂全部相乘。

  埃尔德什问题的问题是:不管这段连续整数多长,这个乘积是不是都不会比n²增长得更快?

  也就是说:整数里「平方因子扎堆」的程度,天花板究竟在哪里

  

  为了更方便理解,我用最近最火的Nano Banana Pro画了张信息图。

  大家看看怎么样?

  

  言归正传。关于这个问题,陶哲轩在帖子中给出了一条时间线。

  11月20号,Wouter van Doorn用AI提出了该问题第二部分的反证,他的论证基于一个还未被证明的同余恒等式。

  几个小时后,陶哲轩将这个不等式交给了Gemini Deepthink。

  只用了大概十分钟,Gemini Deepthink便解决了这个证明。

  太夸张了!

  陶哲轩还附上了整个的论证过程。

  

  论证地址: https://gemini.google.com/share/81a65aecfd70

  看来这种问题对于Gemini 3还真算不上什么。

  随后,陶哲轩手动把证明转化为了一个更加基础的版本,花费了他半个小时的时间。

  两天后,Boris Alexeev最终完成了这个证明的Lean形式化,耗时2、3个小时。

  陶哲轩用Gemini 3来研究埃尔德什难题,厉害之处不只是「AI 超会算」。

  更重要的是:世界顶级数学家,真的把大模型当成工作伙伴了

  以后做数学,不再只是一个人苦苦推导。

  而是把枯燥的枚举、尝试、检验丢给AI,人类集中精力抓核心思路、做关键判断。

  谁先学会和这类工具高效协作,谁就等于多了一个「超级合作者」。

  数学之外的物理「试金石」

  在登顶数学基准测试的同时,Gemini也霸榜了一项最新的物理基准测试——CritPt。

  CritPt的诞生基于研究者们开始追问一个问题:大模型真的能像物理学家那样,完整推进一场前沿研究吗

  其全称为 「Complex Research using Integrated Thinking – Physics Test」,要测的,正是 AI 从「像样回答」跨越到「真正推理」的那道临界线。

  目前已在Artificial Analysis平台上线。

  

  与以往基于教科书或公开题库的物理题库不同,CritPt是首个专门面向「未公开、真研究级」物理问题的大模型基准。

  它由来自阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位活跃物理学者共同打造,涵盖凝聚态、量子、原子分子与光学、天体物理、高能物理等现代物理的十一大分支。

  每道题目都像是交给一名优秀物理学博士新生的一次独立小课题:需要建模、推导、近似与跨领域联想,却又保证答案可机读、可自动严格判分。

  CritPt测试的挑战示例如下图所示。

  

  不出意外,Gemini 3 Pro再次霸榜该项物理研究测试。

  同样的,GPT-5.1紧随其后。

  看来,这两模型还真是代表了当前最前沿的模型水平。

  

  不过,虽然登顶了CritPt,Gemini 3 Pro的成绩也才有9.1%,与满分表现还有些距离。

  参考资料:

  https://x.com/EpochAIResearch/status/1991945942174761050

  https://x.com/ArtificialAnlys/status/1991913465968222555?s=20

  https://x.com/kimmonismus/status/1991968861747339508?s=20

  https://mathstodon.xyz/@tao/115591487350860999

  https://mathstodon.xyz/@tao/115585571504291318

  https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-3/overview

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一店推出闭关项目,价格2980到19800元不等,不让带手机等个人物品被质疑“花钱关禁闭”,工作人员回应:每个人看事物不一样

江苏一店推出闭关项目,价格2980到19800元不等,不让带手机等个人物品被质疑“花钱关禁闭”,工作人员回应:每个人看事物不一样

大象新闻
2026-02-27 10:45:04
韩媒:日本优势这么大竟输球;日媒:廖三宁不受裁判影响引导逆转

韩媒:日本优势这么大竟输球;日媒:廖三宁不受裁判影响引导逆转

现代小青青慕慕
2026-02-28 00:00:33
中国男篮逆转日本不到24小时,恶心的一幕发生,原来郭士强没说谎

中国男篮逆转日本不到24小时,恶心的一幕发生,原来郭士强没说谎

小徐讲八卦
2026-02-28 06:04:53
数名粉丝强闯机场防爆检测围栏被行政拘留和罚款,杭州机场立牌警示追星“保持理智”

数名粉丝强闯机场防爆检测围栏被行政拘留和罚款,杭州机场立牌警示追星“保持理智”

潇湘晨报
2026-02-27 19:50:12
为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

Ck的蜜糖
2026-02-28 01:00:58
俄政治学家直言不讳:战争拖垮的不只是经济,更是整个国家的未来

俄政治学家直言不讳:战争拖垮的不只是经济,更是整个国家的未来

老马拉车莫少装
2026-02-26 23:31:28
1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

帝哥说史
2026-02-25 06:30:03
深圳湾公园晚上“黑灯瞎火”被吐槽,公园管理中心回应:为了让鸟儿睡好觉,主要出入口等地保留了基础照明

深圳湾公园晚上“黑灯瞎火”被吐槽,公园管理中心回应:为了让鸟儿睡好觉,主要出入口等地保留了基础照明

扬子晚报
2026-02-27 12:33:02
东莞长安公安分局原局长张仲平被“双开”

东莞长安公安分局原局长张仲平被“双开”

南方都市报
2026-02-27 21:33:09
广东省体育局局长崔剑出任国家体育总局副局长

广东省体育局局长崔剑出任国家体育总局副局长

澎湃新闻
2026-02-27 19:08:27
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
36 岁离婚女子独自过年崩溃痛哭:没老公没孩子,谁还会娶我

36 岁离婚女子独自过年崩溃痛哭:没老公没孩子,谁还会娶我

一盅情怀
2026-02-23 14:10:06
天津市人大教育科学文化卫生委员会原副主任委员王平接受纪律审查和监察调查

天津市人大教育科学文化卫生委员会原副主任委员王平接受纪律审查和监察调查

环球网资讯
2026-02-27 16:51:02
发布比赛结果帖子中措辞不妥,FIBA国际篮联致歉

发布比赛结果帖子中措辞不妥,FIBA国际篮联致歉

环球网资讯
2026-02-27 18:26:51
长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

室内设计师有料儿
2026-02-27 20:49:11
乌克兰宣布“退群”

乌克兰宣布“退群”

陆弃
2026-02-27 08:10:03
蒋家后人含泪召开发布会,请求迁灵回大陆,两句话让全场沉默

蒋家后人含泪召开发布会,请求迁灵回大陆,两句话让全场沉默

老范谈史
2026-02-27 19:55:01
西贝退场,是消费者的胜利!?

西贝退场,是消费者的胜利!?

马烨君丨智识工场
2026-02-28 07:07:41
74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

复转小能手
2026-02-25 23:46:10
段永平:炒股票的人会很危险,因为你炒不过梁文锋了

段永平:炒股票的人会很危险,因为你炒不过梁文锋了

风风顺
2026-02-22 13:51:05
2026-02-28 08:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14604文章数 66648关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

艺术
数码
家居
旅游
军事航空

艺术要闻

田英章楷书楹联:笔墨之美,书房必备之作!

数码要闻

消息称苹果有两款Studio Display 2显示器:高端机型接口更先进

家居要闻

素色肌理 品意式格调

旅游要闻

春节假期后机票、酒店价格回落!中老年群体成错峰游主力

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版