网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

顶级AI撞上低级乌龙：连写几十页推导，结果发现题干错了？

2026-05-04 12:08:00　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】Google DeepMind再次血洗数学圈！700个地狱级难题被丢进Gemini的熔炉，结果让数学家集体破防：这哪是证明，这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI，还砸烂了人类所有的优越感。

几百美金的悬赏，跨越半个世纪的死局。

20世纪最伟大的「题目魔术师」保罗·埃尔德什（PaulErdős）生前留下了几百个悬赏令，金额从50刀涨到5000刀。

50年里，无数数学天才熬秃了头，也没能拿走一分钱。

结果，Google DeepMind带着名为Aletheia（真理女神）的怪兽进场了。

上线仅7天，13道难题应声而碎。

论文链接：https://arxiv.org/abs/2601.22401

但最扎心的真相是：AI并不是比你更聪明，它只是比你更懂「洗稿」。

13/700的真相：AI真的在加速科学吗？

「AI攻克百年数学难题」看起来很像爽文标题，听听就行，别被带了节奏。

数学这行只看硬指标。DeepMind这次祭出的Aletheia，底色根本不是什么「天才数学家」，而是一个冷酷的「顶级逻辑洗煤厂」

这套逻辑极其残酷，带着一股子硅谷大厂KPI导向的血腥味：

初始的流量层里，装着700个埃尔德什猜想。

随后，Gemini开启Deep Think模式，像不要钱一样大规模灌入算力，得出200个候选方案。

然后，这200个候选人经过自然语言验证器，剔除逻辑不通的部分，最后只剩下63个。

最后，经过专家级别的数学推演，得到13个真正具有数学原创意义的答案。

成功证明问题：Erdős problem#1051

700个问题里只解答出13个，转化率还不到2%。

其中，最具代表性的是对「Erdős-1051」猜想中关于无理数分布的证明。

听着很牛X，但DeepMind自己也承认，剩下的68.5%都是学术垃圾。

有些AI给出的证明过程长达几百页，读起来像是东拼西凑的论文。

在整个过程中，Aletheia像一个「自动审稿员」。Gemini负责狂暴输出，而验证器负责冷酷拒绝。

Gemini DeepThink处理数学猜想具体过程：https://www.youtube.com/watch?v=Nmv4YxpbhU8

更讽刺的是，人类数学家复核后发现，这13个所谓的「突破」，很大一部分属于数学界的「低垂果实」——太繁琐所以没人想做。

一位参与评审的组合数学专家曾私下感叹：

AI目前的强项不是创造，而是清扫。

只要算力管够，这种靠暴力逻辑搜集、整理、强行出结果的路径，AI基本无敌。

潜意识剽窃：AI数学家的「洗稿」艺术

在这次DeepMind的成果展示中，出现了一个让学术界集体炸锅的新名词：潜意识剽窃。

简单说，就是AI利用自己几乎无限的硬盘，从某个犄角旮旯翻出一篇冷门论文，然后用现代的逻辑语言把它重新包装了一遍。

最典型的翻车现场是关于Erdős-1089猜想的证明。

当时Aletheia给出了一个极其精妙的推导，精妙到连几个顶尖数学家都差点想给它颁奖。

但随后，有人在数据库的深层挖掘中发现，这个所谓的「原创灵感」，与1981年一篇东欧冷门数学期刊上的论文高度重合。

这就是AI作为一个「黑盒」最让人绝望的本能。

对AI来说，它并没有原创和抄袭的概念。它只是在概率的指引下，把权重最高的Token组合在一起。

AI记住了所有你忘了的东西。当它从千亿级参数中提取出那个冷门关联时，它自己都不知道是在致敬还是在白嫖。

GoogleDeepMind-Aletheia项目详情，在此页面可以找到更多具体输出案例：https://github.com/google-deepmind/superhuman

只要喂的数据够多，AI就能通过变换符号系统、调整推导步长，把一篇旧论文洗得像刚出炉的SCI。

菲尔兹奖得主陶哲轩一语道破：

AI并不是在做数学，它是在对人类过往的智慧进行大规模的归纳整合。

细思极恐。如果连数学这种硬核真理领域，AI都能靠「洗稿」蒙混过关，那我们写的行业报告、架构方案、市场分析，在它眼里算什么？

大师也翻车：被诅咒的Erdős-75号

接下来这个「Erdős-75号灵异事件」，暴露出AI的智商硬伤。

这道题在数学圈臭名昭著，因为它被「诅咒」了。

1995年，埃尔德什在写下这个猜想时，犯了一个低级逻辑错误，这道题题干就是错的，是个伪命题。

魔幻的一幕发生了：Aletheia接手后，不仅没发现题目有问题，反而凭借其狂暴的算力和自我博弈机制，硬生生地输出了一份长达几十页、逻辑闭环的「完美证明」。

这种「逻辑狂奔」暴露了当前AI的致命缺陷：

首先，AI缺乏审美与常识。它只会在符号框架内找最优解，却根本分不清这个框架本身是不是一张废纸。

其次，奖励函数具有盲目性。AI的目标是让验证器闭嘴。只要推导过程符合规则，结论哪怕再荒谬，它也敢一路狂飙到底。

最后发现Bug的，还得是那帮数学家。他们翻出1995年的手稿，一行行对完后得出结论：「这题出错了，AI证的是个寂寞。」

而这一点，恰恰是我们和AI竞争时的最后防线。AI能在几毫秒内跑完几千公里的逻辑马拉松，但它不知道终点线是不是画在悬崖外面。

DeepMind贴脸开大：OpenAI的「数学公关战」破产题

前阵子，OpenAI靠着o1在数学AIME考试里刷屏，宣称AI已经有了类似人类的「慢思考」能力。

但在DeepMind看来，那顶多算是一场极其成功的文献开盒。

为了打脸OpenAI，Google专门在Aletheia的输出分类里设立了一个很损的标签：「已知文献关联」。

它明摆着在讽刺OpenAI：你以为你解决了问题，其实你只是从训练集里翻出了标准答案。

而DeepMind表示，我不仅能证出来，我还能告诉你哪些是人类证过的、哪些是我洗稿洗出来的、哪些才是真正的原创。

这场「数学公关战」撕开了大厂竞争的遮羞布。

OpenAI的数学能力很大程度上依赖于「题海战术」，一旦遇到训练集之外的真命题就容易抓瞎。

而DeepMind走的是「AlphaGo路线」——自我博弈+形式化验证（Lean），宁可转化率只有2%，也要确保这13个成果是硬通货。

DeepMind官方技术文档：Aletheia用于数学的自我对弈与形式化证明

数学界的「扫地僧」陶哲轩一直关注着这场博弈。

他在自己的他在博客里含蓄地表示：相比于追求「看起来正确」的概率模型，他更看好那种能生成「可由计算机验证证明」的系统。

这等于是给DeepMind站了台。

瓶颈位移：从「解题机器」到「审美法官」

折腾了半天，这场13/700的战役到底告诉了我们什么？

是——数学发现的瓶颈，正在从「解题能力」位移到「价值判定」。

这种范式转移，预示了未来所有硬核从业者的两种求生路径：

一种是从「操作员」变成「审美法官」。

既然AI能以极低成本生成海量逻辑证明，人类的价值就不再是去复核每一个符号，而是运用直觉和审美，去判断哪个方向才有真正的科学突破。

另一种形态是逻辑审计员。

面对潜意识剽窃和大师Bug，人类需要利用对历史的精通，去甄别AI到底是真天才，还是个洗稿高手。

AI能在几毫秒内重走完人类几千年的逻辑之路，但它依然读不懂人类在深夜推演失败时，那份撕掉草稿纸的无奈。

逻辑可以代工，但灵魂和审美，AI暂时还没学会怎么洗。

参考资料：

https://x.com/quocleix/status/2018402933193539735?s=20

https://arxiv.org/abs/2601.22401

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

媒体：霍尔木兹海峡一声惊雷炸响战争的引信已经点燃

国是直通车 2026-05-04 21:08:48
142 跟贴 142
莫氏鸡煲上线汤料包5分钟售罄4000多份，累计卖出4万多份，总销售额破160万元，记者实测：1分钟抢到两包

极目新闻 2026-05-04 09:46:46
8618 跟贴 8618

景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
3832 跟贴 3832

俄罗斯宣布与乌克兰实施胜利日停火

财联社 2026-05-05 09:57:03
2624 跟贴 2624
“张雪机车”车队：核心目标是冲击年度总冠军

央视新闻客户端 2026-05-04 20:13:33
865 跟贴 865

接好运！上海女子200元买刮刮乐，30元面值的喜相逢刮中100万元！

观威海 2026-05-05 10:42:12
59 跟贴 59

国乒女团3-1战胜波兰队晋级16强

央视新闻 2026-05-04 21:20:32
460 跟贴 460
实探郑州中牟蒜地：免费抽蒜薹持续近一个月，有人从海南专程来，农户提供午餐

环球网资讯 2026-05-05 09:36:24
537 跟贴 537

涉疫邮轮上已有7人发病！乘客被要求尽可能待在自己舱房内世卫：公众面临风险较低

红星新闻 2026-05-05 17:19:21
0 跟贴 0
五一假期，多地升级版政府食堂获点赞

澎湃新闻 2026-05-04 22:16:20
118 跟贴 118
深圳楼市，咨询量爆了

南方都市报 2026-05-05 11:04:16
2250 跟贴 2250
恒生科技指数跌超2%，现报4876.910点

每日经济新闻 2026-05-05 09:45:07
371 跟贴 371
玻璃硬盘光谷量产！2毫米厚，可存储2.5万部高清电影

极目新闻 2026-05-04 23:00:07
190 跟贴 190
张雪父子，共同亮相赛场

鲁中晨报 2026-05-05 16:58:04
26 跟贴 26
大熊猫食用的竹子发霉出现斑点？动物园工作人员回应

极目新闻 2026-05-05 12:06:54
82 跟贴 82
广东一景区岩石被染成五彩色，景区回应：是环保涂料

上观新闻 2026-05-05 13:44:14
65 跟贴 65
五一假期全国铁路累计发送旅客超1亿人次

界面新闻 2026-05-05 12:11:03
46 跟贴 46
啥情况？维多利团购卡、茂业百货购物卡不能在家家悦超市正常使用！回应来了→

新浪财经 2026-05-05 19:31:02
0 跟贴 0
遛狗不拴绳被车撞死，大妈一旁嚎啕大哭，网友：司机无责

映射生活的身影 2026-05-05 19:28:01
0 跟贴 0

浏阳烟花爆竹企业爆炸事故现场救援有序进行，幸存伤者讲述事发时情况

浏阳烟花爆竹企业爆炸事故现场救援有序进行，幸存伤者讲述事发时情况

潇湘晨报

2026-05-05 15:32:12

多邻国股价盘前下跌13.4%

每日经济新闻

2026-05-05 16:15:05

过气明星太可怜？五一假期景区落魄打工，有人无戏可拍，令人心酸

过气明星太可怜？五一假期景区落魄打工，有人无戏可拍，令人心酸

揽星河的笔记

2026-05-04 15:45:23

美国人的历史课本，是怎样写中国的？仅有20页，记载了6个中国人

美国人的历史课本，是怎样写中国的？仅有20页，记载了6个中国人

抽象派大师

2026-05-03 00:24:53

压力来了！21死61伤！浏阳一烟花厂爆炸上热搜，禁烟花的呼声再起

压力来了！21死61伤！浏阳一烟花厂爆炸上热搜，禁烟花的呼声再起

火山詩话

2026-05-05 11:09:50

巴基斯坦下了一步臭棋，不增购功臣歼-10，反而重金升级F-16

巴基斯坦下了一步臭棋，不增购功臣歼-10，反而重金升级F-16

井普椿的独白

2026-05-05 16:32:08

21死！1.5万罚单兑成一朵百米高蘑菇云，华盛烟花厂处罚决定流出

21死！1.5万罚单兑成一朵百米高蘑菇云，华盛烟花厂处罚决定流出

火山詩话

2026-05-05 10:31:47

特工、逆向工程、举国发力，苏联用尽一切手段造芯片，输在哪了？

特工、逆向工程、举国发力，苏联用尽一切手段造芯片，输在哪了？

差评XPIN

2026-05-05 00:09:30

吴宜泽斯诺克世锦赛夺冠后首次发文：我会永远真诚的真正的完全的爱着你

吴宜泽斯诺克世锦赛夺冠后首次发文：我会永远真诚的真正的完全的爱着你

扬子晚报

2026-05-05 14:00:06

第一批挤爆广东的韩国人，优越感被彻底击碎

第一批挤爆广东的韩国人，优越感被彻底击碎

金错刀

2026-05-05 11:55:49

前员工驾车满载爆炸物冲进美国高端俱乐部，一楼几乎被夷为平地

前员工驾车满载爆炸物冲进美国高端俱乐部，一楼几乎被夷为平地

最英国

2026-05-04 18:06:46

欧冠-阿森纳2-1马竞：英超争冠夺回主动，欧冠枪手全力以赴|前瞻

欧冠-阿森纳2-1马竞：英超争冠夺回主动，欧冠枪手全力以赴|前瞻

体育世界

2026-05-05 13:56:25

浏阳烟花厂爆炸最新伤亡公布，遇难人数增至26人，年龄信息披露

浏阳烟花厂爆炸最新伤亡公布，遇难人数增至26人，年龄信息披露

Mr王的饭后茶

2026-05-05 15:35:02

惊呼绳子“没拴紧没拴紧”，女子景区“探险”时高空坠落；女子是否抢救过来，四川华蓥相关部门称会发通报

惊呼绳子“没拴紧没拴紧”，女子景区“探险”时高空坠落；女子是否抢救过来，四川华蓥相关部门称会发通报

大风新闻

2026-05-05 17:39:06

连滚带爬！赖清德连夜返回台岛，斯威士兰把事做绝了

连滚带爬！赖清德连夜返回台岛，斯威士兰把事做绝了

阿龙聊军事

2026-05-05 10:53:11

吴宜泽18-17绝杀墨菲！首夺世锦赛冠军奖金462万排名升世界第4

吴宜泽18-17绝杀墨菲！首夺世锦赛冠军奖金462万排名升世界第4

侃球熊弟

2026-05-05 05:36:18

特朗普：美国正从委内瑞拉获得数亿桶石油，与委方“关系良好”，大型能源企业已入委开发资源！已卖了1亿桶委石油，赚回出兵成本的37倍

特朗普：美国正从委内瑞拉获得数亿桶石油，与委方“关系良好”，大型能源企业已入委开发资源！已卖了1亿桶委石油，赚回出兵成本的37倍

每日经济新闻

2026-05-05 12:32:23

台湾省一季度GDP增长13.69%，人均GDP突破四万美元，超过日韩！

台湾省一季度GDP增长13.69%，人均GDP突破四万美元，超过日韩！

狐狸先森讲升学规划

2026-05-05 05:25:03

邓文迪三母女闪耀纽约红毯，高定礼服很东方美，俩女儿又瘦又优秀

邓文迪三母女闪耀纽约红毯，高定礼服很东方美，俩女儿又瘦又优秀

揽星河的笔记

2026-05-05 16:55:54

被打脸？颜丙涛曾表示：赵心童是顶级高手，吴宜泽只能算是高手

被打脸？颜丙涛曾表示：赵心童是顶级高手，吴宜泽只能算是高手

风过乡

2026-05-05 07:30:04

AI产业主平台领航智能+时代

15136文章数 66837关注度

往期回顾全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

烟花厂爆炸致26死61伤湖南省委书记：令人非常痛心

头条要闻

烟花厂爆炸致26死61伤湖南省委书记：令人非常痛心

体育要闻

全世界都等着看他笑话，他带国米拿下冠军

娱乐要闻

英皇演唱会风波不断！张敬轩成弃将

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

家居

艺术

房产

健康

数码要闻

Pebble Time 2智能手表新增支持App调用屏幕触控功能

家居要闻

灵动实用生活艺术场

艺术要闻

有多少人知道，它曾是亚洲第一高楼？

房产要闻

五一楼市彻底明牌！塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版