网易首页 > 网易号 > 正文 申请入驻

656行代码5小时搞定,Axiom AI自主完成两项Erdős猜想形式化证明

0
分享至

近日,AI 初创公司 Axiom 宣布其模型在没有人类干预的情况下,自动完成了两个数学猜想的证明——埃尔德什问题(Erdős Problem)中的 481 号和 124 号。

据称,481 号问题仅用时 5 小时,代码量为 656 行;124 号问题则耗时超 24 小时。值得关注的是,这些证明均通过 Lean 验证,Lean 的特点是其形式化证明过程无需人工干预,为数学正确性提供了保障。




(来源:X)

据悉,本次完成两个数学猜想的证明的并不是 Axiom 推出的 API 或完整的产品,而是一个由多个模型组成的系统,包括 Axiom 的通过强化学习后训练研发的模型。

该公司 CEO 洪乐潼(Carina Hong)对 DeepTech 表示:“六百多行代码对于形式化的证明来说,算是比较简洁和漂亮的证明。”




(来源:X)

该证明在社交媒体发布后,有用户评价称“埃尔德什问题的精简形式化令人耳目一新”,也有用户评价本次证明是一个“好的起点”,还有用户这样评价:“几周前 OpenAI 曾称声称用 GPT-5 解决了埃尔德什问题,但社区指出它只检索了现有文献。而 Axiom 实际上证明了这个问题。”


图丨X 上用户评论(来源:X)

埃尔德什问题是匈牙利数学家保罗·埃尔德什(Paul Erdős)提出的一系列悬而未决的数学猜想,长期被视为检验推理能力的试金石。


图丨埃尔德什问题 481 号(来源:Erdős Problem)

481 号问题是一个社区近 45 年未被解决的问题,即某种迭代算术过程是否必然在某一步产生重复,从而进入循环或重复状态。


图丨Axiom 模型证明的 481 号问题(来源:洪乐潼)

而 124 号问题是:考虑若干整数基数 (d_1 < d_2 < \cdots < d_r)(且每个 (d_i \ge 3)),构造由这些基数的不同比例幂构成的序列。这是一个近 30 年未被解决的问题,也是最近比较火热的话题之一。

几天前,我们对 Harmonic 公司开发的 Aristotle 模型自主解决埃尔德什问题 124 号进行了报道,该公司由 Robinhood 的 CEO 弗拉德·特涅夫(Vlad Tenev)创立。


图丨埃尔德什问题 124 号(来源:Erdős Problem)

“关于 124 号问题,我们跑了超过一天的时间,中途一定是走到某个‘死胡同’里了。尽管目前跑出来的证明比较长,不如我们期望的简练,但至少它跑出来了。”洪乐潼说。


图丨Axiom 模型证明的 124 号问题(来源:洪乐潼)

Axiom 是一家成立不到 4 个月的公司,据公开资料其目前已融资 6,400 万美元的种子轮融资,成员不到 20 人。该公司 CEO 洪乐潼是 00 后,她在美国麻省理工学院获得数学和物理双学士学位,并在英国牛津大学获得神经科学硕士学位。此前,她曾在美国斯坦福大学攻读数学和法学博士学位,后辍学。

Axiom 官网称,其创新性体现在通过融合 AI、编程语言和数学,开发能够解决复杂数学问题的人工智能系统,其初始模型是 AI 数学家。一方面,其可启发人类数学家的科研灵感,另一方面可成为人类数学家的合作者,而非替代者。最新公开消息显示,著名数学家小野健(Ken Ono)刚从美国弗吉尼亚大学离职加入 Axiom 担任创始数学家,他曾在 2020 年担任洪乐潼研究项目的导师。

该公司官网提到,我们现在处于一个“数学发现”的时代。其在博客中曾提到过一个想法:人类在自然语言中进行推理,而该公司的模型在进行形式化推理时,会把自然语言的推理过程转化为形式化代码。在这个过程中,形式化代码的运行结果会反馈回来,进而影响人类在自然语言推理上的直觉和思考方式。

实际上,这个过程可以拓展到更广泛的应用领域,比如金融、量化交易、芯片、硬件和软件的形式验证、物理定律的形式化推导等。

自动形式化是近年来被关注新的方向,其把自然语言的证明转换到 Lean 语言中,这个过程与证明和形式化证明同样重要,且在一个系统中同时训练,而不是分开训练。

洪乐潼对 DeepTech 解释道:“我们对数据主要依赖自动生成,无论是从自然语言到形式化的自动转换,还是在形式化的基础上自动生成 100 到 1,000 倍的变体,甚至可以借鉴类似编译器中的想法和手段。”

据了解,Axiom 目前正在设计内部的基准数据集,旨在用更难的数据集来挑战其模型能否进一步突破极限。此外,他们还希望让猜想和证明可以做持续的非对称自我博弈以及事后重演。

洪乐潼认为,AI for Maths 是 AI for Science 的理论层和算法层,她表示:“大家可能觉得解决了埃尔德什问题很了不起,但我认为这只能说明模型具备了一定的能力,但我们也必须清醒地看到,它距离成为真正的 AI 数学家还有一定的距离,比如在数论、代数几何、代数拓扑、微分拓扑等方向上我们还有很大的进步空间。”

从融资规模与公司体量来看,Axiom 当前进展已引发行业关注。后续能否进一步与竞争对手拉开差距并形成落地产品,还需多一些的耐心与观察。

参考资料:

https://x.com/carinalhong/status/1995905801719066763?s=46

https://b.capital/why-we-invested/toward-mathematical-superintelligence-why-we-invested-in-axiom/

https://axiommath.ai/

https://www.erdosproblems.com/

https://techfundingnews.com/axiom-math-ai-mathematician-64m-seed/

https://www.wsj.com/tech/ai/math-ken-ono-carina-hong-axiom-startup-649bc417

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
报告114伤1死,中国企业的血糖仪遭FDA警告

报告114伤1死,中国企业的血糖仪遭FDA警告

健识局
2026-02-25 20:07:55
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

不似少年游
2026-02-24 19:24:23
“艳照门”17年后,她再度翻红,自曝曾3年没拍戏,做了12次试管

“艳照门”17年后,她再度翻红,自曝曾3年没拍戏,做了12次试管

白面书誏
2026-02-26 14:13:40
这些习惯,可能影响你啪啪时的表现(女生勿入)

这些习惯,可能影响你啪啪时的表现(女生勿入)

许超医生
2026-02-26 10:06:41
就是一整块屏!广东新闻联播提前展示OPPO Find N6:微距展示肉眼几乎看不到折痕

就是一整块屏!广东新闻联播提前展示OPPO Find N6:微距展示肉眼几乎看不到折痕

快科技
2026-02-27 10:42:00
曾志伟儿女现状:长子不生娃,次子离婚,小女儿远嫁,她至今未婚

曾志伟儿女现状:长子不生娃,次子离婚,小女儿远嫁,她至今未婚

冷紫葉
2026-02-11 17:08:41
《王牌特工》男主演“秃”然亮相惊呆网友,此前被称为“英伦男神”,头发茂密

《王牌特工》男主演“秃”然亮相惊呆网友,此前被称为“英伦男神”,头发茂密

红星新闻
2026-02-26 20:22:15
天生一张娃娃脸都已经46了,你敢想

天生一张娃娃脸都已经46了,你敢想

超人强动物俱乐部
2026-02-25 19:21:58
62岁何政军现状:老态尽显,不拍戏时爱做饭,女儿长相甜美是学霸

62岁何政军现状:老态尽显,不拍戏时爱做饭,女儿长相甜美是学霸

白面书誏
2026-02-26 19:23:28
爱泼斯坦案再曝猛料!女星指控献祭,证人曝狩猎派对像饥饿游戏

爱泼斯坦案再曝猛料!女星指控献祭,证人曝狩猎派对像饥饿游戏

小徐讲八卦
2026-02-25 07:05:52
爱泼斯坦案曝光霍金与身穿比基尼女子合影,霍金家人:系护理人员;曾辟谣照片为合成伪造

爱泼斯坦案曝光霍金与身穿比基尼女子合影,霍金家人:系护理人员;曾辟谣照片为合成伪造

新民周刊
2026-02-26 18:57:36
1952年郑洞国赴京就任,她嫌弃北京苦寒毅然改嫁富商

1952年郑洞国赴京就任,她嫌弃北京苦寒毅然改嫁富商

磊子讲史
2025-12-29 16:25:39
9队全晋级!英超统治欧战的3大真相,真不只是有钱!

9队全晋级!英超统治欧战的3大真相,真不只是有钱!

落夜足球
2026-02-27 10:43:31
五代最可惜的政权:拥兵30万控制江南,却无法灭吴越,统一中原!

五代最可惜的政权:拥兵30万控制江南,却无法灭吴越,统一中原!

小松历史菌
2026-02-26 23:12:36
春天吃一瓜,中药不用抓!一降火、二润肠、三强免疫,鲜嫩营养高

春天吃一瓜,中药不用抓!一降火、二润肠、三强免疫,鲜嫩营养高

阿龙美食记
2026-02-25 13:18:07
梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

离离言几许
2026-02-26 16:19:11
成本2亿,日票房仅1100万,71岁成龙懵了:内地观众凭啥不买账?

成本2亿,日票房仅1100万,71岁成龙懵了:内地观众凭啥不买账?

糊咖娱乐
2026-02-25 18:38:49
小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

一根香烟的少妇
2026-02-23 15:00:03
卫星图像显示美国11架F-22隐形战机抵达以色列

卫星图像显示美国11架F-22隐形战机抵达以色列

环球网资讯
2026-02-27 06:21:11
连8岁孩子都不放过!武契奇险遭灭门,幕后黑手太狠了

连8岁孩子都不放过!武契奇险遭灭门,幕后黑手太狠了

头条爆料007
2026-02-26 10:43:43
2026-02-27 11:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16328文章数 514660关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

媒体:骄傲十年后 德国不得不正视中国

头条要闻

媒体:骄傲十年后 德国不得不正视中国

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

40岁的吉利,不惑于内外

态度原创

时尚
数码
健康
艺术
本地

今年春天最美搭配:西装+半裙,怎么穿都好看!

数码要闻

库克预告下周将精彩纷呈 苹果新品发布整装待发?

转头就晕的耳石症,能开车上班吗?

艺术要闻

紫气东来,好运一整年!

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版