网易首页 > 网易号 > 正文 申请入驻

大模型解数学题太保守了,这个AI工具想改变数学家做题的方式

0
分享至

来源:市场资讯

(来源:麻省理工科技评论APP)


总部位于加州帕洛阿尔托的初创公司 Axiom Math 发布了一款面向数学家的免费 AI 工具,旨在帮助数学家解开长期悬而未决的问题。

这款工具名为 Axplorer,是对一个名为 PatternBoost 的现有工具的重新设计。PatternBoost 由 Axiom 的研究科学家弗朗索瓦·沙尔顿(François Charton)于 2024 年在 Meta 工作时参与开发,此前曾被用来攻克一个叫做“图兰四环问题”(Turán four-cycles problem)的高难度数学难题。PatternBoost 运行在超级计算机上,而 Axplorer 在一台 Mac Pro 上就能跑;因此,Axplorer 的目标是把让每一个人都能在自己的电脑上轻松安装 PatternBoost。

去年,美国国防高级研究计划局(DARPA)设立了一个名为 expMath(Exponentiating Mathematics 的缩写,意为“指数化数学”)的新计划,鼓励数学家开发和使用 AI 工具。Axiom 认为自己是这一浪潮的一部分。

沙尔顿表示,数学领域的突破会对整个技术界产生巨大的连锁效应。新的数学成果对计算机科学的进步尤其关键,从构建下一代 AI 到提升互联网安全都离不开它。

大多数 AI 工具的成功案例都集中在为现有问题寻找解法上。但寻找解法并不是数学家做的全部工作,Axiom Math 创始人兼 CEO 卡丽娜·洪(Carina Hong)说。数学是探索性和实验性的。

上周,MIT Technology Review 与沙尔顿和洪进行了一次独家视频对话,讨论他们的新工具以及 AI 可能如何改变数学。


用 Chatbot 做数学?

过去几个月,多位数学家使用大语言模型(如 OpenAI 的 GPT-5)找到了未解问题的解法,尤其是 20 世纪数学家保罗·厄尔多什(Paul Erdős)留下的问题——厄尔多什去世时留下了数百道未解之谜。

但沙尔顿对这些成果并不以为然。“有大量问题之所以悬而未决,只是因为没人去看过,从中找到几颗能解的遗珠并不难,”他说。他瞄准的是更艰难的挑战,“那些被充分研究过、有知名学者投入过精力的大问题”。

沙尔顿说,PatternBoost 攻克的图兰四环问题就属于此类。这个问题在图论中很重要。图论是数学的一个分支,用于分析社交媒体连接、供应链和搜索引擎排名等复杂网络。想象一张纸上布满了点,这个难题要求你在尽可能多的点之间画线,同时不能形成连续四个点首尾相连的环。Axiom Math 表示,他们已用 Axplorer 在图论中另外两个重大问题上追平或超越了此前已知的最佳结果。

“如果你想做的事情是基于已有成果的衍生工作,LLM 非常擅长,”沙尔顿说,“这不奇怪——LLM 是在所有现有数据上预训练的。但你可以说 LLM 是保守的,它们倾向于复用已有的东西。”

然而,数学中有很多问题需要全新的思路,需要从未有人产生过的洞见。有时这些洞见来自发现此前未被注意到的模式。这样的发现可以开辟全新的数学分支。

PatternBoost 的设计目的就是帮助数学家发现新模式。给工具一个样例,它会生成类似的结果。你挑出看起来有意思的,再反馈回去。工具接着生成更多类似的,如此反复。

这个思路与 Google DeepMind 的 AlphaEvolve 类似。AlphaEvolve 利用 LLM 为问题生成新颖的解法,保留最好的建议,然后让 LLM 在此基础上继续改进。


特权通道

研究人员已经用 AlphaEvolve 和 PatternBoost 发现了多个长期数学问题的新解法。问题在于,这些工具都运行在大规模 GPU 集群上,大多数数学家用不了。

沙尔顿说,数学家们对 AlphaEvolve 很兴奋,“但它是封闭的,你需要有使用权限。你得去找 DeepMind 的人帮你把问题输进去。”

而沙尔顿用 PatternBoost 解决图兰问题时还在 Meta。“我当时能调用成千上万台、有时候上万台机器,”他说,“跑了三个星期。说白了就是让人不好意思的暴力计算。”

Axiom Math 团队表示,Axplorer 快得多,效率也高得多。Axplorer 只用了 2.5 小时就追平了 PatternBoost 在图兰问题上的结果,而且只需要一台机器。

悉尼大学的数学家乔迪·威廉森(Geordie Williamson)曾与沙尔顿合作开发 PatternBoost,他还没有试用 Axplorer,但对数学家们会用它做什么很好奇。(威廉森偶尔仍与沙尔顿在学术项目上合作,但表示自己与 Axiom Math 公司没有其他关联。)

威廉森说,Axiom Math 对 PatternBoost 做了多项改进,理论上让 Axplorer 能适用于更广泛的数学问题。“这些改进到底有多大意义,还有待观察,”他说。

“我们现在处于一个奇怪的时期,很多公司都有希望我们使用的工具,”威廉森补充道,“我觉得数学家们对各种可能性有点应接不暇。再多一个这样的工具会产生什么影响,我不太确定。”

洪承认,现在有大量 AI 工具在向数学家推销。其中一些还要求数学家自己训练神经网络。洪本身就是数学家,她说这让人望而却步。Axplorer 则不同,它会一步步引导你完成想做的事情。

Axplorer 的代码是开源的,可以通过 GitHub 获取。洪希望学生和研究人员能用这个工具为自己正在研究的问题生成样例解法和反例,从而加速数学发现。

威廉森欢迎新工具,他自己也经常使用 LLM。但他认为数学家还不该把白板扔掉。“以我个人有偏见的看法来说,PatternBoost 是个很棒的想法,但它绝对不是万能药,”他说,“我希望我们不要忘记那些更脚踏实地的方法。”

https://www.technologyreview.com/2026/03/25/1134642/this-startup-wants-to-change-how-mathematicians-do-math/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
广西女画家齐丽丽被判死刑崩溃大哭,拒吃断头饭,临终作画

广西女画家齐丽丽被判死刑崩溃大哭,拒吃断头饭,临终作画

天梦见证
2025-04-06 21:50:09
伊朗头号强援到位,大批部队进驻德黑兰,特朗普失算:遭内外夹攻

伊朗头号强援到位,大批部队进驻德黑兰,特朗普失算:遭内外夹攻

三农老历
2026-03-30 14:35:45
越南野心非常可怕!在学校教育中一直把广东广西作为其原来的属地

越南野心非常可怕!在学校教育中一直把广东广西作为其原来的属地

南权先生
2026-02-04 15:59:33
KTV聚会照被疯传!郭麒麟认了是本人!严浩翔私生公开小号关注列表

KTV聚会照被疯传!郭麒麟认了是本人!严浩翔私生公开小号关注列表

观察鉴娱
2026-03-28 09:22:06
亚历山大30分雷霆击败尼克斯2连胜,布伦森32+5+5唐斯15+18

亚历山大30分雷霆击败尼克斯2连胜,布伦森32+5+5唐斯15+18

湖人崛起
2026-03-30 10:15:01
从运动员到老板,31岁林高远再破天花板,这一次他为自己正名

从运动员到老板,31岁林高远再破天花板,这一次他为自己正名

以茶带书
2026-03-30 14:48:10
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
高市言论突破底线,普京下场警告后,不到24小时,数千人集体抗议

高市言论突破底线,普京下场警告后,不到24小时,数千人集体抗议

策前论
2026-03-30 14:46:52
英国一女子一周内与双胞胎兄弟发生关系,后诞下一女,女儿8岁仍不知生父: DNA鉴定两兄弟的可能性各占50%;出生证明上保留兄弟两人的姓名

英国一女子一周内与双胞胎兄弟发生关系,后诞下一女,女儿8岁仍不知生父: DNA鉴定两兄弟的可能性各占50%;出生证明上保留兄弟两人的姓名

鲁中晨报
2026-03-29 15:49:02
许利民或下课?首钢若换帅,大概率锁定老熟人,41岁,年轻有为

许利民或下课?首钢若换帅,大概率锁定老熟人,41岁,年轻有为

萌兰聊个球
2026-03-30 10:45:28
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

原来仙女不讲理
2026-02-13 17:31:20
交通运输部检查指导组在吉林检查时发现“百吨王”多发频发

交通运输部检查指导组在吉林检查时发现“百吨王”多发频发

界面新闻
2026-03-30 11:14:13
伊朗伊斯兰革命卫队确认海军司令遇难

伊朗伊斯兰革命卫队确认海军司令遇难

新京报
2026-03-30 15:51:08
期待!国足名宿呼吁国家队加入新归化:8名强力外援可供候选!

期待!国足名宿呼吁国家队加入新归化:8名强力外援可供候选!

邱泽云
2026-03-30 13:29:37
19岁全红婵哽咽回应“被人说胖”:第1次来例假后吃一点就胖,每天只吃一顿饿得不行,接受不了这么胖的自己,希望不要再骂我

19岁全红婵哽咽回应“被人说胖”:第1次来例假后吃一点就胖,每天只吃一顿饿得不行,接受不了这么胖的自己,希望不要再骂我

大风新闻
2026-03-30 11:46:07
他靠给自己戴100顶绿帽,改写了历史,成就了千秋伟业!

他靠给自己戴100顶绿帽,改写了历史,成就了千秋伟业!

等闲哥
2025-02-05 12:47:49
DeepSeek崩溃近12小时后恢复正常,创单次服务中断最长纪录

DeepSeek崩溃近12小时后恢复正常,创单次服务中断最长纪录

界面新闻
2026-03-30 11:50:18
最高规格邀请拿到!郑丽文获大陆强力支持瞬间稳住阵脚,地位及能见度猛升

最高规格邀请拿到!郑丽文获大陆强力支持瞬间稳住阵脚,地位及能见度猛升

观星赏月
2026-03-30 14:04:11
闯入领事馆第5日,‘高市下台’消息在东京流传,无需中方行动,

闯入领事馆第5日,‘高市下台’消息在东京流传,无需中方行动,

听风50
2026-03-30 14:54:11
2026-03-30 16:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2680349文章数 6250关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

单套最低5400万 北京豪宅暴雷几十户业主办不了房产证

头条要闻

单套最低5400万 北京豪宅暴雷几十户业主办不了房产证

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

时尚
亲子
手机
旅游
数码

来到1980的周也,好毛利兰

亲子要闻

别再给孩子吃这3种“假早餐”,越吃越没精神

手机要闻

三星旧机更新现隔空投送开关,却无法使用?

旅游要闻

赴泰旅游价格或上涨,泰国拟向外国游客收300泰铢

数码要闻

小米米家吸顶灯Pro超薄版上架:可选方/圆款,849元起

无障碍浏览 进入关怀版