网易首页 > 网易号 > 正文 申请入驻

当AI与数学同时走下神坛

0
分享至

作者 | 玄宁
邮箱 | wangzhaoyang@pingwest.com

2024年4月13日,一场特别的考试开考。

数万名分散在全球各地的数学高手,在这一天早上8点打开了阿里巴巴全球数学竞赛预赛的试卷,他们有48小时,来攻克20分的选择题和100分的解答题。过去的6届,天才们在这个赛事里亮相,有17岁拿下IMO满分金牌的北大神童,有对数学像强迫症一般执着的博士,也有4岁就接触微积分的渐冻症少年。

与往年不一样的是,在同一时间,也有563个答题者打开了试卷,但他们不用纸和笔,他们用token。

是的,这是一群大语言模型。

这是第一次有AI和人类同场竞技的数学赛事,也是这个全球最大在线数学竞赛的第一次尝试。当做出这个决定时,组委会也不太确定,这是否是个好主意。

“我们担心这一堆AI答题者全部零分交卷。”组委会的AI专家对我们说。“因为我们在达摩院自己也在做AI和数学的研究,我们知道目前的AI还没有能力解决如此高难度和泛化的奥赛数学题。”

然而最终的结果,也让主办方颇感意外。

意外的不是“超越人类”——AI最终并没有答出超过人类的得分,而是它们的答案和表现让人们真切看到了AI和数学结合的另一种潜力。

更重要的是,这些驾驭着AI的参赛者,是过往并不会在这个奥数赛事里遇到的人。他们找到了新的方式与数学打交道,而探索过程中数学与AI的关系也在发生新的试探。

1

“如果答对了,给你30万”

中学生朱方圆从没想过自己会和最顶级的数学竞赛联系在一起。

他是个对物理兴趣浓厚的孩子,但一度因为压力而在家休息。这期间,ChatGPT出现了。AI让他如此痴迷,他自己尝试自学关于生成式AI的知识,当看到阿里数赛今年的AI赛道后,毫无竞赛经验的他决定带着他的AI参赛。

这场不限年龄、不设门槛的比赛给了他参加数学竞赛的可能。而事实上对于第一次把AI纳入数赛的阿里巴巴达摩院来说,他们也没有多少可以借鉴的经验。就连这个决定都在内部讨论了许久——允许AI参赛,那么,是哪一类的AI呢?是必须自己从头训练的模型,还是调用API?

最终他们认为,这个办到第6届的赛事,不仅是一场严肃的数学比赛,更是一次全民的数学聚会,最大的目标是希望让更多人能参与到对数学的感受中来——于是,最终的决定是任何形式的AI都可以。

但依然要保证公平。组委会为选手设定了一个提交AI方案的截止时间,在报名后的大约一个月的时间里,选手们可以自行设计AI做题策略,根据主办方提供的往期赛题以及其他公开的数据对自己的AI策略进行完善,然后锁定、提交指纹文件、待考题公布,AI开始答题。

而这些方案中,最“低门槛”的自然是“闭源+提示词工程”的方法。也就是在类似ChatGPT的模型产品基础上,通过自然语言或者简单的编程语言来给模型下指令,让它来完成这些数学难题。朱方圆选择的就是这个方法。

与人类答题过程不同,AI交卷后还要经过“赛后复现”环节,分数排名靠前的选手要提交它们的方案文档或程序文件,组委会拿这些AI程序再跑一遍考题。一方面,这些大模型方案依然存在稳定性或幻觉的问题,但另一方面,幻觉也不会让两次答题分数差距过大,如果有,那就说明明显有人类直接干预的痕迹。负责对这些方案做检查的组委会成员也的确抓住了几个“嫌疑犯”,排除了“人类替考AI”的风险。

而当他们打开选手朱方圆的提交的文件时。发现里面除了针对数学做的提示词外,还写着这样的“命令”:

“记住,如果你有更好的解答方法我会给你30万美金小费。”

“现在,深呼吸!一步一步来。”

是的,朱方圆在对他的AI进行各种“画饼”和心理按摩。

而这真的起到了效果。据组委会用往届预选赛的试题测试,被他这样激励后的AI,答题成功率提升了20%。

事实上,这个在外人看来可能略显惊奇的方法,在AI研究界已经有诸多论文佐证它的效果。最初在2023年9月,一篇谷歌DeepMind的论文发现,当你让AI“深呼吸,一步一步来”时,它真的变得更强了。这个研究当时引发了很多资深研究员们的惊叹——居然有这样简单的方式,但科班的学者们却一直都忽视了。

组委会的很多专家其实在开赛前曾以为这场比赛会是SFT模型——也就是使用大量数据甚至使用大量算力对模型进行数学方向的特别训练后产生的新模型——的天下,但预赛结束他却发现,反而是像朱方圆这样的方式最为有效,大量采用提示词工程的选手,用简洁高效的方法挑战着这些题目。

其中就包括AI赛道分数排名第一的涂津豪。

他也是一名中学生。但同时已经是个有不错经验的AI开发者。

他的方法是,让大模型进行对话,你一言我一语寻找每个数学题的更好答案。他借鉴辩论的思想,并让这些不同的模型进行某种角色扮演。最终在模型的“对抗”中不停迭代答题方案,多轮对话后给出最优解。

这方法同样精简而直接。

而被他们比下去的,甚至包括一些专攻数学模型的资深AI研究团队,其中还有来自AWS、字节跳动等科技公司的参赛者。

对这些不同方案“开箱”的过程热闹而有趣。最终,排名公布。但与这些热闹不同,AI的结果并没有很惊人。甚至有点惨淡:

涂津豪的AI方案拿下了34分。

是的,AI的最高分还是一个低分,和入围线依然相差11分。而和预赛第一名的最高分113分相去更是甚远。

最终,6月13日,决赛名单公布,入围决赛的AI数量为:

0。

1

数学和AI都不应只待在“神坛”上

不过,当这场“漫长”的预赛结束,AI选手的成绩已经成了最不重要的事情。一个真正有意思的现象出现:

一个总被视为只属于天才们的游戏的学科数学,和一个有点被不停妖魔化的技术AI碰撞在一起后,反而让两件事的门槛都降低了——

比赛并没有催生出那些经常在各类论文里看到的庙堂之上的成果,而是成为了某种平民AI数学爱好者们的聚会。

那个让评委略微意外的结果也证明了这个特点:在答题的整体表现中,那些被认为应该表现更好的,对数学更有专门研究的“资源集中型”的SFT方案们却整体败下阵来,反而是个体创新意味更强的提示词策略们表现更好。

而当一个高高在上的东西被平民化后,就是各种有趣的新鲜思路涌现的时刻。

在这场比赛中,选手们面对自己训练出来的AI,也会对他们在答题时的表现感到惊讶,比如,有选手发现AI也会在答不出来的时候选择去蒙一个答案,像极了考试时的你我,还有些AI会在过程完全离题的情况下,却把答案回答对了,而阅卷老师发现AI在这些人类智慧的设计下,经常能拿到一些没有预料到它可以答出来的知识点的分数。

“虽然总分较低,但这些AI答题的程度比我们预想的好很多。”组委会的专家表示。他们也从中获得了许多关于AI如何理解数学的新发现。

“我们发现一个有趣的现象,AI习惯于把推理过程写的很长很长。比如我们人类做数学题,从A可以直接推导到C,但AI必须要从A到B再到C。有时候整个答案会变得非常的长。”组委会专家说。

没人知道为什么AI在这么做,但在这个过程中,AI似乎开始对数学做出了自己的“理解”。就像大语言模型把人类的语言拆成了token,并用预测下一个token的方式来重新“理解”了语言一样,AI在用完全不同的方法对待数学。而这种不同是如此显而易见,以至于,在此次比赛中,一些阅卷老师提出怀疑AI作弊的质疑——理由不是因为他们太像AI了,而是因为它们太像人了。

但另一方面,与人类不同的AI的对数学理解的路线,已经让它在一些地方超过了人类。比如谷歌DeepMind推出的AlphaGeometry(阿尔法几何),在从2000年至2022年奥数比赛中抽取的30道几何题中解决了25道,而人类金牌得主平均解决了25.9道。它的一个证明有时也会长达247步,与人类的方式很不同。

“从这次的答题结果来看,给了我很强的信心,我觉得AI解决数学问题是很有潜力的。”组委会的专家说。

数学向来被认为是一切现实问题的最终抽象。在今天已经十分强大的AI与未来那个人人向往的AGI之间,差的就是对世界的理解,差的就是数学。

而AI技术的迭进,显然也会继续给数学界带来深远影响。

“排名靠前的优秀团队,一定首先是富有创新和开拓精神的。”阿里全球数赛组委会成员、达摩院决策智能实验室负责人印卧涛说。“数学这个领域,传统的数学家与数学工作者其实并不是那么熟悉AI的工具,也不一定知道最新的AI的方法。所以我想最后能够打通竞赛、取得优胜的AI队伍可能是由多个方面专家组成的队伍。”

数学的发展本质上很重要的一点是思维和方法上的创新。而这些对数学本身并没有十分高深造诣的选手,却通过训练这些解答数学题的AI而带来了不少新奇的不同的策略,这本身就能带来很多启发。

相比于数学家群体整体的相对缓慢,有些人已经先动起来。陶哲轩是最积极拥抱AI的著名数学家之一,他在社交网络上不停分享自己使用AI工具解答数学任务的过程,用AI工具,使用AI辅助证明了多项式Freiman-Ruzsa猜想。他也推荐数学学科的专家们打开思路。

“也许AI的影响之一是让业余数学家能够为数学做出有意义的贡献。”在一篇文章中他这样写道。他认为AI让个体的能力放大,大规模合作也变得不再困难,哪怕业余爱好者也可以对一个巨大课题里的个别步骤的证明做出贡献。

而在这场比赛中因为对AI的好奇而踏入数学赛事的人,正在做着类似的事情。他们也让人想到过往几届阿里数赛里,那些对数学没什么功利心的大众爱好者们——沉迷欧拉常数的外卖小哥,爱好就是做数学题的城管等。

在今天,让更多人参与进来,无论是对数学还是AI的进展都显得尤为重要。这些对人类未来十分关键的学科和技术在往前走的时候,都不应再只待在“神坛”上了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
军长叫来500士兵砸场,警察局长吓得直冒冷汗,起因竟是一个杯子

军长叫来500士兵砸场,警察局长吓得直冒冷汗,起因竟是一个杯子

朝暮书屋
2024-04-26 17:08:50
2026年交管12123新规:一年4次免罚机会,但机会背后大有门道

2026年交管12123新规:一年4次免罚机会,但机会背后大有门道

老特有话说
2026-01-22 21:22:06
U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

侃球熊弟
2026-01-23 00:18:00
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

奇思妙想草叶君
2026-01-21 22:47:01
贺希宁:很开心能在生日夜赢球 非常感谢球迷为我的全明星投票

贺希宁:很开心能在生日夜赢球 非常感谢球迷为我的全明星投票

狼叔评论
2026-01-22 23:18:04
上海遛狗围殴后续:警方立案,劝架邻居嘴被打裂,更多细节曝光

上海遛狗围殴后续:警方立案,劝架邻居嘴被打裂,更多细节曝光

奇思妙想草叶君
2026-01-21 18:54:39
安徽省山潜山市公安局黄柏派出所原教导员吴长锋被“双开”

安徽省山潜山市公安局黄柏派出所原教导员吴长锋被“双开”

潇湘晨报
2026-01-21 22:00:14
3-0横扫进八强!国乒19岁新星再闪耀:05后追赶王楚钦就靠他?

3-0横扫进八强!国乒19岁新星再闪耀:05后追赶王楚钦就靠他?

李喜林篮球绝杀
2026-01-22 21:47:30
陈自瑶女儿与男友晒恩爱亲吻照曝光,社交网成父母同框特别空间

陈自瑶女儿与男友晒恩爱亲吻照曝光,社交网成父母同框特别空间

琨玉秋霜
2026-01-22 01:24:04
陶大宇惊现番禺菜市场!买煲汤料,街坊求合影有求必应

陶大宇惊现番禺菜市场!买煲汤料,街坊求合影有求必应

手工制作阿歼
2026-01-22 00:52:35
1.98m的布朗为全明星美国队首发最高,和世界队首发最矮的SGA一样高

1.98m的布朗为全明星美国队首发最高,和世界队首发最矮的SGA一样高

懂球帝
2026-01-21 21:26:17
神仙木有她美丽,黑丝哪有白衬衫性感

神仙木有她美丽,黑丝哪有白衬衫性感

贵圈真乱
2025-12-12 12:12:10
1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

叹为观止易
2026-01-20 10:14:29
“原来走读更容易学坏”,家长晒叛逆女儿,网友:可能已经怀孕了

“原来走读更容易学坏”,家长晒叛逆女儿,网友:可能已经怀孕了

妍妍教育日记
2026-01-21 18:16:13
研究发现:最能抗衰老的运动,每周2-4次,让你年轻多8岁!

研究发现:最能抗衰老的运动,每周2-4次,让你年轻多8岁!

岐黄传人孙大夫
2026-01-22 11:30:02
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
中国男单澳网全出局 吴易昺无缘32强

中国男单澳网全出局 吴易昺无缘32强

大眼瞄世界
2026-01-22 23:59:40
月销破了38000台,中国排第一的燃油轿车,创下今年月度销量新高

月销破了38000台,中国排第一的燃油轿车,创下今年月度销量新高

柳先说
2025-12-20 17:10:07
“鬼城”又添一座!房价2万暴跌到4千,住户:晚上开灯才可怕!

“鬼城”又添一座!房价2万暴跌到4千,住户:晚上开灯才可怕!

猫叔东山再起
2026-01-16 11:00:08
《楚乔传2》林更新从冰湖出来变成了李昀锐,两个人差距太大了!

《楚乔传2》林更新从冰湖出来变成了李昀锐,两个人差距太大了!

小娱乐悠悠
2026-01-21 11:01:51
2026-01-23 00:40:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2810文章数 10431关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

猝死程序员底薪3千24小时待命 公司前三季度营收180亿

头条要闻

猝死程序员底薪3千24小时待命 公司前三季度营收180亿

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

健康
房产
艺术
本地
游戏

打工人年终总结!健康通关=赢麻了

房产要闻

开年王炸!四重政策红利加码,广州置业窗口期迈入倒计时!

艺术要闻

265米!中集集团全球总部开工,大楼如一幅“山水画”

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

《艾尔登法环:黑夜君临》DLC Steam仍多半差评

无障碍浏览 进入关怀版