网易首页 > 网易号 > 正文 申请入驻

阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考

0
分享至


新智元报道

编辑:编辑部

【新智元导读】一年一度的阿里全球数学竞赛又开始了。本届最大的亮点,首次向硅基AI开放,最高可摘得1万美金大奖。不用等了,带着你的AI来挑战吧。

首个专为AI敞开大门的数学竞赛来了!

今天,2024阿里巴巴全球数学竞赛开启报名,首次向AI开放。要求很简单,就是用AI完成预选赛的题目,第一名奖金高达10000美元。


消息一出,没想到,向来不爱数学的网友反响出奇的热烈,疯狂@各路大模型参赛。


相关话题还冲上知乎当天的热榜。有网友表示,「作为曾经的数学爱好者,如今的AI爱好者,表示双厨狂喜。」


当然,也有认真学习的网友,对AI参赛很兴趣,「现在 AI 解决一些常规的计算题都有可能出错,不知道如何解答竞赛的证明题?」

也有参加过往届竞赛的网友直言,「AI估计没戏,阿赛都是出的没有直接解答和解题思路参考的新题,不是靠储存和搜索就可以的。」

不过也有网友发现比赛真正的槽点,23333


都说「万物皆可AI」,用AI来做数学题,是否很简单呢?激动的小编决定一试,就用当前「地表最强」的大模型GPT-4和Claude 3 Opus练练手。

与地表最强AI组队考试是一种怎样的感觉?

从过往三年阿里数赛的真题,小编选出了一道看着「人人易懂」的题目,让两个大模型去完成。

这是一个非常有趣的「抽鬼牌」游戏。A有n张牌(两两不同),B手中有n+1张牌(n张牌与A相同),只有一张是「鬼牌」。


游戏规则也很简单,A和B互相从对方手中抽牌,A先开始,若抽到牌与手中某张牌一样,将其丢弃。最后手里有「鬼牌」的人,就是loser。

假设每次从对方手中抽到任意一张牌概率相同,那么,n等于多少的时候,A的胜率最高?


GPT-4定义一个递归函数来计算A的胜率。

具体函数代码过程如下:

A在第一次抽牌时,抽到「鬼牌」的概率:1 / (n + 1)。

A没有抽到「鬼牌」的概率:(n / (n + 1)) * (1 - A的胜率(n - 1))。

然后,A获胜的总概率等于上面两个加起来:1 / (n + 1)+ (n / (n + 1)) * (1 - A的胜率(n - 1))。

最终将n = {31, 32, 999, 1000},分别计算,最终ChatGPT得出了n=31时,A的胜率最大。


def A_win_probability(n):# Base case: if only the ghost card remains, A loses, so the probability is 0.if n == 0:return 0
# Probability of A drawing the ghost card on the first draw.prob_A_draws_ghost = 1 / (n + 1)
# Probability of A not drawing the ghost card and then considering the outcomes# of the remaining game, which behaves like a game starting with one less card# (since A will draw a matching card and both will be discarded).prob_A_not_draw_ghost_and_wins = (n / (n + 1)) * (1 - A_win_probability(n - 1))
# Total probability of A winning.return prob_A_draws_ghost + prob_A_not_draw_ghost_and_wins
# Calculating A's win probability for the given n valuesn_values = [31, 32, 999, 1000]win_probabilities = {n: A_win_probability(n) for n in n_values}
win_probabilities

再来看看号称干翻「GPT4」的Claude 3 Opus表现如何?

在具体的分析过程中,Claude 3 Opus将游戏最终结果只归因于「A和B的抽牌顺序」——根据题目已给条件,是让A先抽的牌。然后,它又将A和B手中的牌加到一起,共有2n+1张牌,然后得出谁抽到最后一张牌,谁就输。Claude 3 Opus给出了A获胜的条件,就是B抽到最后一张牌,简言之,一共进行「奇数次」抽牌,A就获胜。

最终,模型将获胜率转为了「鬼牌」的奇偶率,得出了当n为偶数时,A获胜率大于1/2。因此,根据选项,得出了n=32,胜率最大。

官方的正确答案是B,n=32。

GPT-4显然挑战失败了,而Claude 3 Opus虽然答对了,但严格来说,算「懵对」。逻辑却出现了前后不吻合的情况。这种情况如果算过程分,也只能拿零分。

经过实测,任何一个人都可以理解的题目,但对于AI来说,却不一定。

大模型需要将题目转化为形式化的语言,也就是计算机可以理解的语言,然后根据已有的知识进行推理计算。

GPT-4与Claude 3 Opus在回答复杂数学问题的状况,跟下图一模一样:


学好数学,对AI同样重要

在数学解题能力上,即便是地表最强AI,也暴露出不少缺点。

直接上结论吧,AI今年应该还赶不上人类选手的水平。

但是未来差距无疑不断缩短,甚至于超越。如果这一旦发生,会倒逼提升竞赛难度、也会让人类选手迸发更大潜能。

写到这里,开始有点理解,阿里为什么要举办AI数学比赛了。

数学之于AI,AI之于数学,是相互相依的关系。在追上人类前,AI也许可以成为学生和数学家的助手,发挥搜索、记忆以及计算速度上的优势,帮助人类去解题。而另一方面,没有数学理论的支持,AI也很难行稳至远。

就连菲尔兹奖得主陶哲轩本人,第一时间将ChatGPT加入工作流,并预言:

2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

在最近接受Quanta Magazine的采访中,他还着重强调了,「AI可以让数学家大规模合作,让更多业余爱好者参与进来,为数学做出有意义的贡献」。


数赛组委会成员、达摩院决策智能实验室的负责人印卧涛表示,「引入AI给大赛带来一个新视角,让大家可以一同见证AI在逻辑思维和解题方面的能力」。

花式整活儿背后,推动数学与AI的发展

原来,这也不是阿赛第一次整活儿。

今年已是第六届的阿里全球数学竞赛,每年都吸引了全球各行各业的选手参与,比如退休教授、律师、船员、编剧、快递员等等。

2023年阿里数赛中,一位95后快递小哥就成为了那个「民间高手」。

白天忙着送快递,晚上还要留出时间专研数学。他仅用了两周的时间,证明了欧拉常数有关的13个公式。


仔细一想,今年阿里首设AI数学挑战赛,对公众而言也是一场很好的数学科普。

原来「不仅我觉得数学难,AI也觉得难」,还是踏踏实实的学习吧(狗头

组委会方面表示,数学本身就是AI的基础,后续还会去解读一些优秀AI背后的数学原理,向公众展示数学对于AI的重要性和应用前景,希望能够提升大众,特别是青少年对基础学科的兴趣。

此外,可预想的是,比赛定会吸引一大波码农前来参赛,说不定数学题还没解出来,却在过程中发掘出新的AI训练方法,新的算法,反过来推动了AI 的进步。

听说,魔搭社区已经发起号召了,就等着大神来揭榜。


相信「重赏之下,必有勇夫」,有着自己路数的AI必然让人期待。

还在等什么,快点击报名链接或扫描二维码,带着你的「硅基宝可梦」来挑战吧!

中文报名链接:

https://damo.alibaba.com/alibaba-global-mathematics-competition?language=zh

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰高级官员:俄军将发动大规模攻势!北约以“最大武力”向普京发信号

乌克兰高级官员:俄军将发动大规模攻势!北约以“最大武力”向普京发信号

每日经济新闻
2024-04-27 15:09:26
五百多万买来的房产惊现遗体!男子糟心:现场还被布置成“灵堂”

五百多万买来的房产惊现遗体!男子糟心:现场还被布置成“灵堂”

福建第一帮帮团
2024-04-26 20:00:43
“优惠4元”写成“售价4元”,烘焙店称标错价格面临数百万元损失

“优惠4元”写成“售价4元”,烘焙店称标错价格面临数百万元损失

上游新闻
2024-04-27 16:44:12
没想到!过去3个月,阿根廷比索汇率大涨25%!成全球最佳货币?

没想到!过去3个月,阿根廷比索汇率大涨25%!成全球最佳货币?

王爷说图表
2024-04-27 23:06:08
再这么搞下去,失业的人只会越来越多!政府该做些什么?

再这么搞下去,失业的人只会越来越多!政府该做些什么?

鹏飞深文
2024-04-27 13:40:46
发现没有,不知不觉中方向变了,一部分人觉醒了。

发现没有,不知不觉中方向变了,一部分人觉醒了。

刺头体育
2024-04-17 21:14:31
人社部权威专家表示:养老金压力空前巨大,2029年国家将面临缺口

人社部权威专家表示:养老金压力空前巨大,2029年国家将面临缺口

大佬日志
2024-04-27 08:00:17
热搜第一!鸡被砸死、美女隆起大包…广州龙卷风已致5死33伤

热搜第一!鸡被砸死、美女隆起大包…广州龙卷风已致5死33伤

魔都囡
2024-04-28 01:55:27
确保问题全部整改到位!李强听取情况汇报,提出重要要求

确保问题全部整改到位!李强听取情况汇报,提出重要要求

政知新媒体
2024-04-27 22:09:03
无锡被造谣猥亵3岁女童的蛋糕店老板胜诉,法院判令女童妈妈道歉并赔6万

无锡被造谣猥亵3岁女童的蛋糕店老板胜诉,法院判令女童妈妈道歉并赔6万

红星新闻
2024-04-27 17:17:41
布林肯见证了历史

布林肯见证了历史

六爷阿旦
2024-04-27 19:01:21
湖人避横扫哈姆被喷上全美热搜:无视詹皇挑战要求 美媒称他卧底

湖人避横扫哈姆被喷上全美热搜:无视詹皇挑战要求 美媒称他卧底

颜小白的篮球梦
2024-04-28 11:42:16
真相了,重庆燃气多收费原因找到,系18名工作人员敷衍了事所为

真相了,重庆燃气多收费原因找到,系18名工作人员敷衍了事所为

西斋青简
2024-04-27 10:50:03
女生把列车清洁袋当“漂流瓶”,写下考研抱负,引发万千网友共鸣

女生把列车清洁袋当“漂流瓶”,写下考研抱负,引发万千网友共鸣

潇湘晨报
2024-04-26 23:19:09
都跑了!继苹果、富士康后,特斯拉正式官宣,彻底不回头

都跑了!继苹果、富士康后,特斯拉正式官宣,彻底不回头

爱国同胞观世界
2024-04-28 08:33:14
“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

星辰故事屋
2024-03-08 21:12:51
万达集团创始人王健林宣布退出公司并将全部股权转让给中国儒意

万达集团创始人王健林宣布退出公司并将全部股权转让给中国儒意

鹏飞深文
2024-04-22 12:19:28
清凉峰事件大结局:男驴友瘦了,体力好,女子老公发声耐人寻味!

清凉峰事件大结局:男驴友瘦了,体力好,女子老公发声耐人寻味!

古希腊掌管松饼的神
2024-04-27 17:53:41
哎呀呀!这不是闹着玩的吧?金砖国家运动会门票开售两天

哎呀呀!这不是闹着玩的吧?金砖国家运动会门票开售两天

刺头体育
2024-04-27 23:05:44
技不如人?为何我国返回舱着陆后一身焦黑,印度返回舱却非常干净

技不如人?为何我国返回舱着陆后一身焦黑,印度返回舱却非常干净

说天说地说实事
2024-04-27 16:43:57
2024-04-28 12:20:49
新智元
新智元
AI产业主平台领航智能+时代
10964文章数 65460关注度
往期回顾 全部

科技要闻

问界M7起火司乘3人遇难,车企回应

头条要闻

媒体:DRG付费改革推行后 一些医院不愿收"复杂病人"

头条要闻

媒体:DRG付费改革推行后 一些医院不愿收"复杂病人"

体育要闻

赢了!詹皇末节14分制胜咆哮 压力给到KD

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

美国,突发爆雷!

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

家居
亲子
旅游
本地
公开课

家居要闻

光影之间 空间暖意打造生活律动

亲子要闻

当看到被子捂住了妹妹的脸,姐姐的一波操作太暖了

旅游要闻

年轻人出游:为了爱好说走就走 好玩不贵很重要

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版