网易首页 > 网易号 > 正文 申请入驻

新的AI模型首次达到数学奥赛金牌水平

0
分享至

Google DeepMind与OpenAI的AI首次在国际数学奥林匹克获金牌水平,展现数学推理突破,但细节未公开引发谨慎讨论。



人工智能在数学领域的突破令人振奋。Google DeepMind的Gemini Deep Think和OpenAI的新模型在国际数学奥林匹克(IMO)中达到金牌水平,这是AI首次在这一全球顶尖青年数学家竞技场取得如此佳绩。IMO素来被视为考验AI数学推理能力的试金石,过去AI常在此折戟,但今年的成就却让人眼前一亮。



比赛在澳大利亚昆士兰举行,Google DeepMind的系统由官方评分者确认达到金牌标准,答对六题中的五题,耗时与参赛者相同的4.5小时。OpenAI虽未正式参赛,却由三位前IMO奖牌得主评分,宣称其模型同样取得金牌成绩。两者的成功并非偶然,而是AI技术飞跃的体现。Google的Thang Luong透露,Gemini Deep Think采用强化学习,通过试错摸索规则,并以“并行思考”模式同时探索多种解法,还依托专门为IMO准备的数学问题数据集。OpenAI则语焉不详,仅提及使用了强化学习和实验性研究方法。



与去年的AlphaProof和AlphaGeometry不同,这两款新模型完全用自然语言工作,而非专为比赛设计的Lean编程语言。自然语言让答案更易懂,或许能广泛应用于通用AI系统,但也带来新挑战。IMO组织者Joseph Myers指出,若AI生成冗长证明,隐藏细微但致命的错误,验证其正确性将变得困难。想象一下,未来AI可能破解重大未解科学问题,但若其输出难以核查,人们如何确信结果?为此,生成正式证明仍是关键。



尽管成绩耀眼,数学家们却保持谨慎。Terence Tao表示,缺乏公开细节和可复制的实验让人难以评估,需等待公司发布更多数据。Geordie Williamson也感叹,尽管成就惊人,但外界对模型内部机制知之甚少。这种不透明让学术界既兴奋又 frustrate。毕竟,AI若能解决复杂科学问题,其潜力不可限量,但前提是结果必须经得起推敲。



回想去年,Google DeepMind的AI在英国巴斯举办的IMO中仅获银牌,且未获官方评分。如今的飞跃令人感慨:从依赖Lean语言的专门系统,到能用日常语言媲美顶尖数学家的模型,AI的进步堪称神速。Google的Junehyuk Jung乐观预测,这些模型很快将助力解决更艰深的科学难题。两家公司计划先向数学家开放测试,再推向公众。



这场突破不仅展现了AI的潜力,也勾勒出未来图景:人工智能或许能成为科学探索的得力助手。然而,当我们为AI的壮举喝彩时,也得警惕其局限。毕竟,一个无法完全信任的答案,再耀眼也只是起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
翼展超过41米,类似轰20的无人机来了

翼展超过41米,类似轰20的无人机来了

三叔的装备空间
2025-09-19 16:27:03
周五收盘:今天A股调整到3811了,不出意外的话,下周可能这样走

周五收盘:今天A股调整到3811了,不出意外的话,下周可能这样走

寻墨阁
2025-09-19 14:51:43
马特乌斯:瓜帅带队还是10多年前的风格,太慢了其他队不再害怕

马特乌斯:瓜帅带队还是10多年前的风格,太慢了其他队不再害怕

直播吧
2025-09-19 14:04:09
袁甲评哈维尔:真是在外边找不到工作的都来咱这骗钱了

袁甲评哈维尔:真是在外边找不到工作的都来咱这骗钱了

直播吧
2025-09-19 13:56:16
辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

军武次位面
2025-09-16 17:42:56
波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

深度报
2025-09-18 22:47:16
确认,不用中国技术!俄罗斯将新建4000公里高铁,用“国产列车”

确认,不用中国技术!俄罗斯将新建4000公里高铁,用“国产列车”

南生今世说
2025-09-18 17:28:46
台湾回归后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

台湾回归后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

通文知史
2025-09-18 16:25:08
宋伊人新片遭抵制!长相平平却资源逆天,于正对她的评价一针见血

宋伊人新片遭抵制!长相平平却资源逆天,于正对她的评价一针见血

古希腊掌管月桂的神
2025-09-19 14:53:33
中美共存要成真?北京举办晚宴,中方75岁老将军出山

中美共存要成真?北京举办晚宴,中方75岁老将军出山

科技有趣事
2025-09-19 10:59:36
开学没几天,广东石油化工学院7名新生放弃入学资格,原因很现实

开学没几天,广东石油化工学院7名新生放弃入学资格,原因很现实

凯旋学长
2025-09-19 16:58:04
中山大学党委书记朱孔军调任武汉大学党委书记,黄泰岩卸任

中山大学党委书记朱孔军调任武汉大学党委书记,黄泰岩卸任

澎湃新闻
2025-09-19 16:18:27
男子8001元捡漏网拍劳力士手表,商家认为亏本拒绝发货,诉至法院获赔7万元

男子8001元捡漏网拍劳力士手表,商家认为亏本拒绝发货,诉至法院获赔7万元

大风新闻
2025-09-18 22:31:20
先递刀后滑跪:超级符号,超级服罗永浩

先递刀后滑跪:超级符号,超级服罗永浩

不正确
2025-09-17 14:49:59
非必要不做CT!《新英格兰医学杂志》:每10个儿童血癌就有1个与CT有关;每多做一次CT,都可能增加癌症风险

非必要不做CT!《新英格兰医学杂志》:每10个儿童血癌就有1个与CT有关;每多做一次CT,都可能增加癌症风险

医诺维
2025-09-19 11:55:55
氢氟酸新后续:受害者不是去散步,律师发声,恐难追究丢弃人刑责

氢氟酸新后续:受害者不是去散步,律师发声,恐难追究丢弃人刑责

春序娱乐
2025-09-19 14:29:12
突发!央媒官宣降温股市!9月19号,今日凌晨的四大消息全面发酵

突发!央媒官宣降温股市!9月19号,今日凌晨的四大消息全面发酵

搬砖知天下事
2025-09-19 08:40:47
新疆维吾尔自治区主席呼吁:眼见为实!欢迎大家到新疆走走看看,感受大美新疆的魅力

新疆维吾尔自治区主席呼吁:眼见为实!欢迎大家到新疆走走看看,感受大美新疆的魅力

极目新闻
2025-09-19 16:29:45
浙江省人民检察院党组副书记、常务副检察长胡东林一行来磐调研指导

浙江省人民检察院党组副书记、常务副检察长胡东林一行来磐调研指导

朗威游戏说
2025-09-19 15:21:59
收评:今天A股调整到3820,不出意外的话,下周一很有可能这样走

收评:今天A股调整到3820,不出意外的话,下周一很有可能这样走

小嵩
2025-09-19 11:55:58
2025-09-19 18:44:49
爱分享的伊一爸
爱分享的伊一爸
一个爱分享娱乐信息的红魔球迷奶爸
324文章数 6关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

女子误踩氢氟酸身亡 专家回应"为何遗弃10年仍致命"

头条要闻

女子误踩氢氟酸身亡 专家回应"为何遗弃10年仍致命"

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

"矿霸"填埋万吨危废 当地政府成立调查组

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

教育
游戏
艺术
公开课
军事航空

教育要闻

新航道寒假研学来了:插班世界名校、联合国认证,这届冬令营太顶了!

平台跳跃玩家狂喜!小众宝藏续作《尤卡莱莉:回归》10月9日发售

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版