网易首页 > 网易号 > 正文 申请入驻

“书生”大模型获全国数学奥赛第三名,这道题的解法突破人类思路局限

0
分享至



记者今天从上海人工智能实验室获悉,在2025年全国中学生数学奥林匹克竞赛中,实验室研发的“书生”科学多模态大模型(Intern-S1)获得102 分(满分 126 分),在人类选手中排名第三,在参赛的三个国内顶尖大模型中位列第一。阅卷专家认为,Intern-S1的答题表达方式非常接近人类,其中对第四题的解答是一个新的解法,十分巧妙,在参赛学生的解法中没有见过。这意味着,大模型能突破人类解数学题的思路局限,有望帮助人类取得新的科学发现。

据悉,今年全国中学生数学奥赛首次开展人工智能测试,三个大模型参与,与人类选手在相同时间(4.5小时)内完成答题,并由官方组织以相同标准进行阅卷评分。参与大模型训练项目的中国人民大学附属中学老师、奥数教练张端阳说:“Intern-S1能取得这样的成绩,远超我的预期,彻底改变了我对当前大模型数学能力上限的看法。”上海人工智能实验室青年领军科学家陈恺认为,数学奥赛迎来了“AlphaGo时刻”,显示出人工智能在高难度代数、几何、数论、组合数学证明题领域的巨大潜力。



中国数学会发布的2025年全国中学生数学奥林匹克竞赛AI测试结果简报

陈恺介绍,全国中学生数学奥赛加试部分的题型均为证明题,需要很长的推理链路,对大模型的推理能力提出了考验。为此,他带领团队基于“通专融合”技术架构 SAGE(智者),开发了以数学引理为核心的多轮分层推理机制、基于结果的过程校验模型,经过强化学习,让通用大模型拥有了像数学家一样逐步推导、探索和修正的思路,在做证明题时能保持长程推理的严谨性。为了让大模型做好几何证明题,科研团队采用“通用大模型+专业符号引擎”方案,通过远少于谷歌AlphaGeometry2模型的训练量,就取得了很好效果。

2016年,AlphaGo与李世石对弈中下出“神之一手”,完全出乎九段职业棋手的意料。与之相仿,“书生”科学多模态大模型在数学奥赛第四题中,给出了让阅卷专家啧啧称奇的解答。

这道题目属于组合数学:有30种颜色的纸牌,每种颜色的纸牌均有70张。开始时从这些纸牌中任意选取70张,并从上至下摆成一叠。接着进行如下操作:从最下方20张纸牌中选择一张纸牌X,满足其颜色在最上方50张纸牌中从未出现;再从最上方50张纸牌中选择一张纸牌Y,满足其颜色在最上方50张纸牌中至少出现两次;从这叠纸牌中抽出X并将其紧贴着Y的上方放回这叠纸牌中。称上述过程为一次操作。重复上述操作直至无法选取这样的纸牌X时,整个操作过程结束。(1)证明:对所有可能的初始情况及操作方式,整个操作过程都会在有限次操作后结束;(2)在所有可能的初始情况及操作方式中,求操作次数的最大可能值。

面对这道“烧脑”题,“书生”展示了正确且清晰的解题思路。阅卷专家认为,“书生”提供了“一个新的解法,巧妙的调整法,结合了几种观察到的东西,在参赛学生的解法中没有见过”。它体现出大模型已具备理解复杂概念、进行创造性推理、发现精妙解法的能力,并在表达逻辑方面,有很强的严谨性。


Intern-S1对第四题第一问的解答


Intern-S1对第四题第二问的解答

“书生”的巧妙解题,印证了上海人工智能实验室训练大模型路径的可行性。“当AI系统的强大算力和人类的顶层规划设计结合后,它确实能突破传统‘刷题’的瓶颈,展现出接近人类高手的解题素养。”张端阳说。

未来,上海人工智能实验室将把Intern-S1的长程推理能力拓展应用于物理、化学、生命科学等基础研究领域,通过与专业工具融合,让大模型从“长时间独立思考”向“长时间独立科研”转变,从而加速各领域科研范式的根本性变革,为科学新发现提供重要支撑。

原标题:《“书生”大模型获全国数学奥赛第三名,这道题的解法突破人类思路局限》

栏目主编:黄海华

来源:作者:解放日报 俞陶然

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中日战争还没打响,中国可能就先“输”了。

中日战争还没打响,中国可能就先“输”了。

别人都叫我阿腈
2026-03-26 08:03:09
马斯克花440亿买Twitter,2年后估值只剩94亿

马斯克花440亿买Twitter,2年后估值只剩94亿

报错免疫体
2026-03-26 00:32:36
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

乒乓助手
2026-03-24 00:05:50
三甲医院“接管”细胞治疗,80%企业即将退潮

三甲医院“接管”细胞治疗,80%企业即将退潮

深蓝观
2026-03-25 11:21:02
43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

世界体育圈
2026-03-26 11:49:39
特朗普支持率公布

特朗普支持率公布

第一财经资讯
2026-03-25 08:31:57
A股:周四中午传来4大消息!A股或开启更大级别调整行情?

A股:周四中午传来4大消息!A股或开启更大级别调整行情?

股市皆大事
2026-03-26 12:24:53
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

懂球帝
2026-03-26 10:15:03
杜富国的待遇有多高?再多优待,都配不上他的牺牲

杜富国的待遇有多高?再多优待,都配不上他的牺牲

安安说
2026-03-25 11:29:29
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

柚子说球
2026-03-26 13:06:33
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

阿龙美食记
2026-03-25 06:17:12
王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

大西体育
2026-03-26 14:24:29
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
人为造神:被推上神坛的郑成功

人为造神:被推上神坛的郑成功

浪子说
2026-03-24 07:13:53
2026-03-26 15:03:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
456327文章数 760374关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
旅游
数码
房产

教育要闻

高考地理中的花海经济

2026年了,最好看的还是“这件针织”!

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

无障碍浏览 进入关怀版