网易首页 > 网易号 > 正文 申请入驻

AI喜提物理奥赛金牌!来自上海的P1模型,如何开启“封神”之路?

0
分享至


打开百度APP畅享高清图片


新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强化学习重点升级了物理专业能力。

其中,P1-235-A22B在2025年国际物理奥林匹克大赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。


P1在IPho 2025中的得分情况

初步具备解决复杂物理问题能力

物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。

在国际物理奥林匹克中,P1-235-A22B在满分30的情况下,获得21.2分,是首个也是唯一获得金牌的开源模型。

在面对一道大气压相关的物理题时,P1给出的4个小问题答案均正确,且过程完全符合评分标准。


为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确——由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

上海AI实验室透露,P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型。

P1在国际物理奥林匹克、HiPhO基准测试中表现突出,说明模型已初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。


P1在HiPhO基准测试上的得分情况

实现物理推理能力持续提升

据介绍,P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。

研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

新民晚报记者了解到,P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:一是上下文窗口扩展,随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链;二是通过率过滤,在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

此外,为了突破单一模型的性能极限,研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升。

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,系统持续提升大模型对复杂物理问题的推理质量和鲁棒性。

原标题:《AI喜提物理奥赛金牌!来自上海的P1模型,如何开启“封神”之路?》

栏目编辑:马丹

本文作者:新民晚报 郜阳

题图来源:东方IC

图片来源:上海AI实验室

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老部下梁兴初拍桌救人:谁敢动我首长!两位开国将军的特殊交情

老部下梁兴初拍桌救人:谁敢动我首长!两位开国将军的特殊交情

云霄纪史观
2025-12-29 01:52:21
父母都是央视名人,被保送到英国名校,如今定居英国,生活很自在

父母都是央视名人,被保送到英国名校,如今定居英国,生活很自在

跳跳历史
2025-12-26 14:10:10
2012年,广东老板参加宴请后失踪,13年后托梦妻子:车库里找我

2012年,广东老板参加宴请后失踪,13年后托梦妻子:车库里找我

农村情感故事
2025-12-06 07:32:53
正负值-59!湖人三连败揭詹姆斯副作用,雷迪克就差报身份证号了

正负值-59!湖人三连败揭詹姆斯副作用,雷迪克就差报身份证号了

奕辰说球
2025-12-29 10:27:15
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

春秋论娱
2025-12-25 07:11:24
官方:为增大举办可能性,韩国足协将同时申办2031及2035亚洲杯

官方:为增大举办可能性,韩国足协将同时申办2031及2035亚洲杯

懂球帝
2025-12-29 11:54:46
莱昂纳德55分创生涯新高!快船4连胜掀翻东部老大 哈登28+4+7

莱昂纳德55分创生涯新高!快船4连胜掀翻东部老大 哈登28+4+7

罗说NBA
2025-12-29 12:37:15
女性偷腥后当晚与丈夫同房是什么感觉?一位39岁的女人说出实情

女性偷腥后当晚与丈夫同房是什么感觉?一位39岁的女人说出实情

混音情感
2025-12-14 19:13:19
柬埔寨国王,72岁了,没钱没权,没结婚没孩子,和老母亲相依为命

柬埔寨国王,72岁了,没钱没权,没结婚没孩子,和老母亲相依为命

科普100克克
2025-12-23 17:54:08
王姓男演员道歉:今后一定严格约束自己的行为、

王姓男演员道歉:今后一定严格约束自己的行为、

小张帅
2025-12-27 15:24:25
威少只差9分,达成历史第十六人!勇士有意浓眉,欲用巴特勒交易

威少只差9分,达成历史第十六人!勇士有意浓眉,欲用巴特勒交易

篮球看比赛
2025-12-29 11:47:46
直线拉升,涨停潮来了!

直线拉升,涨停潮来了!

中国基金报
2025-12-29 12:27:35
郑永年:建议改革人才评估标准,“希望以后有一半院士来自企业”

郑永年:建议改革人才评估标准,“希望以后有一半院士来自企业”

时代周报
2025-12-28 15:35:10
美媒一定程度上承认了“斩杀线”存在

美媒一定程度上承认了“斩杀线”存在

环球时报国际
2025-12-28 15:40:48
小心谨慎,火箭锋线被联盟大买家盯上,一筹码或让火箭为之心动

小心谨慎,火箭锋线被联盟大买家盯上,一筹码或让火箭为之心动

拾叁懂球
2025-12-29 03:51:03
大胆预言,打工潮将在2026年结束!

大胆预言,打工潮将在2026年结束!

冬天来旅游
2025-12-29 11:01:20
美国衰落,始于奥巴马当选总统

美国衰落,始于奥巴马当选总统

狐狸先森讲升学规划
2025-12-12 21:13:15
从“联合利剑”到“海峡雷霆”到“正义使命” 三次演习有一个共同点

从“联合利剑”到“海峡雷霆”到“正义使命” 三次演习有一个共同点

环球网资讯
2025-12-29 08:26:47
成都警方通报:男子因纠纷引燃易燃物,其本人当场死亡,现场4人受伤

成都警方通报:男子因纠纷引燃易燃物,其本人当场死亡,现场4人受伤

界面新闻
2025-12-28 18:27:56
中方制裁清单送到白宫,美国头一次如此暴躁,给中国提出两个要求

中方制裁清单送到白宫,美国头一次如此暴躁,给中国提出两个要求

刘拕说体坛
2025-12-28 16:51:29
2025-12-29 13:39:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
409437文章数 758430关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

解放军举行围台军演 郑丽文:赖清德把自己的路走绝了

头条要闻

解放军举行围台军演 郑丽文:赖清德把自己的路走绝了

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

贵金属“牛市”能否跨年

汽车要闻

一汽正式“入股”零跑,总金额超37亿元!

态度原创

健康
亲子
房产
教育
军事航空

这些新疗法,让化疗不再那么痛苦

亲子要闻

“一人一籍、籍随人走” 教育部为学前儿童建立学籍

房产要闻

中粮(三亚)国贸中心ITC第四期自贸港政策沙龙圆满举行

教育要闻

长期成绩差的孩子,大多不是厌学,不是抑郁,而是:无感

军事要闻

东部战区发布联合演训区公告及示意图

无障碍浏览 进入关怀版