网易首页 > 网易号 > 正文 申请入驻

AI喜提物理奥赛金牌!来自上海的P1模型,如何开启“封神”之路?

0
分享至


打开百度APP畅享高清图片


新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强化学习重点升级了物理专业能力。

其中,P1-235-A22B在2025年国际物理奥林匹克大赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。


P1在IPho 2025中的得分情况

初步具备解决复杂物理问题能力

物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。

在国际物理奥林匹克中,P1-235-A22B在满分30的情况下,获得21.2分,是首个也是唯一获得金牌的开源模型。

在面对一道大气压相关的物理题时,P1给出的4个小问题答案均正确,且过程完全符合评分标准。


为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确——由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

上海AI实验室透露,P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型。

P1在国际物理奥林匹克、HiPhO基准测试中表现突出,说明模型已初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。


P1在HiPhO基准测试上的得分情况

实现物理推理能力持续提升

据介绍,P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。

研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

新民晚报记者了解到,P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:一是上下文窗口扩展,随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链;二是通过率过滤,在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

此外,为了突破单一模型的性能极限,研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升。

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,系统持续提升大模型对复杂物理问题的推理质量和鲁棒性。

原标题:《AI喜提物理奥赛金牌!来自上海的P1模型,如何开启“封神”之路?》

栏目编辑:马丹

本文作者:新民晚报 郜阳

题图来源:东方IC

图片来源:上海AI实验室

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席83岁时写下的13个铅笔字,网友争议其美丑!

毛主席83岁时写下的13个铅笔字,网友争议其美丑!

书画相约
2026-04-05 07:55:25
一次闯红灯换来刑事拘留,这笔“冲动账”到底有多贵?

一次闯红灯换来刑事拘留,这笔“冲动账”到底有多贵?

上海黄浦
2026-04-04 21:33:32
村妇坚称军马吃了自家粟谷,石敬瑭:把马杀了,没有粟谷就杀村妇

村妇坚称军马吃了自家粟谷,石敬瑭:把马杀了,没有粟谷就杀村妇

收藏大视界
2026-03-22 22:16:23
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
一位g民果断出手

一位g民果断出手

风风顺
2026-04-05 14:18:40
人老了,再憋的慌也不要去这几个地方:1、原来的单位;2、不远不近的亲戚;3、可有可无的聚会

人老了,再憋的慌也不要去这几个地方:1、原来的单位;2、不远不近的亲戚;3、可有可无的聚会

四行书
2026-03-30 12:35:12
健身后欲望很大是怎么回事?

健身后欲望很大是怎么回事?

性学研究僧
2026-04-02 20:11:16
王楚钦复仇成功,距离改写历史只差一步!松岛已是国乒心腹大患

王楚钦复仇成功,距离改写历史只差一步!松岛已是国乒心腹大患

中国足球的那些事儿
2026-04-05 16:00:01
美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

每日经济新闻
2026-04-04 13:47:27
所有A级景区民警免票不含辅警,四川甘孜文旅被指存在歧视,回应:会推动政策优化

所有A级景区民警免票不含辅警,四川甘孜文旅被指存在歧视,回应:会推动政策优化

潇湘晨报
2026-04-04 18:37:12
断更五个月!知名网红董赤赤发声,患严重抑郁,还遭导演恶意引导

断更五个月!知名网红董赤赤发声,患严重抑郁,还遭导演恶意引导

裕丰娱间说
2026-04-04 19:21:13
赛程凶险:泰山要4连败!鲁媒:有奇葩教练组,未来2场输球没悬念

赛程凶险:泰山要4连败!鲁媒:有奇葩教练组,未来2场输球没悬念

建哥说体育
2026-04-05 07:47:51
四川泸山缆车家长孩子坠防护网,孩子吓得浑身发抖,当地回应后续

四川泸山缆车家长孩子坠防护网,孩子吓得浑身发抖,当地回应后续

眼光很亮
2026-04-05 12:14:18
李大钊牺牲后,妻子筹措安葬费,鲁迅捐了五十,汪精卫捐了一千

李大钊牺牲后,妻子筹措安葬费,鲁迅捐了五十,汪精卫捐了一千

云霄纪史观
2026-03-29 20:30:22
万科前董事长郁亮曾两次拒绝王石

万科前董事长郁亮曾两次拒绝王石

地产微资讯
2026-03-04 08:40:10
巴巴克·阿里普尔、普亚·戈巴迪,被处决

巴巴克·阿里普尔、普亚·戈巴迪,被处决

南方都市报
2026-03-31 22:45:29
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

安安说
2026-03-28 11:40:47
确认不打了!CBA知名外教宣布下课,或加盟广东队取代杜锋?

确认不打了!CBA知名外教宣布下课,或加盟广东队取代杜锋?

绯雨儿
2026-04-05 15:08:01
美元兑人民币将贬值到1美元换5.5元人民币,或许只需要5到10年?

美元兑人民币将贬值到1美元换5.5元人民币,或许只需要5到10年?

丁丁鲤史纪
2026-04-03 11:50:43
2026-04-05 18:35:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
461747文章数 760550关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
本地
艺术
亲子
公开课

旅游要闻

国风入人心 穿汉服踏青成年轻人度假新选择

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

怀素的这件“临终绝笔”,彻底改写了书法史

亲子要闻

娃发不发烧,跟穿不穿袜子没啥关系!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版