网易首页 > 网易号 > 正文 申请入驻

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

0
分享至

P1团队 投稿
量子位 | 公众号 QbitAI

开源模型首次在国际物理奥林匹克竞赛夺金了。

来自上海AI Lab的P1-235B-A22B取得了21.2分的成绩,成功跨越金牌线。

在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。

这个成绩超越了GPT-5的11金以及Grok-4的10金,标志着开源模型在物理推理能力上已经达到甚至超越闭源模型的水平。

同时,团队提出的协同进化多智能体系统PhysicsMinions,在IPhO 2025及HiPhO综合得分上双双问鼎,展现了“模型+系统”框架在应对复杂科学问题的卓越潜力。

物理推理是理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。AI在此类竞赛中夺得金牌,不仅是实现通用物理智能道路上的关键里程碑,更表明模型已初步具备应对现实世界中复杂物理问题的潜力。

P1系列:模型、算法、评测集和智能体框架的全链路开源体系

首个物理奥赛基准测试:HiPhO

为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,包括 IPhO、APhO、EuPhO 等国际和区域赛事。评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确。由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

△HiPhO 基准测试概览,包含2024-2025年13场物理奥赛,覆盖国际和区域竞赛。

多阶段强化学习训练

研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

P1系列模型采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:

  • 上下文窗口扩展:
  • 随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链。这种扩展提高了高复杂度问题的可解性,减少了因截断导致的错误。
  • 通过率过滤:
  • 在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

基于这种多阶段强化学习策略,P1模型实现了在基座语言模型的基础上长期、持续的性能提升

协同进化的多智能体系统:PhysicsMinions

为了突破单模型的极限,研究团队开发了PhysicsMinions,这是一个专为物理推理设计的协同进化多智能体系统。它由三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升:

  • 视觉模块(Visual Studio)
  • – 观察和验证多模态问题,提取结构化的视觉信息(在P1模型实验中未使用视觉模块)。
  • 逻辑模块(Logic Studio)
  • – 生成初始解决方案,并通过自我改进和自我反思逐步改进解答。
  • 审核模块(Review Studio)
  • – 执行双阶段验证:物理验证器检查物理一致性(比如常数、单位),而通用验证器检查逻辑、推理和计算。

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,PhysicsMinions 持续提升复杂物理问题的推理质量和鲁棒性。

△PhysicsMinions 协同进化多智能体系统概览,展示了三个模块之间的交互流程。

评测结果:引领 HiPhO 基准,物理推理能力世界第一

下表总结了在 HiPhO 基准上所有竞赛的平均表现,展示出 P1 系列模型和多智能体系统的出色性能。

△P1 系列模型在 HiPhO 基准测试上的综合表现,包括与开源和闭源模型的对比。

P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斩获12金1银,金牌数超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流闭源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型。

P1-30B-A3B在HiPhO基准上同样表现出色,获得8金4银1铜,在现有开源模型中排名第三。

仅次于参数规模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等闭源模型,突显了其在中等规模下的强大物理推理能力。

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B模型在 HiPhO 基准上取得了35.9分的平均得分,而配备 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得综合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等顶尖闭源模型。

通专融合,P1模型通用能力持续提升

除了强大的物理推理能力,P1模型在多个领域的能力也得到进一步提升。如下图所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。

Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO:
论文:https://arxiv.org/abs/2509.07894
数据集:https://huggingface.co/datasets/SciYu/HiPhO
排行榜:https://phyarena.github.io/

PhysicsMinions
https://arxiv.org/abs/2509.24855

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丑鞋出海卖爆了,卖家狂赚400万

丑鞋出海卖爆了,卖家狂赚400万

跨境派Pro
2026-05-09 14:14:21
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
画大饼丑闻!40亿投资迟迟不到位,斯威士兰直接曝光台当局赖账

画大饼丑闻!40亿投资迟迟不到位,斯威士兰直接曝光台当局赖账

健身狂人
2026-05-10 15:02:05
山姆成“欠款大户”?雨花客厅北区法拍公告披露:山姆欠租887万元

山姆成“欠款大户”?雨花客厅北区法拍公告披露:山姆欠租887万元

扬子晚报
2026-05-10 20:25:23
徐帆回应离婚9个月后,冯小刚和其前任同聚,和养女关系引争议

徐帆回应离婚9个月后,冯小刚和其前任同聚,和养女关系引争议

小武侃风云
2026-05-11 03:29:15
Nice!杜兰特点赞!勇士第一笔重磅签约

Nice!杜兰特点赞!勇士第一笔重磅签约

篮球实战宝典
2026-05-10 19:42:35
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
赖着不走、不达目的绝不返程!美国国会代表团在华超长滞留

赖着不走、不达目的绝不返程!美国国会代表团在华超长滞留

健身狂人
2026-05-10 19:30:43
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
演都不演了!母亲节大S女儿小玥儿开通账号,不到24小时遭网暴

演都不演了!母亲节大S女儿小玥儿开通账号,不到24小时遭网暴

大中国
2026-05-11 09:09:55
果不其然,特朗普访华又生变数?中方提的要求,美方竟然一口回绝

果不其然,特朗普访华又生变数?中方提的要求,美方竟然一口回绝

说历史的老牢
2026-05-10 05:43:22
0-2落后!王皓激励:“老梁相信自己 就当输了” 梁靖崑随后连赢3局

0-2落后!王皓激励:“老梁相信自己 就当输了” 梁靖崑随后连赢3局

林子说事
2026-05-10 19:03:18
早田希娜赛后痛哭:一局都没拿下满是愧疚,辜负了所有人的支持

早田希娜赛后痛哭:一局都没拿下满是愧疚,辜负了所有人的支持

懂球帝
2026-05-10 23:29:40
一日夫妻百日恩?这一次,马伊琍和文章联手给娱乐圈“上了一课”

一日夫妻百日恩?这一次,马伊琍和文章联手给娱乐圈“上了一课”

情感大头说说
2026-05-10 15:12:56
张凌赫爆红后《刺棠》女主换人!王玉雯被资本抛弃,田曦薇捡漏?

张凌赫爆红后《刺棠》女主换人!王玉雯被资本抛弃,田曦薇捡漏?

手工制作阿歼
2026-05-10 20:46:17
黄紫昌:对手每个球员都踢得非常合理,我们队也非常团结

黄紫昌:对手每个球员都踢得非常合理,我们队也非常团结

懂球帝
2026-05-10 21:19:24
我的两个舅舅,一个用690万投进股市,一个把690万存进余额宝

我的两个舅舅,一个用690万投进股市,一个把690万存进余额宝

起飞做故事
2026-05-07 15:49:53
以静制动!北京使出杀威棒

以静制动!北京使出杀威棒

柳扶风
2026-05-11 09:22:46
为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

医药养生保健报社
2026-04-28 17:59:19
脑科学警告:父母这4句口头禅,正在闭合孩子大脑,12岁后难弥补

脑科学警告:父母这4句口头禅,正在闭合孩子大脑,12岁后难弥补

新东方家庭教育
2026-05-07 17:14:19
2026-05-11 10:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12600文章数 176461关注度
往期回顾 全部

科技要闻

股价一年暴涨160%!谷歌凭什么?

头条要闻

美国经济学家:"台独"是中美共同的敌人 意味着战争

头条要闻

美国经济学家:"台独"是中美共同的敌人 意味着战争

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
本地
旅游
艺术
公开课

曝卡普空将推《鬼泣》重制、《生化危机10》等新作

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

观山湖公园鹭鸟翩跹 生态美景入画来

艺术要闻

抖音第二总部来了,长得像“海湾石瀑”太惊艳!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版