网易首页 > 网易号 > 正文 申请入驻

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

0
分享至

P1团队 投稿
量子位 | 公众号 QbitAI

开源模型首次在国际物理奥林匹克竞赛夺金了。

来自上海AI Lab的P1-235B-A22B取得了21.2分的成绩,成功跨越金牌线。

在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。



这个成绩超越了GPT-5的11金以及Grok-4的10金,标志着开源模型在物理推理能力上已经达到甚至超越闭源模型的水平。

同时,团队提出的协同进化多智能体系统PhysicsMinions,在IPhO 2025及HiPhO综合得分上双双问鼎,展现了“模型+系统”框架在应对复杂科学问题的卓越潜力。

物理推理是理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。AI在此类竞赛中夺得金牌,不仅是实现通用物理智能道路上的关键里程碑,更表明模型已初步具备应对现实世界中复杂物理问题的潜力。

P1系列:模型、算法、评测集和智能体框架的全链路开源体系

首个物理奥赛基准测试:HiPhO

为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,包括 IPhO、APhO、EuPhO 等国际和区域赛事。评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确。由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。



△HiPhO 基准测试概览,包含2024-2025年13场物理奥赛,覆盖国际和区域竞赛。

多阶段强化学习训练

研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

P1系列模型采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:

  • 上下文窗口扩展:
  • 随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链。这种扩展提高了高复杂度问题的可解性,减少了因截断导致的错误。
  • 通过率过滤:
  • 在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

基于这种多阶段强化学习策略,P1模型实现了在基座语言模型的基础上长期、持续的性能提升



协同进化的多智能体系统:PhysicsMinions

为了突破单模型的极限,研究团队开发了PhysicsMinions,这是一个专为物理推理设计的协同进化多智能体系统。它由三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升:

  • 视觉模块(Visual Studio)
  • – 观察和验证多模态问题,提取结构化的视觉信息(在P1模型实验中未使用视觉模块)。
  • 逻辑模块(Logic Studio)
  • – 生成初始解决方案,并通过自我改进和自我反思逐步改进解答。
  • 审核模块(Review Studio)
  • – 执行双阶段验证:物理验证器检查物理一致性(比如常数、单位),而通用验证器检查逻辑、推理和计算。

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,PhysicsMinions 持续提升复杂物理问题的推理质量和鲁棒性。



△PhysicsMinions 协同进化多智能体系统概览,展示了三个模块之间的交互流程。

评测结果:引领 HiPhO 基准,物理推理能力世界第一

下表总结了在 HiPhO 基准上所有竞赛的平均表现,展示出 P1 系列模型和多智能体系统的出色性能。



△P1 系列模型在 HiPhO 基准测试上的综合表现,包括与开源和闭源模型的对比。

P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斩获12金1银,金牌数超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流闭源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型。

P1-30B-A3B在HiPhO基准上同样表现出色,获得8金4银1铜,在现有开源模型中排名第三。

仅次于参数规模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等闭源模型,突显了其在中等规模下的强大物理推理能力。

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B模型在 HiPhO 基准上取得了35.9分的平均得分,而配备 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得综合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等顶尖闭源模型。

通专融合,P1模型通用能力持续提升

除了强大的物理推理能力,P1模型在多个领域的能力也得到进一步提升。如下图所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。



Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO:
论文:https://arxiv.org/abs/2509.07894
数据集:https://huggingface.co/datasets/SciYu/HiPhO
排行榜:https://phyarena.github.io/

PhysicsMinions
https://arxiv.org/abs/2509.24855

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

体育哲人
2026-02-01 22:09:44
2-0,国际米兰4连胜领跑,甩AC米兰8分,泽林斯基飙无敌世界波

2-0,国际米兰4连胜领跑,甩AC米兰8分,泽林斯基飙无敌世界波

侧身凌空斩
2026-02-02 02:55:10
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
劳塔罗:全场最佳奖杯送给我过生日的女儿;要为爆竹事件道歉

劳塔罗:全场最佳奖杯送给我过生日的女儿;要为爆竹事件道歉

懂球帝
2026-02-02 04:01:09
为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

另子维爱读史
2025-12-29 17:29:04
华裔乒乓球名将自曝:因与中国队决裂出走,在体校要给刘国梁洗衣

华裔乒乓球名将自曝:因与中国队决裂出走,在体校要给刘国梁洗衣

运动探索
2026-01-14 15:33:12
美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

我心纵横天地间
2026-02-01 13:08:34
47岁薛佳凝近况曝光!曾与胡歌相恋多年,极具商业头脑却孤身一人

47岁薛佳凝近况曝光!曾与胡歌相恋多年,极具商业头脑却孤身一人

代军哥哥谈娱乐
2026-02-01 09:41:51
1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

叹为观止易
2026-01-20 10:14:29
黄景瑜的妈妈是她,年轻时是东北美女浓眉大眼,干会计工作已退休

黄景瑜的妈妈是她,年轻时是东北美女浓眉大眼,干会计工作已退休

揽星河的笔记
2026-01-26 15:16:11
工行、农行、中行、建行、交行,集体发布风险提示

工行、农行、中行、建行、交行,集体发布风险提示

新京报政事儿
2026-02-01 17:31:11
江西:寒假严禁中小学违规补课

江西:寒假严禁中小学违规补课

中国教育新闻网
2026-02-02 08:37:17
安踏95后“少帅”,开战lululemon

安踏95后“少帅”,开战lululemon

华商韬略
2026-01-30 10:42:40
上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

读懂世界历史
2025-11-23 11:18:04
上场后连丢两球,乌加特出场的情况曼联本赛季已经丢了24球

上场后连丢两球,乌加特出场的情况曼联本赛季已经丢了24球

懂球帝
2026-02-02 00:52:21
96年创业向大舅借9000被拒,三叔卖猪凑钱,送三叔套房他却找上门

96年创业向大舅借9000被拒,三叔卖猪凑钱,送三叔套房他却找上门

人间百态大全
2026-02-01 06:50:03
中华曲艺学会换届,周炜当选会长,程野当选副会长!

中华曲艺学会换届,周炜当选会长,程野当选副会长!

达文西看世界
2026-02-01 18:04:32
明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

半解智士
2026-01-30 17:14:17
皇马官方:贝林左侧大腿半腱肌受伤,后续恢复情况有待观察

皇马官方:贝林左侧大腿半腱肌受伤,后续恢复情况有待观察

懂球帝
2026-02-02 08:18:05
2026-02-02 09:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
家居
本地
健康
公开课

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

家居要闻

蓝调空舍 自由与个性

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版