网易首页 > 网易号 > 正文 申请入驻

国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,开源

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

首个拿下国际物理奥林匹克竞赛IPhO 2025理论考试金牌的开源模型,出自国产

上海人工智能实验室团队推出新模型家族,代号P1

在IPhO 2025理论考试中,P1-235B-A22B取得21.2/30分成为首个达到该金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5。



不仅如此,引入PhysicsMinions智能体框架后,P1成绩进一步提升

在团队构建的包含最新13项顶级物理竞赛的HiPhO基准上,P1-235B-A22B平均成绩从35.9提高到38.4,在所有33个顶流模型中排名第一,超过Gemini-2.5-Pro(37.7)和GPT-5(37.4)。

并且,在中国物理奥林匹克CPhO 2025人工评分中,P1-235B-A22B获得227/320分,显著超过当届全国金牌第一名人类选手(199分)。



开源方面团队也做得很彻底,从模型、算法到评测集、再到智能体框架,都将全链路开源。

下面具体来看P1究竟是如何做到的。

多阶段强化学习+智能体框架

为让模型学习类似人类顶尖学生的推理思路,团队首先构建了一个高质量的物理训练数据集

该数据集由5065道奥赛级文本物理题构成, 其中包含4126道物理奥赛真题与939道竞赛教材题目,覆盖力学、电磁学、热学、光学、近代物理等五大领域和二十五个子领域

这些题目极长而复杂,平均题干367 tokens,最长3386 tokens;平均解答349 tokens,最长5519 tokens



每一道都包含题目(Question)、完整专家解答(Solution)以及可规则验证的标准答案(Answer)。



为了确保数据质量,团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型交叉验证答案、人工检查OCR错误、删除无法规则判题的题目.

构造数据只是基础。

随后,P1采用了多阶段强化学习流程进行训练。

物理解题被形式化为一个序列决策问题:模型在每个状态下生成下一个token,直到输出完整解答;最终奖励则由模型解出的答案是否正确来决定。

作者采用了基于策略梯度的方法进行训练,但并非直接使用PPO,而是采用了为长链推理优化过的GSPO(Group Sequence Policy Optimization)。这一方法不是对单条序列进行更新,而是在每个题目上采样若干条完整解答,把它们作为一个group,通过它们的相对收益构建优势函数。这样可以缓解物理题奖励极其稀疏、解题过程成千上万token但只在最后一步有信号的问题。

为了让GSPO能稳定工作,团队构建了一套精密的奖励系统和判题器。在训练阶段,模型的最终答案必须严格按照预设格式输出。这样的结构化输出使得判题器可以可靠地提取模型答案,再通过符号计算工具判断模型解答与标准答案是否等价。

然而,物理题往往包含多个子问题,或者需要给出多个最终结果。为适应这种结构,团队采用类似程序评测中“测试用例式”的奖励聚合方式,将最终奖励定义为:



整个训练过程中,作者严格只使用规则判题器,以避免模型试图通过学习某种写作风格来“讨好”模型型判题器。

随着训练推进,模型会出现可学习性下降,表现为梯度无法指向有效方向、熵急剧下降、模型只学到模板化表达等。

团队针对这一点提出了两个创新处理方法。

其一,基于题目难度(以基座模型的多采样通过率衡量)进行动态数据筛选。那些基座模型完全做不出来的题,由于全部生成轨迹奖励都为零,会让RL难以学习;那些太容易的题则会降低多样性、诱发熵坍塌。团队因此设定只保留通过率在0到0.7之间的题目进入训练。

其二,随着训练进行逐步扩展模型的探索范围:一方面增加每题采样的解答条数,使模型更有机会找到“高质量轨迹”;另一方面扩大模型可生成的最大长度,让模型能完成越来越复杂的问题

整个RL训练都通过这种多阶段策略推进,使模型在能力提升的同时保持稳定的可学习性。



另外,训练时使用的概率与推理时生成时的概率存在不可避免的偏差。

由于推理往往通过vLLM或SGLang等专门推理引擎进行,而训练则在Megatron或FSDP框架中完成,二者的浮点实现存在微小差异,模型在训练中看到的“旧策略”与真实采样策略并非完全一致。

为此,团队引入了Truncated Importance Sampling(TIS),用一个被截断的策略比重来校正这种偏移。



在推理阶段,P1引入了专为物理推理设计的协同进化多智能体系统——PhysicsMinions,以进一步提升解题质量。



PhysicsMinions在原设计中由三个交互式模块组成:视觉工作室(Visual Studio)、逻辑工作室(Logic Studio)和审查工作室(Review Studio)。

Visual Studio会首先观察、验证并反思输入内容,将其转化为结构化信息,再交给Logic Studio。Logic Studio中,solver会生成初始解答,而introspector则通过自我改进机制进一步优化解答。随后,解答将交由Review Studio进行双阶段审查,Physics-Verifier负责检查物理一致性,General-Verifier则进一步检查逻辑、推理过程和计算细节。

如果任一审查阶段未通过,系统会返回一份详细的错误报告给Logic Studio,由introspector根据报告修正解答,并再次提交给Review Studio。

这一流程会不断循环,直到解答连续通过预设次数的审查(CV),CV也是系统中唯一的超参数。



团队特别指出,由于P1是纯文本模型,系统中的Visual Studio被关闭,但Logic Studio与Review Studio的协作仍能显著提高推理稳定性与最终表现:

他们在Logic Studio中实例化P1作为solver,并在Review Studio中以P1分别担任两个审查器,从而完成 PhysicsMinions内的推理协同过程。

单一模型,13场比赛取得12金1银

实验阶段,团队构建了一个新的高难度评测集HiPhO,用来对P1系列模型进行系统性测评。

同时将其与包括GPT-5、Gemini-2.5、Claude-4-Sonnet、Grok-4、DeepSeek系列、Qwen3系列在内的33个模型( 11个闭源22个开源)进行了全面对比





HiPhO覆盖了2024–2025年最新13场物理赛事的理论题,包括IPhO、APhO、EuPhO这样的国际赛事,以及NBPhO、PanPhO、F=MA等区域性高难赛事。

在统一的评分体系下,P1-235B-A22B单一模型(不使用多智能体)就已经在13场比赛中取得12金1银,与Gemini-2.5-Pro、Gemini-2.5-Flash-Thinking并列第一(GPT-5 11金、Grok-4 10金、Claude-4-Sonnet-Thinking 8金)。

在IPhO 2025中获得21.2/30分,排名第三,仅次于Gemini-2.5-Pro与GPT-5,是第一个达到该金牌线的开源模型。

同时,轻量级模型P1-30B-A3B的成绩同样亮眼:8金4银1铜,排名开源模型第三,超过o4-mini、Claude-4-Sonnet等闭源模型。

与PhysicsMinions框架结合后,P1-235B-A22B分数从平均35.9提升到38.4,超过Gemini-2.5-Pro(37.7)与GPT-5(37.4),成为整体第一。



团队进一步在CPhO 2025(中国物理奥林匹克竞赛)上评估了P1-235B-A22B。

在理论考试中,P1-235B-A22B得分为227/320,由人类专家严格按照官方评分标准进行评阅。这个分数显著高于当届人类金牌第一名的199分。



此外,论文还展示了一个有趣的效应:

团队通过专门的数据集对模型进行后训练,强化其物理解题能力。结果发现,这样高度定向、强调物理推理结构的训练不仅没有损害模型的通用能力,反而让P1在数学、STEM、代码和通用推理多个任务上都比其基座模型表现更佳,说明复杂物理推理训练具有跨领域的迁移价值。





团队简介

P1团队来自上海人工智能实验室,论文共同一作有三位。



Jiacheng Chen,香港中文大学计算机科学与工程学系的博士生,本科毕业于华南理工大学。

其本人主要研究方向为自然语言推理和强化学习。



Qianjia Cheng,现为浙江大学博士生,本科毕业于北京航空航天大学,曾和AI大牛陶大程共同发表过论文。



Fangchen Yu,香港中文大学(深圳)计算机与信息工程博士生,2020年本科毕业于中国科学院大学。

他对机器学习有广泛兴趣,特别关注AI for Science、(多模态)大语言模型,以及面向人工智能的统计方法。



论文链接:https://arxiv.org/abs/2511.13612
项目主页:https://prime-rl.github.io/P1/
[1]https://jc-chen1.github.io/
[2]https://openreview.net/profile?id=~Fangchen_Yu1
[3]https://openreview.net/profile?id=~Qianjia_Cheng1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“赖系”输了?陈亭妃初选力压林俊宪,将代表民进党参选台南市长

“赖系”输了?陈亭妃初选力压林俊宪,将代表民进党参选台南市长

海峡导报社
2026-01-15 11:40:03
英国灵媒帕克最新说2026:三岛剧变,财富消失,“极”年出现

英国灵媒帕克最新说2026:三岛剧变,财富消失,“极”年出现

山九
2026-01-15 08:10:12
一路走好!继朱媛媛离世,又一名人离世,年仅47岁,死因令人唏嘘

一路走好!继朱媛媛离世,又一名人离世,年仅47岁,死因令人唏嘘

丁丁鲤史纪
2026-01-15 14:14:30
杭州网约车:一万新人挤入,司机收入承压

杭州网约车:一万新人挤入,司机收入承压

侃故事的阿庆
2026-01-15 04:12:51
快过年了,别买这5种年货!全是“科技与狠活”,别拿身体开玩笑

快过年了,别买这5种年货!全是“科技与狠活”,别拿身体开玩笑

Home范
2026-01-15 12:12:06
有人建议毛主席遗体移往韶山,如此重大问题坚决听从党中央决定!

有人建议毛主席遗体移往韶山,如此重大问题坚决听从党中央决定!

鹤羽说个事
2025-12-30 11:33:57
突发6大利空,26个商业航天龙头集体跌停,题材龙头集体崩溃了

突发6大利空,26个商业航天龙头集体跌停,题材龙头集体崩溃了

风风顺
2026-01-15 10:25:34
央视推荐的四大长寿食物!南瓜仅排第三,第一名家家有却不懂珍惜

央视推荐的四大长寿食物!南瓜仅排第三,第一名家家有却不懂珍惜

观察者小海风
2025-12-15 19:03:13
突发!粤沪大战,卢伟宣布超级外援轮休,球迷:或是烟雾弹?

突发!粤沪大战,卢伟宣布超级外援轮休,球迷:或是烟雾弹?

南海浪花
2026-01-15 13:19:38
神奇竟也能复制?中国U23队主帅安东尼奥,靠啥批发式上演“历史性晋级”

神奇竟也能复制?中国U23队主帅安东尼奥,靠啥批发式上演“历史性晋级”

上观新闻
2026-01-15 04:26:15
首次亚洲杯出线!就进了一个球的U23男足,做对了什么?

首次亚洲杯出线!就进了一个球的U23男足,做对了什么?

观察者网
2026-01-15 08:28:06
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
颖儿带女儿回付辛博老家,不住婆家住酒店,公婆出镜都好宠月亮

颖儿带女儿回付辛博老家,不住婆家住酒店,公婆出镜都好宠月亮

八怪娱
2026-01-14 18:25:27
35.2吨长江2000惊天一推,安-225梦想运输机中国复活

35.2吨长江2000惊天一推,安-225梦想运输机中国复活

喜你成疾药石无医
2026-01-15 12:41:37
“两岸统一”突破点不在马英九,也不在国民党,可能在这个人身上

“两岸统一”突破点不在马英九,也不在国民党,可能在这个人身上

趣文说娱
2026-01-12 17:36:51
美最怕中俄驰援伊朗,不惜得罪100多国!若被判非法,或赔数万亿

美最怕中俄驰援伊朗,不惜得罪100多国!若被判非法,或赔数万亿

科普100克克
2026-01-15 14:17:58
高市早苗疯狂拉拢李在明,韩国总统不喝日本这碗“迷魂汤”

高市早苗疯狂拉拢李在明,韩国总统不喝日本这碗“迷魂汤”

一口娱乐
2026-01-15 13:37:30
车在桥上,人在哪里?38岁男子元旦失联:留下一句“人生没意义”

车在桥上,人在哪里?38岁男子元旦失联:留下一句“人生没意义”

奇思妙想草叶君
2026-01-05 20:57:05
哪一刻意识到自己没见过世面?网友:从此再没喝过茶

哪一刻意识到自己没见过世面?网友:从此再没喝过茶

另子维爱读史
2025-12-13 21:53:50
轰22+7+3+2!杨瀚森练级大闪耀:攻防一体真稳,背打大秀脚步

轰22+7+3+2!杨瀚森练级大闪耀:攻防一体真稳,背打大秀脚步

李喜林篮球绝杀
2026-01-15 12:38:57
2026-01-15 14:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12018文章数 176359关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

51:50美参院否决限制特朗普战争权议案 万斯投关键1票

头条要闻

51:50美参院否决限制特朗普战争权议案 万斯投关键1票

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

健康
房产
亲子
数码
军事航空

血常规3项异常,是身体警报!

房产要闻

近60万㎡!2026海口楼市,开始大规模补货!

亲子要闻

卵泡长不大怎么调理?卵泡吃什么长得快又好?

数码要闻

米物上架小魔方45W氮化镓充电器,69元

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版