UniPat AI 开源了他们的一个科研 agent 模型 UniScientist,后训练自 Qwen3,30B参数,3B激活
在 FrontierScience-Research 榜单上拿了 28.3 分,多跑几次聚合后 33.3,略微还超过了 GPT-5.4(33.0分)
![]()
https://github.com/UniPat-AI/UniScientist
但....别急着下结论,虽然是老朋友,我也不能硬吹,得说一下:FrontierScience-Research 测的是一项很具体的能力
比如:给你一个开放式科学问题,自己检索文献,提出假设,做推导,做仿真,迭代验证,最后交一份完整的研究报告。就是科研这一件事,不是通用智能
用小模型打平 GPT-5.4,靠的也不是模型本身多聪明,而是他们造了一批数据
这批数据怎么造的,比模型本身有意思
数据这件事
好模型 = 好数据 + 好架构 + 足够算力
这点来说,地球人都知道
但每次 Technical Report 一出来,架构写几十页,数据那一块轻描淡写,甚至不提
也好理解,毕竟架构可以复现,但一批做好的领域数据,说出去就没了
UniScientist 做了 4700 多条科研题目,覆盖物理、数学、生物、化学、计算机等 50 多个学科。每道题配 20 条以上的评分标准,他们叫 rubric,每条只验证一个知识点
科研题目的答案是开放的,没有标准答案。但可以把一个开放问题拆成 20 个检查项,逐条过,质量就能量化,专家平均花 1 到 2 小时标一条
![]()
学科分布 两条弯路
造这批数据之前,走过两条路
第一条,让模型直接生成
速度快,成本低。找了一批顶级高校的硕博来看,反馈是「不太像人话,有点假」。措辞,问题的提法,懂行的人一眼看得出来
第二条,纯人工标注
质量有保证,但一条标下来要好几天
还有一个更难的问题:科研题目很多是跨学科的
比如找一个化学博士,标一道生物化学交叉方向的题,他懂化学那半,生物那半大概了解。生成题目的人和验证题目的人方向不同,理解会出现矛盾
但在这个方向上,模型没有「不对口」的问题
于是在当前这个阶段,就有了 Human in the Loop 的做法,把数据生产拆成流程线。有些步骤模型做,有些步骤专家把关,哪个环节该谁来,一边做一边摸
虽然现在还不能把人拿出去,但我也相信在几年以后,人就可以不在这个 loop 里了
一个图灵测试
对于搞科研,Unipat AI 团队做过一个实验
拿三组题,找了一个美国高校的博士来盲评。然后问:哪组最像真实研究者写的?
三组分别是:
• FrontierScience 的 benchmark 原题
• 纯人工标注的题
• 人机协作生成的题
对 benchmark 原题,评价是:
中规中矩,看完能立刻想到解法方向
对纯人工标注那组:
看起来一知半解,有些地方模糊,不像完全对口的人写的
对人机协作那组:
这道题的完成度,够一个新晋教授拿项目申请书用了
专业越深,找到完全对口的人来标就越难。人工标注反而可能是更大的瓶颈
在足够专的领域,「纯人工」未必比「人机协作」更真实
再回到分数上
UniScientist 用的基座模型是 Qwen3-30B-A3B
同一个模型,同样的架构,同样的算力,不做任何训练,直接跑 FrontierScience-Research,3 分
用 2000 条他们造的科研数据训完,大概 15 分
扩到 4700 条,28.3 分
模型没换,涨的这 25 分是数据喂出来的
边际效应在哪,再加 10 倍数据会怎样,目前不知道
整条数据生产的流程大概是这样的
左边是专家给出的科学论断和证据来源,中间是模型做知识扩展,把多个论断整合成一道完整的研究问题,专家验证
右边是从问题里拆出 rubric,再经过一轮演化和专家验证,最后形成一条完整的训练数据:研究背景,研究问题,评分标准
![]()
UniScientist 推理流程 题目长什么样
Blog 里放了几道样题,随便看两道
化学方向
给一个线性四烯的热解反应,已知产物比是 3:1。要求枚举所有对称性不同的环化路径,用 FMO 理论追踪立体化学,建立统计模型和动力学模型分别预测产物比,设计实验区分两个模型,做 DFT 验证,还要做灵敏度分析。配了 30 条 rubric给一个线性四烯的热解反应,已知产物比是 3:1。要求枚举所有对称性不同的环化路径,用 FMO 理论追踪立体化学,建立统计模型和动力学模型分别预测产物比,设计实验区分两个模型,做 DFT 验证,还要做灵敏度分析。配了 30 条 rubric
![]()
生态学方向
一个植物加三种传粉昆虫加三种害虫的 ODE 群落模型,给定参数,要求判断是否存在稳定共存平衡点,算出传粉者的最低维持阈值,分析对抗压力下植物崩溃的临界条件。配了 24 条 rubric
![]()
每一道题都要求完整走一遍科研流程:查文献,建模型,算一遍,验证,写报告...
Blog 里还放了一个完整的推理过程。
一道关于镍酞菁 meso 位氮原子修饰的题,模型跑了 22 轮工具调用,搜了 Google Scholar,读了 Nature Communications 的全文,被 ScienceDirect 挡了好几次,换了别的源继续找,最后交了一份 17000 字的报告,10 条 rubric 全拿满
![]()
![]()
![]()
镍酞菁 meso 位氮原子修饰
完整案例在这:https://unipat.ai/blog/UniScientist
其他
模型是啥,其实不怎么重要,但还是讲一讲:基座是 Qwen3-30B-A3B-Thinking,MoE 架构,30B 总参数,每次推理激活 3B。128k 上下文,训练用了约 1200 小时 H200 算力
推理时有四个工具可以调:网络搜索,Google Scholar,网页抓取,代码执行。每次任务最多跑 100 轮,支持多次 rollout 再聚合
说一下这个榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出来的,专门测科学研究能力。AI 行业有个规律,一个榜出来,各家集中优化,一年左右刷到天花板。这个榜目前各家分差还明显,还没到扎堆的阶段
具体成绩:
• FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高
• FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平
• DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0
• DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4
• ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7
不带工具裸跑,成绩也比基座有明显提升。不全是靠工具调用涨的分
模型权重和推理代码都开源,Apache 2.0
![]()
benchmark 详细对比 以及..
之前和他们团队聊天的时候,我问到
在这个过程中,有没有发现什么奇怪或者不一样的事情?
也确实有:用科研数据训出来的模型,在通用报告生成任务上也涨了
DeepResearch Bench,ResearchRubrics,这些和科研没直接关系的榜,分数都跟着上来
不过也合理,做研究这件事,要求主动找证据,提假设,验证,迭代,最后写结论,和 DeepResearch 挺像的,一旦建立起来,往外溢,大概是自然的
UniPat AI,去年 12 月成立的研究实验室。之前发过多模态评测基准 BabyVision,已被多个近期发布的模型纳入评测体系
项目地址:https://github.com/UniPat-AI/UniScientist
模型权重:https://huggingface.co/UnipatAI/UniScientist-30B-A3B
Blog:https://unipat.ai/blog/UniScientist
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.