UniPat AI 造了批数据，让 Qwen 的 3B 激活小模型，单项超过 GPT-5.4|实验|动力学|qwen|unipat

UniPat AI 造了批数据，让 Qwen 的 3B 激活小模型，单项超过 GPT-5.4

2026-03-09 15:47:39　来源: 赛博禅心

北京举报

分享至

UniPat AI 开源了他们的一个科研 agent 模型 UniScientist，后训练自 Qwen3，30B参数，3B激活

在 FrontierScience-Research 榜单上拿了 28.3 分，多跑几次聚合后 33.3，略微还超过了 GPT-5.4（33.0分）

https://github.com/UniPat-AI/UniScientist

但....别急着下结论，虽然是老朋友，我也不能硬吹，得说一下：FrontierScience-Research 测的是一项很具体的能力

比如：给你一个开放式科学问题，自己检索文献，提出假设，做推导，做仿真，迭代验证，最后交一份完整的研究报告。就是科研这一件事，不是通用智能

用小模型打平 GPT-5.4，靠的也不是模型本身多聪明，而是他们造了一批数据
这批数据怎么造的，比模型本身有意思

数据这件事

好模型 = 好数据 + 好架构 + 足够算力
这点来说，地球人都知道

但每次 Technical Report 一出来，架构写几十页，数据那一块轻描淡写，甚至不提

也好理解，毕竟架构可以复现，但一批做好的领域数据，说出去就没了

UniScientist 做了 4700 多条科研题目，覆盖物理、数学、生物、化学、计算机等 50 多个学科。每道题配 20 条以上的评分标准，他们叫 rubric，每条只验证一个知识点

科研题目的答案是开放的，没有标准答案。但可以把一个开放问题拆成 20 个检查项，逐条过，质量就能量化，专家平均花 1 到 2 小时标一条

学科分布两条弯路

造这批数据之前，走过两条路

第一条，让模型直接生成
速度快，成本低。找了一批顶级高校的硕博来看，反馈是「不太像人话，有点假」。措辞，问题的提法，懂行的人一眼看得出来

第二条，纯人工标注
质量有保证，但一条标下来要好几天

还有一个更难的问题：科研题目很多是跨学科的
比如找一个化学博士，标一道生物化学交叉方向的题，他懂化学那半，生物那半大概了解。生成题目的人和验证题目的人方向不同，理解会出现矛盾

但在这个方向上，模型没有「不对口」的问题
于是在当前这个阶段，就有了 Human in the Loop 的做法，把数据生产拆成流程线。有些步骤模型做，有些步骤专家把关，哪个环节该谁来，一边做一边摸

虽然现在还不能把人拿出去，但我也相信在几年以后，人就可以不在这个 loop 里了

一个图灵测试

对于搞科研，Unipat AI 团队做过一个实验
拿三组题，找了一个美国高校的博士来盲评。然后问：哪组最像真实研究者写的？

三组分别是：

• FrontierScience 的 benchmark 原题
• 纯人工标注的题
• 人机协作生成的题

对 benchmark 原题，评价是：
中规中矩，看完能立刻想到解法方向

对纯人工标注那组：
看起来一知半解，有些地方模糊，不像完全对口的人写的

对人机协作那组：
这道题的完成度，够一个新晋教授拿项目申请书用了

专业越深，找到完全对口的人来标就越难。人工标注反而可能是更大的瓶颈
在足够专的领域，「纯人工」未必比「人机协作」更真实

再回到分数上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一个模型，同样的架构，同样的算力，不做任何训练，直接跑 FrontierScience-Research，3 分
用 2000 条他们造的科研数据训完，大概 15 分
扩到 4700 条，28.3 分

模型没换，涨的这 25 分是数据喂出来的
边际效应在哪，再加 10 倍数据会怎样，目前不知道

整条数据生产的流程大概是这样的

左边是专家给出的科学论断和证据来源，中间是模型做知识扩展，把多个论断整合成一道完整的研究问题，专家验证

右边是从问题里拆出 rubric，再经过一轮演化和专家验证，最后形成一条完整的训练数据：研究背景，研究问题，评分标准

UniScientist 推理流程题目长什么样

Blog 里放了几道样题，随便看两道

化学方向
给一个线性四烯的热解反应，已知产物比是 3:1。要求枚举所有对称性不同的环化路径，用 FMO 理论追踪立体化学，建立统计模型和动力学模型分别预测产物比，设计实验区分两个模型，做 DFT 验证，还要做灵敏度分析。配了 30 条 rubric给一个线性四烯的热解反应，已知产物比是 3:1。要求枚举所有对称性不同的环化路径，用 FMO 理论追踪立体化学，建立统计模型和动力学模型分别预测产物比，设计实验区分两个模型，做 DFT 验证，还要做灵敏度分析。配了 30 条 rubric

生态学方向
一个植物加三种传粉昆虫加三种害虫的 ODE 群落模型，给定参数，要求判断是否存在稳定共存平衡点，算出传粉者的最低维持阈值，分析对抗压力下植物崩溃的临界条件。配了 24 条 rubric

每一道题都要求完整走一遍科研流程：
查文献，建模型，算一遍，验证，写报告...

Blog 里还放了一个完整的推理过程。

一道关于镍酞菁 meso 位氮原子修饰的题，模型跑了 22 轮工具调用，搜了 Google Scholar，读了 Nature Communications 的全文，被 ScienceDirect 挡了好几次，换了别的源继续找，最后交了一份 17000 字的报告，10 条 rubric 全拿满

镍酞菁 meso 位氮原子修饰

完整案例在这：
https://unipat.ai/blog/UniScientist

其他

模型是啥，其实不怎么重要，但还是讲一讲：基座是 Qwen3-30B-A3B-Thinking，MoE 架构，30B 总参数，每次推理激活 3B。128k 上下文，训练用了约 1200 小时 H200 算力

推理时有四个工具可以调：网络搜索，Google Scholar，网页抓取，代码执行。每次任务最多跑 100 轮，支持多次 rollout 再聚合

说一下这个榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出来的，专门测科学研究能力。AI 行业有个规律，一个榜出来，各家集中优化，一年左右刷到天花板。这个榜目前各家分差还明显，还没到扎堆的阶段

具体成绩：

• FrontierScience-Research： 28.3 （聚合后 33.3 ），GPT-5.4 是 33.0，GPT-5.4 Pro 更高
• FrontierScience-Olympiad：聚合后 71.0 ，和 Claude Opus 4.5 持平
• DeepResearch Bench： 46.0 ，OpenAI Deep Research 是 47.0
• DeepResearch Bench II： 48.0 ，OpenAI Deep Research 是 45.4
• ResearchRubrics： 59.9 ，OpenAI Deep Research 是 59.7

不带工具裸跑，成绩也比基座有明显提升。不全是靠工具调用涨的分

模型权重和推理代码都开源，Apache 2.0

benchmark 详细对比以及..

之前和他们团队聊天的时候，我问到
在这个过程中，有没有发现什么奇怪或者不一样的事情？

也确实有：用科研数据训出来的模型，在通用报告生成任务上也涨了

DeepResearch Bench，ResearchRubrics，这些和科研没直接关系的榜，分数都跟着上来

不过也合理，做研究这件事，要求主动找证据，提假设，验证，迭代，最后写结论，和 DeepResearch 挺像的，一旦建立起来，往外溢，大概是自然的

UniPat AI，去年 12 月成立的研究实验室。之前发过多模态评测基准 BabyVision，已被多个近期发布的模型纳入评测体系

项目地址：
https://github.com/UniPat-AI/UniScientist

模型权重：
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog：
https://unipat.ai/blog/UniScientist

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.