网易首页 > 网易号 > 正文 申请入驻

UniPat AI 造了批数据,让 Qwen 的 3B 激活小模型,单项超过 GPT-5.4

0
分享至

UniPat AI 开源了他们的一个科研 agent 模型 UniScientist,后训练自 Qwen3,30B参数,3B激活

在 FrontierScience-Research 榜单上拿了 28.3 分,多跑几次聚合后 33.3,略微还超过了 GPT-5.4(33.0分)


https://github.com/UniPat-AI/UniScientist

但....别急着下结论,虽然是老朋友,我也不能硬吹,得说一下:FrontierScience-Research 测的是一项很具体的能力

比如:给你一个开放式科学问题,自己检索文献,提出假设,做推导,做仿真,迭代验证,最后交一份完整的研究报告。就是科研这一件事,不是通用智能

用小模型打平 GPT-5.4,靠的也不是模型本身多聪明,而是他们造了一批数据
这批数据怎么造的,比模型本身有意思

数据这件事

好模型 = 好数据 + 好架构 + 足够算力
这点来说,地球人都知道

但每次 Technical Report 一出来,架构写几十页,数据那一块轻描淡写,甚至不提

也好理解,毕竟架构可以复现,但一批做好的领域数据,说出去就没了

UniScientist 做了 4700 多条科研题目,覆盖物理、数学、生物、化学、计算机等 50 多个学科。每道题配 20 条以上的评分标准,他们叫 rubric,每条只验证一个知识点

科研题目的答案是开放的,没有标准答案。但可以把一个开放问题拆成 20 个检查项,逐条过,质量就能量化,专家平均花 1 到 2 小时标一条


学科分布 两条弯路

造这批数据之前,走过两条路

第一条,让模型直接生成
速度快,成本低。找了一批顶级高校的硕博来看,反馈是「不太像人话,有点假」。措辞,问题的提法,懂行的人一眼看得出来

第二条,纯人工标注
质量有保证,但一条标下来要好几天

还有一个更难的问题:科研题目很多是跨学科的
比如找一个化学博士,标一道生物化学交叉方向的题,他懂化学那半,生物那半大概了解。生成题目的人和验证题目的人方向不同,理解会出现矛盾

但在这个方向上,模型没有「不对口」的问题
于是在当前这个阶段,就有了 Human in the Loop 的做法,把数据生产拆成流程线。有些步骤模型做,有些步骤专家把关,哪个环节该谁来,一边做一边摸

虽然现在还不能把人拿出去,但我也相信在几年以后,人就可以不在这个 loop 里了

一个图灵测试

对于搞科研,Unipat AI 团队做过一个实验
拿三组题,找了一个美国高校的博士来盲评。然后问:哪组最像真实研究者写的?

三组分别是:

  • • FrontierScience 的 benchmark 原题

  • • 纯人工标注的题

  • • 人机协作生成的题

对 benchmark 原题,评价是:
中规中矩,看完能立刻想到解法方向

对纯人工标注那组:
看起来一知半解,有些地方模糊,不像完全对口的人写的

对人机协作那组:
这道题的完成度,够一个新晋教授拿项目申请书用了

专业越深,找到完全对口的人来标就越难。人工标注反而可能是更大的瓶颈
在足够专的领域,「纯人工」未必比「人机协作」更真实

再回到分数上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一个模型,同样的架构,同样的算力,不做任何训练,直接跑 FrontierScience-Research,3 分
用 2000 条他们造的科研数据训完,大概 15 分
扩到 4700 条,28.3 分

模型没换,涨的这 25 分是数据喂出来的
边际效应在哪,再加 10 倍数据会怎样,目前不知道

整条数据生产的流程大概是这样的

左边是专家给出的科学论断和证据来源,中间是模型做知识扩展,把多个论断整合成一道完整的研究问题,专家验证

右边是从问题里拆出 rubric,再经过一轮演化和专家验证,最后形成一条完整的训练数据:研究背景,研究问题,评分标准


UniScientist 推理流程 题目长什么样

Blog 里放了几道样题,随便看两道

化学方向
给一个线性四烯的热解反应,已知产物比是 3:1。要求枚举所有对称性不同的环化路径,用 FMO 理论追踪立体化学,建立统计模型和动力学模型分别预测产物比,设计实验区分两个模型,做 DFT 验证,还要做灵敏度分析。配了 30 条 rubric给一个线性四烯的热解反应,已知产物比是 3:1。要求枚举所有对称性不同的环化路径,用 FMO 理论追踪立体化学,建立统计模型和动力学模型分别预测产物比,设计实验区分两个模型,做 DFT 验证,还要做灵敏度分析。配了 30 条 rubric


生态学方向
一个植物加三种传粉昆虫加三种害虫的 ODE 群落模型,给定参数,要求判断是否存在稳定共存平衡点,算出传粉者的最低维持阈值,分析对抗压力下植物崩溃的临界条件。配了 24 条 rubric


每一道题都要求完整走一遍科研流程:
查文献建模型算一遍验证写报告...

Blog 里还放了一个完整的推理过程。

一道关于镍酞菁 meso 位氮原子修饰的题,模型跑了 22 轮工具调用,搜了 Google Scholar,读了 Nature Communications 的全文,被 ScienceDirect 挡了好几次,换了别的源继续找,最后交了一份 17000 字的报告,10 条 rubric 全拿满




镍酞菁 meso 位氮原子修饰

完整案例在这:
https://unipat.ai/blog/UniScientist

其他

模型是啥,其实不怎么重要,但还是讲一讲:基座是 Qwen3-30B-A3B-Thinking,MoE 架构,30B 总参数,每次推理激活 3B。128k 上下文,训练用了约 1200 小时 H200 算力

推理时有四个工具可以调:网络搜索,Google Scholar,网页抓取,代码执行。每次任务最多跑 100 轮,支持多次 rollout 再聚合

说一下这个榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出来的,专门测科学研究能力。AI 行业有个规律,一个榜出来,各家集中优化,一年左右刷到天花板。这个榜目前各家分差还明显,还没到扎堆的阶段

具体成绩:

  • • FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高

  • • FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平

  • • DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0

  • • DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4

  • • ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7

不带工具裸跑,成绩也比基座有明显提升。不全是靠工具调用涨的分

模型权重和推理代码都开源,Apache 2.0


benchmark 详细对比 以及..

之前和他们团队聊天的时候,我问到
在这个过程中,有没有发现什么奇怪或者不一样的事情?

也确实有:用科研数据训出来的模型,在通用报告生成任务上也涨了

DeepResearch Bench,ResearchRubrics,这些和科研没直接关系的榜,分数都跟着上来

不过也合理,做研究这件事,要求主动找证据,提假设,验证,迭代,最后写结论,和 DeepResearch 挺像的,一旦建立起来,往外溢,大概是自然的

UniPat AI,去年 12 月成立的研究实验室。之前发过多模态评测基准 BabyVision,已被多个近期发布的模型纳入评测体系

项目地址:
https://github.com/UniPat-AI/UniScientist

模型权重:
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog:
https://unipat.ai/blog/UniScientist

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向导掐人中救醒高反昏迷女子反遭掌掴,有网友称其“装晕想免费下山”,女子否认:已报警;被打向导发声:她严重高反或因幻觉打人,已道歉

向导掐人中救醒高反昏迷女子反遭掌掴,有网友称其“装晕想免费下山”,女子否认:已报警;被打向导发声:她严重高反或因幻觉打人,已道歉

都市快报橙柿互动
2026-05-08 12:27:22
大喜大悲属相牛:6月初,家里将发生4件大事,提前准备

大喜大悲属相牛:6月初,家里将发生4件大事,提前准备

阿龙美食记
2026-05-08 17:43:20
迈巴赫高管:美国V12买家根本不看V8一眼

迈巴赫高管:美国V12买家根本不看V8一眼

篮坛第一线
2026-05-07 10:11:40
被传绯闻22年,杨紫和张一山终于公开回应,双方家长都见过了

被传绯闻22年,杨紫和张一山终于公开回应,双方家长都见过了

科学发掘
2026-05-08 13:23:20
纳什:湖人和里夫斯做得再好也难赢雷霆,他们就是没有对方强

纳什:湖人和里夫斯做得再好也难赢雷霆,他们就是没有对方强

林子说事
2026-05-08 07:32:30
baby近照大变样!五官违和完全认不出

baby近照大变样!五官违和完全认不出

情感大头说说
2026-05-06 14:38:04
同样是婚礼,为何“摩洛哥新娘”成了中国男人的“白月光”?

同样是婚礼,为何“摩洛哥新娘”成了中国男人的“白月光”?

虔青
2026-05-08 17:39:22
哈登发挥低迷!阿特金森:责任在我,不能让他半场只出手3次

哈登发挥低迷!阿特金森:责任在我,不能让他半场只出手3次

林子说事
2026-05-08 11:11:17
不再挂小米车标!小米首款增程SUV将定名寻天:下半年发布

不再挂小米车标!小米首款增程SUV将定名寻天:下半年发布

快科技
2026-05-07 11:48:06
哈工大内部的就业温差:同校不同命,顶尖学府里的专业选择困局

哈工大内部的就业温差:同校不同命,顶尖学府里的专业选择困局

手工制作阿爱
2026-05-08 10:59:35
中国光伏的堡垒,被印度从内部攻破

中国光伏的堡垒,被印度从内部攻破

观察者网
2026-05-08 09:00:37
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
关于杨兰兰,终于破解出几条她的关键信息

关于杨兰兰,终于破解出几条她的关键信息

诗意世界
2025-12-19 12:00:03
和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

一盅情怀
2026-04-28 12:22:02
渣滓洞大屠杀,她听到枪响倒地装死,特务补枪放火后,机智逃生

渣滓洞大屠杀,她听到枪响倒地装死,特务补枪放火后,机智逃生

百年历史老号
2024-05-20 08:38:37
一路走好!香港著名填词人逝世終年60歲,曾为张国荣,郑秀文填词

一路走好!香港著名填词人逝世終年60歲,曾为张国荣,郑秀文填词

粤睇先生
2026-05-07 23:56:37
沉冤昭雪!梅西背负多年骂名,姆巴佩才是巴黎欧冠低迷真因!

沉冤昭雪!梅西背负多年骂名,姆巴佩才是巴黎欧冠低迷真因!

田先生篮球
2026-05-07 11:15:42
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

旧窗老街
2026-02-23 01:50:19
外交部:中美双方就特朗普总统访华保持着沟通

外交部:中美双方就特朗普总统访华保持着沟通

新京报
2026-05-07 14:47:06
世界上最可怜的国家:全国仅两辆公交、吃青菜算土豪,面临被淹没

世界上最可怜的国家:全国仅两辆公交、吃青菜算土豪,面临被淹没

老谢谈史
2026-04-10 13:40:50
2026-05-08 18:36:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
427文章数 53关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

中国船东所有的油轮中东遇袭 中方:船上有中国籍船员

头条要闻

中国船东所有的油轮中东遇袭 中方:船上有中国籍船员

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

轮到豆包收割了?

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

本地
房产
手机
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

手机要闻

某厂骁龙2nm新机配置全曝光:2nm+2亿像素,或为荣耀Magic 9系列

教育要闻

全年招聘!数量不限!这所学校发布招聘公告

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版