网易首页 > 网易号 > 正文 申请入驻

AI 真能做研究吗?UniPat AI 开源 UniScientist,用30B小模型给出肯定答案|公司动态

0
分享至

多数大模型能生成“看起来像”研究的文本,但极少数能真正做研究——提出假设、收集证据、执行可复现的推导、迭代验证直至结论成立。

此前发布了 BabyVision 评测基准的 UniPat AI 在最新的 Blog《UniScientist: Advancing Universal Scientific Research Intelligence》中给出了一个清晰而系统的答案。

UniPat AI 开源的 UniScientist 训练了一个 30B 参数的模型来闭合这一环路。在 FrontierScience-Research 和 ResearchRubrics 等科学研究榜单上,它匹敌甚至超越了参数量大一个数量级的顶尖闭源模型。


01|“会写报告”不等于“会做研究”:实现流程闭环才是能力

今天很多模型做“研究任务”,只是看起来像在做科研:引用一堆资料、写一堆逻辑、格式也像论文。
但问题是:它们经常停在“叙事推理”、从“结论”出发的逻辑陷阱中——说得很像、验证很少、推导不稳、可复现性弱。

此前发布了 BabyVision 多模态评测基准(已被多个近期发布的重磅模型纳入评测体系)的 UniPat AI,在 UniScientist 中直接回应了这一缺口:

仅有30B参数的 UniScientist 具备了“自主科学研究”的能力——在开放问题里不断提出、证伪、修正,直到证据状态稳定,再把全过程沉淀成结构化成果。

这背后的潜台词很直白:

真正的科研,不只是把报告写漂亮;更是把“假设-证据-验证”的循环跑通。

02|数据瓶颈:人写得太慢,纯合成不够“真”

UniScientist 首先把矛头指向了数据:如何构建高质量科研训练数据一直是硬瓶颈。现有方案几乎只有两种极端:

•纯人工:生态真实、判断精准,但昂贵、慢、还受限于单一专家的学科边界;
•纯合成:规模巨大、成本低,但常缺少可判别的精度和学科落地的真实性。

UniScientist 的关键洞察源于一个被广泛忽视的不对称性。
•大语言模型更擅长生成:能跨学科大规模地提出候选研究问题和解法草案。
•人类专家更擅长验证:鉴别研究的真伪和质量,其成本和难度远低于从零创造,且能提供高精度的学科把关。

这种不对称性指向了一种更高效的分工方式:模型负责规模与多样性,人类专家负责质量与可验证性。 这正是 UniScientist 数据引擎的核心原则——产出的训练实例既有广泛的专业覆盖面,又有严格的验证保障。


03|形式化科学研究:证据状态与溯因假设的动态系统

许多关于“科研智能”的讨论聚焦在更好的工具调用或更精准的检索上。UniScientist 则在更本质的层面展开工作。团队将开放式科研过程建模为一个基于两个基本操作的动态系统:主动证据整合(Active Evidence Integration) 与 模型溯因(Model Abduction)。

系统的核心是一个不断演化的“证据状态”,其中证据被分为两类。
•Evidence-Grounded(可独立核验的证据):来自外部权威来源,或内部产出但经过明确检查验证;
•Formally-Derivable(可形式化推导/复现的证据):通过符号推导、数值计算、仿真实验等可复现程序得到。

然后系统循环执行三个动作:
1.产生假说
2.获取外部权威信息证据、计算和推导证据
3.做溯因更新:让假说更好解释当前证据状态

直到证据足够完整稳定,再把整个研究过程转化成一份严谨的科学成果。

这一形式化具有重要意义:它把“科研智能”从一个远大理想,变成了可训练、可评估、可迭代的对象。

04|把开放的科学研究问题变成“可验证的单元测试”

UniScientist 提出了 Evolving Polymathic Synthesis(进化式多学科合成),一个承担两项功能的数据引擎。
1.从经过专家验证的科学 Claim 出发,将其扩展为研究级问题——跨越多个相互依赖的子问题,要求实验设计与推导协同
2.同步合成评测 Rubrics。这些 Rubrics 不评估文风或格式等表面质量,而是评估具体的科学发现是否已被达成

这一设计中最具辨识度的特征是:一份开放式科研成果被分解为 N 个封闭的、可独立验证的 Rubric 检查项。
每个 Rubric item 都尽量做到:原子化、客观、可证据落地或可形式化推导,并额外强调:
•一致性(对相同科研成果,重复评测应稳定)
•区分度(能拉开不同完整度的差异)
•原子性(单条 rubric 只校验一个知识点)

当前数据集仍在持续扩展中,已包含超过 4,700 个研究级实例,每个实例附有 20+ 条 Rubric 项,覆盖 50+ 学科和 400+ 研究方向。专家标注平均每条样本投入 1-2 小时。学科覆盖从量子物理和有机化学到社会文化人类学和计算语言学均有涉及。


数据集中包含了具备真实科研质感的研究问题。下图展示的是一道生态学方向的示例,完整案例库可在 https://unipat.ai/blog/UniScientist 查阅。

这些问题的共同特征在于:没有任何一道可以通过匹配记忆中的既有答案来直接解决。每一道都要求完整的科研链条——文献调研、假设形成、实验或推导设计、分析验证、以及最终成果的收敛。


05|从单点生成到群体智慧

UniScientist 引入了一个额外的训练目标,成果聚合目标:

给定同一问题的 N 份候选科研成果,模型学会融合各家优点,产出一份更完整、更稳健的最终成果。通过 Rubric 阈值的 rejection sampling 来筛选高质量参考答案,聚合能力与科研生成能力一同被训入模型。

这反映了科学研究中的一个现实:对于一个问题,一次尝试并不一定会带来最好的成果。这实际上是将“集体科研智能”写进了训练过程:

模型不仅学会了产出研究,还学会了比较、取舍、整合与自我进化。

06|30B 小模型比肩最大规模闭源系统

评测结果引人注目,尤其考虑到模型的规模。

UniScientist-30B-A3B——一个仅有 3B 激活参数的小模型——在 FrontierScience-Research 上达到 28.3 分,超越 Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)和 GPT-5.2 xhigh completion mode(25.2)。在成果聚合模式下,得分达到 33.3。

在 FrontierScience-Olympiad 上,启用工具的 UniScientist 得分 71.0,匹配 Claude Opus 4.5,超越多个其他前沿模型。在多项分布外的基准——DeepResearch Bench、DeepResearch Bench II 和 ResearchRubrics 上——模型的表现与一系列顶级闭源系统相当。

一个尤为重要的发现:即使在无工具的评测条件下,性能仍有显著提升。 这表明增益并非单纯来自更频繁的工具使用,模型自身的研究推理能力确实通过训练得到了增强。

所有基准上的结果指向同一结论:模型学会的不只是更好地检索,而是将检索、推导、验证和写作整合为连贯的研究工作流。

07|下一步:迈向现实世界实验

科学研究不止于形成一个合理的叙事。许多结论依赖于可执行、可复现的计算与仿真。

UniScientist 集成了代码解释器,将研究流程从叙事式推理升级为“测试-修正”的循环:假设不仅被提出,还被实例化为计算实验——其结果可以确认、推翻或细化假设。

系统目前的能力主要集中在可复现推理与仿真计算范围内。对真实世界研究资源的编排——可靠地调度大规模 GPU 任务、协调湿实验流程——尚未实现。

UniScientist 在 Blog 中也将下一步方向阐述得很清晰:

将框架扩展到对真实实验与计算基础设施的受控编排与执行,目标是进一步加速科学发现、推动研究前沿。

一句话总结:

UniPat AI 开源 UniScientist,用 30B 小模型在 FrontierScience-Research和 ResearchRubrics 等科学研究榜单比肩顶尖闭源模型,让模型具备了可闭环推进的科研能力。

UniPat AI

UniPat AI此前发布的多模态理解Benchmark BabyVision已被多个近期发布的重磅模型产品纳入评测体系,并在其技术报告中被引用,体现了社区对该Benchmark的持续关注与广泛采用。本次 UniPat AI 又提出将全链条科研能力内化到模型的系统方案,训练了一个能在真实科研流程里闭环演化的系统,让模型具备了可闭环推进的科学研究能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国政协委员张凯丽:建议统一并简化演员署名体系,扭转“唯番位论”畸形风气

全国政协委员张凯丽:建议统一并简化演员署名体系,扭转“唯番位论”畸形风气

封面新闻
2026-03-05 12:24:38
比亚迪第二代刀片电池发布,11辆新车同台亮相

比亚迪第二代刀片电池发布,11辆新车同台亮相

科技美学
2026-03-05 22:23:48
Unity官宣:全球商店移除中国开发者资源!

Unity官宣:全球商店移除中国开发者资源!

3DM游戏
2026-03-04 09:18:05
灵魂人物离职,成员向高层要解释!阿里CEO向千问员工致歉……

灵魂人物离职,成员向高层要解释!阿里CEO向千问员工致歉……

柴狗夫斯基
2026-03-05 08:36:31
冲突进入第6天,伊朗袭击以国防部大楼,美称暂无派遣地面部队计划

冲突进入第6天,伊朗袭击以国防部大楼,美称暂无派遣地面部队计划

齐鲁壹点
2026-03-05 07:42:07
全国政协委员袁小彬:建议取消私家车年审制度,实施远程监测

全国政协委员袁小彬:建议取消私家车年审制度,实施远程监测

南方都市报
2026-03-05 17:28:05
万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

米果说识
2026-03-05 17:59:27
何小鹏两会提案聚焦三项未来技术,呼吁制度突破适配技术迭代

何小鹏两会提案聚焦三项未来技术,呼吁制度突破适配技术迭代

经济观察报
2026-03-05 00:04:06
泽连斯基:愿帮忙拦截伊朗无人机,乌克兰实战中积累了“独特经验” ,前提是说服俄罗斯停火1个月

泽连斯基:愿帮忙拦截伊朗无人机,乌克兰实战中积累了“独特经验” ,前提是说服俄罗斯停火1个月

观威海
2026-03-05 10:07:04
开始了!库尔德武装从北部向伊朗发起进攻,美军一架F15被击落

开始了!库尔德武装从北部向伊朗发起进攻,美军一架F15被击落

史政先锋
2026-03-05 17:45:30
伊朗反击取得重大成果?千万别信网上的那些专家和爽文

伊朗反击取得重大成果?千万别信网上的那些专家和爽文

壹家言
2026-03-04 19:37:20
新的战场出现!美司令首次承认:中国卫星已经强到让美国必须反击

新的战场出现!美司令首次承认:中国卫星已经强到让美国必须反击

丁丁鲤史纪
2026-03-05 12:04:56
“寿司郎吃出金枪鱼寄生虫卵”,北京门头沟区市监局通报

“寿司郎吃出金枪鱼寄生虫卵”,北京门头沟区市监局通报

观察者网
2026-03-05 08:25:16
突发!郭艾伦突破左膝受伤痛苦倒地翻滚 被担架车给推下场

突发!郭艾伦突破左膝受伤痛苦倒地翻滚 被担架车给推下场

醉卧浮生
2026-03-05 21:19:42
直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

历史人文2
2026-02-23 10:29:02
重磅:一吨重导弹命中以色列,美军或损失2架U2侦察机!

重磅:一吨重导弹命中以色列,美军或损失2架U2侦察机!

胜研集
2026-03-05 19:53:34
女子面试后收到感谢信和30元交通补助又被录用,公司:无论是否通过面试都能收到,老板很尊重求职者和员工

女子面试后收到感谢信和30元交通补助又被录用,公司:无论是否通过面试都能收到,老板很尊重求职者和员工

极目新闻
2026-03-05 14:46:04
比亚迪发布第二代刀片电池,王传福:从10%充到97%只用9分钟

比亚迪发布第二代刀片电池,王传福:从10%充到97%只用9分钟

蓝鲸新闻
2026-03-05 19:39:30
过道被邻居改成厕所后续:房门被圈死,走廊变私宅,博主坚决维权

过道被邻居改成厕所后续:房门被圈死,走廊变私宅,博主坚决维权

离离言几许
2026-03-05 12:08:33
“德纳”舰返航途中遭美军鱼雷击沉:300公斤弹头爆炸,船体断成两半!伊外长:它是印度海军的客人;印度回应

“德纳”舰返航途中遭美军鱼雷击沉:300公斤弹头爆炸,船体断成两半!伊外长:它是印度海军的客人;印度回应

每日经济新闻
2026-03-05 22:08:43
2026-03-06 01:16:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
130286文章数 861881关注度
往期回顾 全部

科技要闻

独家|林俊旸辞职 我们和认识他的人聊了聊

头条要闻

伊朗军舰从印度返航遭美军鱼雷击沉 印度否认美方说法

头条要闻

伊朗军舰从印度返航遭美军鱼雷击沉 印度否认美方说法

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

健康
艺术
本地
时尚
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

他偏要画最难的部分——这位韩国画师,只画手脚与人体,惊艳了无数人!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

显白的奶茶色,穿出春日味道

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版