网易首页 > 网易号 > 正文 申请入驻

「科研品味」不再是人类专利?创智&复旦让 AI 学到科研品味

0
分享至

来源:市场资讯

(来源:上观新闻)

转载自:上海创智学院

引言

顶尖科学家与普通研究者之间的差距,往往不在于谁更会跑实验,而在于一种难以言喻的“科研品味”——一种精准判断什么研究值得做、什么方向能出大成果的前瞻力。

本研究发现,ai 也能学到科研品味!

利用大规模科研社区的反馈信号进行训练,模型不仅能判断研究的潜在影响力,还能提出更有影响力的科研思路,让 ai 向人类级别科学家迈出关键一步。


图1:研究训练的scientific judge科研判断力超过sota模型(左图);scientific thinker训练后,科研想法构思能力有了大幅提升(右图)。


论文标题:ai can learn scientific taste

:https://arxiv.org/abs/2603.14473

:https://tongjingqi.github.io/ai-can-learn-scientific-taste

代码仓库:https://github.com/tongjingqi/ai-can-learn-scientific-taste

数据和模型:https://huggingface.co/collections/openmoss-team/ai-can-learn-scientific-taste

科研品味:ai 科学家缺失的重要能力

科研品味并不是主观任性的。正如哲学家休谟所言,品味的标准建立在“合格评判者的共同裁决”之上;康德也认为品味包含着某种广泛的共识。在科学研究中,这种共同裁决本质上是学术共同体长期互动的结果:被广泛复用、持续延伸的研究,因契合了科研共同体的集体判断而产生了高影响力。基于此,研究将科研品味定义为:判断和构思高影响力研究想法的能力。

目前,ai 科学家虽能检索文献、编写代码、运行实验,却恰恰在判断 “什么值得研究” 以及 “构思高影响力研究”方面有明显不足。为填补这一空白,本研究设计了科研判断与科研构思这两个任务:

科研判断(scientific judgement):给两篇论文(标题+摘要),通过推理判断哪篇有更高的影响力(图2)。


图2:scientific judgement 任务示例,对应研究训练的 scientific judge 模型

科研构思(scientific ideation):给一篇论文(标题+摘要),构思一个高潜力的后续科研思路,输出标题+摘要(图3)。


图3:scientific ideation任务示例,对应研究训练的scientific thinker模型

rlcf 范式:基于社区反馈的强化学习

科研构思并无标准答案,rlvr 不适用;而 rlhf 也存在局限:人工标注昂贵,且难以体现社区层面的集体偏好。

研究因此提出了新范式:reinforcement learning from community feedback(rlcf)。核心思想在于,有影响力的工作被广泛复用、跟进与延伸,形成海量科研社区的反馈信号(如引用数),天然可以用于训练。


图4:rlcf 范式的三个步骤。(1) 收集社区反馈(如引用数);(2) grpo 训练 judge;(3) grpo 训练 thinker,用 judge 对一组想法排序从而确定奖励。

rlcf 分为三步(图4):

step 1:收集社区反馈,构建偏好对:对于同领域、同年份论文,有明显引用差异的两篇论文配对。

step 2:训练 judge:学会正确判断两篇论文哪篇更有影响力。

step 3:训练 thinker:基于所给论文构思后续研究思路,用 judge 作为奖励模型进行优化。

scientific judge:学会判断什么研究更有影响力

研究构建了scijudgebench 这一大规模数据集 :70万对 arxiv 论文(领域&年份严格匹配,引用数差异显著),为 judge 的训练与评测提供坚实基础。

训练后的 scientific judge 表现出三个显著特点:

扩展效应明显

数据量越大、模型参数越多,性能越强(如图5),证明了学习可扩展。


图5:scientific judge 训练的 scaling effect,两种颜色对应 4b 和 30b 的模型

超越sota

30b 的 judge 超越 gemini 3 pro、glm-5 等顶尖模型,如表1。


表1:域内评测结果,测试和训练数据所处时间一致,均为 2024 年及之前

三重域外泛化(图6)

时间域外泛化:准确判断 2025 年(训练数据之后)的论文。

不同领域泛化:只训练 cs 领域论文,能泛化到数学、物理、生物等领域。

同行审稿标准:仅基于引用数训练后,比较 iclr 得分也更加准确。


图6:三方面域外测试评测结果。上方:时间域外;中间:领域域外;下方:指标域外(iclr 得分比较)。

由此可知,judge 模型并不只是 “记忆”,而是学习到了一种通用的、可迁移的科研判断力,不受时间、具体领域或特定指标的限制。

scientific thinker:学会构思更有影响力的科研想法

科研构思能力实现显著提升。30b 和 4b 的 thinker 模型构思的想法,对基座模型的胜率达到 75~80%,并泛化到“未来”论文(晚于训练数据)的研究主题上(图7上方)。

scientific judge 是更好的生成式奖励模型。以 judge 作为奖励模型训练得到的 thinker,表现远超使用基线奖励模型的版本(图7的上下对比)。


图7:scientific thinker相对训前模型的胜率。左、右分别是 30b 和 4b 的策略模型。第一行使用 scientific judge 作为奖励模型,第二行使用基线奖励模型。“out-of-domain” 指测试数据所处时间晚于训练数据。

与 sota 模型相媲美。30b 的 thinker 与三个顶尖模型进行科研想法对决,也有出色表现(表2)。


表2:30b 的 scientific thinker 对战三个 sota 模型的胜率

至此,科研品味学习完美闭环:scientific judge 精准判断,并促成 scientific thinker 优秀构思。

总结

“科研品味” 并非人类科学家的专属天赋。通过从大量科研社区的反馈中学习,ai 也能学到科研品味,“从不可能到可能”,迈向人类水平的 ai 科学家。

欢迎转发,但请注明出处“上海经信委”

上观号作者:上海经信委

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海将建世界最高无轴摩天轮“上海之门”,预计今年年底开工

上海将建世界最高无轴摩天轮“上海之门”,预计今年年底开工

澎湃新闻
2026-04-29 22:34:28
贵州一大学生户外瀑降死亡!梦想:爬雪山;赚钱让爸妈过上好生活

贵州一大学生户外瀑降死亡!梦想:爬雪山;赚钱让爸妈过上好生活

追月数星
2026-04-29 15:13:43
刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

吃货的分享
2026-04-29 04:49:05
“福特”号航母将于近日撤离中东返美,美军已要求42艘商船掉头或返港,称正在中东部署“史上最强”军力,伊朗海军司令发出警告

“福特”号航母将于近日撤离中东返美,美军已要求42艘商船掉头或返港,称正在中东部署“史上最强”军力,伊朗海军司令发出警告

每日经济新闻
2026-04-30 07:41:07
美媒:霍尔木兹海峡部分被困船员已遇难,联合国呼吁紧急营救,目前仍有数百艘船舶、约两万名海员滞留波斯湾

美媒:霍尔木兹海峡部分被困船员已遇难,联合国呼吁紧急营救,目前仍有数百艘船舶、约两万名海员滞留波斯湾

鲁中晨报
2026-04-29 21:59:02
塌了之后才知道,他的钱是哪来的…

塌了之后才知道,他的钱是哪来的…

橘子娱乐
2026-04-29 21:28:31
惊魂一幕!海南杨先生用牛粪涂身,九死一生逃亡缅甸电诈园

惊魂一幕!海南杨先生用牛粪涂身,九死一生逃亡缅甸电诈园

现实的声音
2026-04-29 12:25:16
捷报!乌军单日收42平方公里

捷报!乌军单日收42平方公里

史政先锋
2026-04-29 21:38:58
ESPN:皇马内部认为姆巴佩和维尼修斯无法共存,但老佛爷不这么想

ESPN:皇马内部认为姆巴佩和维尼修斯无法共存,但老佛爷不这么想

懂球帝
2026-04-29 21:30:10
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

新浪财经
2026-04-29 17:07:23
为什么住院14天必须出院

为什么住院14天必须出院

老郭在学习
2026-04-29 13:49:19
随着41岁C罗破门+率队2-0完胜争冠劲敌,沙特联最新积分榜出炉

随着41岁C罗破门+率队2-0完胜争冠劲敌,沙特联最新积分榜出炉

侧身凌空斩
2026-04-30 04:35:20
阿森纳1-1马竞:与昨日激烈战斗相反,阿尔特塔选择了保守模式

阿森纳1-1马竞:与昨日激烈战斗相反,阿尔特塔选择了保守模式

里芃芃体育
2026-04-30 07:40:05
章子怡这张照片真的有点吓到我了!就是后面那些墙壁

章子怡这张照片真的有点吓到我了!就是后面那些墙壁

小椰的奶奶
2026-04-30 00:22:01
《黑袍》星光在GTA6“下海”!街头服务“揽客”

《黑袍》星光在GTA6“下海”!街头服务“揽客”

游民星空
2026-04-29 19:43:05
斯诺克世锦赛:世界第4淘汰世界第2,希金斯13-10,晋级4强

斯诺克世锦赛:世界第4淘汰世界第2,希金斯13-10,晋级4强

侧身凌空斩
2026-04-30 06:01:59
美国一学生打断以色列士兵演讲,当众怒斥以军:6岁女孩被打335枪,超70000巴勒斯坦人被杀,你们犯下的暴行终将被清算

美国一学生打断以色列士兵演讲,当众怒斥以军:6岁女孩被打335枪,超70000巴勒斯坦人被杀,你们犯下的暴行终将被清算

大象新闻
2026-04-28 23:48:20
哈兰德出镜啤酒广告引争议,挪威足协:他有权这样做,我们无法干涉

哈兰德出镜啤酒广告引争议,挪威足协:他有权这样做,我们无法干涉

懂球帝
2026-04-29 17:17:14
不想访华了?特朗普联手27国针对中国,话音刚落,中方制裁令下达

不想访华了?特朗普联手27国针对中国,话音刚落,中方制裁令下达

易昂杨
2026-04-28 14:17:46
2026-04-30 08:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3072655文章数 7014关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

55岁资本大佬被羁押在深圳某看守所 被指涉在美强奸案

头条要闻

55岁资本大佬被羁押在深圳某看守所 被指涉在美强奸案

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

健康
亲子
手机
艺术
军事航空

干细胞治烧烫伤能用了么?

亲子要闻

儿童成长奶粉应该选哪个?孩子“突飞猛进”就靠TA

手机要闻

直屏又不香了!苹果研发四曲面屏:逼迫安卓调转方向

艺术要闻

许家印收藏的字

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版