网易首页 > 网易号 > 正文 申请入驻

刚刚,全球首个完全开放科学文献综述AI,登上Nature!

0
分享至

今天,Nature 刊登了一项由华盛顿大学与艾伦人工智能研究所主导研发的科研成果—— OpenScholar。这是全球首个专为科学研究设计的、全开源的检索增强生成(RAG)语言模型。它不仅能精准检索、拒绝幻觉,更能生成高质量的引用式回答。

OpenScholar 的引文准确率与人类专家相当,虽然仍需进一步优化,但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。


论文链接:https://www.nature.com/articles/s41586-025-10072-4

尽管大语言模型(LLM)在许多领域表现出色,但在科研辅助任务中仍面临严峻挑战:随着科学文献总量的快速增长,模型难以跟上最新进展,且常伴随严重的“幻觉”现象。实验数据显示,GPT-4o 在引用科学文献时,产生错误引用的比例高达 78% 至 90%。

OpenScholar 通过整合 4500 万篇开放获取论文和独特的自反馈机制,实现了精准的文献检索与准确的引用生成,有效解决了现有模型在科学知识合成中的准确性与可信度问题。

首个全开源的科学文献综述AI系统

OpenScholar 是一个专门为科学研究任务设计的检索增强语言模型。它通过从 4500 万篇开放获取论文中识别相关段落,并合成带有引用支持的内容来回答科学查询。

OpenScholar 的卓越性能,源于其三大核心技术创新:

1.专属数据库(OSDS):OpenScholar 拥有一个专属知识库—— OSDS,它构建了一个完全开放且保持最新状态的语料库,涵盖了 4500 万篇开放获取的科学论文和 2.36 亿个段落嵌入向量。这一庞大的数据规模为训练和推理提供了可复现的基础,确保了检索的全面性和时效性。

2.自适应检索:为了在浩如烟海的文献中精准定位信息,系统采用了专门训练的检索器。这超越了简单的关键词匹配,能够根据查询的语义深度,精准识别并提取最相关的文献段落,为后续生成提供高质量的上下文。

3.自反馈机制:这是 OpenScholar 在技术上的关键创新。模型引入了一个“自我反馈”推理循环——在生成初步回答后,模型会对自身产出进行检查,评估其事实性、覆盖率和引用准确性,并据此进行迭代优化。这种自我反思机制显著提升了最终回答的质量。


图 | OpenScholar 整体架构。OpenScholar 包含专用数据存储、检索器和语言模型,通过检索过程中的自反馈推理迭代优化响应。

性能评估:全面超越现有系统

以往针对文献合成的评估通常专注于短文本输出、多项选择形式或特定领域的推理任务。为此,研究团队引入了 ScholarQABench —— 这是首个大规模、多领域的开放式科学文献综合评测基准,旨在真实模拟科研前沿的挑战:它包含 2967 个专家撰写的查询和 208 个长篇答案,涵盖计算机科学、物理学、神经科学和生物医学领域,并且要求基于来自大量论文的最新文献生成长篇回答。


图 | ScholarQABench 的概览。该测试包含 2200 道由专家撰写的跨学科科学问题,研究团队针对其开发了自动评估与人工评估方案。

在这一严谨的新基准测试中,OpenScholar 取得了以下关键结果:

规模较小的轻量模型 OpenScholar-8B,在综合正确率上超过了 GPT-4o 6.1%,也超过了专用系统 PaperQA2 5.5%,实现了性能的全面领先。

引用准确性方面,OpenScholar 不仅达到了人类专家水平,更展现出系统性优势。分析显示,人类撰写的答案在基于评分标准的评估中比无检索的 GPT-4o 高出 9.6 分,而 OpenScholar-8B 的表现仅略低于人类专家 2.9 分。


图 | 专家撰写回答统计。

人类专家评估中,专家明显更倾向于选择 OpenScholar 生成的答案。具体而言,OpenScholar 使用研究团队训练的 80 亿参数模型和 GPT-4o,分别以 51% 和 70% 的胜率击败人工生成答案,而未经增强的原始 GPT-4o 胜率仅为 31%,低于人类专家基线。


图 | 自动评估与人工评估结果:基于 ScholarQABench 计算机科学子集(Scholar-CS,100 个问题)的实验数据表明,使用团队训练的 8B 模型或 GPT-4o 的 OpenScholar 系统表现显著优于其他系统,在人工评估中超过 50% 的案例优于专家。本次人工评估由 16 位博士专家对 Scholar-Multi 的 108 个问题进行评估。

除了性能卓越,OpenScholar 在设计上也注重实用性。其采用的轻量级专用检索器,相比依赖庞大通用模型进行检索的方案,显著降低了系统的运行与计算成本,使得高质量、可信赖的文献综述辅助能够更可持续、更广泛地被应用。

局限性与未来展望

尽管 OpenScholar 取得了突破性进展,当前的评测框架系统中仍存在局限性。

ScholarQABench 主要关注计算机科学、生物医学和物理学,尚未涵盖社会科学、工程学等其他重要学科,因此研究发现可能无法完全推广到其他领域。由于专家标注成本高昂且耗时,基于人工标注的评估集规模较小,可能引入方差和注释者专业偏差。并且,ScholarQABench 是一个静态的公开基准,未来存在数据污染的风险,增加了在训练或搜索中暴露的可能性。

在某些复杂查询中,OpenScholar 仍无法保证始终检索到最具代表性或最新的相关论文。80 亿参数的 OpenScholar-8B 模型虽已表现优异,但在指令遵循和科学知识理解方面能力有限,可能导致输出存在事实性偏差。OpenScholar-GPT-4o 版本依赖 GPT-4o 专有 API,随着底层模型更新,实验结果可能难以完全复现,这为研究的可重复性带来挑战。此外,当前系统仅使用开放获取论文,如何合理合法地整合大量受版权保护的学术文献,仍是一个亟待解决的问题。

目前,研究团队已经开源了 OpenScholar 的核心资源,包括代码、数据、模型检查点、数据存储和 ScholarQABench,以支持和加速未来的研究工作。

在此基础上,未来的工作将致力于整合平台的用户反馈,持续优化检索质量、引用准确性及整体可用性。同时,团队计划进一步拓展应用边界,将支持范围延伸至更多科学领域及多语言场景,并积极寻求与学术出版机构合作,探索兼顾知识产权与开放获取的合规数据使用机制。

作者:王跃然

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
极目调查|“少年私卖长辈22克金镯”风波:交易时金店未联系家长,孩子留的是假身份证号,双方起冲突后孩子外婆已被行拘

极目调查|“少年私卖长辈22克金镯”风波:交易时金店未联系家长,孩子留的是假身份证号,双方起冲突后孩子外婆已被行拘

极目新闻
2026-02-05 08:14:17
受强冷空气影响,上海客轮各航线航班自2月6日早晨起陆续停航

受强冷空气影响,上海客轮各航线航班自2月6日早晨起陆续停航

上观新闻
2026-02-05 21:49:14
10.7追责:杀害以色列女兵的哈马斯被斩首

10.7追责:杀害以色列女兵的哈马斯被斩首

桂系007
2026-02-05 05:10:02
秦始皇生父到底是谁?赵姬临终前指着床底的一把宝剑咽气

秦始皇生父到底是谁?赵姬临终前指着床底的一把宝剑咽气

千秋文化
2026-01-24 22:25:04
87年“小兵张嘎”原型恢复待遇,每月71.5元,曾默默烧了30年锅炉

87年“小兵张嘎”原型恢复待遇,每月71.5元,曾默默烧了30年锅炉

搜史君
2026-02-05 14:10:07
Shams:76人将埃里克-戈登交易至灰熊

Shams:76人将埃里克-戈登交易至灰熊

懂球帝
2026-02-06 03:07:12
星链断供!俄军无人机集体“失明”,俄军方怒批马斯克:混蛋!

星链断供!俄军无人机集体“失明”,俄军方怒批马斯克:混蛋!

老马拉车莫少装
2026-02-05 19:53:15
希拉里私下有多混乱?一天同时约会5个男性,总统丈夫敢怒不敢言

希拉里私下有多混乱?一天同时约会5个男性,总统丈夫敢怒不敢言

李斄在北漂
2025-12-31 17:57:27
渐行渐远!一个疯狂的时代,彻底结束了。

渐行渐远!一个疯狂的时代,彻底结束了。

沙舟狼客
2026-01-29 21:27:13
你见过最无用的节俭行为是什么?看完网友分享:CPU都干烧了!

你见过最无用的节俭行为是什么?看完网友分享:CPU都干烧了!

夜深爱杂谈
2026-02-03 21:51:33
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
湖南“夺命寡妇村”:5年内死亡20多名男性,专家调查揭开真相

湖南“夺命寡妇村”:5年内死亡20多名男性,专家调查揭开真相

谈史论天地
2026-01-30 16:51:02
苦熬38年登基,一夜连幸数女夜夜奋战,寝宫传出尖叫声:皇上驾崩

苦熬38年登基,一夜连幸数女夜夜奋战,寝宫传出尖叫声:皇上驾崩

丞丞故事汇
2026-02-02 04:43:59
实施违法犯罪活动80余起,浙江一黑社会性质组织主犯被判死缓

实施违法犯罪活动80余起,浙江一黑社会性质组织主犯被判死缓

新京报
2026-02-05 16:10:58
时间的拓片:一种向后的前行

时间的拓片:一种向后的前行

疾跑的小蜗牛
2026-02-05 23:20:52
身体衰老的3个信号,从睡眠开始!若一个都不占,证明你还年轻

身体衰老的3个信号,从睡眠开始!若一个都不占,证明你还年轻

DrX说
2026-02-05 13:27:31
学霸和中等生的区别:学霸数学英语都拔尖,中等生英语大概率偏科

学霸和中等生的区别:学霸数学英语都拔尖,中等生英语大概率偏科

好爸育儿
2026-02-05 16:17:51
和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

闲侃闲侃
2026-01-29 08:36:50
郭涛夫妇逛市场,妻子比梅婷还小9岁,打理几家美发店漂亮又能干

郭涛夫妇逛市场,妻子比梅婷还小9岁,打理几家美发店漂亮又能干

八怪娱
2026-02-05 10:38:27
名记:快船正在兜售祖巴茨,其交易回报价值可能甚至高于浓眉

名记:快船正在兜售祖巴茨,其交易回报价值可能甚至高于浓眉

懂球帝
2026-02-05 22:56:38
2026-02-06 07:40:49
冒泡泡的鱼儿
冒泡泡的鱼儿
每天带来社会资讯
475文章数 15180关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

肖杰被查 曾任"中国最大地级市"市长

头条要闻

肖杰被查 曾任"中国最大地级市"市长

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

时尚
亲子
数码
教育
军事航空

她随手打赏就是6两黄金:人美,心善,钱多!

亲子要闻

长大之后肠子都得悔青了

数码要闻

3388元起 华为联名周大福!FreeClip 2黄金耳饰开售:寓意吉祥、财运亨通

教育要闻

浙江省海军青少年航校!直升通道毕业包分配

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版