网易首页 > 网易号 > 正文 申请入驻

Nature:首个能写综述论文的开源AI模型来了,大幅减少科研“幻觉”,堪比人类专家

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

科学进步取决于科研人员综合日益增多的文献资料的能力,面对科学文献的爆炸式增长,科研人员如何才能快速筛选、总结海量文献?大语言模型(LLM)是否能够在这方面为科研人员提供帮助?

在日常生活中,很多人会用到 ChatGPT、DeepSeek 等大语言模型来聊天、写邮件或生成答案,但当你问它一个专业、前沿的科学问题,它可能会给出看似合理但实际虚构的答案,甚至编造根本不存在的论文引用。这种“幻觉”问题在科研领域尤为致命,因为准确性是科学的生命线。

而现在,一项发表于Nature期刊的研究给出了解决方案——OpenScholar,这是一个专为科研打造的 AI 助手,不仅能准确回答复杂的科学问题,生成综述论文,还解决了 AI 喜欢胡编乱造的“幻觉”难题。


该研究来自华盛顿大学、艾伦人工智能研究所,于 2026 年 2 月 4 日在线发表于Nature期刊,论文题为:Synthesizing scientific literature with retrieval-augmented language models。

OpenScholar是一个检索增强的语言模型(Retrieval-Augmented Language Model),它能够从4500 万篇开放获取(Open Access)论文中智能检索相关段落,生成带引用的长篇综述论文(涵盖计算机科学、物理学、神经科学和生物医学领域),其引用准确率与人类专家相当,并在多项测试中超越了 GPT-4o 等主流大模型。更令人惊喜的是,研究团队全面开源了 OpenScholar,为科研社区提供了一个透明、可复现的工具。

OpenScholar 是什么?科研文献的“智能管家”

如果你是一名研究人员,需要写一篇关于“人工智能在医疗诊断中的应用”的综述论文。通常情况下,你需要花费数周甚至更长时间阅读上百篇相关研究论文,筛选关键信息,构思框架,最终完成综述论文的撰写、修改。

OpenScholar就像一个高效的智能助手,只需输入问题,它就能在几分钟内合成一份结构清晰、引用准确的综述论文。

OpenScholar的核心创新在于其全开放、可检索增强的架构。它不依赖“黑箱” API,而是构建了一个包含 4500 万篇开放获取论文的专用数据存储(OpenScholar DataStore,OSDS),并配备了训练过的检索器和生成模型。该系统通过以下步骤工作:

1、检索阶段:从多个来源(例如学术数据库和网络搜索)智能抓取相关论文段落。

2、生成阶段:语言模型基于检索到的内容起草答案,并标记引用。

3、自反馈循环:模型会自我审查初稿,提出改进意见(例如“需要补充更多实验数据”),并迭代优化答案,确保事实性和覆盖范围。


OpenScholar 推理(上)和训练流程(下)

这张图清晰展示了OpenScholar的工作流程:从输入查询到最终输出,每一步都注重证据支撑。这种设计直接针对了当前 AI 在科学领域应用的痛点——例如,该研究显示,当要求GPT-4o引用计算机科学或生物医学等领域的近期文献时,其在 78%-90% 的情况下编造了引用,而 OpenScholar 的引用准确性堪比人类专家。

如何评估 AI 的“科研能力”?ScholarQABench 基准登场

要判断一个 AI 系统是否可靠,需要严格的测试标准。为此,研究团队开发了ScholarQABench,这是首个大规模、多领域的科学文献合成基准。它包含近 3000 个由专家编写的问题,覆盖计算机科学、物理、神经科学和生物医学等领域,要求模型生成长篇、多论文支持的答案。

与以往只关注选择题或短答案的基准不同,ScholarQABench 引入了多维评估协议,包括自动指标(例如引用准确性)和人类专家基于量表的评分(覆盖范围、连贯性、写作质量等)。例如,在“计算机科学”部分中,专家会列出答案必须包含的关键要点,AI 的回答需要满足这些“评分标准”才能得分。


上图是一个评估示例:问题、评分标准和 AI 输出的对比。这种设计确保了评估的客观性,避免了 AI “刷分”的可能。

实验结果:小模型大能量,OpenScholar 全面领先

OpenScholar在 ScholarQABench 上的测试结果令人印象深刻。尽管 OpenScholar 的核心模型参数量仅为 80 亿(远小于 GPT-4o 的规模),但它在多项任务中表现优异:

  • 正确率提升:在需要多论文合成的任务中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。

  • 引用准确性:OpenScholar 的引用 F1 分数达到 47.9%,而 GPT-4o 几乎为 0。

  • 成本效益:使用高效的检索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商业系统更低。


更引人注目的是人类评估结果:16 位人类专家在盲测中比较了 AI 回答和人类专家撰写的答案。结果显示,人类专家在 50.8% 和 70.0% 的情况下选择了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的这一比例仅为 31.9%,人类专家认为,OpenScholar 的回答更全面、信息深度更大,而这正是撰写综述论文所需的关键能力


AI,正在改变科研范式

OpenScholar的推出标志着 AI 在科学领域的应用迈出重要一步。它不仅是工具的创新,更体现了开放科学的精神——通过可复现的系统,降低科研门槛。对于忙碌的科学家和学生来说,这类 AI 助手有望将文献回顾从“苦役”变为高效探索。


OpenScholar、ScholarQABench 概述及评估结果

未来,随着多模态学习和用户反馈的整合,OpenScholar可能会变得更智能,从而成为科研人员的真正“协作者”,让科研工作更聚焦于创新而非信息筛选。

论文链接

https://www.nature.com/articles/s41586-025-10072-4


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“我想代表全家向数万受害的中国人说声对不起”,白应苍当庭忏悔视频曝光

“我想代表全家向数万受害的中国人说声对不起”,白应苍当庭忏悔视频曝光

新京报
2026-02-06 13:36:02
刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

z千年历史老号
2026-02-05 16:31:39
三大指数探底回升全线翻红 超4000只个股上涨

三大指数探底回升全线翻红 超4000只个股上涨

财联社
2026-02-06 10:38:06
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
赛季报销!1场没打就被裁! 杨瀚森也要警觉了!

赛季报销!1场没打就被裁! 杨瀚森也要警觉了!

篮球盛世
2026-02-06 15:52:05
随着葡萄牙体育3-2,葡萄牙杯四强全部诞生:穆帅老东家在列

随着葡萄牙体育3-2,葡萄牙杯四强全部诞生:穆帅老东家在列

凌空倒钩
2026-02-06 12:42:04
让CEO下台!育碧工会要求高层辞职消除员工不满

让CEO下台!育碧工会要求高层辞职消除员工不满

游民星空
2026-02-04 14:11:14
华为Mate 90首曝,性能很猛,屏幕很强

华为Mate 90首曝,性能很猛,屏幕很强

科技堡垒
2026-02-04 10:59:19
乌克兰第1332号决议,月薪低于21617格里夫纳,随时等着被抓壮丁

乌克兰第1332号决议,月薪低于21617格里夫纳,随时等着被抓壮丁

碳基生物关怀组织
2026-02-06 20:51:49
巴拿马强硬回应中国警告,声称13亿损失,自称法治国家

巴拿马强硬回应中国警告,声称13亿损失,自称法治国家

岁暮的归南山
2026-02-06 20:32:04
欣旺达与吉利系达成和解,预计2025年净利润减少逾5亿

欣旺达与吉利系达成和解,预计2025年净利润减少逾5亿

第一财经资讯
2026-02-06 16:15:44
全校120名老师,118人评职称成功,校长被纪委约谈:他操作12年了

全校120名老师,118人评职称成功,校长被纪委约谈:他操作12年了

老红点评社
2025-06-30 17:16:31
外交部回应美国组建所谓“关键矿产联盟”:反对任何国家以“小圈子”规则破坏国际经贸秩序

外交部回应美国组建所谓“关键矿产联盟”:反对任何国家以“小圈子”规则破坏国际经贸秩序

新京报
2026-02-05 15:52:01
深圳某设计院被曝光:新办公室把厕所蹲坑全封死了!

深圳某设计院被曝光:新办公室把厕所蹲坑全封死了!

黯泉
2026-02-05 23:23:26
祝贺!中山小伙入选中国男篮国家队,家乡沃土孕育锋线新星!

祝贺!中山小伙入选中国男篮国家队,家乡沃土孕育锋线新星!

中山印象体育摄影师
2026-02-06 14:39:29
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

篮球看比赛
2026-02-04 17:46:56
1935年红军拿下腊子口后,战士们打开鲁大昌的仓库,里面有什么?

1935年红军拿下腊子口后,战士们打开鲁大昌的仓库,里面有什么?

古书记史
2026-01-03 01:06:30
长和港口照常运转,巴拿马法院没出判决,这事到底谁在传?

长和港口照常运转,巴拿马法院没出判决,这事到底谁在传?

起喜电影
2026-02-06 10:33:14
40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

暖心萌阿菇凉
2026-02-02 22:59:12
2300一吨,5年收了3万吨!日本狂收东北落叶,24年专家揭露真相

2300一吨,5年收了3万吨!日本狂收东北落叶,24年专家揭露真相

福建平子
2026-02-05 16:37:30
2026-02-06 21:35:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
8852文章数 144991关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

三只羊拿下"无语哥"全球运营权 部分主播复播风格已变

头条要闻

三只羊拿下"无语哥"全球运营权 部分主播复播风格已变

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

数码
游戏
房产
旅游
公开课

数码要闻

雷柏VT0 MAX大师版鼠标上市,非对称式中小手抓握/趴握模具

《生化4RE》碍事梨雕像展示!修长美腿丰满翘臀

房产要闻

新春三亚置业,看过这个热盘再说!

旅游要闻

东莞推出5条“游购东莞”线路,诚邀市民游客在莞过大年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版