Nature：首个能写综述论文的开源AI模型来了，大幅减少科研“幻觉”，堪比人类专家|文献|研究论文|顶尖科学家协会奖

Nature：首个能写综述论文的开源AI模型来了，大幅减少科研“幻觉”，堪比人类专家

2026-02-06 12:27:30　来源: 生物世界

上海举报

分享至

撰文丨王聪

编辑丨王多鱼

排版丨水成文

科学进步取决于科研人员综合日益增多的文献资料的能力，面对科学文献的爆炸式增长，科研人员如何才能快速筛选、总结海量文献？大语言模型（LLM）是否能够在这方面为科研人员提供帮助？

在日常生活中，很多人会用到 ChatGPT、DeepSeek 等大语言模型来聊天、写邮件或生成答案，但当你问它一个专业、前沿的科学问题，它可能会给出看似合理但实际虚构的答案，甚至编造根本不存在的论文引用。这种“幻觉”问题在科研领域尤为致命，因为准确性是科学的生命线。

而现在，一项发表于Nature期刊的研究给出了解决方案——OpenScholar，这是一个专为科研打造的 AI 助手，不仅能准确回答复杂的科学问题，生成综述论文，还解决了 AI 喜欢胡编乱造的“幻觉”难题。

该研究来自华盛顿大学、艾伦人工智能研究所，于 2026 年 2 月 4 日在线发表于Nature期刊，论文题为：Synthesizing scientific literature with retrieval-augmented language models。

OpenScholar是一个检索增强的语言模型（Retrieval-Augmented Language Model），它能够从4500 万篇开放获取（Open Access）论文中智能检索相关段落，生成带引用的长篇综述论文（涵盖计算机科学、物理学、神经科学和生物医学领域），其引用准确率与人类专家相当，并在多项测试中超越了 GPT-4o 等主流大模型。更令人惊喜的是，研究团队全面开源了 OpenScholar，为科研社区提供了一个透明、可复现的工具。

OpenScholar 是什么？科研文献的“智能管家”

如果你是一名研究人员，需要写一篇关于“人工智能在医疗诊断中的应用”的综述论文。通常情况下，你需要花费数周甚至更长时间阅读上百篇相关研究论文，筛选关键信息，构思框架，最终完成综述论文的撰写、修改。

而OpenScholar就像一个高效的智能助手，只需输入问题，它就能在几分钟内合成一份结构清晰、引用准确的综述论文。

OpenScholar的核心创新在于其全开放、可检索增强的架构。它不依赖“黑箱” API，而是构建了一个包含 4500 万篇开放获取论文的专用数据存储（OpenScholar DataStore，OSDS），并配备了训练过的检索器和生成模型。该系统通过以下步骤工作：

1、检索阶段：从多个来源（例如学术数据库和网络搜索）智能抓取相关论文段落。

2、生成阶段：语言模型基于检索到的内容起草答案，并标记引用。

3、自反馈循环：模型会自我审查初稿，提出改进意见（例如“需要补充更多实验数据”），并迭代优化答案，确保事实性和覆盖范围。

OpenScholar 推理（上）和训练流程（下）

这张图清晰展示了OpenScholar的工作流程：从输入查询到最终输出，每一步都注重证据支撑。这种设计直接针对了当前 AI 在科学领域应用的痛点——例如，该研究显示，当要求GPT-4o引用计算机科学或生物医学等领域的近期文献时，其在 78%-90% 的情况下编造了引用，而 OpenScholar 的引用准确性堪比人类专家。

如何评估 AI 的“科研能力”？ScholarQABench 基准登场

要判断一个 AI 系统是否可靠，需要严格的测试标准。为此，研究团队开发了ScholarQABench，这是首个大规模、多领域的科学文献合成基准。它包含近 3000 个由专家编写的问题，覆盖计算机科学、物理、神经科学和生物医学等领域，要求模型生成长篇、多论文支持的答案。

与以往只关注选择题或短答案的基准不同，ScholarQABench 引入了多维评估协议，包括自动指标（例如引用准确性）和人类专家基于量表的评分（覆盖范围、连贯性、写作质量等）。例如，在“计算机科学”部分中，专家会列出答案必须包含的关键要点，AI 的回答需要满足这些“评分标准”才能得分。

上图是一个评估示例：问题、评分标准和 AI 输出的对比。这种设计确保了评估的客观性，避免了 AI “刷分”的可能。

实验结果：小模型大能量，OpenScholar 全面领先

OpenScholar在 ScholarQABench 上的测试结果令人印象深刻。尽管 OpenScholar 的核心模型参数量仅为 80 亿（远小于 GPT-4o 的规模），但它在多项任务中表现优异：

正确率提升：在需要多论文合成的任务中，OpenScholar-8B 比 GPT-4o 高出 6.1%，比 PaperQA2 高出5.5%。
引用准确性：OpenScholar 的引用 F1 分数达到 47.9%，而 GPT-4o 几乎为 0。
成本效益：使用高效的检索管道，OpenScholar-8B 的成本比基于 GPT-4o 的商业系统更低。

更引人注目的是人类评估结果：16 位人类专家在盲测中比较了 AI 回答和人类专家撰写的答案。结果显示，人类专家在 50.8% 和 70.0% 的情况下选择了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答，而 GPT-4o 的这一比例仅为 31.9%，人类专家认为，OpenScholar 的回答更全面、信息深度更大，而这正是撰写综述论文所需的关键能力。

AI，正在改变科研范式

OpenScholar的推出标志着 AI 在科学领域的应用迈出重要一步。它不仅是工具的创新，更体现了开放科学的精神——通过可复现的系统，降低科研门槛。对于忙碌的科学家和学生来说，这类 AI 助手有望将文献回顾从“苦役”变为高效探索。

OpenScholar、ScholarQABench 概述及评估结果

未来，随着多模态学习和用户反馈的整合，OpenScholar可能会变得更智能，从而成为科研人员的真正“协作者”，让科研工作更聚焦于创新而非信息筛选。

论文链接：

https://www.nature.com/articles/s41586-025-10072-4

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.