引文幻觉大幅下降的AI模型诞生，准确率媲美人类专家|艾伦|科学|人工智能|ai模型|量子计算机

引文幻觉大幅下降的AI模型诞生，准确率媲美人类专家

2026-02-05 08:13:04　来源: IT之家

山东举报

分享至

IT之家 2 月 5 日消息，紧跟最新研究进展对科学家而言至关重要，但每年发表的学术论文多达数百万篇，要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力，却仍存在编造内容、即“产生幻觉”的通病。

例如，华盛顿大学与艾伦人工智能研究所（AI2）的研究团队牵头分析了 OpenAI 最新模型 GPT-4o 后发现，该模型 78% 至 90% 的研究引用均为伪造。而 ChatGPT 这类通用人工智能模型，通常无法读取其训练数据采集完成后发表的学术论文。

为此，华盛顿大学与艾伦人工智能研究所的团队研发了 OpenScholar—— 一款专为整合前沿学术研究打造的开源人工智能模型。团队还构建了首个跨领域大型评测基准，用于评估模型整合与引用学术研究的能力。测试结果显示，OpenScholar 的引用准确率与人类专家持平；在 16 位科学家的盲评中，有 51% 的情况更偏爱 OpenScholar 生成的内容，而非领域专家撰写的答复。

IT之家注意到，该团队已将研究成果发表于《自然》期刊，项目的代码、数据集和演示版本均已开源，可供免费使用。

该研究的通讯作者汉娜内 · 哈吉希里齐表示：“我们上线演示版本后，很快就收到了远超预期的海量访问请求。”她同时担任华盛顿大学保罗 ·G· 艾伦计算机科学与工程学院副教授、艾伦人工智能研究所高级总监。

“梳理用户反馈后我们发现，同行和其他科研人员都在积极使用 OpenScholar。这充分说明，科研领域迫切需要这类开源、透明的学术研究整合系统。”

研究人员先完成模型训练，再为 OpenScholar 搭建了包含 4500 万篇学术论文的检索库，让模型的答复能依托成熟的科研成果。同时团队采用检索增强生成技术，使模型在训练完成后仍可检索新文献、整合内容并规范引用。

该研究的第一作者、艾伦人工智能研究所研究科学家浅井朱里（就读华盛顿大学艾伦学院博士期间完成此项研究）称：“研发初期，我们尝试结合谷歌搜索数据训练人工智能模型，但发现模型单独使用这类数据效果很差。它可能引用关联性极低的论文、仅单篇引用，甚至随意抓取博客内容。我们意识到必须让模型依托学术论文开展工作，随后优化了系统灵活性，使其能通过检索结果整合最新研究成果。”

为验证系统性能，团队搭建了 ScholarQABench 学术搜索评测基准，专门用于测评科研类人工智能系统。团队收集了 3000 条检索查询，以及计算机科学、物理学、生物医学、神经科学领域专家撰写的 250 篇长文答复。

哈吉希里齐表示：“人工智能处理现实任务的能力正不断提升，但核心问题始终是：我们能否信任它给出的答案？”

研究团队将 OpenScholar 与 GPT-4o、Meta 旗下两款顶尖人工智能模型进行对比，通过 ScholarQABench 从准确性、撰写质量、内容相关性等维度自动评测模型答复。

结果显示，OpenScholar 的表现优于所有参测模型。团队邀请 16 位科学家对各模型与人类专家的答复进行盲评对比：

51% 的情况下，科学家更认可 OpenScholar 的答复，而非人类专家；
若将 OpenScholar 的引用机制与工作流和大模型 GPT-4o 结合，科学家对人工智能答复的偏好率升至 70%；
仅使用 GPT-4o 原生生成内容时，科学家偏好率仅为 32%。

浅井朱里表示：“科学家每天要面对海量新发论文，根本无法全部跟进，而现有人工智能系统并非针对科研人员的专属需求设计。目前已有大量科研人员使用 OpenScholar，得益于开源属性，业内同行已在本研究基础上迭代优化，进一步提升了模型效果。我们正在研发迭代模型 DR Tulu，该模型基于 OpenScholar 的技术成果，可实现多步骤检索与信息聚合，生成更全面的研究答复。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.