网易首页 > 网易号 > 正文 申请入驻

引文幻觉大幅下降的AI模型诞生,准确率媲美人类专家

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 2 月 5 日消息,紧跟最新研究进展对科学家而言至关重要,但每年发表的学术论文多达数百万篇,要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力,却仍存在编造内容、即“产生幻觉”的通病。


例如,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队牵头分析了 OpenAI 最新模型 GPT-4o 后发现,该模型 78% 至 90% 的研究引用均为伪造。而 ChatGPT 这类通用人工智能模型,通常无法读取其训练数据采集完成后发表的学术论文。

为此,华盛顿大学与艾伦人工智能研究所的团队研发了 OpenScholar—— 一款专为整合前沿学术研究打造的开源人工智能模型。团队还构建了首个跨领域大型评测基准,用于评估模型整合与引用学术研究的能力。测试结果显示,OpenScholar 的引用准确率与人类专家持平;在 16 位科学家的盲评中,有 51% 的情况更偏爱 OpenScholar 生成的内容,而非领域专家撰写的答复。

IT之家注意到,该团队已将研究成果发表于《自然》期刊,项目的代码、数据集和演示版本均已开源,可供免费使用。

该研究的通讯作者汉娜内 · 哈吉希里齐表示:“我们上线演示版本后,很快就收到了远超预期的海量访问请求。”她同时担任华盛顿大学保罗 ·G· 艾伦计算机科学与工程学院副教授、艾伦人工智能研究所高级总监。

“梳理用户反馈后我们发现,同行和其他科研人员都在积极使用 OpenScholar。这充分说明,科研领域迫切需要这类开源、透明的学术研究整合系统。”

研究人员先完成模型训练,再为 OpenScholar 搭建了包含 4500 万篇学术论文的检索库,让模型的答复能依托成熟的科研成果。同时团队采用检索增强生成技术,使模型在训练完成后仍可检索新文献、整合内容并规范引用。

该研究的第一作者、艾伦人工智能研究所研究科学家浅井朱里(就读华盛顿大学艾伦学院博士期间完成此项研究)称:“研发初期,我们尝试结合谷歌搜索数据训练人工智能模型,但发现模型单独使用这类数据效果很差。它可能引用关联性极低的论文、仅单篇引用,甚至随意抓取博客内容。我们意识到必须让模型依托学术论文开展工作,随后优化了系统灵活性,使其能通过检索结果整合最新研究成果。”

为验证系统性能,团队搭建了 ScholarQABench 学术搜索评测基准,专门用于测评科研类人工智能系统。团队收集了 3000 条检索查询,以及计算机科学、物理学、生物医学、神经科学领域专家撰写的 250 篇长文答复。

哈吉希里齐表示:“人工智能处理现实任务的能力正不断提升,但核心问题始终是:我们能否信任它给出的答案?”

研究团队将 OpenScholar 与 GPT-4o、Meta 旗下两款顶尖人工智能模型进行对比,通过 ScholarQABench 从准确性、撰写质量、内容相关性等维度自动评测模型答复。

结果显示,OpenScholar 的表现优于所有参测模型。团队邀请 16 位科学家对各模型与人类专家的答复进行盲评对比:

浅井朱里表示:“科学家每天要面对海量新发论文,根本无法全部跟进,而现有人工智能系统并非针对科研人员的专属需求设计。目前已有大量科研人员使用 OpenScholar,得益于开源属性,业内同行已在本研究基础上迭代优化,进一步提升了模型效果。我们正在研发迭代模型 DR Tulu,该模型基于 OpenScholar 的技术成果,可实现多步骤检索与信息聚合,生成更全面的研究答复。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于谈妥了!萧旭岑返台,下飞机后立马通告全岛,赖清德自寻死路

终于谈妥了!萧旭岑返台,下飞机后立马通告全岛,赖清德自寻死路

生活魔术专家
2026-02-06 20:27:00
国家掏钱送陈敏沈捷留学,两人在美国待几十年,如今却回国养老?

国家掏钱送陈敏沈捷留学,两人在美国待几十年,如今却回国养老?

南权先生
2026-02-04 15:54:42
特朗普称将纽约宾州车站更名为“特朗普车站”是舒默的提议,舒默火速否认

特朗普称将纽约宾州车站更名为“特朗普车站”是舒默的提议,舒默火速否认

环球网资讯
2026-02-07 11:27:09
美印达成临时贸易框架:对印关税降至18%,印度承诺5年采购5000亿美元美国产品

美印达成临时贸易框架:对印关税降至18%,印度承诺5年采购5000亿美元美国产品

华尔街见闻官方
2026-02-07 19:16:31
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
台湾变天信号出现!特朗普下紧急总统令,要举全国之力将大陆一军

台湾变天信号出现!特朗普下紧急总统令,要举全国之力将大陆一军

议纪史
2026-02-07 20:10:03
小李子有多绝?希拉里那“挪不开眼”的反应,就懂什么是颜值暴击

小李子有多绝?希拉里那“挪不开眼”的反应,就懂什么是颜值暴击

草莓解说体育
2026-02-05 06:53:21
赵匡胤的“义社十兄弟”:3人善终,1人绝食而死,4人被遗忘

赵匡胤的“义社十兄弟”:3人善终,1人绝食而死,4人被遗忘

长风文史
2026-02-07 13:59:51
荣耀,米兰城传奇队长巴雷西、贝尔戈米在冬奥开幕式一同传递圣火

荣耀,米兰城传奇队长巴雷西、贝尔戈米在冬奥开幕式一同传递圣火

懂球帝
2026-02-07 18:22:14
这次,翻白眼、满脸不悦的白鹿,没给“前男友”张凌赫留一丝体面

这次,翻白眼、满脸不悦的白鹿,没给“前男友”张凌赫留一丝体面

李橑在北漂
2026-02-07 12:08:16
一份人大代表建议,呼唤城市浪漫:“上海应该有一座滨水而建的摩天轮,就在黄浦江畔”丨2026上海两会

一份人大代表建议,呼唤城市浪漫:“上海应该有一座滨水而建的摩天轮,就在黄浦江畔”丨2026上海两会

随申Hi
2026-02-06 16:21:03
1940-1965年出生的退休人,得到一个“特殊评价”!

1940-1965年出生的退休人,得到一个“特殊评价”!

华人星光
2026-02-04 11:41:42
苹果 iPhone 17 续航时间登顶第一,今时不同往日了!

苹果 iPhone 17 续航时间登顶第一,今时不同往日了!

XCiOS俱乐部
2026-02-06 10:13:57
中国股市炒股其实很简单:"低于20满仓买,高于80满仓卖"稳赚不亏

中国股市炒股其实很简单:"低于20满仓买,高于80满仓卖"稳赚不亏

股经纵横谈
2026-02-06 22:49:33
徐州咫尺万亿,淮安紧追镇江!江苏各地2025年GDP总值排行出炉

徐州咫尺万亿,淮安紧追镇江!江苏各地2025年GDP总值排行出炉

水又木二
2026-02-07 11:28:30
广东“别墅村”分钱!16岁以上35000元/人,1岁也有近1万

广东“别墅村”分钱!16岁以上35000元/人,1岁也有近1万

南方都市报
2026-02-06 18:21:26
反制生效?巴总统提出新方案,或归还长和经营权,但有一个条件

反制生效?巴总统提出新方案,或归还长和经营权,但有一个条件

墨兰史书
2026-02-06 19:17:29
男单八强出炉!国乒3占席+提前锁定1个四强席位,日本3人晋级

男单八强出炉!国乒3占席+提前锁定1个四强席位,日本3人晋级

烧体坛
2026-02-07 14:55:21
月销仅45台,小米解散Ultra专属团队,雷军高端梦碎,网友热议!

月销仅45台,小米解散Ultra专属团队,雷军高端梦碎,网友热议!

你食不食油饼
2026-02-04 22:39:38
企业贿赂县水务局局长370元礼品 承揽项目获利11万元被罚13万元

企业贿赂县水务局局长370元礼品 承揽项目获利11万元被罚13万元

闪电新闻
2026-02-07 10:59:37
2026-02-07 20:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2141611文章数 5388关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

日媒狠批特朗普干涉日本内政:前所未有 不可容忍

头条要闻

日媒狠批特朗普干涉日本内政:前所未有 不可容忍

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

游戏
家居
数码
本地
公开课

在Warframe玩家见面会上,有最可爱的创作者和玩家

家居要闻

现代轻奢 温馨治愈系

数码要闻

华硕ROG骇客RTX 5090D v2显卡30周年纪念版上市,29999元

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版