网易首页 > 网易号 > 正文 申请入驻

引文幻觉大幅下降的AI模型诞生,准确率媲美人类专家

0
分享至

IT之家 2 月 5 日消息,紧跟最新研究进展对科学家而言至关重要,但每年发表的学术论文多达数百万篇,要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力,却仍存在编造内容、即“产生幻觉”的通病。


例如,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队牵头分析了 OpenAI 最新模型 GPT-4o 后发现,该模型 78% 至 90% 的研究引用均为伪造。而 ChatGPT 这类通用人工智能模型,通常无法读取其训练数据采集完成后发表的学术论文。

为此,华盛顿大学与艾伦人工智能研究所的团队研发了 OpenScholar—— 一款专为整合前沿学术研究打造的开源人工智能模型。团队还构建了首个跨领域大型评测基准,用于评估模型整合与引用学术研究的能力。测试结果显示,OpenScholar 的引用准确率与人类专家持平;在 16 位科学家的盲评中,有 51% 的情况更偏爱 OpenScholar 生成的内容,而非领域专家撰写的答复。

IT之家注意到,该团队已将研究成果发表于《自然》期刊,项目的代码、数据集和演示版本均已开源,可供免费使用。

该研究的通讯作者汉娜内 · 哈吉希里齐表示:“我们上线演示版本后,很快就收到了远超预期的海量访问请求。”她同时担任华盛顿大学保罗 ·G· 艾伦计算机科学与工程学院副教授、艾伦人工智能研究所高级总监。

“梳理用户反馈后我们发现,同行和其他科研人员都在积极使用 OpenScholar。这充分说明,科研领域迫切需要这类开源、透明的学术研究整合系统。”

研究人员先完成模型训练,再为 OpenScholar 搭建了包含 4500 万篇学术论文的检索库,让模型的答复能依托成熟的科研成果。同时团队采用检索增强生成技术,使模型在训练完成后仍可检索新文献、整合内容并规范引用。

该研究的第一作者、艾伦人工智能研究所研究科学家浅井朱里(就读华盛顿大学艾伦学院博士期间完成此项研究)称:“研发初期,我们尝试结合谷歌搜索数据训练人工智能模型,但发现模型单独使用这类数据效果很差。它可能引用关联性极低的论文、仅单篇引用,甚至随意抓取博客内容。我们意识到必须让模型依托学术论文开展工作,随后优化了系统灵活性,使其能通过检索结果整合最新研究成果。”

为验证系统性能,团队搭建了 ScholarQABench 学术搜索评测基准,专门用于测评科研类人工智能系统。团队收集了 3000 条检索查询,以及计算机科学、物理学、生物医学、神经科学领域专家撰写的 250 篇长文答复。

哈吉希里齐表示:“人工智能处理现实任务的能力正不断提升,但核心问题始终是:我们能否信任它给出的答案?”

研究团队将 OpenScholar 与 GPT-4o、Meta 旗下两款顶尖人工智能模型进行对比,通过 ScholarQABench 从准确性、撰写质量、内容相关性等维度自动评测模型答复。

结果显示,OpenScholar 的表现优于所有参测模型。团队邀请 16 位科学家对各模型与人类专家的答复进行盲评对比:

  • 51% 的情况下,科学家更认可 OpenScholar 的答复,而非人类专家;
  • 若将 OpenScholar 的引用机制与工作流和大模型 GPT-4o 结合,科学家对人工智能答复的偏好率升至 70%;
  • 仅使用 GPT-4o 原生生成内容时,科学家偏好率仅为 32%。

浅井朱里表示:“科学家每天要面对海量新发论文,根本无法全部跟进,而现有人工智能系统并非针对科研人员的专属需求设计。目前已有大量科研人员使用 OpenScholar,得益于开源属性,业内同行已在本研究基础上迭代优化,进一步提升了模型效果。我们正在研发迭代模型 DR Tulu,该模型基于 OpenScholar 的技术成果,可实现多步骤检索与信息聚合,生成更全面的研究答复。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
反击已经开始,中国3份通告直达巴拿马,想要“吞”港口后果严重

反击已经开始,中国3份通告直达巴拿马,想要“吞”港口后果严重

阿晭评论哥
2026-02-05 10:16:17
“外交男神”王毅年轻旧照,与妻子罕见同框,岳父曾是周总理秘书

“外交男神”王毅年轻旧照,与妻子罕见同框,岳父曾是周总理秘书

乐趣纪史
2026-02-04 13:45:32
宝马车在杭州一商场停8101小时费用16900元 商场:派出所联系上车主但其没来处理

宝马车在杭州一商场停8101小时费用16900元 商场:派出所联系上车主但其没来处理

红星新闻
2026-02-04 18:58:09
天道好轮回,老牛吃嫩草的张纪中,如今终于把自己活成了“笑话”

天道好轮回,老牛吃嫩草的张纪中,如今终于把自己活成了“笑话”

老吴教育课堂
2026-02-02 00:14:47
印度的未来,将比乌克兰凄惨一万倍

印度的未来,将比乌克兰凄惨一万倍

农夫史记
2026-02-03 20:08:47
日吹急了眼:谁也没想到蜜雪冰城的一句话,炸出来一大堆日本间谍

日吹急了眼:谁也没想到蜜雪冰城的一句话,炸出来一大堆日本间谍

墨兰史书
2025-12-21 16:40:08
S妈回应大S儿女缺席,态度和马筱梅反差大,网友直呼太讽刺!

S妈回应大S儿女缺席,态度和马筱梅反差大,网友直呼太讽刺!

古希腊掌管月桂的神
2026-02-04 16:23:44
379元 小米首款室外4G摄像机开售:内置电信联通双卡 免费流量不限量

379元 小米首款室外4G摄像机开售:内置电信联通双卡 免费流量不限量

快科技
2026-02-04 15:45:20
德转:青岛西海岸20岁后卫杨希加盟上海海港

德转:青岛西海岸20岁后卫杨希加盟上海海港

懂球帝
2026-02-05 11:56:23
上汽通用“合资结束”倒计时!为何续约迟迟不能达成?

上汽通用“合资结束”倒计时!为何续约迟迟不能达成?

网上车市
2026-02-03 17:30:27
江苏今年要扎实办好12类45件民生实事

江苏今年要扎实办好12类45件民生实事

金台资讯
2026-02-04 07:39:30
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
刺激夜:曼城3-1晋级决赛,国米2-1晋级半决赛,里昂2-0进八强

刺激夜:曼城3-1晋级决赛,国米2-1晋级半决赛,里昂2-0进八强

侧身凌空斩
2026-02-05 06:07:01
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
1972年,杨勇上将被降职使用,100多辆红旗车高调送他上任

1972年,杨勇上将被降职使用,100多辆红旗车高调送他上任

扬平说史
2026-02-04 22:05:03
你有没有打死不能让另一半知道的秘密? 网友:隔壁老王藏得挺深啊

你有没有打死不能让另一半知道的秘密? 网友:隔壁老王藏得挺深啊

夜深爱杂谈
2026-02-03 18:31:13
德约科维奇:经费削减六成,塞尔维亚网协快关门破产了

德约科维奇:经费削减六成,塞尔维亚网协快关门破产了

网球之家
2026-02-04 13:18:34
2026-02-05 13:55:02
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
328281文章数 606970关注度
往期回顾 全部

科技要闻

微信给马化腾浇了“一盆冷水”

头条要闻

牛弹琴:中国元首和特朗普通话 特朗普就台湾问题表态

头条要闻

牛弹琴:中国元首和特朗普通话 特朗普就台湾问题表态

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

谢娜明年开演唱会:带老歌出来见见人

财经要闻

黄金,出现拐点

汽车要闻

一切交给XWD 捷途旅行者C-DM也能轻松刷冰锅

态度原创

教育
手机
亲子
家居
本地

教育要闻

学考密码忘记别慌!三步快速找回

手机要闻

深蓝色谷歌Pixel 10a手机宣传图曝光,2月18日上市

亲子要闻

科普|孕期需警惕的“隐形风险”——三氯生

家居要闻

简雅序章 自然且闲适

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版