网易首页 > 网易号 > 正文 申请入驻

引文幻觉大幅下降的AI模型诞生,准确率媲美人类专家

0
分享至

IT之家 2 月 5 日消息,紧跟最新研究进展对科学家而言至关重要,但每年发表的学术论文多达数百万篇,要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力,却仍存在编造内容、即“产生幻觉”的通病。


例如,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队牵头分析了 OpenAI 最新模型 GPT-4o 后发现,该模型 78% 至 90% 的研究引用均为伪造。而 ChatGPT 这类通用人工智能模型,通常无法读取其训练数据采集完成后发表的学术论文。

为此,华盛顿大学与艾伦人工智能研究所的团队研发了 OpenScholar—— 一款专为整合前沿学术研究打造的开源人工智能模型。团队还构建了首个跨领域大型评测基准,用于评估模型整合与引用学术研究的能力。测试结果显示,OpenScholar 的引用准确率与人类专家持平;在 16 位科学家的盲评中,有 51% 的情况更偏爱 OpenScholar 生成的内容,而非领域专家撰写的答复。

IT之家注意到,该团队已将研究成果发表于《自然》期刊,项目的代码、数据集和演示版本均已开源,可供免费使用。

该研究的通讯作者汉娜内 · 哈吉希里齐表示:“我们上线演示版本后,很快就收到了远超预期的海量访问请求。”她同时担任华盛顿大学保罗 ·G· 艾伦计算机科学与工程学院副教授、艾伦人工智能研究所高级总监。

“梳理用户反馈后我们发现,同行和其他科研人员都在积极使用 OpenScholar。这充分说明,科研领域迫切需要这类开源、透明的学术研究整合系统。”

研究人员先完成模型训练,再为 OpenScholar 搭建了包含 4500 万篇学术论文的检索库,让模型的答复能依托成熟的科研成果。同时团队采用检索增强生成技术,使模型在训练完成后仍可检索新文献、整合内容并规范引用。

该研究的第一作者、艾伦人工智能研究所研究科学家浅井朱里(就读华盛顿大学艾伦学院博士期间完成此项研究)称:“研发初期,我们尝试结合谷歌搜索数据训练人工智能模型,但发现模型单独使用这类数据效果很差。它可能引用关联性极低的论文、仅单篇引用,甚至随意抓取博客内容。我们意识到必须让模型依托学术论文开展工作,随后优化了系统灵活性,使其能通过检索结果整合最新研究成果。”

为验证系统性能,团队搭建了 ScholarQABench 学术搜索评测基准,专门用于测评科研类人工智能系统。团队收集了 3000 条检索查询,以及计算机科学、物理学、生物医学、神经科学领域专家撰写的 250 篇长文答复。

哈吉希里齐表示:“人工智能处理现实任务的能力正不断提升,但核心问题始终是:我们能否信任它给出的答案?”

研究团队将 OpenScholar 与 GPT-4o、Meta 旗下两款顶尖人工智能模型进行对比,通过 ScholarQABench 从准确性、撰写质量、内容相关性等维度自动评测模型答复。

结果显示,OpenScholar 的表现优于所有参测模型。团队邀请 16 位科学家对各模型与人类专家的答复进行盲评对比:

  • 51% 的情况下,科学家更认可 OpenScholar 的答复,而非人类专家;
  • 若将 OpenScholar 的引用机制与工作流和大模型 GPT-4o 结合,科学家对人工智能答复的偏好率升至 70%;
  • 仅使用 GPT-4o 原生生成内容时,科学家偏好率仅为 32%。

浅井朱里表示:“科学家每天要面对海量新发论文,根本无法全部跟进,而现有人工智能系统并非针对科研人员的专属需求设计。目前已有大量科研人员使用 OpenScholar,得益于开源属性,业内同行已在本研究基础上迭代优化,进一步提升了模型效果。我们正在研发迭代模型 DR Tulu,该模型基于 OpenScholar 的技术成果,可实现多步骤检索与信息聚合,生成更全面的研究答复。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
75岁有8个男朋友?凌晨在北京去世?刘晓庆身上的标签太离谱了

75岁有8个男朋友?凌晨在北京去世?刘晓庆身上的标签太离谱了

可乐谈情感
2026-03-13 00:08:39
美国空军已经等不及!要求诺格公司加快生产和交付B-21隐身轰炸机

美国空军已经等不及!要求诺格公司加快生产和交付B-21隐身轰炸机

止戈军是我
2026-03-15 09:33:40
小卡伤退31+6创历史,威少209次三双手刃旧主,国王终结快船4连胜

小卡伤退31+6创历史,威少209次三双手刃旧主,国王终结快船4连胜

钉钉陌上花开
2026-03-15 13:06:49
迪亚斯破门+假摔被罚离场,9人拜仁1-1勒沃库森,七连胜戛然而止

迪亚斯破门+假摔被罚离场,9人拜仁1-1勒沃库森,七连胜戛然而止

钉钉陌上花开
2026-03-15 00:30:15
西班牙驱逐以大使、叫板美国,美以誓言猛烈报复

西班牙驱逐以大使、叫板美国,美以誓言猛烈报复

民间胡扯老哥
2026-03-12 13:58:20
伊朗破获超级间谍,比川岛芳子狠十倍,睡高官套情报

伊朗破获超级间谍,比川岛芳子狠十倍,睡高官套情报

点燃好奇心
2026-03-12 15:16:00
2000米生死线拿双奖!乌克兰战地纪录片横扫美国,剑指奥斯卡

2000米生死线拿双奖!乌克兰战地纪录片横扫美国,剑指奥斯卡

老马拉车莫少装
2026-03-11 13:07:27
伊朗发起“真实承诺-4”第53轮军事行动

伊朗发起“真实承诺-4”第53轮军事行动

界面新闻
2026-03-15 14:57:16
朱德罕见发怒痛斥彭德怀:这样搞,你对得起那些跟你出生入死的老兄弟吗

朱德罕见发怒痛斥彭德怀:这样搞,你对得起那些跟你出生入死的老兄弟吗

文史明鉴
2026-03-14 17:33:24
美国的强援终于下场,中东各国才回过味来:中方三个预测一个没错

美国的强援终于下场,中东各国才回过味来:中方三个预测一个没错

至死不渝的爱情
2026-03-11 09:56:07
7.5万/㎡击穿香蜜湖!业主心碎:比我当年买价还低,捡漏还是大坑?

7.5万/㎡击穿香蜜湖!业主心碎:比我当年买价还低,捡漏还是大坑?

新浪财经
2026-03-15 00:22:39
奥斯卡:河南队踢得很好,我们在学习和适应新的战术体系

奥斯卡:河南队踢得很好,我们在学习和适应新的战术体系

懂球帝
2026-03-15 19:09:26
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
怎样判断一个男生有没有「阳痿」?(女生勿入)

怎样判断一个男生有没有「阳痿」?(女生勿入)

许超医生
2026-03-15 10:10:36
第一个面临消失的职业,不是幼师,不是快递员,而是这三种工作?

第一个面临消失的职业,不是幼师,不是快递员,而是这三种工作?

蜉蝣说
2026-03-13 15:46:20
51岁潘粤明低调再婚,中年相信爱情是活明白了

51岁潘粤明低调再婚,中年相信爱情是活明白了

全球风情大揭秘
2026-03-15 15:05:28
76年,华国锋行动前忧心军队情况,陈锡联打保票:部队没有问题

76年,华国锋行动前忧心军队情况,陈锡联打保票:部队没有问题

浩渺青史
2026-03-15 18:18:55
两艘挂印度国旗油轮通过霍尔木兹海峡

两艘挂印度国旗油轮通过霍尔木兹海峡

参考消息
2026-03-14 16:00:06
23岁女子做“擦边”主播,一个月赚30多万,怕父母看到想解约遭拒

23岁女子做“擦边”主播,一个月赚30多万,怕父母看到想解约遭拒

江山挥笔
2026-03-15 19:06:14
无锡著名大酒店,突然传出

无锡著名大酒店,突然传出

无锡eTV全媒体
2026-03-15 16:08:23
2026-03-15 19:51:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
334182文章数 607068关注度
往期回顾 全部

科技要闻

传裁员20%,新模型难产:Meta AI仍没理顺

头条要闻

美宜佳门店已被查获假烟140万支 7年前就卷入假烟案

头条要闻

美宜佳门店已被查获假烟140万支 7年前就卷入假烟案

体育要闻

卢卡绝杀掘金:湖人有季后赛氛围了?

娱乐要闻

《隐身的名字》定档!闫妮、倪妮联手

财经要闻

315策划|泡泡玛特假盲盒制售产业链调查

汽车要闻

倾听用户声音 东风奕派三款新车亮相

态度原创

数码
本地
亲子
艺术
军事航空

数码要闻

华硕推出TUF GAMING B850-PRO WIFI7 W NEO白色主板,1799元

本地新闻

坐标北京,过敏季反向迁徒

亲子要闻

靠奶粉长到一米八八,既不科学也不现实 | 新京报快评

艺术要闻

美国画家Matt Talbert油画作品选 16幅

军事要闻

伊朗船只逼近美航母 美连开数炮全打空

无障碍浏览 进入关怀版