网易首页 > 网易号 > 正文 申请入驻

Nature和Science同时报道了一篇论文,试图根治AI幻觉

0
分享至


新智元报道

编辑:艾伦

【新智元导读】《Nature》重磅:80 亿参数小模型 OpenScholar 终结「参数崇拜」!它摒弃死记硬背,凭「检索+自查」根治幻觉,在科学综述任务上表现超越行业顶尖巨头。

昨天,一篇刚刚登上《Nature》正刊的论文,开源了名为 OpenScholar 的模型,也同时被 Science 报道了。


它只有 8B 参数,但正是这个小模型,在科学文献综述任务上,击败了旗舰模型。

这是一场范式转移的信号:在严谨的科学探索中,全知全能的「黑盒」记忆已成过去,精准调用的「外挂」知识库才是未来。

告别幻觉

彼时,科研人员对通用大模型爱恨交织。

恨意主要源于那个致命缺陷——幻觉。

当时的数据令人触目惊心:当被要求回答生物医学等领域的专业问题时,AI 伪造引用的比例一度高达 90%。

它能自信地编造出不存在的论文标题、作者甚至页码。对于需要字斟句酌的科学研究,这种不可靠性是毁灭性的。

OpenScholar 的出现,正是为了修正这一偏差。

由华盛顿大学和艾伦人工智能研究所(Ai2)主导开发的这套系统,本质上不再试图让模型「记住」所有知识,而是教会模型如何像人类学者一样去「查资料」。

OpenScholar 并不依赖参数中的模糊记忆,它外接了一个包含 4500 万篇开放获取论文的巨型数据库。

当你提出一个问题时,它不会直接生成答案,而是执行一套严密的流程:

  1. 检索:先在 4500 万篇文献中快速捞取最相关的片段。

  2. 重排序:利用交叉编码器对片段进行精细筛选,去伪存真。

  3. 生成与反馈:这是最关键的一步。模型生成答案草稿后,会进行自我审查——「这句话有证据支持吗?」如果发现证据不足,它会发起第二轮、第三轮检索,直到每一条论述都有确凿的文献背书。

结果是降维打击式的。在涵盖计算机科学、物理学等领域的 ScholarQABench 基准测试中,OpenScholar-8B 的正确率不仅超越了当时的旗舰模型,更将推理成本降低了两个数量级(约 0.003 美元/次)。


它证明了在特定领域,一个带了「图书馆」的本科生,比一个赤手空拳却爱产生幻觉的博士生更可靠。

DR Tulu

从「回答问题」到「深度研究」

如果说 OpenScholar 解决的是「准确性」问题,那么素材中提及的后续迭代版本——DR Tulu(Deep Research Tulu),则是在向「深度」进军。

科研往往不是简单的一问一答,而是漫长的探索与综合。

2025年11月发布的 DR Tulu,针对的是长篇幅、多维度的「深度研究」任务。

它的核心突破在于引入了「演化评分规则的强化学习」(RLER, Reinforcement Learning with Evolving Rubrics)。

在以往的训练中,AI 很难判断一篇长达数千字的文献综述写得好不好。

DR Tulu 并不依赖固定的评分标准,而是让模型在搜索和研究的过程中,动态生成针对当前问题的评分细则。

它既学习「什么是好的研究策略」(如挖掘冷门数据源),也学习「什么是坏的行为」(如为了凑字数而堆砌引用)。

这种训练让 DR Tulu 具备了更强的规划能力。

面对复杂的科学命题,它能像成熟的研究员一样,先制定大纲,再分头检索,最后综合多源信息撰写长篇报告。

在最新的测试中,DR Tulu-8B 的表现已经足以比肩甚至超越当时的旗舰专有模型,且代码和权重完全开源。


幕后推手:Akari Asai

这一系列颠覆性工作的核心人物,是即将于2026年秋季入职卡内基梅隆大学(CMU)的 Akari Asai(浅井明里)。


这位从东京大学本科毕业、在华盛顿大学获得博士学位的年轻学者,是近年来「检索增强生成」(RAG)领域最活跃的声音之一。

早在 Meta AI 实习期间,她就致力于解决大模型的知识瓶颈问题。

Akari Asai 的研究哲学非常清晰:不要试图把世界装进模型里,要让模型学会拥抱世界。

她主导的 OpenScholar 和 DR Tulu 项目,不仅是技术上的精进,更带有一种强烈的「民主化」色彩。

通过开源高性能的小模型和检索架构,她正在打破只有科技巨头才能垄断顶级科研 AI 工具的局面,让全球资源匮乏地区的科学家也能拥有一位不知疲倦的「超级科研助理」。

结语

科学的本质不是记忆,而是发现。

当我们将 AI 从死记硬背的参数竞赛中解放出来,赋予其查阅、验证和反思的能力时,我们创造的不再是一个仅仅会聊天的机器,而是一把能帮人类在浩瀚知识海洋中披荆斩棘的利刃。

未来的科研,或许不再取决于你读过多少论文,而在于你如何驾驭那位读过所有论文的 AI 助手。

参考资料:

https://www.nature.com/articles/s41586-025-10072-4

https://www.science.org/content/article/open-source-ai-program-can-answer-science-questions-better-humans


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东航昨夜一北京飞上海航班,落地后舱内现火情,官方通报:系旅客手机掉落座椅缝隙受挤压冒烟

东航昨夜一北京飞上海航班,落地后舱内现火情,官方通报:系旅客手机掉落座椅缝隙受挤压冒烟

纵相新闻
2026-03-26 01:52:05
20分惨败!CBA焦点1战,山东大破新疆男篮,巩晓彬苦笑:都输麻了

20分惨败!CBA焦点1战,山东大破新疆男篮,巩晓彬苦笑:都输麻了

话体坛
2026-03-25 22:16:29
中国第三任国家主席,墓碑上不留姓名,碑文仅有二十四个字!

中国第三任国家主席,墓碑上不留姓名,碑文仅有二十四个字!

年代回忆
2026-03-24 20:23:00
孤胆英雄:NBA历史上那些“单核”带队的终极神话

孤胆英雄:NBA历史上那些“单核”带队的终极神话

茅塞盾开本尊
2026-03-26 13:05:20
女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

鱼语昱雨轩
2026-03-25 14:03:47
泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

懂球帝
2026-03-26 10:30:13
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
连续三天,重庆市委书记袁家军围绕这件事调研

连续三天,重庆市委书记袁家军围绕这件事调研

中国乡村振兴
2026-03-26 10:02:48
杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

南海浪花
2026-03-26 00:26:05
曝马英九完全不见他!萧旭岑:很多事长辈忘了、质疑能怎么办?

曝马英九完全不见他!萧旭岑:很多事长辈忘了、质疑能怎么办?

新时光点滴
2026-03-25 11:32:56
果然越不体面小生意往往闷声发大财!网友:一年不低于50万

果然越不体面小生意往往闷声发大财!网友:一年不低于50万

夜深爱杂谈
2026-03-23 20:05:31
杨瀚森9投9中+单手隔扣 20分9板5助触底反弹

杨瀚森9投9中+单手隔扣 20分9板5助触底反弹

体坛周报
2026-03-26 11:17:12
11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

万花筒体育球球
2026-03-25 17:39:15
向“新” 向“智” 向“绿”——重大工程项目一线观察

向“新” 向“智” 向“绿”——重大工程项目一线观察

新华社
2026-03-25 16:08:21
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

教育导向分享
2026-03-25 22:28:37
73年工人运动现分歧,巴枯宁质问马克思:无产阶级掌权后将统治谁

73年工人运动现分歧,巴枯宁质问马克思:无产阶级掌权后将统治谁

磊子讲史
2026-03-25 12:21:48
闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

侃神评故事
2026-03-21 19:15:03
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
2026-03-26 13:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
教育
时尚
健康
本地

任天堂澄清Switch2游戏定价策略:实体版不会涨价

教育要闻

太管用了!高考俄语二轮复习听力模块得分要点!

2026年了,最好看的还是“这件针织”!

转头就晕的耳石症,能开车上班吗?

本地新闻

春日吃花第三站——广东

无障碍浏览 进入关怀版