网易首页 > 网易号 > 正文 申请入驻

0.002美元撬动顶级研究力,开源AI助手匹敌OpenAI商用系统

0
分享至

近日,美国华盛顿大学博士生邵如琳和合作团队打造出一个名为 Deep Research Tulu(DR Tulu)的深度研究小助手。使用一次 OpenAI 的 Deep Research 服务可能需要大约 1.8 美元,而 DR Tulu 使用一次的成本却不到 0.002 美元,这几乎是千倍的效率提升,这意味着未来个人或者小团队也能负担得起高质量、高可信度的 AI 研究服务。

DR Tulu 是一个拥有超级大脑且会熟练使用搜索引擎的科研助手。当你问它一个问题时,它不会只是简单地给你一列网页链接,而是会像一位真正的研究员那样,先去思考如何解决你的问题,然后主动查找各种资料比如网页和论文,最终为你整理出一份条理清晰、有根有据、带着详细出处说明的长篇答案。


(来源:资料图)

DR Tulu 的表现大幅超越了所有其他公开可用的、专为搜索设计的 AI 模型,包括一些体型比它大的模型,证明了“小模型+好方法”也能做出大成就。

它的表现匹敌甚至超越了 OpenAI、Google 等公司的顶级商用深度研究系统,比如 OpenAI 的 Deep Research、谷歌的 Gemini Pro + Search。要知道,这些系统背后的技术往往不公开,而且使用成本非常高昂。

同时,DR Tulu 会坦诚地承认自己的知识边界,并主动查找和核实信息,从而尽可能减少回答中的"幻觉"。DR Tulu 还会在回答中提供详细的文献依据,方便用户交叉验证。目前业界尚无成熟的训练方法和数据来实现这一目标。DR Tulu 的这些能力源于一项新型训练方法及其配套框架,使 AI 与评估器在训练过程中协同进化、相互提升。


图 | 邵如琳(来源:邵如琳)

为了让 DR Tulu 成为一个优秀的研究员,研究人员并没有简单地把它丢进一堆问题里去死记硬背,而是像训练一位聪明的学徒以分为两步走:

第一步是名师出高徒,研究人员请来几位非常厉害的 AI 老师比如 GPT-5。这些老师本身就擅长查找资料和回答问题。研究人员让 AI 老师们在回答成千上万个问题的过程中,把它们如何思考、如何搜索、如何组织答案的每一步都记录下来。这些记录下来的标准答案步骤,成为了 DR Tulu 学习的第一手教材。通过模仿这些步骤,DR Tulu 学会了当一名研究员的基本功。

第二步是在实战中进化,光会模仿还不够,为了让它变得更强大,研究人员发明了一个名为带有进化评分标准的强化学习的方法。

传统方法就像老师拿着一份固定的评分表,用它来给学生的作业打分。学生可能会为了得高分,投机取巧地满足这些死板的条目,而忽略了真正的理解和创造。

研究人员发现,AI 在回答复杂问题的时候,好坏标准很难用几张固定的评分表说清楚。于是,他们让评分标准也跟着 AI 的学习一起进化。

具体来说,在训练中 DR Tulu 会试着回答很多问题,并能得到多个版本的答案。然后,另一个 AI 也就是评分官会仔细对比这些答案,动态地发现新的优点和缺点,并把它们作为新的评分标准。

这样,评分标准就会越来越贴近 AI 当前的真实水平,能更好地鉴别出高质量的回答。同时,这些标准总是基于最新搜索到的真实知识,而不是 AI 自己想象出来的内容。这样一来,DR Tulu 就能在不断的挑战和反馈中持续进步,学会搜索以及通过综合信息来给出可靠的答案。


(来源:资料图)

研究人员在四个涵盖学术、医疗等领域的现有 Deep Research 基准上测试了 DR Tulu 的表现。结果显示,DR Tulu 达到了当前最优水平(SOTA),与市面上表现最佳的 OpenAI Deep Research 相当,而成本仅为其千分之一。


(来源:资料图)

为了检验 DR Tulu 解决现实世界难题的能力,研究人员设计了一个新挑战:分析致病基因变异。这是一个非常专业的医学遗传学问题,需要从海量的科学论文和数据库中查找信息,判断一个特定的基因变异如何导致疾病,以及它是否适合采用某些前沿的治疗方法比如基因疗法。

为此,研究人员创建了包含 47 个此类问题的基因疾病问答数据集。DR Tulu 在这个它从未专门学习过的领域,表现出了较强的泛化能力即解决新问题的能力。它不仅能够找到相关的科学证据,还能将这些证据组织起来进行比较和综合,清晰地解释变异的致病机理。

虽然在最终答案上的准确性上略逊于使用最强商用大模型的系统,但是在证据支持方面 DR Tulu 做得较为出色。对于专业用户比如医学用户来说,这比一个看似正确但无法验证的简单答案更有价值,因为他们可以依据 DR Tulu 提供的详细引文去追溯和核实。

另据悉,研究人员针对 DR Tulu 进行了完全开放:训练代码、数据、模型参数等目前已经全部公开。

参考资料:

代码链接:https://github.com/rlresearch/dr-tulu

数据及模型链接:https://huggingface.co/collections/rl-research/dr-tulu

https://arxiv.org/abs/2511.19399

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一问到底丨马杜罗是怎么“得罪”特朗普的,南美真是美国“后花园”吗?

一问到底丨马杜罗是怎么“得罪”特朗普的,南美真是美国“后花园”吗?

上游新闻
2026-01-04 15:29:26
特朗普,下一个目标已经确定 | 地球知识局

特朗普,下一个目标已经确定 | 地球知识局

地球知识局
2026-01-04 15:27:25
特朗普突然发动战争,中国代表团还在委内瑞拉!

特朗普突然发动战争,中国代表团还在委内瑞拉!

胜研集
2026-01-03 17:14:34
亚历山大狂妄发言遭全网群嘲!难道你把掘金尼克斯火箭当空气?

亚历山大狂妄发言遭全网群嘲!难道你把掘金尼克斯火箭当空气?

田先生篮球
2026-01-04 10:28:43
中国的某些军事专家和“神棍” 差不多!

中国的某些军事专家和“神棍” 差不多!

回旋镖
2026-01-04 17:00:38
委内瑞拉曾多次将美国石油公司“国有化”,无视国际仲裁补偿,终演变为军事冲突

委内瑞拉曾多次将美国石油公司“国有化”,无视国际仲裁补偿,终演变为军事冲突

回旋镖
2026-01-04 19:21:13
深度 | 强掳马杜罗还不够?委内瑞拉之后,特朗普还有下一个目标?

深度 | 强掳马杜罗还不够?委内瑞拉之后,特朗普还有下一个目标?

上观新闻
2026-01-04 20:20:07
王毅同巴基斯坦副总理兼外长达尔举行中巴外长战略对话

王毅同巴基斯坦副总理兼外长达尔举行中巴外长战略对话

界面新闻
2026-01-04 22:41:22
打脸了!多地宣布居民医保缴费延期,400元真的交不起吗?

打脸了!多地宣布居民医保缴费延期,400元真的交不起吗?

财话连篇
2026-01-04 17:16:33
神秘账户精准押注“马杜罗被抓”,一天狂赚超1200%

神秘账户精准押注“马杜罗被抓”,一天狂赚超1200%

都市快报橙柿互动
2026-01-04 16:20:19
20岁中国籍女网红在柬埔寨街头流浪,面容憔悴,腿疑似受伤,母亲最新发声:一个柬埔寨的电话打来叫我们去接人

20岁中国籍女网红在柬埔寨街头流浪,面容憔悴,腿疑似受伤,母亲最新发声:一个柬埔寨的电话打来叫我们去接人

扬子晚报
2026-01-04 18:37:09
为什么还要掳走马杜罗夫人?

为什么还要掳走马杜罗夫人?

扬子晚报
2026-01-04 22:11:21
邱彪摔衣服被罚下,激发全队斗志,山东男篮逆转南京 高诗岩25+11

邱彪摔衣服被罚下,激发全队斗志,山东男篮逆转南京 高诗岩25+11

替补席看球
2026-01-04 21:49:04
这就是皇马!外租新星频繁打出亮眼表现,明年将会集体回归伯纳乌

这就是皇马!外租新星频繁打出亮眼表现,明年将会集体回归伯纳乌

里芃芃体育
2026-01-05 03:00:03
田朴珺删光王石合影,王石:每晚最难熬是等她回家,不知道回不回

田朴珺删光王石合影,王石:每晚最难熬是等她回家,不知道回不回

眉眼动人
2026-01-04 11:41:23
马杜罗被抓后,金正恩作出重要指示,朝鲜向日韩方向发射弹道导弹

马杜罗被抓后,金正恩作出重要指示,朝鲜向日韩方向发射弹道导弹

素年文史
2026-01-04 14:27:24
美国对马杜罗动手后,这个美国高官“火”了

美国对马杜罗动手后,这个美国高官“火”了

环球时报国际
2026-01-04 22:08:17
悲催!网传江苏一注册5000万科技公司停业,结清工资,称长期亏损

悲催!网传江苏一注册5000万科技公司停业,结清工资,称长期亏损

火山詩话
2026-01-04 05:54:30
双星鞋业家族内斗!84岁创始人宣布断绝父子关系,曾曝出抢公章“夺权”

双星鞋业家族内斗!84岁创始人宣布断绝父子关系,曾曝出抢公章“夺权”

红星新闻
2026-01-04 19:54:28
“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

菁妈育儿
2026-01-03 12:44:30
2026-01-05 03:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16081文章数 514448关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

手机
家居
本地
时尚
公开课

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

家居要闻

黑白碰撞 个性多元冷冽风

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版