网易首页 > 网易号 > 正文 申请入驻

阿里发布了开源创新型大模型搜索引擎,实现效率大幅提升,成本降低了近80%,显著超越传统谷歌搜索。

0
分享至

前天,阿里巴巴推出了名为ZeroSearch的创新型大模型搜索引擎,并将其开源。ZeroSearch是一个强化学习框架,无需依赖真实搜索引擎即可激发大模型的搜索能力。它充分利用大模型在大规模预训练中积累的丰富知识,将这些知识转化为一个检索模块,能够根据用户查询生成相关内容。此外,ZeroSearch还能动态调控生成内容的质量,这一特性是传统搜索引擎所不具备的。

研究团队在包括NQ、TriviaQA、PopQA和HotpotQA等7个主流问答数据集上进行了全面评测。结果显示,采用ZeroSearch后,参数量为70亿的监督微调模型搜索能力得分达到33.06,而参数量140亿的模型则取得33.97的成绩,显著优于谷歌搜索的32.47。

在成本方面,通过SerpAPI调用谷歌搜索进行约64,000次查询训练,费用约为586.70美元;而在搭载四块A100 GPU的环境下,使用140亿参数的大模型进行同样规模的模拟训练,成本仅需70.80美元,实现了超过80%的成本节约。

开源地址:https://github.com/Alibaba-nlp/ZeroSearch

笑脸:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

为了应对大模型的幻觉问题并扩展其外部知识来源,检索增强生成(RAG)技术逐渐成为主流。早期的RAG方法主要依赖基于提示的策略,利用大模型进行查询生成、查询拆解和多轮检索,从而整合外部信息,但这类方法对提示设计要求较高,且对模型的推理能力依赖较深。

此外,一些研究尝试通过监督微调和蒙特卡洛树搜索等技术提升模型的搜索能力,虽然在效果上有所突破,但由于计算资源消耗巨大,实际应用中面临较大挑战。

随着DeepSeek-R1、o1等模型的相继问世,强化学习逐渐成为提升模型推理能力的重要手段。这些模型利用奖励机制进行驱动学习,不依赖明确的逐步监督信号,极大改变了模型的逻辑推理方式。

因此,许多工作将强化学习引入大模型搜索领域。例如,Search-R1能够通过强化学习自主生成多个搜索查询;ReSearch则通过强化学习教会模型如何利用搜索结果进行推理,无需监督中间的推理步骤。然而,这些方法通常需要结合像谷歌这样的大型商业搜索引擎才能发挥最佳性能,且运行成本较高。

ZeroSearch 利用强化学习提升大模型的搜索能力,有效避免了依赖真实搜索引擎所带来的高成本和不可控因素。它通过轻量级的监督微调,将大模型转变为一个检索模块,充分发挥了大模型在大规模预训练阶段积累的丰富知识,使模型能够根据输入的查询生成相关或部分噪声的文档。通过调整提示中的关键字,ZeroSearch 可以灵活控制生成内容的质量,从而为后续训练创造多样化的检索环境。

这一能力的实现依赖于收集模型与真实搜索引擎交互时产生的轨迹数据,并对这些数据进行标注和微调。在训练过程中,大模型与真实搜索引擎进行多轮互动,直到生成最终答案。

模板

ChatGPT 4.1 Mini

在训练过程中,详细记录了从模型发起查询、搜索引擎返回文档,到模型根据这些文档生成最终答案的完整交互流程。这些交互轨迹随后经过精细标注,其中能够产生正确答案的被归类为正样本,表明相关文档对结果有积极贡献;而导致错误答案的则被标记为负样本,显示检索到的文档存在干扰。

通过从正负样本中准确提取查询与文档的对应关系,研究人员对大模型进行了轻量级的监督微调。在微调时,他们灵活调整提示中的关键词,比如加入“有用信息”或“噪声信息”,以指导模型生成不同质量的文档内容。同时,将问题及相应答案一并纳入提示,帮助扩展模型的知识范围。

此外,ZeroSearch引入了“课程学习”策略,在训练过程中逐步提高生成文档的难度。这样,模型可以先从较简单的检索任务入手,逐步适应并应对更复杂的检索环境,实现能力的稳步提升。

ZeroSearch通过一个动态调整概率的方法来控制噪声文档的生成比例。训练初期,模型主要接触高质量的文档,以便快速掌握基本的任务要求和输出格式。随着训练进展,逐渐增加噪声文档的比例,促使模型提升推理能力和鲁棒性,应对更加复杂的检索场景。

在强化学习框架下,ZeroSearch采用了多种优化算法,如近端策略优化(PPO)和组相对策略优化,旨在最大化策略模型的预期奖励。这些算法结合了参考模型和精心设计的奖励函数共同驱动模型训练。

奖励机制聚焦于答案的准确性,基于F1分数设计,以兼顾精确率和召回率。此外,为了保持训练过程的稳定性,ZeroSearch引入了损失掩蔽技术,确保梯度仅针对模型自身生成的内容进行更新,从而避免外部文档标签噪声的影响。

训练流程采用多轮交互式的模板,明确区分推理、搜索和答复三个阶段。在推理阶段,模型在 标签中详细表达自身思考过程;若需要更多信息,则通过 标签发起检索请求。检索出的相关文档由模拟搜索引擎生成,并置于 标签中反馈给模型。最后,模型在 标签中给出最终答复。

这种结构化的训练模板不仅提升了模型决策过程的透明度,也增强了其在实际应用场景中的稳定性和可靠性。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

阅微札记
2026-02-22 19:15:15
当183、11岁的儿子大半夜问你要三块钱,能有多吓人?

当183、11岁的儿子大半夜问你要三块钱,能有多吓人?

另子维爱读史
2026-02-12 19:13:18
关于政治最深度最精辟的解释

关于政治最深度最精辟的解释

深度报
2026-02-22 22:47:30
英格兰中场帝星横空出世!已成夏窗香饽饽,引得3大欧洲豪门疯抢

英格兰中场帝星横空出世!已成夏窗香饽饽,引得3大欧洲豪门疯抢

零度眼看球
2026-02-24 12:27:29
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
楼市新信号,二手房业主不愿卖房了!

楼市新信号,二手房业主不愿卖房了!

金融界
2026-02-24 07:59:17
融创董事长孙宏斌去年就称“最困难的时候已经过去了” 今年照样被执行案追着

融创董事长孙宏斌去年就称“最困难的时候已经过去了” 今年照样被执行案追着

新浪财经
2026-02-24 11:08:04
摩根大通CEO戴蒙:眼下美国银行业与2008年金融危机前相似 预计信贷周期最终会再次恶化

摩根大通CEO戴蒙:眼下美国银行业与2008年金融危机前相似 预计信贷周期最终会再次恶化

财联社
2026-02-24 11:04:08
原来一万块钱的威力这么大!网友:钱不是万能的,但没钱寸步难行

原来一万块钱的威力这么大!网友:钱不是万能的,但没钱寸步难行

另子维爱读史
2025-12-30 19:27:54
金正恩是首次佩戴金色劳动党党徽吗?

金正恩是首次佩戴金色劳动党党徽吗?

IN朝鲜
2026-02-23 14:46:41
《熊出没》系列闷声发大财,12部电影或吸金超95亿!出品方华强方特是下一个光线传媒?

《熊出没》系列闷声发大财,12部电影或吸金超95亿!出品方华强方特是下一个光线传媒?

时代周报
2026-02-23 13:44:06
8个月前AI就知道他要杀人!ChatGPT员工争论了很久,选择沉默… 最后8个生命消失在这座小镇....

8个月前AI就知道他要杀人!ChatGPT员工争论了很久,选择沉默… 最后8个生命消失在这座小镇....

英国那些事儿
2026-02-22 22:49:40
妈祖巡游事件的通报,有一个点很奇怪

妈祖巡游事件的通报,有一个点很奇怪

麦杰逊
2026-02-23 13:07:38
当地人也被宰,蓬莱酒楼屡教不改连夜被摘牌,老板透露身份还挣扎

当地人也被宰,蓬莱酒楼屡教不改连夜被摘牌,老板透露身份还挣扎

社会日日鲜
2026-02-24 09:27:23
72万个充电桩,年入40亿,常州夫妇边赚钱边收割,如今要上市了

72万个充电桩,年入40亿,常州夫妇边赚钱边收割,如今要上市了

毒sir财经
2026-02-22 10:38:14
半小时12枚导弹击中基辅!利沃夫恐怖袭击:乌克兰最美的花儿凋谢

半小时12枚导弹击中基辅!利沃夫恐怖袭击:乌克兰最美的花儿凋谢

鹰眼Defence
2026-02-23 17:20:48
四川警方发布情况通报

四川警方发布情况通报

澎湃新闻
2026-02-24 00:00:12
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
火箭125-105轻取爵士 球员评价:4人优秀,卡佩拉及格,4人低迷

火箭125-105轻取爵士 球员评价:4人优秀,卡佩拉及格,4人低迷

篮球资讯达人
2026-02-24 12:58:35
中方从来不予承认!

中方从来不予承认!

占豪
2026-02-23 23:47:55
2026-02-24 13:20:49
moonfdd incentive-icons
moonfdd
福大大架构师每日一题
1135文章数 58关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

特朗普:我不知道还能活多久 很多人都想置我于死地

头条要闻

特朗普:我不知道还能活多久 很多人都想置我于死地

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

商务部将20家日本实体列入关注名单

汽车要闻

淦家阅定调价值战 吉利高阶智驾加速普及

态度原创

房产
旅游
本地
时尚
教育

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

旅游要闻

“幻乐之城”引客来 中牟新区春节文旅市场“热力值”拉满

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

今年春天一定要拥有的针织,这样穿减龄又好看!

教育要闻

寒假?余额不足请充值!

无障碍浏览 进入关怀版