网易首页 > 网易科技 > 网易科技 > 正文

阿里开源"零搜索":AI自学检索能力,训练成本砍掉88%

0
分享至

5月9日消息,阿里巴巴集团研究人员近日开发出创新方法,可显著降低人工智能信息检索训练的成本与复杂性,有望彻底摆脱对昂贵商业搜索引擎API的依赖。

这项技术名为“零搜索”(ZeroSearch),通过模拟训练的方式使大语言模型(LLM)形成高级搜索能力,全程无需调用真实搜索引擎。这项创新不仅有助于企业节省大量API费用,还赋予开发者更多的控制力,以优化人工智能系统在信息检索方面的学习过程。

研究团队在近日发表于arXiv的论文中指出:“强化学习训练需要频繁推演策略,可能涉及数十万次请求,导致巨额API开销并严重制约扩展性。为应对这些挑战,我们提出了‘零搜索’框架,一种无需依赖真实搜索引擎的强化学习方案,能够有效培养LLM的检索能力。”



"零搜索"如何实现无需搜索引擎的AI训练?

“零搜索”技术所解决的是一个困扰行业已久的核心问题:开发具备自主信息检索能力的人工智能助手时,通常面临两大挑战:一是训练过程中由搜索引擎返回的文档质量不可控,二是数十万次调用谷歌等商业搜索引擎API所带来的高昂费用。

阿里巴巴的解决方案从轻量级的监督微调入手,先将LLM转化为一个检索模块,使其能够根据查询生成相关和不相关的文档。在强化学习训练过程中,研究人员采用了一种名为curriculum-based rollout strategy的方法,逐步降低生成文档的质量,以提升模型的辨别能力。

研究人员解释道:“我们的关键发现是,LLM在大规模预训练中已积累了丰富的世界知识,且具备在给定查询条件下生成相关文档的能力。与真实搜索引擎相比,模拟生成的内容在文本风格上存在差异,但在信息相关性方面却能相媲美。”

低成本实现超越谷歌的性能

在涵盖七个问答数据集的综合实验中,“零搜索”技术训练出的模型不仅表现与真实搜索引擎训练的模型相当,甚至在多个任务中实现超越。尤其值得一提的是,7B参数的检索模块已可达到谷歌搜索的性能水平,而14B参数的模型则在多个指标上超越了谷歌。

成本节约同样显著。据研究团队测算,使用SerpAPI调用谷歌搜索处理约6.4万次查询,成本约为586.70美元;而在四块A100 GPU上运行14B参数的模拟LLM,仅需70.80美元,节省幅度高达88%。研究人员指出:“这一结果表明,在强化学习设置中,用训练有素的LLM替代真实搜索引擎是完全可行的。”

将对AI发展产生深远影响

“零搜索”标志着人工智能系统训练方法的一次重大突破与转型。它表明,人工智能系统可以在无需依赖外部工具(如搜索引擎)的前提下,不断提升自身的信息检索能力。

这项技术对于AI行业的意义尤为重大。长期以来,训练先进人工智能系统往往依赖于由大型科技公司掌控的商业搜索API,训练成本居高不下。而“零搜索”打破了这一格局,让人工智能可以通过模拟实现自主搜索,从而摆脱对外部搜索服务的依赖。

对于预算有限的小型人工智能公司和初创企业而言,这无疑是一个利好消息。API成本的高门槛一直是开发复杂智能助手的一大障碍。“零搜索”在通过将成本削减近90%的同时,也为更多企业打开了进入先进人工智能领域的大门。

此外,使用模拟搜索还能为开发者提供更高的可控性。真实搜索引擎返回的内容质量参差不齐,难以精确控制训练数据。而在模拟环境下,开发者可以定制训练语料,系统性地塑造模型的学习路径。

“零搜索”技术已被验证可适用于多种模型家族,包括Qwen-2.5和LLaMA-3.2,并支持基础版本与指令调优版本。研究团队已将相关代码、数据集和预训练模型开源发布于GitHub和Hugging Face,供业内研究人员和企业使用与测试。

随着大语言模型不断演进,像“零搜索”这样的技术预示着,未来人工智能系统将更多依赖自我模拟来发展复杂的能力,而非依靠外部服务。这不仅可能重塑人工智能开发的经济模式,还将降低整个行业对大型平台的依赖。

颇具讽刺性的是,在教会人工智能如何不依赖搜索引擎进行搜索的过程中,阿里巴巴或许创造了一项使搜索引擎在人工智能训练中变得可有可无的技术。随着这些系统变得愈加自给自足,未来的技术生态或将在短短几年内发生翻天覆地的变化。(小小)

延伸阅读
相关推荐
热点推荐
性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

药师说健康
2025-12-05 09:47:10
一家老小入住重庆一酒店4个月拖欠房费4000多,老板倒贴也不肯搬,进展:搬走了

一家老小入住重庆一酒店4个月拖欠房费4000多,老板倒贴也不肯搬,进展:搬走了

潇湘晨报
2025-12-07 18:59:10
压轴王者!新机官宣:12月25日,即将发布上市!

压轴王者!新机官宣:12月25日,即将发布上市!

科技堡垒
2025-12-07 12:02:22
梅西:我们是冠军!感谢阿尔巴和布斯克茨在这段冒险中陪伴我

梅西:我们是冠军!感谢阿尔巴和布斯克茨在这段冒险中陪伴我

懂球帝
2025-12-07 13:31:50
退出政坛换取赦免?内塔尼亚胡拒绝!特朗普帮忙“求情”,以总统回应:以色列是主权国家

退出政坛换取赦免?内塔尼亚胡拒绝!特朗普帮忙“求情”,以总统回应:以色列是主权国家

每日经济新闻
2025-12-07 23:05:04
强势定调!严禁唱衰房地产,舆论战和救市一起上

强势定调!严禁唱衰房地产,舆论战和救市一起上

阿纂看事
2025-12-05 09:23:43
萨拉赫称凯恩曾10场不进球,opta:凯恩生涯没有过6场首发球荒

萨拉赫称凯恩曾10场不进球,opta:凯恩生涯没有过6场首发球荒

懂球帝
2025-12-07 22:53:55
职称公示58人48个假名,连夜下架遮丑,黑料越挖越多,网友质疑!

职称公示58人48个假名,连夜下架遮丑,黑料越挖越多,网友质疑!

你食不食油饼
2025-12-07 06:00:09
马斯克被干懵了:特斯拉全球第4,前3全是中国车,小米都排第7了

马斯克被干懵了:特斯拉全球第4,前3全是中国车,小米都排第7了

互联网.乱侃秀
2025-12-07 11:37:05
1000年前的古画,竟然看到一个小孩在用“吸管杯”,网友:不稀奇,唐代就有!

1000年前的古画,竟然看到一个小孩在用“吸管杯”,网友:不稀奇,唐代就有!

坦腹斋
2025-12-06 18:11:00
医疗反腐要倒查十年:一退休整十年的三甲医院院长被查

医疗反腐要倒查十年:一退休整十年的三甲医院院长被查

金水路7号站
2025-12-07 11:52:11
6国宣布出兵!中方不低头也得低?扬言和中方斗到底!

6国宣布出兵!中方不低头也得低?扬言和中方斗到底!

花花娱界
2025-12-06 19:38:20
突发特讯!人民海军向全世界通告:日本战机滋扰辽宁号航母战斗群演习,被我火控雷达照射,引全球高度关注

突发特讯!人民海军向全世界通告:日本战机滋扰辽宁号航母战斗群演习,被我火控雷达照射,引全球高度关注

青风点评
2025-12-07 19:31:09
大反转!库皮扬斯克市内俄军遭全歼,美国又开始向乌交付武器

大反转!库皮扬斯克市内俄军遭全歼,美国又开始向乌交付武器

史政先锋
2025-12-07 12:10:49
海军新闻发言人就辽宁舰航母编队远海训练发布消息

海军新闻发言人就辽宁舰航母编队远海训练发布消息

界面新闻
2025-12-07 12:51:11
被拐30年儿子认亲14小时就走,全程冷脸,网友:穷家标签太刺眼

被拐30年儿子认亲14小时就走,全程冷脸,网友:穷家标签太刺眼

老特有话说
2025-12-06 17:31:27
终于知道给马克龙献花的清纯女孩了!梳马尾辫颜值极高把人美到了

终于知道给马克龙献花的清纯女孩了!梳马尾辫颜值极高把人美到了

一盅情怀
2025-12-07 14:51:39
雅迪争议电动车已下架?记者实探线下门店仍在出售,店主介绍时直摇头没人买,客服:该车型正持续优化

雅迪争议电动车已下架?记者实探线下门店仍在出售,店主介绍时直摇头没人买,客服:该车型正持续优化

极目新闻
2025-12-06 14:36:34
最瘆人文物:装人头的青铜蒸锅!这个15岁少女经历了什么?

最瘆人文物:装人头的青铜蒸锅!这个15岁少女经历了什么?

收藏大视界
2025-12-06 20:35:41
首日票房破亿,《得闲谨制》已打破8项纪录

首日票房破亿,《得闲谨制》已打破8项纪录

扬子晚报
2025-12-07 14:04:32
2025-12-08 01:32:49

科技要闻

独家|李笛再创业,炮轰大模型,再战AI

头条要闻

高志凯:日本与中国竞争已感到绝望 想拉美国下水

头条要闻

高志凯:日本与中国竞争已感到绝望 想拉美国下水

体育要闻

梅开48度!2年半,这是梅西在迈阿密的一人一城

娱乐要闻

林俊杰AAA颁奖礼,韩娱爱豆均站起鞠躬

财经要闻

五粮液降价?回应来了

汽车要闻

传奇超跑电动形态重生 雷克萨斯LFA纯电概念车

态度原创

本地
房产
手机
公开课
军事航空

本地新闻

云游安徽|七千年叙事,第一章写在蚌埠

房产要闻

封关启幕宜居新时代!观岚森屿定义三亚旅居度假新范本

手机要闻

华为Mate80系列:已推送新系统版本!花粉:还没抢到呢

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日本称中方雷达照射日战机 国防部回应

无障碍浏览 进入关怀版
×