网易首页 > 网易号 > 正文 申请入驻

小模型媲美大模型,阿里通义开源「推理+搜索」预训练新框架

0
分享至

  • 通义实验室 投稿
    量子位 | 公众号 QbitAI

为提升大模型“推理+搜索”能力,阿里通义实验室出手了。

最新研究开源全新通用预训练框架——MaskSearch,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。

小模型甚至能媲美大模型表现。

在推理+搜索方向,通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作,通过在特定的下游任务进行强化学习训练,让大模型在与环境交互的过程中学习使用搜索引擎。

该团队认为,仅在特定任务上训练会导致模型的泛化能力受限,难以适应更多场景下的检索推理任务。

受BERT模型在预训练过程中使用的掩码(Mask)预测任务启发,MaskSearch引入了检索增强型掩码预测任务

也就是让模型使用搜索工具,预测文本中被遮蔽的部分,在预训练过程中有效学习通用的任务分解、推理等智能体策略,同时熟练掌握搜索引擎的使用方法,为其后续适配多领域任务奠定基础。

不仅如此,MaskSearch可以兼容监督微调(SFT)和强化学习(RL)两种训练方法。

通过加入预训练的二阶段训练,MaskSearch相比只在下游任务进行训练的基线方法,在多个开放域问答数据集上有明显效果提升。

MaskSearch长啥样?

接下来,一起来深入探究MaskSearch的核心架构与运作机制。

★任务定义

检索增强型掩码预测(RAMP)作为 MaskSearch 的预训练任务,其核心要义在于:

在输入的文本序列中,对关键信息进行掩码处理,模型需主动借助外部知识库 ,调用搜索工具来预测这些被掩盖的文本片段。

为了提升被掩码部分的难度,除了在过去掩码预测任务中常被遮蔽的命名实体(如人名、地名、组织名等)、日期和数字,MaskSearch还考虑了以下几类关键信息:

  • 本体知识:文本中涉及的分类体系或知识体系中的关键概念;
  • 特定术语:针对特定领域或主题的专业术语;
  • 数值:文本中涉及的具体数值,如统计数据、测量值等。

这不仅增加了任务的难度,还促使模型在检索和推理过程中更加精细化地处理信息,从而提升其在多领域任务中的适应能力和泛化能力。

★训练方法

监督微调

为了生成用于监督微调(Supervised Finetuning, SFT)的思维链(CoT)数据,作者提出一种结合Agent合成与蒸馏(Distillation)的数据生成方法,具体包括:

  • Agent合成: 首先,搭建多智能体系统,纳入规划、搜索改写、观察分析等角色,协同进行思维链的生成任务。最终由一个LLM负责答案判断,仅保留正确答案的思维链。
  • 蒸馏:为了快速扩展数据集并保持高质量,使用已有数据训练后的教师模型,直接生成推理轨迹,并逐步迭代教师模型,从而逐步提升数据质量。

强化学习

强化学习部分,作者采用了动态采样策略优化(DAPO)算法,构建混合奖励(Hybrid Reward)系统——格式奖励检查模型输出是否符合指定格式,回答奖励则评估生成答案与标准答案的一致性。

作者探索了多种回答奖励函数,最终选择基于模型的奖励函数,使用Qwen2.5-72B-Instruct模型作为评判,为生成答案和标准答案的一致性进行打分。

课程学习

为了帮助从易到难依次学习,作者提出依据掩码数量对训练样本进行难度分级,让模型首先通过简单样本学习基础推理技能,然后逐步提升能力以应对更具挑战性的场景。

实验结果如何?

★主要结果

作者通过基于不同大小的Qwen和LLaMA模型的实验证明,两阶段MaskSearch训练框架显著提升了大模型的搜索和推理能力。

遵循以RAMP作为预训练任务,HotpotQA数据集作为下游任务的训练流程,MaskSearch在领域内(in-domain)数据集上稳定提升模型召回率;在Bamboogle等领域外数据集上,性能提升更为显著,小模型甚至能媲美大模型表现,验证了RAMP作为可扩展学习信号的有效性。

实验进一步验证了监督学习(SFT)与强化学习(RL)两种训练方式与MaskSearch框架的兼容性。

其中,RL在RAMP任务上展现出更高性能上限,尤其在HotpotQA等领域内任务中,在所有大小的Qwen模型都取得了最优效果。

这表明RL通过动态采样策略和混合奖励机制,能更精准优化模型的多步搜索与推理流程,为提升检索增强模型的适应性提供了更强的训练范式。

★Scaling性能

在监督学习的场景下,作者通过不同训练步数实验验证 MASKSEARCH 的可扩展性:

小模型(如1B)经预训练后性能提升显著,而大模型(如 7B)受限于自进化数据的多样性,性能增益相对平缓,但召回率分数仍相对仅微调模型有所增长。

这证明 RAMP 对不同规模模型均有持续提升的潜力,也表明数据质量和多样性是决定 SFT 方法模型性能上限的关键因素。

★监督课程学习效果

此外,实验验证了基于掩码数量设计的课程学习训练策略。

具体方法是训练时按掩码数量分层采样数据,每个数量对应10K训练样本,配合6K HotpotQA数据维持任务平衡。当掩码数量从1逐步增至4时,Qwen2.5-7B模型在验证集上的得分明显增加,且显著高于将不同数量掩码的数据混合训练时的表现。

此外,在下游任务上课程学习也有进一步提升模型训练后表现的效果,验证了难度梯度设计对推理能力构建的促进作用。

★更多分析

1、掩码策略影响

掩码策略是影响RAMP预训练任务难度的另一重要因素。

作者对比了随机掩码与基于困惑度(PPL)的难度导向掩码策略,也就是通过计算模型恢复掩码时的损失值(即困惑度),优先选择恢复难度高的部分进行遮蔽。

实验显示,PPL策略在FanoutQA数据集上提升模型召回率,但在其它数据集中也会因过度追求难度导致性能下降,表明任务难度仍需要与模型当前搜索和推理能力相匹配。

因此,结合课程学习的训练策略平衡难度,能够在整体上获得更优效果。

2、RL奖励函数影响

在强化学习训练过程中,不同奖励函数对模型性能影响各异。

以Qwen2.5-7b模型为例,基于token级召回率的奖励函数促使模型为提升召回率,向答案中堆砌大量无关信息,致使回答长度大幅增加,相较于其它RL奖励函数实际性能显著下滑。

尽管引入惩罚项以抑制回答长度,能在一定程度上减少信息冗余,但模型仍可在有限长度内通过枚举方式钻规则漏洞。

相较而言,基于模型的奖励函数表现出最佳性能,在模型生成的回答长度、token级召回率以及经Qwen72b模型评判的分数上,均优于其它两种奖励方法,有效规避奖励欺骗问题,且RL训练全程表现出卓越的稳定性和高效性。

总之,MaskSearch致力于提升大型语言模型(LLM)的智能体推理+搜索能力。该框架依托检索增强型掩码预测(RAMP)预训练任务,赋能模型自主执行多步搜索与推理,填补文本中的掩码空白,实现外部知识的深度整合。经监督微调(SFT)与强化学习(RL)双重训练路径锤炼,并引入课程学习策略,MaskSearch在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。

Paper: https://arxiv.org/abs/2505.20285
GitHub: https://github.com/Alibaba-NLP/MaskSearch

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解除暴雨蓝色预警!山东强降雨范围明显减小 今天下午起仍有一次强对流天气

解除暴雨蓝色预警!山东强降雨范围明显减小 今天下午起仍有一次强对流天气

闪电新闻
2026-06-29 07:43:14
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
中超第3主场崩盘:连丢4球,惨遭逆转,上海申花超越上海海港

中超第3主场崩盘:连丢4球,惨遭逆转,上海申花超越上海海港

足球狗说
2026-06-28 21:00:13
日本媒体:板仓滉已回归日本队合练,有望赶上对阵巴西比赛

日本媒体:板仓滉已回归日本队合练,有望赶上对阵巴西比赛

懂球帝
2026-06-29 05:02:35
规则你们定的,现在玩不起了?法国媒体发现中国反击的套路很眼熟

规则你们定的,现在玩不起了?法国媒体发现中国反击的套路很眼熟

忠于法纪
2026-06-29 09:29:38
上海市民骑哈啰单车称遭遇“价格刺客”,骑79分钟收费30元!哈啰回应:建议用户骑行前留意价格信息,避免误骑高价车辆

上海市民骑哈啰单车称遭遇“价格刺客”,骑79分钟收费30元!哈啰回应:建议用户骑行前留意价格信息,避免误骑高价车辆

三湘都市报
2026-06-28 19:30:46
又是“断交”,又要“退出北约”,他是疯了?还是悟了?

又是“断交”,又要“退出北约”,他是疯了?还是悟了?

新财迷
2026-06-29 09:22:31
咫尺天涯?姆巴佩加冕世界杯历史射手王的希望,已经愈发渺茫了

咫尺天涯?姆巴佩加冕世界杯历史射手王的希望,已经愈发渺茫了

夕落秋山
2026-06-29 10:23:29
打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

小柱解说游戏
2026-06-16 07:38:45
乘客:等办完事就下来!网约车司机回怼解气,同行:兄弟,别逞强,平台扣你6元

乘客:等办完事就下来!网约车司机回怼解气,同行:兄弟,别逞强,平台扣你6元

用车指南
2026-06-29 10:02:48
莱因克尔:法国若碰德国会轻松晋级,这支德国是我见过最弱的

莱因克尔:法国若碰德国会轻松晋级,这支德国是我见过最弱的

懂球帝
2026-06-29 05:02:35
私生活混乱、被央视“开除”、陪睡上位,她身上哪个标签是真的?

私生活混乱、被央视“开除”、陪睡上位,她身上哪个标签是真的?

素衣读史
2026-06-18 21:37:31
新娘索要8万8下车费,婆婆笑着转账,婚宴致辞时婆婆:我说一件事

新娘索要8万8下车费,婆婆笑着转账,婚宴致辞时婆婆:我说一件事

千秋文化
2026-06-18 20:16:23
ESPN:C罗身体素质惊人但毕竟41了,哈兰德梅西都轮休他也该轮休

ESPN:C罗身体素质惊人但毕竟41了,哈兰德梅西都轮休他也该轮休

兰亭墨未干
2026-06-28 15:49:22
雷军吃面事件仍在发酵!高德地图找到5月23日的照片,没蓝色地垫

雷军吃面事件仍在发酵!高德地图找到5月23日的照片,没蓝色地垫

火山詩话
2026-06-28 08:30:51
41岁C罗刷爆世界杯纪录,他对中国和韩国为何两副面孔?

41岁C罗刷爆世界杯纪录,他对中国和韩国为何两副面孔?

翰飞观事
2026-06-28 14:26:00
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
这一次我为日本点赞!

这一次我为日本点赞!

安安说
2026-06-29 10:58:11
郑钦文谈黑粉:你们黑我的时候,不怕有一天被我打脸吗?

郑钦文谈黑粉:你们黑我的时候,不怕有一天被我打脸吗?

懂球帝
2026-06-28 23:02:10
日本队真到可以战胜巴西的时候了吗?世界杯1/16决赛前瞻

日本队真到可以战胜巴西的时候了吗?世界杯1/16决赛前瞻

世界BALL
2026-06-29 09:30:40
2026-06-29 11:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12859文章数 176506关注度
往期回顾 全部

科技要闻

OpenAI推迟上市,那“Kimi们”呢?

头条要闻

牛弹琴:武契奇提前辞去总统职务 一盘新棋局才刚开始

头条要闻

牛弹琴:武契奇提前辞去总统职务 一盘新棋局才刚开始

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

萧蔷宣布捐出参加“浪姐”所有收入

财经要闻

35岁职场人,又好找工作了?

汽车要闻

精致大气 尊界V800诠释顶级体验的新旗舰MPV

态度原创

教育
时尚
本地
艺术
房产

教育要闻

初中竞赛题,多数同学漏掉答案吗,老师很生气

夏天裤子别总穿紧身的,试试这几款阔腿裤,百搭舒适又显瘦

本地新闻

贵州小城的新目标:举办“村超”世界杯!

艺术要闻

晚明"四大天王"手稿,看了方知书法妙!

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

无障碍浏览 进入关怀版