网易首页 > 网易号 > 正文 申请入驻

不用千亿参数也能合成高质量数据!开源框架让小模型“组团逆袭”

0
分享至

GRA团队 投稿
量子位 | 公众号 QbitAI

无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升?

上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:

该方法以“多人协作”、“角色分工”的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。

实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5-72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。

该项目已开源,详细可见文末链接。

GRA框架:“模拟论文投稿”

如果说传统方法是单枪匹马生成数据,那GRA更像是一次“模拟顶会审稿流程”——作者、审稿人、AC各就各位,小模型分工合作、打分评审,确保数据内容质量稳定、标准统一。

1.Generator:像“作者”一样创作新样本

GRA会先将任务划分为多个领域(如数学、编程、逻辑推理等),每个Generator小模型负责在对应领域生成新指令与响应。它们从种子数据中提取关键词与摘要,结合领域知识生成高质量样本,确保内容丰富、主题聚焦、语义清晰。

2.Reviewer:像“审稿人”一样严格评审

每条数据生成后,会交由多个Reviewer小模型进行两轮审查:

  • 首先检查指令是否合理、清晰;
  • 然后全面评估响应的正确性、相关性与语言质量,并打分附评语。

系统会根据平均评分与评分一致性筛选样本——分数偏低的直接淘汰,意见分歧的则送入下一环节。

3.Adjudicator:像“AC”一样做出最终裁决

当Reviewer之间出现评分冲突时,Adjudicator小模型将登场,独立复审并做出最终判断。它如同学术审稿中的AreaChair,有效避免“多数误判”,确保留下来的数据客观、可靠。

4.后处理模块:让好数据更“精致”

通过评审后,系统还将进行语义去重、摘要补全与格式统一,进一步提升样本的一致性与表达质量。

总的来说,GRA构建了一个“模拟顶会审稿”的自动化系统:小模型们轮流扮演创作、审阅、仲裁等角色,在多轮协作中生成高质量训练数据。

这种机制不仅提升了数据生成的多样性与公正性,也打破了以往对大模型蒸馏的依赖——实现了真正属于小模型的“集体智能”路径。

实验验证:“三个臭皮匠赛过诸葛亮”

GRA团队选取了覆盖数学推理(如Math、GSM8K)、代码生成(HumanEval、MBPP)、推理问答(HellaSwag、ARC-C、GPQA、BBH)和通识问答(MMLU、IFEval)四个领域的10个公开数据集,以全面评GRA框架的性能。

GRA框架集成了5个参数量在7–8B之间的开源小型语言模型,包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。

将GRA生成的数据用于训练两个基础模型(LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base),并与原始种子数据以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸馏生成的数据进行了系统对比。

实验核心结果表明:

1.明显优于原始数据:GRA生成的数据在LLaMA-3.1上平均提升了6.18%,在Qwen-2.5上平均提升了11.81%,说明即便在小模型之间协作,GRA也能显著提升数据质量和训练效果。

2.能和大模型蒸馏正面硬刚:GRA在LLaMA-3.1生成数据训练的模型性能,仅比Qwen-72B蒸馏版低0.59%;在Qwen-2.5生成数据训练的模型性能,平均领先Qwen-72B蒸馏版达8.83%。表明小模型协同机制有望成为更低成本、更高性价比的大模型替代方案。

3.大模型“更大”≠更好:实验还发现,Qwen-72B相比32B的性能增幅有限,反映出传统蒸馏范式在进一步扩大参数规模时,收益正逐渐递减。相比之下,GRA的“群体智慧”路径更具扩展潜力。

一句话总结:多个小模型合理分工,也能“卷”出媲美甚至超越大模型的训练效果。这不仅节省算力,更可能重塑我们对“什么才是有效数据合成”的认知。

要素分析:“1+1+1>3”

从数据多样性、质量、难度控制等维度对GRA的优势进行分析,发现以下关键因素:

1.数据多样,补充盲区

通过t-SNE可视化对比发现,GRA生成的数据分布明显比原始种子数据和大模型蒸馏数据更广、更均匀,尤其在原始数据未覆盖的语义空间中表现出良好的补充能力。这表明GRA所产数据具备更强的覆盖面和多样性。

2.数据质量靠谱,审得细也审得稳

GRA生成的数据不仅通过多个小模型评审,还在对比实验中获得了来自Qwen-2.5-72B的高分认可——其中超过87.3%的样本评分高度一致。

同时,GRA的评分体系呈现出更平滑、细腻的分布,表明其在数据质量评估中具备更强的分辨力和一致性,验证了其数据筛选机制的可靠性。

3.数据更“难啃”,训练更有效

通过Instruction-Following Difficulty(IFD)指标分析,GRA生成数据的任务难度比种子数据高出14.58%,并且与大模型蒸馏数据基本持平(GRA:75.82%,Qwen-72B蒸馏:75.49%)。这意味着GRA能够构建具挑战性、高知识密度的数据,为小模型提供更具张力的训练样本。

论文地址:https://arxiv.org/abs/2504.12322
项目地址:https://github.com/GX-XinGao/GRA
模型地址:https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天价合同!北京队曾给1球员开出了700万美元的工资

天价合同!北京队曾给1球员开出了700万美元的工资

体育哲人
2026-03-04 13:54:35
英媒评选本赛季十大中锋:大罗第1 凯恩第2 哈兰德第3 德罗巴第6

英媒评选本赛季十大中锋:大罗第1 凯恩第2 哈兰德第3 德罗巴第6

智道足球
2026-03-04 10:52:13
态度转变!特朗普决定出席白宫记者晚宴:因为我在他们眼里是“史上最佳”

态度转变!特朗普决定出席白宫记者晚宴:因为我在他们眼里是“史上最佳”

上观新闻
2026-03-04 11:14:16
我擦!历史第1次,13年了,马刺你这是要统治数据版啊!

我擦!历史第1次,13年了,马刺你这是要统治数据版啊!

体育新角度
2026-03-04 14:29:08
唏嘘!马蓉澳洲超市打零工,时薪22澳元,王宝强豪掷2.5亿拍新片

唏嘘!马蓉澳洲超市打零工,时薪22澳元,王宝强豪掷2.5亿拍新片

今朝牛马
2026-03-02 21:46:30
45岁,我上岸冰岛公务员,年休120天

45岁,我上岸冰岛公务员,年休120天

投稿指南
2026-02-12 00:56:56
班凯罗37+5+6无缘今日最佳球员!因为爱德华兹41+6+2+5创纪录!

班凯罗37+5+6无缘今日最佳球员!因为爱德华兹41+6+2+5创纪录!

Tracy的篮球博物馆
2026-03-04 14:58:13
哈梅内伊有多少资产?或许他才是世界首富,李嘉诚都远不及他

哈梅内伊有多少资产?或许他才是世界首富,李嘉诚都远不及他

张老师担扑
2026-03-02 22:51:06
电力部老同志联名反对李鹏当部长,陈云怒:干部年轻化阻力很大啊

电力部老同志联名反对李鹏当部长,陈云怒:干部年轻化阻力很大啊

楚风说历史
2026-03-02 09:20:03
曼联养狼攻略受益匪浅!年末送分一举两得,副班长连阻两争四劲敌

曼联养狼攻略受益匪浅!年末送分一举两得,副班长连阻两争四劲敌

罗米的曼联博客
2026-03-04 10:43:40
深圳两次“拒绝”网友建议,为何评论区却一致点赞?

深圳两次“拒绝”网友建议,为何评论区却一致点赞?

南方都市报
2026-03-04 14:24:01
美军在中东被捆住手脚,解放军组织海空兵力,进入菲美日澳巡航区

美军在中东被捆住手脚,解放军组织海空兵力,进入菲美日澳巡航区

面包夹知识
2026-03-02 19:06:41
学生返校被逐个开包检查 还用金属探测仪扫描

学生返校被逐个开包检查 还用金属探测仪扫描

闪电新闻
2026-03-03 15:05:21
黄金白银,急跌!什么原因?

黄金白银,急跌!什么原因?

环球网资讯
2026-03-03 21:38:12
47岁的蔡磊,ALSFRS-R评分只剩7分,病情终末,三个约定看哭无数

47岁的蔡磊,ALSFRS-R评分只剩7分,病情终末,三个约定看哭无数

离离言几许
2026-03-01 14:57:21
为什么说南京是一个体制内城市?

为什么说南京是一个体制内城市?

虔青
2026-03-04 07:45:36
伊朗称动用“卡德尔-380”等导弹击中美国驱逐舰

伊朗称动用“卡德尔-380”等导弹击中美国驱逐舰

新华社
2026-03-04 10:39:09
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
她是体坛冠军中的“败类”,为捞钱共侍二夫,坑了44亿逃到美国

她是体坛冠军中的“败类”,为捞钱共侍二夫,坑了44亿逃到美国

削桐作琴
2026-03-02 15:10:50
纯纸上谈兵:伊朗局势的后续推演

纯纸上谈兵:伊朗局势的后续推演

渊海探心
2026-03-03 09:20:03
2026-03-04 15:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12218文章数 176402关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

致美军6死18重伤 伊朗反击"杀手锏"成本仅需5万美元

头条要闻

致美军6死18重伤 伊朗反击"杀手锏"成本仅需5万美元

体育要闻

“头铁”拼图在NBA也有生存环境

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

伊朗,正在打破特朗普的幻想

汽车要闻

续航更长/实用性升级 方程豹钛3/钛7闪充版3月5日亮相

态度原创

教育
旅游
游戏
家居
艺术

教育要闻

麦当劳招实习生!150/天!餐补&七五折员工优惠!弹性不打卡!

旅游要闻

阳春三月 成都龙泉驿满山桃花开|图集

真人版里昂谁来演?外媒提名士兵男孩引争议!

家居要闻

极简无界 静居自安然

艺术要闻

2025“情系塔里木”美术作品展

无障碍浏览 进入关怀版