网易首页 > 网易号 > 正文 申请入驻

不用千亿参数也能合成高质量数据!开源框架让小模型“组团逆袭”

0
分享至

GRA团队 投稿
量子位 | 公众号 QbitAI

无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升?

上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:

该方法以“多人协作”、“角色分工”的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。



实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5-72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。



该项目已开源,详细可见文末链接。

GRA框架:“模拟论文投稿”



如果说传统方法是单枪匹马生成数据,那GRA更像是一次“模拟顶会审稿流程”——作者、审稿人、AC各就各位,小模型分工合作、打分评审,确保数据内容质量稳定、标准统一。

1.Generator:像“作者”一样创作新样本

GRA会先将任务划分为多个领域(如数学、编程、逻辑推理等),每个Generator小模型负责在对应领域生成新指令与响应。它们从种子数据中提取关键词与摘要,结合领域知识生成高质量样本,确保内容丰富、主题聚焦、语义清晰。

2.Reviewer:像“审稿人”一样严格评审

每条数据生成后,会交由多个Reviewer小模型进行两轮审查:

  • 首先检查指令是否合理、清晰;
  • 然后全面评估响应的正确性、相关性与语言质量,并打分附评语。

系统会根据平均评分与评分一致性筛选样本——分数偏低的直接淘汰,意见分歧的则送入下一环节。

3.Adjudicator:像“AC”一样做出最终裁决

当Reviewer之间出现评分冲突时,Adjudicator小模型将登场,独立复审并做出最终判断。它如同学术审稿中的AreaChair,有效避免“多数误判”,确保留下来的数据客观、可靠。

4.后处理模块:让好数据更“精致”

通过评审后,系统还将进行语义去重、摘要补全与格式统一,进一步提升样本的一致性与表达质量。

总的来说,GRA构建了一个“模拟顶会审稿”的自动化系统:小模型们轮流扮演创作、审阅、仲裁等角色,在多轮协作中生成高质量训练数据。

这种机制不仅提升了数据生成的多样性与公正性,也打破了以往对大模型蒸馏的依赖——实现了真正属于小模型的“集体智能”路径。

实验验证:“三个臭皮匠赛过诸葛亮”

GRA团队选取了覆盖数学推理(如Math、GSM8K)、代码生成(HumanEval、MBPP)、推理问答(HellaSwag、ARC-C、GPQA、BBH)和通识问答(MMLU、IFEval)四个领域的10个公开数据集,以全面评GRA框架的性能。

GRA框架集成了5个参数量在7–8B之间的开源小型语言模型,包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。

将GRA生成的数据用于训练两个基础模型(LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base),并与原始种子数据以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸馏生成的数据进行了系统对比。



实验核心结果表明:

1.明显优于原始数据:GRA生成的数据在LLaMA-3.1上平均提升了6.18%,在Qwen-2.5上平均提升了11.81%,说明即便在小模型之间协作,GRA也能显著提升数据质量和训练效果。

2.能和大模型蒸馏正面硬刚:GRA在LLaMA-3.1生成数据训练的模型性能,仅比Qwen-72B蒸馏版低0.59%;在Qwen-2.5生成数据训练的模型性能,平均领先Qwen-72B蒸馏版达8.83%。表明小模型协同机制有望成为更低成本、更高性价比的大模型替代方案。

3.大模型“更大”≠更好:实验还发现,Qwen-72B相比32B的性能增幅有限,反映出传统蒸馏范式在进一步扩大参数规模时,收益正逐渐递减。相比之下,GRA的“群体智慧”路径更具扩展潜力。

一句话总结:多个小模型合理分工,也能“卷”出媲美甚至超越大模型的训练效果。这不仅节省算力,更可能重塑我们对“什么才是有效数据合成”的认知。

要素分析:“1+1+1>3”

从数据多样性、质量、难度控制等维度对GRA的优势进行分析,发现以下关键因素:

1.数据多样,补充盲区

通过t-SNE可视化对比发现,GRA生成的数据分布明显比原始种子数据和大模型蒸馏数据更广、更均匀,尤其在原始数据未覆盖的语义空间中表现出良好的补充能力。这表明GRA所产数据具备更强的覆盖面和多样性。



2.数据质量靠谱,审得细也审得稳

GRA生成的数据不仅通过多个小模型评审,还在对比实验中获得了来自Qwen-2.5-72B的高分认可——其中超过87.3%的样本评分高度一致。

同时,GRA的评分体系呈现出更平滑、细腻的分布,表明其在数据质量评估中具备更强的分辨力和一致性,验证了其数据筛选机制的可靠性。



3.数据更“难啃”,训练更有效

通过Instruction-Following Difficulty(IFD)指标分析,GRA生成数据的任务难度比种子数据高出14.58%,并且与大模型蒸馏数据基本持平(GRA:75.82%,Qwen-72B蒸馏:75.49%)。这意味着GRA能够构建具挑战性、高知识密度的数据,为小模型提供更具张力的训练样本。



论文地址:https://arxiv.org/abs/2504.12322
项目地址:https://github.com/GX-XinGao/GRA
模型地址:https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
自恋型人格专家分析梅西的演讲,得到结论:梅西始终纯粹!

自恋型人格专家分析梅西的演讲,得到结论:梅西始终纯粹!

氧气是个地铁
2025-11-19 22:39:03
包河区委书记调整

包河区委书记调整

网易安徽
2025-11-19 20:28:19
十五运会│举重:刘焕华超世界纪录夺冠

十五运会│举重:刘焕华超世界纪录夺冠

人民资讯
2025-11-20 09:44:01
小米100名车主起诉后,法务84页报告称:“雷军的承诺不算数”

小米100名车主起诉后,法务84页报告称:“雷军的承诺不算数”

麦大人
2025-11-18 14:41:33
释永信被批捕:糜烂私生活披露,女方口供流出,私生女系公职人员

释永信被批捕:糜烂私生活披露,女方口供流出,私生女系公职人员

博士观察
2025-11-19 17:46:43
你以为玛哈是个纨绔国王?

你以为玛哈是个纨绔国王?

老吴教育课堂
2025-11-18 15:25:13
乌克兰需要多少架F-16参战才能获得制空权?

乌克兰需要多少架F-16参战才能获得制空权?

高博新视野
2025-11-17 17:55:26
郑丽文提“一国两区”后,岛内讨论“一国两制方案”,国台办回应

郑丽文提“一国两区”后,岛内讨论“一国两制方案”,国台办回应

DS北风
2025-11-19 19:14:02
生活中,很多中年女人,为什么对丈夫没了兴趣?

生活中,很多中年女人,为什么对丈夫没了兴趣?

思絮
2025-11-20 09:38:12
中俄爆发利益之争?黑龙江以西,普京希望中国出个体面的价格

中俄爆发利益之争?黑龙江以西,普京希望中国出个体面的价格

乐天闲聊
2025-11-19 15:01:29
里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

鋭娱之乐
2025-11-18 12:44:19
继美韩后,又有两国与日本站边,岛链南翼收紧,中国破局有道

继美韩后,又有两国与日本站边,岛链南翼收紧,中国破局有道

不似少年游
2025-11-20 07:21:35
向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

李砍柴
2025-07-18 23:42:24
全剧终了?高市已“举白旗”,不会再乱谈台海问题,马英九没说错

全剧终了?高市已“举白旗”,不会再乱谈台海问题,马英九没说错

混沌录
2025-11-20 00:11:03
江苏假科学家后续,央视一锤定音,坐牢还丢铁饭碗,多人牵连其中

江苏假科学家后续,央视一锤定音,坐牢还丢铁饭碗,多人牵连其中

禾寒叙
2025-11-19 13:32:02
全新奔驰S级曝光,外观大变,内换超大屏,搭载3.0T发动机!

全新奔驰S级曝光,外观大变,内换超大屏,搭载3.0T发动机!

侃故事的阿庆
2025-11-19 12:49:36
这名日本网红,急了!

这名日本网红,急了!

环球时报国际
2025-11-18 21:58:26
大批中国人依然执意去日本旅游,被日媒追问后,他们的回答太扎心

大批中国人依然执意去日本旅游,被日媒追问后,他们的回答太扎心

古装影视解说阿凶
2025-11-20 05:57:10
英伟达盘后涨幅扩大至4.8%

英伟达盘后涨幅扩大至4.8%

每日经济新闻
2025-11-20 05:29:04
中国官员双手插兜,怒视日本,这一载入史册的画面,是什么含义?

中国官员双手插兜,怒视日本,这一载入史册的画面,是什么含义?

江平舟
2025-11-19 16:09:46
2025-11-20 10:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
11709文章数 176335关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

英伟达财报,超预期

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

本地
手机
亲子
健康
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

手机要闻

旗舰销量大于非旗舰,华为令国产友商羡慕

亲子要闻

一次性说清楚冬季孩子们跑步的本质

警惕超声报告这六大"坑"

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版