网易首页 > 网易号 > 正文 申请入驻

上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果

0
分享至

本文第一作者王少博为上海交通大学博士生,现于阿里 Qwen 团队实习,此前有 CVPR 满分一作论文。通讯作者为其导师、上海交大助理教授张林峰。本文其他作者来自上交 EPIC Lab、NTU、NUS、微软、上海 AI Lab、港科大(广州)等。

从未微调目标数据集,一个预训练模型竟能自己筛选出「黄金训练样本」?

上海交通大学等团队提出Data Whisperer—— 首个免训练的注意力驱动数据选择框架。它直接利用预训练模型的上下文学习(ICL)能力,无需额外微调打分模型,仅用 10% 数据就能让微调效果逼近全量数据!

就像一位精通教学的导师,看一眼题库就知道该让学生重点练什么题。

  • 论文标题:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
  • 论文链接:arxiv.org/pdf/2505.12212
  • GitHub 地址:gszfwsb/Data-Whisperer
  • 关键词:数据选择、上下文学习、小样本泛化、结构对齐

精调大模型,数据挑对才关键

模型说:「别给我扔几百万条数据了,你先告诉我哪些题值得看!」

传统的数据选择方法:

  • 要先训练个打分模型;
  • 要调一堆启发式参数;
  • 要花一堆时间还不一定好用;

而 Data Whisperer 就像摸鱼同学中的学霸 —— 不看全书也能稳拿高分。

方法机制:只靠模型自身,打分挑数据

Data Whisperer 是一种以大模型自身为评估器、完全免训练的数据子集选择方法。

1.ICL 少样本构建

  • 随机采样若干「示范样本」和「查询样本」,构建 ICL 提示;
  • 让待精调的大模型尝试回答这些查询任务;
  • 根据回答质量,给每个「示范样本」打一个分。

2.引入注意力感知权重

  • 为了让「题目权重」更加合理,Data Whisperer 不只看输出结果;
  • 它利用 Transformer 的注意力权重,度量每个示例对模型推理的「影响力」;
  • 最终打分由模型输出与注意力贡献共同决定,更稳定、更合理。

这种打分机制是完全无需训练、无需人工标注的!

Data Whisperer 不是「拍脑袋选题」,理论也站得住脚!

在传统精调中,模型通过梯度下降显式更新参数,比如注意力权重的关键值(Key)矩阵 W_K 和数值(Value)矩阵 W_V:

而在 ICL 过程中,虽然模型参数固定不变,但通过上下文中的示例(demonstration tokens)对注意力进行加权,使得模型在预测时行为发生了「类精调」式的变化:

也就是说,ICL 就像是在不动参数的前提下,用「语言上下文」在行为上更新了模型。

精调谁还全训?我 10% 数据照样打赢!

让我们看看 Data Whisperer 的「压轴战绩」:

  • GSM8K 数学题:10% 数据打出 72.46%,还比全量数据(71.39%)更高;
  • DialogSum 总结任务:用 Qwen 模型达到 43%,比最强 SOTA 方法高出 2.5 个点;
  • BioInstruct 任务也同样提升显著。

别人还在选题,我已经开始精调了

Data Whisperer 引入了一个新的效率指标:Selection-to-Tuning Ratio(STR),即选择过程耗时与全量精调耗时之比。

在该指标下,Data Whisperer 以 STR ≈ 0.03~0.2 的水平,大幅领先现有所有方法。相比之下,许多传统方法(如 Nuggets)STR > 1,意味着「选题还不如直接精调快」。

Data Whisperer 用极低成本完成了模型适配所需的「预判题型」工作。

小模型选题,大模型精调,谁用谁知道!

Data Whisperer 支持弱模型作为「选题器」,强模型作为「学习者」的弱选强训(weak-to-strong)机制。

例如,使用 Qwen-2.5-3B-Instruct 选题、再用 Qwen-2.5-7B-Instruct 精调,最终性能几乎不降,却带来更低计算负担。

Data Whisperer 成功实现了从小模型到大模型间的「知识前置迁移」,适用于资源受限场景下的精调任务。

演示题和查询题怎么配?精细搭配才能挑好!

Data Whisperer 进一步分析了 ICL 中示例(n_d)与查询(n_q)数量对选择效果的影响。

结果显示,n_d=10、n_q=5 是稳定优选配置。在此之后增加样本数量,效果提升趋于饱和。

这表明 Data Whisperer 对输入规模具有良好的鲁棒性,不是靠堆样本,而是真挑核心

哪层注意力最好用?

Data Whisperer 的注意力打分依赖于 Transformer 的层级结构。作者分别测试了浅层、中层、深层注意力用于打分的效果。

结果发现,中间层(如 Layer13)提供的语义信息更稳定,选题效果更佳,符合语言模型内部语义聚合的层次分布规律。

Data Whisperer 巧妙借力模型结构,使「注意力」真正发挥了「注意」的功能。

模型偏好什么题?简单好懂才是王道

进一步的分析中,作者使用 GPT-4o-mini 对被选中样本的困惑度(perplexity)进行了评估。

发现 Data Whisperer 倾向选择困惑度较低的样本,说明模型更喜欢「简单题」,也符合 Sorscher 等人在小样本学习中的「易例优先」理论。

对比分析:到底比哪些方法强?

Data Whisperer 在所有主流数据选择方法对比中均展现出领先效果:

  • GraNd:基于梯度;
  • EL2N:基于预测误差;
  • CCS:注重多样性;
  • Nuggets:需要额外精调打分器;
  • STAFF:组合打分策略。

Data Whisperer 在准确率、效率、稳定性三个维度全面领先,尤其在低预算(1%、5%、10%)场景中优势明显。

Data Whisperer 的秘诀:ICL 就是精调的「影子」

Data Whisperer 并非经验规则,而是基于理论支撑。

论文从注意力机制视角出发,分析了 ICL 过程中上下文样本对模型输出的影响,实质上等价于一种隐式的参数更新

ICL 调整注意力权重 ≈ Fine-Tuning 调整参数矩阵

两者都是为了「让模型在未来输入中表现更好」。

这一结构上的对应性解释了 Data Whisperer 能有效选出训练子集:它无需调模型参数,就能「预训」出训练效益

启示与未来方向

Data Whisperer 所倡导的是一种新范式:结构感知、推理驱动的数据选择方法,为 LLM 训练过程引入「自解释、自判断」的机制。

值得注意的是,字节 Seed 最新的工作 (https://arxiv.org/abs/2505.07293),也用了类似 few-shot 和 attention 结合的方法。

接下来值得探索的方向包括:

1. 将方法迁移至法律、医疗、工程等复杂结构任务;

2. 引入人类反馈或语言理解偏好,进一步增强「任务对齐」能力;

3. 结合 prompt 工程,控制示例顺序以提升效果;

4. 与合成数据方法融合,构建任务驱动的多源样本库。

总之,Data Whisperer 并不是简单优化效率的技巧,而是揭示了一个事实:

  • 任务对齐不必依赖人类标签、不必堆数据量。
  • 结构化的推理机制与任务映射,本身就可以引导模型学习方向

未来的大模型训练也许不再是「知道做什么」,而是「知道问什么」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苦等18年缅甸终于想通了?联手中国打通战略大动脉,让美无计可施

苦等18年缅甸终于想通了?联手中国打通战略大动脉,让美无计可施

小兰聊历史
2026-03-20 18:41:51
汪小菲不再隐瞒!曝马筱梅母子去向,戳穿了与小玥儿的"真实关系"

汪小菲不再隐瞒!曝马筱梅母子去向,戳穿了与小玥儿的"真实关系"

刘森森
2026-03-21 18:27:23
产妇痛到求打无痛针被丈夫婆婆拒绝,出产房后把丈夫打进急诊

产妇痛到求打无痛针被丈夫婆婆拒绝,出产房后把丈夫打进急诊

看晓天下事
2026-03-20 17:26:59
哪有报不报的?我村有个老头八十五岁。做了一辈缺德事,坏事做尽

哪有报不报的?我村有个老头八十五岁。做了一辈缺德事,坏事做尽

三农雷哥
2026-03-21 17:57:45
东方大国两支特遣队,会师霍尔木兹海峡外,印度油轮不用提心吊胆

东方大国两支特遣队,会师霍尔木兹海峡外,印度油轮不用提心吊胆

李健政观察
2026-03-19 11:25:03
冠军荣耀,浙江省体育局为广厦颁发CBA冠军奖金2000万人民币

冠军荣耀,浙江省体育局为广厦颁发CBA冠军奖金2000万人民币

懂球帝
2026-03-21 21:14:25
继续获得信任,TA:凯帕将首发出战英联杯决赛

继续获得信任,TA:凯帕将首发出战英联杯决赛

懂球帝
2026-03-22 05:53:18
中国一口吃下2000万吨石油,印度看到估计肠子都悔青了?

中国一口吃下2000万吨石油,印度看到估计肠子都悔青了?

龙隐天下
2026-03-21 10:20:42
赵心童请客闹乌龙?江西菜馆点两份烤鸭,这波招待太真实!

赵心童请客闹乌龙?江西菜馆点两份烤鸭,这波招待太真实!

草莓解说体育
2026-03-22 02:48:45
高市早苗访问阿灵顿国家公墓并向美国士兵敬献花圈,该公墓埋葬者包括广岛原子弹投弹手

高市早苗访问阿灵顿国家公墓并向美国士兵敬献花圈,该公墓埋葬者包括广岛原子弹投弹手

都市快报橙柿互动
2026-03-22 00:26:05
白酒崩盘,一场神话的破灭

白酒崩盘,一场神话的破灭

罗sir财话
2026-03-19 21:45:06
46岁董洁同框56岁闫妮,穿一万块白衬衫配微喇裤,一脸苦相很疲惫

46岁董洁同框56岁闫妮,穿一万块白衬衫配微喇裤,一脸苦相很疲惫

寻墨阁
2026-03-18 20:48:19
广州将新增一个火车站,预计2028年投入使用!远期规划规模超过广州白云站

广州将新增一个火车站,预计2028年投入使用!远期规划规模超过广州白云站

广州交通电台
2026-03-21 15:18:09
周杰伦《太阳之子》MV制作幕后曝光:耗资逾2000万元,历时两年三个月打造

周杰伦《太阳之子》MV制作幕后曝光:耗资逾2000万元,历时两年三个月打造

红星新闻
2026-03-21 17:49:11
伊朗使用连串重型导弹,袭击波及以色列全境!伊朗一港口16艘货船遭美以袭击;专家称F-35被击落基本确定,伊议长:打碎美军傲慢

伊朗使用连串重型导弹,袭击波及以色列全境!伊朗一港口16艘货船遭美以袭击;专家称F-35被击落基本确定,伊议长:打碎美军傲慢

每日经济新闻
2026-03-20 19:19:04
暴涨300%!河北一酒企断代25年重生归来,杀入2000亿市场

暴涨300%!河北一酒企断代25年重生归来,杀入2000亿市场

影像渭南
2026-03-21 14:09:03
释永信击穿了佛门底线

释永信击穿了佛门底线

哲空空
2026-03-21 06:55:21
51岁贝嫂现身街头,高开叉造型难掩老态

51岁贝嫂现身街头,高开叉造型难掩老态

述家娱记
2026-03-19 08:53:49
女人们终于说实话了:穿内衣是为了我自己爽,不是给你看!

女人们终于说实话了:穿内衣是为了我自己爽,不是给你看!

落雪听梅a
2026-03-21 11:06:12
比披丝巾更可怕的是“瑜伽裤外穿”,廉价又卡裆,三角区更尴尬

比披丝巾更可怕的是“瑜伽裤外穿”,廉价又卡裆,三角区更尴尬

生命之泉的奥秘
2026-03-20 03:56:49
2026-03-22 08:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142590关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

男子沉迷"打鸟":改装车辆买观鸟装备 一年花掉上百万

头条要闻

男子沉迷"打鸟":改装车辆买观鸟装备 一年花掉上百万

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

数码
艺术
健康
手机
本地

数码要闻

炸锅!国产存储芯片再突破!手机固态价格大跳水,内存自由要来了

艺术要闻

你的母校在吗?毛主席亲笔题名的 20 所大学合集

转头就晕的耳石症,能开车上班吗?

手机要闻

内存大涨价倒逼手机SD卡复活 网友:今夕是何年

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

无障碍浏览 进入关怀版