网易首页 > 网易号 > 正文 申请入驻

Karpathy点赞上下文工程被他提出伪标注方案,充分利用未标注数据

0
分享至

近日,美国弗吉尼亚大学教授沈聪和团队提出一种多示例自适应伪标注方法——MAPLE(Many-Shot Adaptive Pseudo-LabEling)。它是一种专门用于提升大语言模型在多示例学习中表现的新机制,特别适用于只有少量标注数据、但有很多未标注数据的情况。

在传统的大语言模型应用中,往往需要大量人工标注的数据,这既昂贵又耗时。研究团队的工作想解决的是:如何充分利用这些“还没标注”的数据,帮助模型更好地完成任务?为此研究团队设计了两个关键技术:

1. 伪标签样本的挑选方法:他们通过构建一个图,把已标注和未标注的数据联系起来,挑选出对任务最“有影响力”的未标注样本,并使用大语言模型给它们打上“伪标签”。这样一来,模型就能从这些有代表性的样本中学到更多。

2. 自适应示例选择策略:对于每个测试问题,他们会根据它的特点,从标注样本和伪标签样本中智能地挑选出最相关的几个示例,而不是用一套固定模板。这样能更有效地提高模型的准确性和泛化能力。

研究团队做了大量实验,证明这种方法不仅能减少对昂贵标注数据的依赖,还能在多个真实任务中表现优异。对于相关论文,审稿人认为本次研究为大语言模型在低标注场景中的应用提供了一条可行路径。

这一成果可被用于需要智能处理文本、但缺少大量人工标注数据的场景中,能够为多示例学习生成大量伪标注的数据。

举例来说:

首先,可用于客服和问答系统:很多公司有着大量的历史对话数据,但是没有标注问题类型。本次方法可以利用这些未标注数据,帮助大语言模型更好地理解和回答用户的问题,而不需要人工标注大量示例。

其次,可用于医疗、金融等专业领域的智能助手:这些领域的标注成本很高,本次方法可以使用少量专家标注数据,再加上大量的未标注案例就能构建更精准的问答系统或摘要系统。

再次,可用于教育类场景:比如自动生成讲解或习题反馈。很多题目或学生回答是未标注的,而本次方法可以帮助模型学会更好地给出解释,进而达到辅助教学的作用。

最后,可用于低资源语言或小语种的AI 应用场景:对于缺乏标注数据的语言,可以通过伪标签机制挖掘未标注资源,加速这些语言的 AI 系统落地。

总的来说,这项成果可以帮助大语言模型在数据不足的实际环境中“用少量带动多数”,更高效地发挥作用,让AI 走进更多行业、更多场景。

据了解,上下文学习(ICL,In-context Learning)是让模型通过提示中的几个例子学会如何完成任务,而不需要重新训练它。随着大语言模型的更新换代,新的模型可以接受更长的文本输入,这为上下文学习提供了新的机遇。Google 的研究人员在 2024 年的论文中提到通过增加提示中例子的数量可以提升上下文学习的性能,并将其称之为多示例上下文学习(Many-shot ICL)。

本次研究团队注意到,为了充分发挥多示例上下文学习在给定任务上的潜力,往往需要一个包含大量属于该任务带标注样本的数据集,而标注大量数据所需的成本有限制了获取这样的数据集的难度,特别是在一些新领域或者较难的任务下。基于以上原因,研究团队进行了这次研究。他们希望充分利用大语言模型的能力来获得伪标注数据,从而用于多示例上下文学习。特别地,研究团队考虑了这样一个问题:在拥有少量标注数据的情况下,如何选择未标注的数据进行伪标注,从而让伪标注数据和少量真实标注的数据可以为一起多示例上下文学习提供高质量的例子。

与此同时,在本次研究之中,研究团队还解决了以下两个问题:

第一个是关于模型稳定性的问题。最初研究团队的设想非常理想化:希望只用一些未标注的数据(只提供问题),再加上一小部分标注数据,直接作为多示例输入给大语言模型进行学习。这样的方法从资源角度看是最节省的,他们也觉得这才是“最纯粹”的方式。但是,实验做下来却发现效果非常不稳定,有时候能提升,有时候反而拖后腿。为此,沈聪和学生们试了很策略但都无法根本解决这个问题。后来,他们做了一个艰难的决定——“退而求其次”转向使用伪标注的方式来辅助选样。虽然不如原先设想得那么“优雅”,但是确实让模型的性能提升变得更加可控、更加稳定。“这也让我的学生们第一次意识到,为了解决实际的问题,理想化的思路和实际限制之间经常要做权衡和取舍。”沈聪表示。

第二个是研究团队找到最终选样方法的灵感来源。其实他们一直在寻找一个既高效又有效的方法来从未标注数据中选出“关键样本”。有一次在组内讨论时,突然有学生聊到他之前曾推导过一些图结构中影响力相关的理论,但因为当时项目方向不同,这一部分一直没用上。研究团队研究了他的推导记录,发现这些思想其实可以完美应用在这一问题中——只要做一些针对性的调整。于是学生们修改推导、搭建实验,没想到真的跑出来了不错的结果。

这两个经历一个是现实妥协下的选择,一个是偶然中的“灵光一闪”,但它们都让沈聪的学生们对于科研有了更多敬畏和更多热爱。

最终,相关论文以《MAPLE:多轮自适应伪标记上下文学习》(MAPLE:Many-Shot Adaptive Pseudo-Labeling In-Context Learning)为题发在第 42 届国际机器学习大会(ICML,International Conference on Machine Learning)上 [1]。

后续:

第一,研究团队希望进一步提升伪标签的质量和鲁棒性。虽然现在的方法已经能选出对于模型推理有帮助的未标注样本并进行伪标注,但仍然存在一些误标或不稳定的情况。特别是他们观察到在一些任务上使用更多伪标注的数据会导致性能的下降,其认为这可能是伪标注的标签引入的噪声所导致的。接下来他们会探索是否可以引入不确定性估计、集成模型,或者借助大语言模型自身的反馈机制,来判断哪些伪标签更可信,从而提升整体效果。

第二,研究团队想把这套机制拓展到跨任务或跨领域的场景中。现实中很多任务来自不同的数据分布,比如金融、医疗、教育等,如能使用一个任务中少量的标注,配合另一个任务的未标注数据,仍然能够实现有效的多示例学习,就会极大提升大语言模型的实际适应能力,而这也涉及到如何在任务之间迁移影响力建图策略和示例选择策略。

参考资料:

1.https://arxiv.org/abs/2505.16225

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:紧急提醒股民,放量普涨,MACD金叉确认,主升浪一触即发!

A股:紧急提醒股民,放量普涨,MACD金叉确认,主升浪一触即发!

云鹏叙事
2026-02-28 00:15:03
刘亦菲100g黄金镯叠戴封神!原来黄金戴对了,高级感拉满

刘亦菲100g黄金镯叠戴封神!原来黄金戴对了,高级感拉满

白宸侃片
2026-02-26 18:05:06
高人预测:十年后长沙,真正值钱的不是房子,而是这5个地段!

高人预测:十年后长沙,真正值钱的不是房子,而是这5个地段!

林子说事
2026-02-27 20:37:40
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
马丁内利要凉?阿森纳截胡曼联利物浦,7500 万抢足坛最快飞翼

马丁内利要凉?阿森纳截胡曼联利物浦,7500 万抢足坛最快飞翼

澜归序
2026-02-28 04:17:43
判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

蜉蝣说
2025-10-21 09:19:12
哈登新伤情出炉:将直接拖累骑士正在成型的化学反应!

哈登新伤情出炉:将直接拖累骑士正在成型的化学反应!

夜白侃球
2026-02-27 14:16:27
重磅!英国前首相苏纳克出任泽连斯基顾问,帮助恢复乌克兰经济

重磅!英国前首相苏纳克出任泽连斯基顾问,帮助恢复乌克兰经济

老马拉车莫少装
2026-02-28 01:36:31
喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制

喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制

策略述
2026-02-27 13:13:49
解放台湾需要多久?解放军中将给出准确答案

解放台湾需要多久?解放军中将给出准确答案

阿七说体育
2026-02-25 13:19:06
押宝小鹏,广州赌一把大的

押宝小鹏,广州赌一把大的

拆神
2026-02-27 11:06:24
涨疯了!开年最牛资产,不是黄金,不是白银,竟是它!

涨疯了!开年最牛资产,不是黄金,不是白银,竟是它!

财经要参
2026-02-28 00:20:03
建议大家:赶紧自查,冰箱里有“这5样”东西,该扔就扔别心疼!

建议大家:赶紧自查,冰箱里有“这5样”东西,该扔就扔别心疼!

家居设计师苏哥
2026-02-26 12:44:24
55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

林轻吟
2026-02-23 07:16:08
为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

解锁世界风云
2026-02-28 00:05:03
正在热播的3部烂剧,没有最烂只有更烂,一部没看真是慧眼识珠

正在热播的3部烂剧,没有最烂只有更烂,一部没看真是慧眼识珠

往史过眼云烟
2026-02-27 19:16:56
国际篮联正式致歉!日本媒体点名郭士强,认为中国男篮胜之不武

国际篮联正式致歉!日本媒体点名郭士强,认为中国男篮胜之不武

十点街球体育
2026-02-27 20:17:35
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
初中写作业超过十一点才能搞定的,到高中可能会是第一批掉队的

初中写作业超过十一点才能搞定的,到高中可能会是第一批掉队的

好爸育儿
2026-02-27 22:52:06
马杜罗的辩护律师指责美国政府阻止委政府向他支付律师费 要求主审法官撤销案件

马杜罗的辩护律师指责美国政府阻止委政府向他支付律师费 要求主审法官撤销案件

每日经济新闻
2026-02-28 00:04:30
2026-02-28 06:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16333文章数 514667关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普警告伊朗:“有时候不得不打”

头条要闻

特朗普警告伊朗:“有时候不得不打”

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
数码
手机
时尚
公开课

本地新闻

津南好·四时总相宜

数码要闻

Omdia:时隔5年,小米去年再度回归可穿戴设备出货榜首

手机要闻

荣耀600系列再次被确认:9000mAh+两亿像素,处理器有悬念!

舒淇最爱穿的裙子搭配,真的很适合春天!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版