网易首页 > 网易号 > 正文 申请入驻

UCL与华为联合突破:让AI同时掌握多种推理技能的"均衡训练师"

0
分享至


这项由伦敦大学学院(UCL)、华为诺亚方舟实验室、巴塞尔大学等多家机构联合完成的突破性研究,发表于2026年2月的arXiv预印本平台(论文编号:arXiv:2602.05547v1),为解决大型语言模型在多任务推理训练中的关键难题提供了创新解决方案。

当前的AI语言模型就像专业运动员一样,往往在某一项技能上表现卓越,比如数学计算或逻辑推理,但要让它们同时精通多种不同类型的推理任务,就像培养一个全能型运动员一样困难。传统的训练方法就像一个偏心的教练,总是让擅长的学生练得更多,而忽视了那些需要更多帮助的"差生"。结果就是,模型在某些任务上表现优秀,但在其他任务上却表现平平,这种不均衡的发展严重影响了AI系统在现实世界中的可靠性。

研究团队发现,现有的训练方法存在两个根本性问题。第一个问题可以比作分蛋糕时的不公平现象:简单任务就像食量小的孩子,很快就能吃饱,而复杂任务就像食量大的孩子,需要更多的"营养"才能成长,但传统方法却给所有孩子分配同样大小的蛋糕。第二个问题则更加隐蔽,就像有些学生即使分配到了学习时间,但实际上却在走神发呆,没有产生真正的学习效果,这在技术上被称为"零梯度"现象。

为了解决这些问题,研究团队开发了一套名为MT-GRPO(多任务群体相对策略优化)的全新训练方法,这就像是一个智慧的教练系统。这个系统能够动态观察每个"学生"(不同的推理任务)的学习进度,然后相应地调整训练强度和注意力分配。当某个任务表现不佳或学习速度缓慢时,系统会自动增加对该任务的关注度,确保没有任何一个重要技能被落下。

这套方法的核心创新在于它的"改进感知权重调整"机制。传统方法只看任务的绝对表现好坏,就像只看考试分数,而忽略了学习进步的速度。而新方法不仅考虑任务的当前表现,还会追踪每个任务的改进幅度。如果某个任务虽然分数不高,但最近有明显进步,系统会认为这个任务正在良性发展,不需要过度干预。相反,如果某个任务不仅分数低,而且长时间没有改进,系统就会加大对它的训练投入。

另一个重要创新是"比例保持采样器",这个机制解决了训练过程中的"虚假繁忙"问题。在传统训练中,有些任务看起来分配到了足够的训练时间,但实际上这些时间大部分都被浪费了,就像学生在课堂上身体在场但思想开小差。新的采样器能够识别并过滤掉这些无效的训练样本,确保分配给每个任务的训练时间都能产生实际的学习效果。

研究团队在三个截然不同的推理任务上测试了这套新方法:数字推理游戏Countdown(需要用给定数字通过运算达到目标值)、逻辑谜题Zebra(需要根据线索推断不同实体的属性关系)、以及抽象推理任务ARC(需要从示例中学会转换规律并应用到新情况)。这三个任务就像考验不同类型智能的三门考试:数学计算能力、逻辑推理能力和模式识别能力。

实验结果令人印象深刻。在三任务设置中,新方法将最差任务的准确率比标准方法提高了16-28%,比另一个先进方法DAPO提高了6%,同时还保持了整体平均性能的竞争力。更重要的是,新方法达到目标性能所需的训练步数减少了50%,这意味着不仅效果更好,而且效率更高。

当实验扩展到九个不同难度的任务时,优势变得更加明显。研究团队发现,通过调节系统中的一个关键参数(称为λ),可以在追求最差任务性能提升和维持整体平均性能之间找到理想的平衡点。这就像调节音响的均衡器,可以根据需要强化低音或高音,找到最适合当前场景的音效设置。

这项研究的技术细节也展现了深厚的理论功底。研究团队将多任务训练问题形式化为一个约束优化问题,目标是在保证高平均性能的同时,限制不同任务之间的性能差距。通过数学推导,他们将这个复杂问题转化为一个更易处理的最大最小优化问题,并设计了相应的算法来求解。

在实际实现中,系统采用了一种巧妙的设计:用softmax函数来确保任务权重始终保持有效的概率分布,同时使用梯度下降来动态更新这些权重。这种设计既保证了数学上的严谨性,又确保了实际运行时的稳定性。

比例保持采样器的工作原理也值得详细说明。在传统方法中,如果某个任务被分配了30%的训练时间,但其中70%的样本由于"零梯度"问题而无法产生学习效果,那么该任务实际只获得了9%的有效训练。新的采样器会预先估计每个任务的"有效学习率",然后相应地调整采样策略,确保每个任务都能获得其应得份额的有效训练。

研究团队还进行了详细的消融实验,分别测试了系统各个组件的贡献。结果显示,改进感知权重调整和比例保持采样器都是系统成功的关键因素,缺少任何一个都会导致性能显著下降。这证实了研究团队的理论分析,并为未来的改进指明了方向。

从更广阔的视角来看,这项研究解决了当前AI发展中的一个重要挑战:如何让AI系统在多个领域都保持可靠的性能。随着AI系统被部署到越来越多的实际应用中,用户期望它们能够在各种不同的任务上都表现出色,而不是只在某个特定领域表现优秀。这就像我们希望一个助手既能帮助处理数学计算,又能协助逻辑推理,还能识别模式和规律。

研究的局限性也值得关注。目前的实验主要集中在推理任务上,虽然这些任务已经相当多样化,但AI系统在现实世界中需要处理的任务类型更加丰富。此外,研究使用的是相对较小规模的模型(30亿参数),在更大规模的模型上的表现还需要进一步验证。

这项研究的意义不仅在于提供了一个有效的技术解决方案,更在于它为多任务AI训练领域开辟了新的研究方向。通过将任务改进速度纳入优化目标,研究团队展示了一种更加细致和智能的训练策略。这种思路可能会启发更多创新方法的出现,推动整个领域的发展。

对于普通用户而言,这项研究预示着未来的AI助手将变得更加可靠和全面。用户不再需要担心AI系统在某些类型的问题上表现不佳,而可以期待一个在各个方面都表现均衡的智能助手。这将大大提升AI系统的实用性和用户体验。

从产业角度看,这项研究为AI公司提供了一个重要的技术工具。在竞争激烈的AI市场中,能够开发出在多个维度都表现优秀的模型,将成为重要的竞争优势。这种均衡的性能表现对于构建用户信任和扩大市场应用都具有重要意义。

说到底,这项研究就像为AI训练领域带来了一位经验丰富的教练,这位教练不仅关注每个学生的绝对成绩,更注重他们的成长轨迹和潜力发挥。通过这种更加智慧和平衡的训练方式,我们正在向着真正智能、可靠的AI系统迈出重要一步。虽然这只是众多技术突破中的一个,但它代表了AI发展的一个重要方向:从追求单一指标的优秀转向追求全面均衡的卓越。对于那些希望深入了解技术细节的读者,可以通过论文编号arXiv:2602.05547v1查阅完整的研究报告。

Q&A

Q1:MT-GRPO训练方法相比传统方法有什么优势?

A:MT-GRPO就像一个智慧的教练,能够动态调整对不同任务的关注度。传统方法往往让强项任务越来越强,弱项任务被忽视,而MT-GRPO会特别关注那些表现差或进步慢的任务,确保AI在所有技能上都能均衡发展。实验显示,它能将最差任务性能提升16-28%,同时训练效率提高50%。

Q2:比例保持采样器是什么,为什么重要?

A:比例保持采样器解决了训练过程中的"虚假繁忙"问题。就像学生在课堂上身体在场但思想开小差一样,有些训练时间虽然分配给了某个任务,但实际没产生学习效果。这个采样器能识别并过滤掉无效的训练样本,确保每个任务都能获得真正有效的学习时间。

Q3:这项研究对普通人使用AI有什么实际意义?

A:这意味着未来的AI助手会变得更加全面可靠。现在的AI可能在数学很强但逻辑推理较弱,就像偏科的学生。而采用这种新训练方法的AI将在各种不同类型的问题上都表现均衡,用户不用担心AI在某些方面"掉链子",可以更放心地在各种场景下使用AI助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真的要夸夸香飘飘,居然能请到莎莎穿长裙拍商务照,

真的要夸夸香飘飘,居然能请到莎莎穿长裙拍商务照,

小光侃娱乐
2026-03-25 12:40:06
原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

揽星河的笔记
2026-03-25 19:31:09
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

揽星河的笔记
2025-12-08 13:30:38
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

零度Military
2026-03-26 22:20:35
重磅:欧盟冻结匈牙利160亿欧元援助!反制欧尔班的关键一招

重磅:欧盟冻结匈牙利160亿欧元援助!反制欧尔班的关键一招

项鹏飞
2026-03-26 20:50:33
泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

懂球帝
2026-03-26 10:30:13
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

阿龙聊军事
2026-03-26 20:32:20
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
黄晓明回应考博失利今年再战:希望自己有一天能成功,因为我们家没有博士,想做家里第一个博士

黄晓明回应考博失利今年再战:希望自己有一天能成功,因为我们家没有博士,想做家里第一个博士

台州交通广播
2026-03-26 19:49:12
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
估值420亿!刘强东押注宇树科技!

估值420亿!刘强东押注宇树科技!

新零售参考Pro
2026-03-25 14:22:05
我说送他鼠标,结果他开口就要799的鼠标,太下头了…

我说送他鼠标,结果他开口就要799的鼠标,太下头了…

夜深爱杂谈
2026-03-21 19:15:14
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
2026-03-26 22:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
数码
房产
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

你好,我是馒头,快开门!

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版