网易首页 > 网易号 > 正文 申请入驻

UCL与华为联合突破:让AI同时掌握多种推理技能的"均衡训练师"

0
分享至


这项由伦敦大学学院(UCL)、华为诺亚方舟实验室、巴塞尔大学等多家机构联合完成的突破性研究,发表于2026年2月的arXiv预印本平台(论文编号:arXiv:2602.05547v1),为解决大型语言模型在多任务推理训练中的关键难题提供了创新解决方案。

当前的AI语言模型就像专业运动员一样,往往在某一项技能上表现卓越,比如数学计算或逻辑推理,但要让它们同时精通多种不同类型的推理任务,就像培养一个全能型运动员一样困难。传统的训练方法就像一个偏心的教练,总是让擅长的学生练得更多,而忽视了那些需要更多帮助的"差生"。结果就是,模型在某些任务上表现优秀,但在其他任务上却表现平平,这种不均衡的发展严重影响了AI系统在现实世界中的可靠性。

研究团队发现,现有的训练方法存在两个根本性问题。第一个问题可以比作分蛋糕时的不公平现象:简单任务就像食量小的孩子,很快就能吃饱,而复杂任务就像食量大的孩子,需要更多的"营养"才能成长,但传统方法却给所有孩子分配同样大小的蛋糕。第二个问题则更加隐蔽,就像有些学生即使分配到了学习时间,但实际上却在走神发呆,没有产生真正的学习效果,这在技术上被称为"零梯度"现象。

为了解决这些问题,研究团队开发了一套名为MT-GRPO(多任务群体相对策略优化)的全新训练方法,这就像是一个智慧的教练系统。这个系统能够动态观察每个"学生"(不同的推理任务)的学习进度,然后相应地调整训练强度和注意力分配。当某个任务表现不佳或学习速度缓慢时,系统会自动增加对该任务的关注度,确保没有任何一个重要技能被落下。

这套方法的核心创新在于它的"改进感知权重调整"机制。传统方法只看任务的绝对表现好坏,就像只看考试分数,而忽略了学习进步的速度。而新方法不仅考虑任务的当前表现,还会追踪每个任务的改进幅度。如果某个任务虽然分数不高,但最近有明显进步,系统会认为这个任务正在良性发展,不需要过度干预。相反,如果某个任务不仅分数低,而且长时间没有改进,系统就会加大对它的训练投入。

另一个重要创新是"比例保持采样器",这个机制解决了训练过程中的"虚假繁忙"问题。在传统训练中,有些任务看起来分配到了足够的训练时间,但实际上这些时间大部分都被浪费了,就像学生在课堂上身体在场但思想开小差。新的采样器能够识别并过滤掉这些无效的训练样本,确保分配给每个任务的训练时间都能产生实际的学习效果。

研究团队在三个截然不同的推理任务上测试了这套新方法:数字推理游戏Countdown(需要用给定数字通过运算达到目标值)、逻辑谜题Zebra(需要根据线索推断不同实体的属性关系)、以及抽象推理任务ARC(需要从示例中学会转换规律并应用到新情况)。这三个任务就像考验不同类型智能的三门考试:数学计算能力、逻辑推理能力和模式识别能力。

实验结果令人印象深刻。在三任务设置中,新方法将最差任务的准确率比标准方法提高了16-28%,比另一个先进方法DAPO提高了6%,同时还保持了整体平均性能的竞争力。更重要的是,新方法达到目标性能所需的训练步数减少了50%,这意味着不仅效果更好,而且效率更高。

当实验扩展到九个不同难度的任务时,优势变得更加明显。研究团队发现,通过调节系统中的一个关键参数(称为λ),可以在追求最差任务性能提升和维持整体平均性能之间找到理想的平衡点。这就像调节音响的均衡器,可以根据需要强化低音或高音,找到最适合当前场景的音效设置。

这项研究的技术细节也展现了深厚的理论功底。研究团队将多任务训练问题形式化为一个约束优化问题,目标是在保证高平均性能的同时,限制不同任务之间的性能差距。通过数学推导,他们将这个复杂问题转化为一个更易处理的最大最小优化问题,并设计了相应的算法来求解。

在实际实现中,系统采用了一种巧妙的设计:用softmax函数来确保任务权重始终保持有效的概率分布,同时使用梯度下降来动态更新这些权重。这种设计既保证了数学上的严谨性,又确保了实际运行时的稳定性。

比例保持采样器的工作原理也值得详细说明。在传统方法中,如果某个任务被分配了30%的训练时间,但其中70%的样本由于"零梯度"问题而无法产生学习效果,那么该任务实际只获得了9%的有效训练。新的采样器会预先估计每个任务的"有效学习率",然后相应地调整采样策略,确保每个任务都能获得其应得份额的有效训练。

研究团队还进行了详细的消融实验,分别测试了系统各个组件的贡献。结果显示,改进感知权重调整和比例保持采样器都是系统成功的关键因素,缺少任何一个都会导致性能显著下降。这证实了研究团队的理论分析,并为未来的改进指明了方向。

从更广阔的视角来看,这项研究解决了当前AI发展中的一个重要挑战:如何让AI系统在多个领域都保持可靠的性能。随着AI系统被部署到越来越多的实际应用中,用户期望它们能够在各种不同的任务上都表现出色,而不是只在某个特定领域表现优秀。这就像我们希望一个助手既能帮助处理数学计算,又能协助逻辑推理,还能识别模式和规律。

研究的局限性也值得关注。目前的实验主要集中在推理任务上,虽然这些任务已经相当多样化,但AI系统在现实世界中需要处理的任务类型更加丰富。此外,研究使用的是相对较小规模的模型(30亿参数),在更大规模的模型上的表现还需要进一步验证。

这项研究的意义不仅在于提供了一个有效的技术解决方案,更在于它为多任务AI训练领域开辟了新的研究方向。通过将任务改进速度纳入优化目标,研究团队展示了一种更加细致和智能的训练策略。这种思路可能会启发更多创新方法的出现,推动整个领域的发展。

对于普通用户而言,这项研究预示着未来的AI助手将变得更加可靠和全面。用户不再需要担心AI系统在某些类型的问题上表现不佳,而可以期待一个在各个方面都表现均衡的智能助手。这将大大提升AI系统的实用性和用户体验。

从产业角度看,这项研究为AI公司提供了一个重要的技术工具。在竞争激烈的AI市场中,能够开发出在多个维度都表现优秀的模型,将成为重要的竞争优势。这种均衡的性能表现对于构建用户信任和扩大市场应用都具有重要意义。

说到底,这项研究就像为AI训练领域带来了一位经验丰富的教练,这位教练不仅关注每个学生的绝对成绩,更注重他们的成长轨迹和潜力发挥。通过这种更加智慧和平衡的训练方式,我们正在向着真正智能、可靠的AI系统迈出重要一步。虽然这只是众多技术突破中的一个,但它代表了AI发展的一个重要方向:从追求单一指标的优秀转向追求全面均衡的卓越。对于那些希望深入了解技术细节的读者,可以通过论文编号arXiv:2602.05547v1查阅完整的研究报告。

Q&A

Q1:MT-GRPO训练方法相比传统方法有什么优势?

A:MT-GRPO就像一个智慧的教练,能够动态调整对不同任务的关注度。传统方法往往让强项任务越来越强,弱项任务被忽视,而MT-GRPO会特别关注那些表现差或进步慢的任务,确保AI在所有技能上都能均衡发展。实验显示,它能将最差任务性能提升16-28%,同时训练效率提高50%。

Q2:比例保持采样器是什么,为什么重要?

A:比例保持采样器解决了训练过程中的"虚假繁忙"问题。就像学生在课堂上身体在场但思想开小差一样,有些训练时间虽然分配给了某个任务,但实际没产生学习效果。这个采样器能识别并过滤掉无效的训练样本,确保每个任务都能获得真正有效的学习时间。

Q3:这项研究对普通人使用AI有什么实际意义?

A:这意味着未来的AI助手会变得更加全面可靠。现在的AI可能在数学很强但逻辑推理较弱,就像偏科的学生。而采用这种新训练方法的AI将在各种不同类型的问题上都表现均衡,用户不用担心AI在某些方面"掉链子",可以更放心地在各种场景下使用AI助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
总支出2.7亿联盟第二,球队老大无限期缺阵!球队确实该准备重建

总支出2.7亿联盟第二,球队老大无限期缺阵!球队确实该准备重建

老梁体育漫谈
2026-02-08 00:25:45
苹果“新机”上架:2月7日,正式开售

苹果“新机”上架:2月7日,正式开售

科技堡垒
2026-02-07 11:04:06
晚上8点,冬奥会首金诞生!谷爱凌逆风翻盘杀进决赛,苏翊鸣冲冠

晚上8点,冬奥会首金诞生!谷爱凌逆风翻盘杀进决赛,苏翊鸣冲冠

侃球熊弟
2026-02-07 20:13:25
亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

颜小白的篮球梦
2026-02-07 22:16:10
俄军中将副局长遭遇暗杀,65岁还空手夺枪,否则真就没救了

俄军中将副局长遭遇暗杀,65岁还空手夺枪,否则真就没救了

战风
2026-02-07 11:35:11
国家最大的敌人,是愚昧和僵化

国家最大的敌人,是愚昧和僵化

深度报
2026-02-06 22:28:05
委内瑞拉全面驱逐俄企,欧盟出台新的对俄制裁,桑杜拒绝诺奖提名

委内瑞拉全面驱逐俄企,欧盟出台新的对俄制裁,桑杜拒绝诺奖提名

史政先锋
2026-02-07 13:25:08
女子从重庆托运宠物至哈尔滨却被送到了乌鲁木齐,猫咪两天内飞了6000公里,托运公司回应

女子从重庆托运宠物至哈尔滨却被送到了乌鲁木齐,猫咪两天内飞了6000公里,托运公司回应

极目新闻
2026-02-07 17:58:13
各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

另子维爱读史
2026-02-07 18:55:06
珠江投资债务危机全面爆发

珠江投资债务危机全面爆发

地产微资讯
2026-02-07 22:05:45
绝地反击!中国队让二追三逆转韩国晋级羽毛球亚锦赛男团决赛

绝地反击!中国队让二追三逆转韩国晋级羽毛球亚锦赛男团决赛

懂球帝
2026-02-07 22:46:10
50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

汉史趣闻
2026-02-07 17:03:56
2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

文史道
2026-02-03 06:45:08
因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

大风新闻
2026-02-07 18:17:28
滑雪运动员向阴茎注射玻尿酸,通过增大阴茎获得更大尺寸的滑雪服来提升比赛表现

滑雪运动员向阴茎注射玻尿酸,通过增大阴茎获得更大尺寸的滑雪服来提升比赛表现

观威海
2026-02-07 15:46:07
诺奖无用论广为流行,我们正在进入晚清时代2.0?

诺奖无用论广为流行,我们正在进入晚清时代2.0?

枫冷慕诗
2026-02-07 09:15:10
炸锅!爱泼斯坦文件再爆猛料,狱中监控曝光,橙色人影现身…

炸锅!爱泼斯坦文件再爆猛料,狱中监控曝光,橙色人影现身…

魏家东
2026-02-07 13:11:04
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
巴萨发布官方公告 宣布退出欧超联赛

巴萨发布官方公告 宣布退出欧超联赛

体坛周报
2026-02-07 19:36:38
当下的经济困局,根本不是外部打压

当下的经济困局,根本不是外部打压

流苏晚晴
2026-02-07 17:04:52
2026-02-08 01:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7179文章数 549关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

时尚
教育
家居
本地
公开课

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

教育要闻

大学生寒假归来,家长崩溃:儿子变成闺女了

家居要闻

现代轻奢 温馨治愈系

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版