网易首页 > 网易号 > 正文 申请入驻

清华大学突破AI训练的"内存墙",让AI大模型学习效率提升4倍

0
分享至


这项由清华大学计算机科学与技术系的林念翊、张佳杰、侯磊和李娟子教授团队完成的研究,于2025年10月发表在arXiv预印本平台,编号为arXiv:2510.11683v2。对于关心AI技术发展的普通读者而言,这项研究的意义可以用一个简单的比喻来理解:如果说训练AI就像教孩子做数学题,那么现在的方法就像是每做一道题都要把所有的草稿纸和计算过程全部保留在桌子上,很快桌子就会被堆满,孩子就没有地方继续做题了。而清华团队找到了一种聪明的方法,让孩子可以一边做题一边整理桌子,这样就能做更多的题,学得更好。

当前人工智能领域最热门的话题之一就是如何让AI模型变得更聪明。除了我们熟悉的像ChatGPT这样一个字一个字生成文本的传统模型外,还有一类叫做"扩散大语言模型"的新型AI。这类模型就像是在做填字游戏一样,可以同时在多个位置填入合适的词汇,理论上速度更快。但是,要让这类模型变得更聪明,就需要用一种叫做"强化学习"的训练方法来调教它们,这就好比给模型安排了一个严格的私人教练。

问题就出现在这个训练过程中。每当模型尝试生成一段文字时,教练需要评估这段文字的好坏,这个评估过程就像是要计算一个复杂的数学公式。为了算准这个公式,系统需要进行很多次重复计算(就像投骰子投很多次才能得到准确的概率),而每次计算的所有中间步骤都必须完整保存在电脑内存里,以备后续使用。这就像是在厨房里做一道复杂的菜,每个步骤用过的锅碗瓢盆都不能洗,必须原样保留,很快整个厨房就会被占满,没有地方继续做菜了。

现实情况确实如此严峻。以目前最先进的H800 GPU为例,它的内存容量是80GB,看起来很大,但在实际训练中,研究团队发现当他们想要进行16次重复计算来提高准确性时,内存使用量就会飙升到内存限制之外。这迫使他们只能进行4次重复计算,大大降低了训练效果。这种情况就像是一个学生想要多做几套练习题来提高成绩,但桌子太小,只能同时摊开很少的题目,学习效果自然大打折扣。

清华团队提出的BGPO算法(Boundary-Guided Policy Optimization,边界引导策略优化)就是专门解决这个问题的。他们的核心思想非常巧妙,可以用一个生活中的例子来理解:想象你在餐厅当服务员,需要同时记住很多桌客人的点餐情况。传统方法就像是给每桌客人都准备一个完整的账单夹,里面详细记录每一道菜的制作过程,这样很快就会堆满整个柜台。而BGPO的方法就像是改用简化的收据系统,把复杂的制作过程简化成简单的加法运算,这样一个小本子就能记录所有桌子的信息。

具体来说,BGPO算法有两个关键特性。第一个特性是"线性化",就像是把复杂的数学运算拆解成简单的加法。原来的方法需要计算一个复杂的指数函数,这就像是要计算"2的100次方"这样的复杂运算,而且每个中间步骤都要保存。BGPO巧妙地将这个复杂运算转换成多个简单运算的累加,就像是把"2的100次方"转换成"2+2+2+...+2"这样的简单加法,每个加法项都可以独立计算和处理。

第二个特性是"等价性",确保简化后的方法不会损失准确性。这就像是在烹饪中,我们找到了一种新的调料组合方法,虽然制作过程变简单了,但做出来的菜味道和营养价值完全不变。研究团队通过严格的数学证明,确认了在特定条件下,他们的简化方法得到的结果与原来复杂方法的结果完全一致。

算法的工作原理可以用一个更直观的比喻来解释。假设你在管理一个图书馆,需要统计读者对不同书籍的满意度。传统方法就像是为每个读者准备一份详细的调查表,包含大量问题和复杂的评分系统,这些表格需要专门的档案柜来保存,很快就会占满整个办公室。BGPO的方法则像是设计了一套聪明的简化评分系统:当读者给出好评时,用简单的加分方式处理;当读者给出差评时,用另一种简化方式处理。最神奇的是,这套简化系统得到的最终统计结果和复杂方法完全一样,但占用的存储空间却少得多。

在实际应用中,BGPO算法的效果确实令人印象深刻。研究团队在数学问题解答、代码生成和游戏规划等三个不同领域进行了测试。在数学问题方面,使用BGPO训练的模型在MATH500测试集上的准确率从39.6%提升到45.7%,在GSM8K测试集上从79.3%提升到84.3%。这种提升就像是一个学生通过更好的学习方法,数学考试成绩从60分提升到70分以上,这在教育领域是非常显著的进步。

更令人惊喜的是,BGPO在游戏规划任务上的表现格外出色。在数独游戏中,准确率从12.0%跃升至26.9%,而在倒计时游戏中,更是从19.5%飙升至87.5%,提升幅度达到了惊人的68%。这种巨大的提升可以用一个形象的比喻来理解:原来的方法就像是一个新手在玩拼图,经常找不到正确的拼接方法;而使用BGPO之后,就像是给了这个新手一套高效的拼图策略,成功率大幅提升。

算法的内存效率优势同样值得关注。传统的VRPO-OL算法在使用16次重复计算时,内存占用会超过80GB的硬件限制,因此实际只能使用4次重复计算。而BGPO算法即使使用16次重复计算,内存占用也能维持在可控范围内。这种差异就像是传统方法需要一个大仓库来存放所有材料,而BGPO只需要一个小储物间就能完成同样的工作。

研究团队还深入分析了为什么增加重复计算次数能够提升性能。他们发现,随着重复计算次数从1次增加到16次,算法的梯度方差(可以理解为"不稳定性")和偏差(可以理解为"准确性偏离")都在持续下降。这就像是在测量一个物体的重量时,测量次数越多,得到的平均值就越准确,误差就越小。当重复计算次数较少时,就像只称重1-2次,结果可能不够准确;而通过BGPO实现大量重复计算后,就像称重了十几次求平均值,结果就更可靠了。

在训练效率方面,虽然BGPO使用了更多的重复计算,但实际训练时间只是略有增加。以数学问题训练为例,传统的diffu-GRPO方法平均每步训练时间为128.8秒,VRPO-OL为130.2秒,而BGPO仅为151.5秒。这种轻微的时间增加换来了显著的性能提升,就像是多花10%的时间却能得到30%的效果提升,这个投资回报比是非常划算的。

值得一提的是,研究团队还测试了模型的跨领域表现能力。他们发现,在数学任务上训练的模型在规划任务上也有改善,而在编程任务上训练的模型在数学和规划任务上都有提升。这种现象就像是学会骑自行车的人更容易学会骑摩托车一样,不同技能之间存在互相促进的作用。

从技术发展的角度来看,BGPO算法的出现具有重要意义。当前AI模型的发展面临着算力需求不断增长的挑战,如何在有限的硬件资源下实现更好的训练效果是一个关键问题。BGPO提供了一种新的思路:不是简单地增加硬件投入,而是通过更聪明的算法设计来突破硬件限制。这种思路就像是在城市交通拥堵的情况下,不是简单地修建更多道路,而是通过优化交通信号系统和路线规划来提高通行效率。

研究的理论基础也相当扎实。团队使用了泰勒展开和詹森不等式这两个数学工具来构建他们的简化算法。泰勒展开可以理解为一种数学"近似"技巧,就像是用简单的直线来近似复杂的曲线;詹森不等式则是一个关于平均值的数学定理,帮助确保简化过程不会引入太大的误差。这些严格的数学基础确保了BGPO算法不仅实用,而且理论上是可靠的。

对于普通读者来说,这项研究的意义可以总结为几个要点。首先,它解决了AI训练中的一个重要技术瓶颈,使得新型AI模型能够接受更好的训练。其次,它展示了通过算法创新来突破硬件限制的可能性,这种思路对整个AI行业都有启发意义。最后,它证明了学术研究与实际应用相结合的价值,为未来AI技术的发展提供了新的方向。

当然,这项研究也有一些局限性。目前的实验主要集中在8B参数规模的模型上,这主要是因为更大规模的开源扩散模型还不多见,同时研究团队的计算资源也有限制。但是,考虑到BGPO算法的理论基础足够扎实,研究团队相信这个方法可以很好地扩展到更大规模的模型上。

从更广阔的视角来看,BGPO算法的成功展示了AI研究中的一个重要趋势:通过精巧的算法设计来优化资源利用效率。在AI模型规模不断增长、训练成本持续攀升的今天,这种"用智慧节约资源"的研究方向显得格外重要。它告诉我们,推动AI技术进步不一定要靠"堆硬件",有时候一个聪明的算法创新就能带来意想不到的突破。

说到底,这项研究就像是给AI训练找到了一把"万能钥匙",让原本受限于硬件条件的训练过程变得更加高效和灵活。虽然现在这项技术主要在学术界使用,但随着技术的进一步成熟和推广,普通用户最终也会从中受益——我们可能会看到更强大、更智能的AI助手,它们在回答问题、生成代码和解决复杂任务方面表现得更加出色。对于那些想要深入了解这项研究技术细节的读者,可以通过arXiv:2510.11683v2这个编号查找完整的论文内容。这项研究不仅是对当前AI技术瓶颈的一个巧妙解答,也为未来AI技术的发展开辟了新的可能性。

Q&A

Q1:BGPO算法是什么,它解决了什么问题?

A:BGPO是清华大学开发的一种新型AI训练算法,全称为边界引导策略优化。它主要解决了扩散大语言模型在强化学习训练时内存占用过大的问题,通过巧妙的数学变换,将复杂的指数运算转化为简单的线性运算,使得训练时的内存使用量保持恒定,从而能够使用更多的重复计算来提高训练精度。

Q2:BGPO算法的训练效果比传统方法好多少?

A:BGPO在不同任务上都有显著提升。在数学问题上,准确率从39.6%提升到45.7%;在代码生成方面也有2-3%的提升;最令人印象深刻的是在游戏规划任务上,倒计时游戏的准确率从19.5%飙升至87.5%,提升幅度达到68%。同时,BGPO还能使用4倍于传统方法的重复计算次数来提高精度。

Q3:普通用户什么时候能体验到BGPO带来的改进?

A:目前BGPO主要在学术研究阶段,直接应用于8B参数规模的模型。随着技术进一步成熟和推广,预计在未来1-2年内,基于这种更高效训练方法的AI模型会逐渐应用到实际产品中。普通用户届时可能会体验到回答更准确、推理能力更强的AI助手,特别是在数学计算、代码生成和复杂问题解决方面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

妍妍教育日记
2025-11-18 19:53:15
别再争议广东模特冠军了,辟谣了是太太组冠军,实际冠军另有其人

别再争议广东模特冠军了,辟谣了是太太组冠军,实际冠军另有其人

乡野小珥
2025-11-20 05:32:37
黑龙江省原副省长、省公安厅原厅长毕宝文被查

黑龙江省原副省长、省公安厅原厅长毕宝文被查

环球网资讯
2025-11-20 20:06:30
这3种蔬菜比牛奶补钙,年纪越大越要吃,腿脚更有力,别舍不懂吃

这3种蔬菜比牛奶补钙,年纪越大越要吃,腿脚更有力,别舍不懂吃

江江食研社
2025-11-19 14:30:03
丢掉幻想,准备被割!温铁军:中国是迫在眉睫的战争热点地区

丢掉幻想,准备被割!温铁军:中国是迫在眉睫的战争热点地区

趣味八卦
2025-11-20 01:51:27
刚刚,俞敏洪发文:在南极徒步爬山五个小时!他首次回应“全员信争议”:允许员工吐槽是新东方的传统,明年将选10个左右员工去南极

刚刚,俞敏洪发文:在南极徒步爬山五个小时!他首次回应“全员信争议”:允许员工吐槽是新东方的传统,明年将选10个左右员工去南极

每日经济新闻
2025-11-20 11:49:04
九龙坡神盘惊爆五折抛售!整个小区全部空置,开发商彻底慌了

九龙坡神盘惊爆五折抛售!整个小区全部空置,开发商彻底慌了

小树聊房
2025-11-20 22:00:01
王晓晖会见洪秀柱

王晓晖会见洪秀柱

政知新媒体
2025-11-20 20:23:19
转发提醒!2025年度育儿补贴12月31日截止申领

转发提醒!2025年度育儿补贴12月31日截止申领

潮TV
2025-11-20 10:43:35
从1.4亿元掉到不足1000万元,《鬼灭之刃》票房塌了

从1.4亿元掉到不足1000万元,《鬼灭之刃》票房塌了

每日经济新闻
2025-11-20 19:36:04
1.8亿大单!欧洲两大豪门出手,哈兰德离队时间曝光,联手姆巴佩

1.8亿大单!欧洲两大豪门出手,哈兰德离队时间曝光,联手姆巴佩

林子说事
2025-11-20 09:48:35
炸裂,26岁男星自曝被“变态控制”6年,女富婆让他结扎,太委屈

炸裂,26岁男星自曝被“变态控制”6年,女富婆让他结扎,太委屈

一娱三分地
2025-11-19 17:02:24
湖南:情侣因彩礼分手,女生跑到男友家妥协,结果发现他快结婚了

湖南:情侣因彩礼分手,女生跑到男友家妥协,结果发现他快结婚了

小霍霍
2025-11-18 09:17:58
33岁嫁大9岁十亿富豪,生了一个冠军儿子,如今53岁越活越年轻

33岁嫁大9岁十亿富豪,生了一个冠军儿子,如今53岁越活越年轻

说历史的老牢
2025-11-20 09:04:55
见识中国收拾日本的手段,李在明改了仨字:日本必须比中国矮一头

见识中国收拾日本的手段,李在明改了仨字:日本必须比中国矮一头

历史有些冷
2025-11-19 22:15:03
越来越不对劲,小县城的工资开始崩塌了

越来越不对劲,小县城的工资开始崩塌了

诗意世界
2025-11-13 10:25:43
17分11助5断!帮助广东队夺冠,球迷:朱芳雨舍得送走他吗?

17分11助5断!帮助广东队夺冠,球迷:朱芳雨舍得送走他吗?

体育哲人
2025-11-20 22:20:15
终于明白为什么有些App打死都不适配鸿蒙系统了!

终于明白为什么有些App打死都不适配鸿蒙系统了!

大白聊IT
2025-11-18 17:18:04
军援关键铁路线被破坏!波兰外长:宁愿吃草也不再当俄罗斯殖民地

军援关键铁路线被破坏!波兰外长:宁愿吃草也不再当俄罗斯殖民地

鹰眼Defence
2025-11-18 17:49:10
金价突发!紧急提醒

金价突发!紧急提醒

掌上春城
2025-11-20 23:55:42
2025-11-21 06:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6296文章数 542关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

房产
健康
手机
教育
家居

房产要闻

超95亿!三亚巨量资产,突然甩出!

警惕超声报告这六大"坑"

手机要闻

REDMI产品经理:K90标准版是同档难得很全面的产品

教育要闻

山东春季高考怎么缴费

家居要闻

黑白极简 慵懒通透空间

无障碍浏览 进入关怀版