网易首页 > 网易号 > 正文 申请入驻

MIT把AI训练成本砍了40%:边学边扔的骚操作

0
分享至


训练一个大模型要花多少钱?OpenAI没公开过GPT-4的账单,但业内估算单次训练成本在千万美元级别。更麻烦的是时间——英伟达H100集群全速运转几周,电费都能买套房。

传统解法有两条路:先训个巨无霸再瘦身,或者干脆训个小模型认命接受性能打折。MIT CSAIL联合马普所、ELLIS、苏黎世联邦理工和Liquid AI的研究团队,最近搞了个叫CompreSSM的新方法,直接把这道选择题撕了——他们在训练过程中就把模型压瘦,而不是等练完再动刀

控制论的"体检报告"长什么样

这个方法瞄准的是状态空间模型(State-Space Model,SSM),一类在语言处理、音频生成和机器人领域越来越流行的架构。研究团队从控制理论借了个工具:Hankel奇异值(Hankel Singular Values),用来量化模型内部每个状态对整体输出的贡献度。

「本质上这是一种让模型在训练时越变越小、越变越快的技术,」论文一作、MIT电气工程与计算机科学系博士生Makram Chahine说,「学习过程中,它们同时也在丢弃对自身发展无用的部分。」

关键发现有点反直觉:模型内部各组件的相对重要性,在训练早期就趋于稳定。团队用Hankel奇异值给每个维度打分,靠谱地分出哪些该留、哪些该扔,然后提前动手术。

具体操作上,他们每几千步训练就做一次"体检",把贡献度低的维度标记为可删除。被标记的部分不会立刻消失,而是逐渐降低学习率,让模型有时间适应新的结构。等适应得差不多了,再物理删除并压缩模型。

省下的不只是显卡

实验数据很实在。在语言建模基准测试上,CompreSSM把模型体积压缩了40%,推理速度提升,最终性能却没掉——有些任务甚至略超原模型。音频生成和机器人控制任务上也复现了类似效果。

更隐蔽的收益是训练成本。传统剪枝方法得等模型完全收敛才能动手,意味着前期投入全部沉没。CompreSSM从训练中期就开始压缩,被删除的维度后续不再参与计算,实打实省下了算力和电费

研究团队做了个对比实验:同样训到收敛,CompreSSM路线的总计算量比传统路线少了约三分之一。按AWS p4d实例的市价估算,一个百亿参数规模的模型能省下六位数美元。

状态空间模型这两年风头正劲,Mamba架构的论文去年被ICML评为杰出论文,多家创业公司押注这个方向。但SSM的参数量膨胀速度不比Transformer慢,压缩需求同样迫切。CompreSSM的出现,相当于给这个新兴架构族配了套原生瘦身方案。

谁该紧张,谁该兴奋

这个方法对AIinfra层的玩家冲击最直接。专门做模型压缩的第三方工具厂商,核心卖点是"训完后再优化",现在上游开始原生支持边训边压,空间被挤压。云厂商的算力租赁业务倒是利好——客户同样预算能跑更多实验。

创业公司的反应分化。做端侧AI的团队最积极,模型体积直接决定能不能上手机;做大模型预训练的则相对谨慎,毕竟压缩40%和压缩60%之间还有探索空间,没人想先冒险。

Chahine透露团队正在和一家机器人公司合作,把CompreSSM塞进实时控制系统的训练流程。机器人场景对延迟极度敏感,模型瘦身带来的推理加速是刚需。

论文已被NeurIPS 2024接收,代码和预训练检查点计划开源。GitHub仓库还没公开,但HuggingFace社区已经有开发者根据论文描述尝试复现。

一个有趣的细节:审稿人之一在OpenReview上质疑,Hankel奇异值的计算本身有开销,频繁"体检"会不会吃掉省下的算力?作者回应说实际每几千步才做一次,摊薄后占比不到2%,且正在尝试用近似算法进一步降低。

控制理论这个上世纪中期的学科,因为AI又热了起来。除了MIT这组,DeepMind去年也用李雅普诺夫稳定性分析改进强化学习,斯坦福把模型预测控制(MPC)和神经网络嫁接。老工具解决新问题,算是工程领域的常态。

CompreSSM的局限也写在论文里:目前只验证了状态空间模型,Transformer架构能不能用同款思路还是未知数。团队说理论上有希望,但注意力机制的动态稀疏性和SSM的固定结构差异很大,直接迁移会踩坑。

如果这套方法最终能跨架构通用,大模型训练的边际成本曲线会被重新绘制。现在的问题是,OpenAI和Anthropic的内部团队,是不是已经在做类似的事了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
50岁后,突然醒悟,寿命长短,不取决于运动,取决于3方面,很准

50岁后,突然醒悟,寿命长短,不取决于运动,取决于3方面,很准

人间百态大全
2026-04-27 06:40:07
我国首例公开转世人:6岁凭记忆找到前世的家,还找到前世情人

我国首例公开转世人:6岁凭记忆找到前世的家,还找到前世情人

小兰聊历史
2026-04-13 12:04:13
被忽视的风险,存款保险,保的是“银行破产”,不保“银行被盗”

被忽视的风险,存款保险,保的是“银行破产”,不保“银行被盗”

月满大江流
2026-04-30 13:52:04
“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁
2026-03-26 11:35:13
俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

桂系007
2026-04-29 05:18:10
逆转!马杜罗被捕114天后,特朗普首度重大让步,美法官有言在先

逆转!马杜罗被捕114天后,特朗普首度重大让步,美法官有言在先

杰丝聊古今
2026-04-30 11:34:36
闹剧!媒体人揭山东泰山乱象,韩鹏疑被架空,宿茂臻成不稳定因素

闹剧!媒体人揭山东泰山乱象,韩鹏疑被架空,宿茂臻成不稳定因素

国足风云
2026-04-29 18:51:08
震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

火山詩话
2026-04-29 19:47:16
厄齐尔:因为我当年发表了涉华言论,导致我被阿森纳弃用

厄齐尔:因为我当年发表了涉华言论,导致我被阿森纳弃用

懂球帝
2026-04-30 09:07:30
85年越战,顾克路牺牲后,副连长下令:不要俘虏,全部杀死

85年越战,顾克路牺牲后,副连长下令:不要俘虏,全部杀死

我不是沃神
2026-04-30 11:40:08
90后救人夫妻找到!人民日报点名,工作单位曝光,难怪会不顾一切

90后救人夫妻找到!人民日报点名,工作单位曝光,难怪会不顾一切

杰丝聊古今
2026-04-29 16:44:22
李斌现场演示做饭!蔚来全新车型预售15.98万起

李斌现场演示做饭!蔚来全新车型预售15.98万起

汽车工程师
2026-04-28 22:04:44
空军司令员刘亚楼顶撞毛主席,毛主席脸色一变:以后空军你说了算

空军司令员刘亚楼顶撞毛主席,毛主席脸色一变:以后空军你说了算

历史甄有趣
2026-04-29 13:00:13
员工在厕所玩手机,照片被发到400多人的大群......

员工在厕所玩手机,照片被发到400多人的大群......

环球时报国际
2026-04-29 21:19:36
普京释放停战善意,特朗普紧急宣布乌战败,不料泽连斯基反手出击

普京释放停战善意,特朗普紧急宣布乌战败,不料泽连斯基反手出击

阿绐聊社会
2026-04-30 11:44:18
属马人:五一后多到3个地方去走动,尤其今年特别有益

属马人:五一后多到3个地方去走动,尤其今年特别有益

阿龙美食记
2026-04-29 22:39:06
未来房价是涨还是跌?房产专家表示,近两年买房可能会是接盘侠

未来房价是涨还是跌?房产专家表示,近两年买房可能会是接盘侠

坠入二次元的海洋
2026-04-30 13:05:32
严查“中午喝、晚上开”等行为 重庆将开展酒驾醉驾专项整治行动

严查“中午喝、晚上开”等行为 重庆将开展酒驾醉驾专项整治行动

上游新闻
2026-04-30 13:05:35
不管楼层多高,这5个楼层才是最吉利楼层,不是迷信,而是共识

不管楼层多高,这5个楼层才是最吉利楼层,不是迷信,而是共识

室内设计师有料儿
2026-04-24 10:42:26
外媒:美或在对伊战争中“首次动用高超音速导弹”

外媒:美或在对伊战争中“首次动用高超音速导弹”

参考消息
2026-04-30 13:44:45
2026-04-30 15:15:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1975文章数 28关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

时尚
房产
健康
本地
教育

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

干细胞治烧烫伤能用了么?

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

成都盐外发出倡议:每个家庭设立“家庭情绪日”

无障碍浏览 进入关怀版