网易首页 > 网易号 > 正文 申请入驻

Sand.ai开源发布MagiCompiler:突破局部编译界限,定义训推性能上限

0
分享至

来源:市场资讯

机器之心发布

大模型开发者常面临一个两难选择:要速度,还是省显存?

通常情况下,想要跑得快,显存会爆;想省点显存,计算效率又会被频繁的同步和流水线气泡大幅拖垮。原生的 torch.compile 虽然好用,但在面对复杂的跨层优化和 FSDP 显存管理时,依然力不从心。

为了彻底解决这一痛点,Sand.ai 今天正式开源 MagiCompiler —— 一款基于 torch.compile 深度优化的即插即用、训推一体编译框架。

MagiCompiler 彻底突破了传统局部编译的界限,实现了推理期整图捕获与训练期 FSDP-Aware 整层编译。

更重要的是,研发团队创新提出 Compiler as Manager 理念 —— 将编译器从单纯的 “算子优化器” 进阶为全局管理器。它全面接管了计算调度与显存的生命周期,以系统级的底层解法,破解算力与显存墙难题。


  • 代码仓库:https://github.com/SandAI-org/MagiCompiler

核心技术

打破边界的全局调度

1. 打破编译边界:整图与整层编译

传统编译常因复杂的 Python 逻辑频繁触发 Graph Break。研发团队彻底改变了这一点:

  • 推理期:捕获完整的计算图,最大化 Transformer Block 内的算子融合空间。

  • 训练期:利用 FSDP 在前向 / 反向传播中 “单层权重全驻留” 的特性,将 Transformer Layer 作为编译单元。这使得编译器可以执行激进的跨算子融合,大幅减少 Kernel Launch 开销和 Global Memory 读写。

2. 内存魔术:启发式重计算(Heuristic Recompute)

在训练大模型时,开发者通常需要手动插入 torch.utils.checkpoint 来控制显存,既繁琐又难以最优。MagiCompiler 引入了智能感知图分割器:

  • 彻底告别手动打点:框架自动分析计算图,识别并优先保留 MatMul、Attention 等计算密集型算子的输出。

  • 极致抠显存:对于显存密集型算子,自动在反向传播时进行重计算,从根本上压缩显存峰值而不损失吞吐量。

3. 榨干带宽:JIT 极致 Offload 调度

针对显存瓶颈,研发团队实现了一套极其优雅的权衡调度引擎:

  • 性价比常驻:基于 Profiling 数据,将最划算的权重贪心地常驻在有限的 GPU 显存中。

  • JIT 最晚预取:调度器逆向推导精确的预取时间表,卡在计算前的 “最后一刻” 完成权重拉取,确保 GPU 不囤积多余权重,彻底消除流水线气泡。


MagiCompiler Overview

性能实测

真正免费的性能午餐

凭借底层的全局调度,MagiCompiler 交出了亮眼的答卷:

  • 训练端表现:在极短时间内,提供高吞吐的保底方案。无需耗时数周死磕 Kernel 或手工魔改底层逻辑,开箱即可解决 Baseline 的 CPU 调度与算子碎片化难题,直接带来 44.7% 提速与 6.2% 显存下降,且精度完全对齐。


MagiCompiler v.s. baseline

  • 推理端表现:在多模态视频生成场景下,MagiCompiler 展现了极其扎实的硬件泛化能力

  • H100:比最好更好

    在单机 NVIDIA H100 上,面对主流视频生成模型,MagiCompiler 比目前的领跑方案(如 LightX2V)还要快 9%~26%。


H100 性能测评

  • RTX 5090:显存受限,近乎实时

    即便在显存有限的 5090 上,通过 JIT Offload 调度,MagiCompiler 也让 daVinci-MagiHuman 这种超大模型跑出了近乎实时的速度。


5090 daVinci-MagiHuman 性能指标

极简体验

一行代码,即插即用

强悍的底层性能并不意味着复杂的接入成本。秉持对开发者友好的设计理念,MagiCompiler 只需两个装饰器即可完成接入。

  • 基础编译增强:

    无需修改模型源码,magi_compile 一键装饰 TransformerBlock:


  • 自定义算子注册:

    对于 FlashAttention 或 MoE 等定制化算子,轻松注册并无缝融入重计算策略:


此外,我们内置了强大的自省工具链:开启环境变量,所有隐式的编译产物(反编译字节码、Kernel 代码、Guard 条件等)均会被持久化为人类可读的 Python 文件与图表,让编译器 Debug 变得简单直观。

结语与未来展望

MagiCompiler 正在打破传统编译器的边界。它不仅让我们看到了 torch.compile 迈向全局调度的巨大潜力,更为大模型与多模态架构的规模化落地提供了基础设施。

目前,MagiCompiler 已全面开源。Sand.ai 将持续降低大模型底层的开发门槛,为 AI 社区持续做出贡献。

了解更多信息,欢迎访问 Sand.ai 官网:https://sand.ai

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意外强援!乌干达总司令放话:以色列要是输了,我们直接出兵

意外强援!乌干达总司令放话:以色列要是输了,我们直接出兵

沧海旅行家
2026-03-27 17:07:25
自战事爆发以来 伊朗平均每天卖油能多赚1.7亿

自战事爆发以来 伊朗平均每天卖油能多赚1.7亿

财联社
2026-03-27 11:05:06
柯文哲被判重刑仍深夜探视送暖,蔡正元:黑暗时刻,我们一定要赢

柯文哲被判重刑仍深夜探视送暖,蔡正元:黑暗时刻,我们一定要赢

海峡导报社
2026-03-27 15:33:06
寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

DrX说
2025-10-24 14:15:19
山东友道化学有限公司“5·27”重大爆炸事故调查报告公布

山东友道化学有限公司“5·27”重大爆炸事故调查报告公布

新京报
2026-03-27 18:14:16
阿里大模型负责人离职后首曝:Qwen3那个开关,我们搞砸了

阿里大模型负责人离职后首曝:Qwen3那个开关,我们搞砸了

固件更新中
2026-03-27 14:32:51
热榜炸了!内存条终于降价了!DDR5暴跌近20%!!

热榜炸了!内存条终于降价了!DDR5暴跌近20%!!

小柱解说游戏
2026-03-27 18:59:22
李鑫回到养家开怀大笑,终于明白,一句话断了姐姐念想是对的

李鑫回到养家开怀大笑,终于明白,一句话断了姐姐念想是对的

奇思妙想草叶君
2026-03-27 15:12:36
中央连发两文定调!不出意外的话,一线城市的房价或迎来大变化

中央连发两文定调!不出意外的话,一线城市的房价或迎来大变化

离离言几许
2026-03-27 13:47:28
美官员称中芯国际已向伊朗军方提供芯片制造工具 外交部回应

美官员称中芯国际已向伊朗军方提供芯片制造工具 外交部回应

财联社
2026-03-27 15:34:12
19岁生日前1天首登时尚大刊封面 全红婵再造纪录 已阔别赛场141天

19岁生日前1天首登时尚大刊封面 全红婵再造纪录 已阔别赛场141天

风过乡
2026-03-27 19:49:20
伊朗禁往返敌方盟友港船只通过海峡

伊朗禁往返敌方盟友港船只通过海峡

界面新闻
2026-03-27 18:16:06
采耳变卖淫?女技师可变装,躺采色诱客人,有反应了就直接脱裤子

采耳变卖淫?女技师可变装,躺采色诱客人,有反应了就直接脱裤子

乌娱子酱
2025-03-19 10:27:30
被免去中航工业副总经理职务一年后,杨伟院士的事有了新消息

被免去中航工业副总经理职务一年后,杨伟院士的事有了新消息

张嘴说财经
2026-03-27 21:55:43
试管婴儿对女性伤害有多大?网友:同感,只有经历过的人才会懂

试管婴儿对女性伤害有多大?网友:同感,只有经历过的人才会懂

带你感受人间冷暖
2026-03-15 18:54:19
珠海,被点名表扬!

珠海,被点名表扬!

珠海发布
2026-03-27 20:18:35
Token 刚定了中文名,AI 圈又多了个翻译不了的词

Token 刚定了中文名,AI 圈又多了个翻译不了的词

AppSo
2026-03-26 21:27:20
特朗普彻底懵了,海湾国家突然变脸,反对停战,美媒:美国被骗了

特朗普彻底懵了,海湾国家突然变脸,反对停战,美媒:美国被骗了

一曲一场談
2026-03-27 10:59:49
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
张雪峰灵堂花圈摆满松柏:遗孀付幸保持沉默,前妻李丽婧也未露面

张雪峰灵堂花圈摆满松柏:遗孀付幸保持沉默,前妻李丽婧也未露面

眼光很亮
2026-03-27 14:45:20
2026-03-27 22:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2663339文章数 6185关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

男生欲性侵15岁女同学将其杀害 事后去事发地查看情况

头条要闻

男生欲性侵15岁女同学将其杀害 事后去事发地查看情况

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

本地
教育
艺术
手机
公开课

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

教育要闻

9科全!2026山东枣庄高三二模试卷及答案汇总【枣庄二调】

艺术要闻

张大千:形成于未画之先,神留于既画之后

手机要闻

一加Nord CE6系列手机曝光:预计基于Turbo 6V微调,有望5月发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版