来源:市场资讯
(来源:你好张江)
![]()
4月18日,NVIDIA加速计算Meetup:“Megatron Core大模型训练框架”专场在Vπ张江孵化器@纳贤800成功举办。本次活动汇聚了NVIDIA及产业和SteptronOSS、AReal开发者社区的多位一线技术专家与工程师,深度探讨MoE模型扩展、显存优化、CUDA Graphs加速及Agent编程在训练框架中的创新实践。
生态赋能,助力青年创客逐梦张江
![]()
张江孵化器总经理金红梅在致辞中表示,创新生态的持续发展离不开兼具包容性与支撑力的土壤。纳贤800国际青年创新创业基地正是为青年创客量身打造的梦想起点——这里不仅提供从0到1的全周期孵化支持,更构建了“苗圃-孵化-加速-未来技术”的垂直生态体系,对标全球顶尖科创中心,打造“策源-孵化-加速-国际化”四位一体的创新枢纽。
除了浦东“青创15条”政策红利,入驻团队还可享受“算力券”“模型券”“语料券”等AI专项补贴,叠加“投孵联动”机制与高质量孵化空间,让青年创业者在此筑梦、造梦、追梦,实现硬科技创新的加速生长。
NVIDIA开发与技术部门亚太区资深总监李曦鹏表示,NVIDIA自2023年已围绕开发者社区,针对CUDA加速计算平台、加速库及最佳实践,开展过数场深度专题分享和现场交流。
![]()
技术前沿:Megatron Core MoE训练框架深度解析
NVIDIA加速计算专家颜子杰面对大模型训练的未来,MoE框架中“变与不变”值得深思:不变的是对通信计算效率的极致追求、生产级解决方案的交付标准,以及全局协同的工程思维;变化的则是代码形态的演进、交付形式的革新,以及更适配Agent开发的代码设计理念——这些正是当前重点探索的方向。
NVIDIA加速计算专家刘振寰系统解读了NVIDIA Megatron Core MoE技术报告,全面剖析MoE大模型训练的核心价值。针对显存瓶颈、通信开销与计算强耦合等系统挑战,他详细阐释了如何通过并行策略优化、显存管理、高效通信、算子融合与低精度训练实现效率跃升,并分享了Megatron Core框架的生产级能力与最佳实践。
NVIDIA加速计算专家张耀斌围绕“从部分CUDA Graphs到完整CUDA Graphs”展开技术演进。针对GPU利用率低、CPU绑定等痛点,他提出四阶段优化方案,并重点讲解Partial到SyncFree的技术突破,彻底消除GPU与CPU间的数据同步阻塞。
NVIDIA加速计算专家柏炎展示了如何利用智能体开发Bumblebee训练框架。以4000行代码重写验证Agent能力,并推出三层Library架构,支持原子化组合与渐进式验证,已在VeRL强化学习框架中落地,未来将强化Agent辅助与面向强化学习的性能优化。
开发者社区技术专家分享前沿训练框架技术
来自开发者社区的3位技术专家也分享了各自业务实践中的经验。
在Megatron Core细粒度激活卸载方面,技术专家提出了一种显存优化方案,核心在于独立流并行数据搬运与精准同步机制,同时保持与流水线并行及重计算技术的兼容性。该技术可显著降低训练显存占用,吞吐损耗极小,结合训练配置调优可实现7%~15%的端到端性能加速,具备较强的工程落地价值。
轻量级AI原生训练框架SteptronOSS通过模块化架构、简化逻辑与独立实验入口提升可维护性,明确“人类主导创新与规范、AI负责规模化执行”的协同范式,缓解了效率与简洁性难以兼顾、上手门槛高、多角色协作不便等现有训练框架中的常见痛点。
AReaL主要贡献者带来了“零手写代码开发AReaL训练框架”的实践分享。他介绍了RL训练框架AReaL的优势与路线图,提出AI开发的标准流程与能力边界,通过任务拆解与上下文分解提升效率,并针对PR泛滥问题提出“核心开发者编码+需求验证分工+AI审查”的协作方案。
自由交流,共探未来
在讨论环节,嘉宾们围绕AI交互输入、数据分析、CI系统设计、专家知识迭代、代码评审有效性等实际问题展开深度交流。
![]()
![]()
未来,Vπ张江孵化器将持续联动生态伙伴,为硬核技术、硬科技创新提供加速生长的关键土壤,助力更多创新成果从张江走向世界。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.