网易首页 > 网易号 > 正文 申请入驻

挑战英伟达:首个纯AMD硬件训练的AI大模型ZAYA1登场

0
分享至

IT之家 11 月 25 日消息,AMD 公司昨日(11 月 24 日)发布公告,宣布携手 IBM 和 AI 初创公司 Zyphra,历时 1 年多时间,成功使用 AMD 硬件训练出首个大型混合专家(MoE)基础模型 ZAYA1。

IT之家援引博文介绍,该模型是首个完全基于 AMD 硬件生态系统构建的大型混合专家(MoE)模型,其训练过程完全在 IBM 云上进行,使用了 AMD Instinct MI300X GPU、Pensando 网络技术和 ROCm 软件平台,其详细技术报告已在 arXiv 上发布。


三方为训练 ZAYA1 模型,共同搭建了一个大规模、高可靠性的专用训练集群。该集群由 128 个节点组成,每个节点配备 8 块 AMD MI300X GPU,总计 1024 块 GPU,通过 AMD InfinityFabric 高速互联。

整个集群的实际训练性能超过 750 PFLOPs(每秒 75 亿亿次浮点运算),同时 Zyphra 为确保了训练过程的稳定与高效,还开发了一套针对 AMD 平台高度优化的训练框架。

ZAYA1 基础模型在预训练阶段使用了高达 14 万亿(14T)tokens 的数据,并采用了分阶段的课程学习策略:从初期的非结构化网络数据,逐步过渡到结构更清晰、信息密度更高的数学、代码和推理数据。


基准测试结果显示,ZAYA1 的综合性能与业界领先的 Qwen3 系列模型不相上下,同时优于 SmolLM3、Phi4 等主流开源模型。特别是在未经特定指令微调的情况下,其推理版本在数学和 STEM 等复杂推理任务上已接近 Qwen3 的专业版本。



ZAYA1 的优异性能还得益于其在模型架构上的两项关键创新。首先,它采用了新颖的 CCA 注意力机制(Compressive Convolutional Attention),通过在注意力模块内部引入卷积操作,显著降低了计算量和显存占用。

其次,该模型改进了混合专家模型(MoE)中常用的线性路由(linear router),设计了新的路由结构,提升了模型的表达能力和专家模块的专业化程度。这些创新共同解决了 Transformer 架构中的计算与内存瓶颈。

Zyphra 表示,ZAYA1 的成功发布只是第一步。目前公布的仅为基础模型预览,未来团队将发布经过完整后训练(post-trained)的模型版本,并提供更详尽的性能评测和训练经验分享。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凯特王妃犯“糊涂”!公开场合表情管理失控,再次引发婚姻危机

凯特王妃犯“糊涂”!公开场合表情管理失控,再次引发婚姻危机

白日追梦人
2026-01-13 18:52:05
美国妹纸飞机上偶遇梦中情人!2人小酒一喝暧昧非常,然而下一秒她却突然破防了

美国妹纸飞机上偶遇梦中情人!2人小酒一喝暧昧非常,然而下一秒她却突然破防了

英国那些事儿
2026-01-13 23:26:02
出动3路人马,日本对华反击正式开始!关键时刻,特朗普却摊牌了

出动3路人马,日本对华反击正式开始!关键时刻,特朗普却摊牌了

小兰聊历史
2026-01-15 03:30:24
血泪教训:不要跟任何人,包括父母,子女,枕边人,分享这三件事

血泪教训:不要跟任何人,包括父母,子女,枕边人,分享这三件事

诗词中国
2025-12-22 18:42:41
去年国内狂犬病发病及死亡数创五年内新高

去年国内狂犬病发病及死亡数创五年内新高

界面新闻
2026-01-14 18:23:47
帅T网红爆染爱滋「背长满藤壶颗粒」! 友目睹恐怖画面:以为蚂蚁在爬

帅T网红爆染爱滋「背长满藤壶颗粒」! 友目睹恐怖画面:以为蚂蚁在爬

ETtoday星光云
2026-01-12 10:06:26
澳大利亚驱逐伊朗大使,西方多国纷纷与波斯政府“翻脸”

澳大利亚驱逐伊朗大使,西方多国纷纷与波斯政府“翻脸”

史政先锋
2026-01-13 23:03:50
周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

大象新闻
2026-01-14 18:49:07
重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

扶苏聊历史
2026-01-14 08:05:03
合川呆呆收入曝光,一夜暴富,几辈子都花不完

合川呆呆收入曝光,一夜暴富,几辈子都花不完

辣条小剧场
2026-01-14 04:31:12
特斯拉将停售FSD买断版,全面转向订阅制模式

特斯拉将停售FSD买断版,全面转向订阅制模式

界面新闻
2026-01-14 16:49:51
随着马内一剑封喉,萨拉赫率队出局,首支晋级非洲杯决赛的球队诞生

随着马内一剑封喉,萨拉赫率队出局,首支晋级非洲杯决赛的球队诞生

侧身凌空斩
2026-01-15 02:57:49
幸无大碍!杨瀚森后脑被撞后经短暂检查重返球场继续比赛

幸无大碍!杨瀚森后脑被撞后经短暂检查重返球场继续比赛

懂球帝
2026-01-14 14:33:05
吃他汀猝死的人增多?医生含泪告诫:天冷吃他汀,必须多关注6点

吃他汀猝死的人增多?医生含泪告诫:天冷吃他汀,必须多关注6点

健康之光
2026-01-13 10:51:03
你家鼠标自带的驱动,快和流氓软件没区别了。。。

你家鼠标自带的驱动,快和流氓软件没区别了。。。

差评XPIN
2026-01-15 00:07:38
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
00后业界顶流(楪可怜),极品巨乳小只马,童颜系天花板

00后业界顶流(楪可怜),极品巨乳小只马,童颜系天花板

碧波万览
2026-01-15 00:24:29
麦当劳“汉堡越做越小”?博主测试:尺寸没变,可能是“曼德拉效应”;官方客服也有回应

麦当劳“汉堡越做越小”?博主测试:尺寸没变,可能是“曼德拉效应”;官方客服也有回应

申消费
2026-01-14 10:20:04
连体裙:一副移动的建筑

连体裙:一副移动的建筑

疾跑的小蜗牛
2026-01-14 21:45:17
肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

全球军事记
2025-12-29 21:28:37
2026-01-15 04:32:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
324586文章数 606879关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

健康
旅游
房产
家居
公开课

血常规3项异常,是身体警报!

旅游要闻

从荒地到花海:凯里用 10 年造绿,让冬日公园藏满幸福滋味!

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

家居要闻

心之所向 现代建构之美

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版