网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

transformers v4.51.1正式发布！Llama 4多项关键修复，深度学习玩家速更！

2025-04-10 00:11:09　来源: moonfdd

北京举报

0

分享至

引言：
Hugging Face团队刚刚推出了Transformers库的v4.51.1版本！这次更新主要针对Llama 4的多个关键问题进行了修复，包括训练稳定性、注意力机制优化和量化支持等。如果你是Llama 4的用户，或者正在使用Flex Attention、DeepSpeed等高级功能，这次更新绝对不能错过！

核心修复内容：

1.Flex Attention修复

• 修复了Torch 2.6.0兼容性问题，避免因可选参数缺失导致的错误。
• 优化了Flex Attention的稳定性，尤其适合长序列建模任务。

2.Llama 4训练稳定性提升

• 解决了Llama 4在训练过程中的多个潜在Bug，包括梯度计算和权重初始化问题。
• 修复了Post-Training阶段的逻辑错误，模型微调更流畅。

3.DeepSpeed与量化支持

• 修复了DeepSpeed在量化模型中的兼容性问题，现在可以更高效地运行低精度训练！

4.权重初始化与缓存优化

• 修复了_init_weights方法的潜在问题，避免模型初始化时的数值不稳定。
• 移除了HQQ（Hybrid Quantum-Classical）预热缓存逻辑，减少内存占用。

为什么你需要升级？

• 如果你是Llama 4用户：修复了训练崩溃和性能波动问题，强烈建议更新！
• 如果你使用Flex Attention或DeepSpeed：兼容性更强，运行更稳定。
• 如果你关心模型效率：量化支持和缓存优化能显著降低资源消耗。

升级指南：
只需一行命令，轻松升级到最新版：

pip install transformers==4.51.1 --upgrade

️ 用户反馈：

“v4.51.1解决了我们团队在Llama 4训练中遇到的多个问题，尤其是Flex Attention的修复让长文本任务效率提升明显！”——某AI实验室工程师

未来展望：
Hugging Face团队表示将继续优化Llama 4的生态支持，下一版本可能聚焦于多模态扩展和更低资源的量化方案。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，让AI助力您的未来发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

女子乘船时同大雁“齐飞”，两手轻抚托举画面和谐美好

北青网-北京青年报 2026-04-21 04:02:12
977 跟贴 977
男子爬上泰山“五岳独尊”石刻拍照，景区：将核查其身份进行处理

扬子晚报 2026-04-17 12:09:40
1667 跟贴 1667

保价2000元机盖运输中损坏，德邦理赔只肯赔1300元；车主：我不要钱了，你赔我一个机盖总可以吧

大风新闻 2026-04-20 19:12:04
673 跟贴 673

验资3000万每日预约名单仍排满，高净值人群“排队”看房，4月的杭州楼市是高端局

都市快报橙柿互动 2026-04-20 14:35:53
154 跟贴 154
高峰期作业、粗暴喷洒！深圳市民吐槽洒水车成 “扰民车”

南方都市报 2026-04-20 23:12:18
737 跟贴 737

黎巴嫩再成战场民众：在这没有人没有失去过亲近的人

新京报 2026-04-20 08:22:24
875 跟贴 875

深圳一火锅店招985和211大学应届生储备店长，从服务员做起，门店负责人：本科生就行，已有985管培生

极目新闻 2026-04-20 14:14:59
350 跟贴 350
上海一“沪A黄牌”摩托车起价34万将被拍卖，车身估值2500元，车牌值48万

极目新闻 2026-04-20 13:32:56
289 跟贴 289

樊振东作为战略投资人观战美职乒联

大风新闻 2026-04-21 11:21:40
65 跟贴 65
浦东新添一家三甲医院，上海长征医院浦东院区明起面向社会公众服务

澎湃新闻 2026-04-20 13:58:26
464 跟贴 464
广西一小学食堂员工疑多次把营养午餐带回家，官方通报：系将剩余饭菜带回家喂养家禽，不存在克扣学生营养午餐情况

大象新闻 2026-04-21 09:15:04
266 跟贴 266
5月1日起，医疗回扣要“凉凉”

中国新闻周刊 2026-04-20 13:21:25
8 跟贴 8
拜仁摘队史德甲第34冠，主帅孔帕尼：“一切还没结束”

环球网资讯 2026-04-21 06:48:12
119 跟贴 119
郑栅洁主持召开民营企业座谈会

界面新闻 2026-04-20 17:54:34
232 跟贴 232
以黎驻美大使拟于23日在美国华盛顿第二次会晤

界面新闻 2026-04-20 21:16:21
62 跟贴 62
新华时评·首季经济观察｜新职业拓展就业市场新空间

新华社 2026-04-20 17:42:02
153 跟贴 153
一季度31个省份规上工业增加值全部实现正增长

央视新闻客户端 2026-04-21 10:08:48
1 跟贴 1
滞留迪拜一个半月！MSC神女号顺利通过霍尔木兹海峡，船上有200名中国游客

齐鲁壹点 2026-04-20 18:30:29
5 跟贴 5
减速机订单已排到明年！

财联社 2026-04-21 07:54:05
0 跟贴 0
山姆买乌冬面吃出蛆虫，只赔400元？顾客：门店很傲慢！客服最新回应

政法频道 2026-04-21 12:31:48
0 跟贴 0
网传"应县木塔即将全部拆卸大修"系谣言宁夏一主播造谣被依法处罚

中国日报网 2026-04-21 12:28:16
0 跟贴 0

直辖市新设区首任区委书记任上落马，3“虎”同日被中纪委开除党籍

直辖市新设区首任区委书记任上落马，3“虎”同日被中纪委开除党籍

上观新闻

2026-04-20 14:48:07

桑叶是个宝，6大功效请收好

环京快爆

2026-04-07 08:15:55

A股：周二突然跳水，原因有两点，行情要变了？

A股：周二突然跳水，原因有两点，行情要变了？

明心

2026-04-21 11:40:13

俄罗斯梁赞州向各单位下达征兵命令，翻译成中文很亲切

俄罗斯梁赞州向各单位下达征兵命令，翻译成中文很亲切

李未熟擒话2

2026-04-20 10:47:19

罕见！7.7级地震把半个日本都震醒了，日网民：快请发达中国救我

罕见！7.7级地震把半个日本都震醒了，日网民：快请发达中国救我

沧海一书客

2026-04-21 03:00:52

机车重要，车手更重要！53号车手助张雪机车赢比赛，64号却在摔车

机车重要，车手更重要！53号车手助张雪机车赢比赛，64号却在摔车

观察鉴娱

2026-04-21 10:18:33

空军全军覆没？伊朗突亮地下底牌！美以傻眼了，就这样被骗数亿

空军全军覆没？伊朗突亮地下底牌！美以傻眼了，就这样被骗数亿

面包夹知识

2026-04-20 17:08:30

广东宏远拒绝输球！拉科塞维奇上演首秀，萨姆纳复出，央视直播

广东宏远拒绝输球！拉科塞维奇上演首秀，萨姆纳复出，央视直播

体坛瞎白话

2026-04-21 09:11:01

拼多多暴力抗法细节曝光：推搡拉扯执法人员，员工当场吃下纸团！

拼多多暴力抗法细节曝光：推搡拉扯执法人员，员工当场吃下纸团！

仕道

2026-04-20 17:48:21

张雪回应：820RR爆缸是发动机问题，换新车还是退钱，车主选！

张雪回应：820RR爆缸是发动机问题，换新车还是退钱，车主选！

哄动一时啊

2026-04-18 19:39:31

张萌穿成这样去海边还让不让人玩了？

张萌穿成这样去海边还让不让人玩了？

科学发掘

2026-04-21 11:49:27

以色列反对派61席绝杀！内塔尼亚胡3个月内彻底倒台入狱？

以色列反对派61席绝杀！内塔尼亚胡3个月内彻底倒台入狱？

局势帝

2026-04-20 11:05:25

日本9偶像「脱衣玩野球拳」离谱处分出炉！女偶像遭开铡　男偶像全没事

日本9偶像「脱衣玩野球拳」离谱处分出炉！女偶像遭开铡　男偶像全没事

ETtoday星光云

2026-04-20 15:00:12

从中国驶向伊朗的货船，遭美军开火截停，不到24小时，中方表态

从中国驶向伊朗的货船，遭美军开火截停，不到24小时，中方表态

福建睿平

2026-04-21 11:54:06

亲戚一家五口旅游要求接待，咋拒绝？网友：直接表达的态度

亲戚一家五口旅游要求接待，咋拒绝？网友：直接表达的态度

带你感受人间冷暖

2026-04-19 23:11:39

华为把电视卖成电脑价，谁会上钩？

华为把电视卖成电脑价，谁会上钩？

薛定谔的BUG

2026-04-20 10:47:56

75年，毛主席得知一中将在芜湖当地委副书记，大怒：必须重新分配

75年，毛主席得知一中将在芜湖当地委副书记，大怒：必须重新分配

老范谈史

2026-04-10 13:59:38

午盘|又疯了！A股全线跳水！怎么看？

午盘|又疯了！A股全线跳水！怎么看？

龙行天下虎

2026-04-21 11:40:42

郭富城被吐槽送方媛253元结婚纪念礼物，店主爆料

郭富城被吐槽送方媛253元结婚纪念礼物，店主爆料

悦君兮君不知

2026-04-21 07:58:02

苹果首款折叠屏iPhone手机壳曝光，MagSafe磁吸功能确认

苹果首款折叠屏iPhone手机壳曝光，MagSafe磁吸功能确认

TechWeb

2026-04-21 09:40:12

福大大架构师每日一题

1182文章数 65关注度

往期回顾全部

科技要闻

重磅官宣：库克卸任，特努斯接任苹果CEO

头条要闻

特朗普公开对伊开战真正原因：不是因为以色列

头条要闻

特朗普公开对伊开战真正原因：不是因为以色列

体育要闻

“被优化”8年后，国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼，变现数亿资产

财经要闻

减速机订单已排到明年！

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻我腿软了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

健康

亲子

教育

时尚

房产要闻

大规模商改住！海口西海岸，这波项目要赢麻了！

干细胞抗衰4大误区,90%的人都中招

亲子要闻

2岁萌娃化身家务小能手，模仿妈妈洗衣、拖地有模有样，言传身教的美好太治愈

教育要闻

用生命影响生命——王鸣凤家教好故事

“爆冷”又如何？陈法拉的人生本就是一场逆袭大戏

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版