网易首页 > 网易号 > 正文 申请入驻

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

0
分享至

新智元报道

编辑:编辑部

【新智元导读】JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow,也许未来会有更多的大模型诞生在这个平台上。谷歌在背后的默默付出终于得到了回报。

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。

而且测试并不是在JAX性能表现最好的TPU上完成的。

虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。

但未来,也许有更多的大模型会基于JAX平台进行训练和运行。

模型

最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras 2进行了基准测试。

首先,他们为生成式和非生成 式人工智 能任务选择了一组主流的计算机视觉和自然语言处理模型:

对于模型的Keras版本,其采用了KerasCV和KerasNLP中已有的实现进行构建。而对于原生的PyTorch版本,则选择了网络上最流行的几个选项:

- 来自HuggingFace Transformers的BERT、Gemma、Mistral

- 来自HuggingFace Diffusers的StableDiffusion

- 来自Meta的SegmentAnything

他们将这组模型称作「Native PyTorch」,以便与使用PyTorch后端的Keras 3版本进行区分。

他们对所有基准测试都使用了合成数据,并在所有LLM训练和推理中使用了bfloat16精度,同时在所有LLM训练中使用了LoRA(微调)。

根据PyTorch团队的建议,他们在原生PyTorch实现中使用了torch.compile(model, mode="reduce-overhead")(由于不兼容,Gemma和Mistral训练除外)。

为了衡量开箱即用的性能,他们使用高级API(例如HuggingFace的Trainer()、标准PyTorch训练循环和Keras model.fit()),并尽可能减少配置。

硬件配置

所有基准测试均使用Google Cloud Compute Engine进行,配置为:一块拥有40GB显存的NVIDIA A100 GPU、12个虚拟CPU和85GB的主机内存。

基准测试结果

表2显示了基准测试结果(以步/毫秒为单位)。每步都涉及对单个数据批次进行训练或预测。

结果是100步的平均值,但排除了第一个步,因为第一步包括了模型创建和编译,这会额外花费时间。

为了确保比较的公平性,对于相同的模型和任务(不论是训练还是推理)都使用相同的批大小。

然而,对于不同的模型和任务,由于它们的规模和架构有所不同,可根据需要调整数据批大小,从而避免因过大而导致内存溢出,或是批过小而导致GPU使用不足。

过小的批大小也会使PyTorch看起来较慢,因为会增加Python的开销。

对于大型语言模型(Gemma和Mistral),测试时也使用了相同的批处理大小,因为它们是相同类型的模型,具有类似数量的参数(7B)。

考虑到用户对单批文本生成的需求,也对批大小为1的文本生成情况进行了基准测试。

关键发现

发现1

不存在「最优」后端。

Keras的三种后端各展所长,重要的是,就性能而言,并没有哪一个后端能够始终胜出。

选择哪个后端最快,往往取决于模型的架构。

这一点突出了选择不同框架以追求最佳性能的重要性。Keras 3可以帮助轻松切换后端,以便为模型找到最合适的选择。

发现2

Keras 3的性能普遍超过PyTorch的标准实现。

相对于原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明显的提升。

特别是,在10个测试任务中,有5个的速度提升超过了50%。其中,最高更是达到了290%。

如果是100%,意味着Keras 3的速度是PyTorch的2倍;如果是0%,则表示两者性能相当

发现3

Keras 3提供一流的「开箱即用」性能。

也就是,所有参与测试的Keras模型都未进行过任何优化。相比之下,使用原生PyTorch实现时,通常需要用户自行进行更多性能优化。

除了上面分享的数据,测试中还注意到在HuggingFace Diffusers的StableDiffusion推理功能上,从版本0.25.0升级到0.3.0时,性能提升超过了100%。

同样,在HuggingFace Transformers中,Gemma从4.38.1版本升级至4.38.2版本也显著提高了性能。

这些性能的提升凸显了HuggingFace在性能优化方面的专注和努力。

对于一些手动优化较少的模型,如SegmentAnything,则使用了研究作者提供的实现。在这种情况下,与Keras相比,性能差距比大多数其他模型更大。

这表明,Keras能够提供卓越的开箱即用性能,用户无需深入了解所有优化技巧即可享受到快速的模型运行速度。

发现4

Keras 3的表现始终优于Keras 2。

例如,SegmentAnything的推理速度提升了惊人的380%,StableDiffusion的训练处理速度提升了150%以上,BERT的训练处理速度也提升了100%以上。

这主要是因为Keras 2在某些情况下直接使用了更多的TensorFlow融合操作,而这可能对于XLA的编译并不是最佳选择。

值得注意的是,即使仅升级到Keras 3并继续使用TensorFlow后端,也能显著提升性能。

结论

框架的性能在很大程度上取决于具体使用的模型。

Keras 3能够帮助为任务选择最快的框架,这种选择几乎总能超越Keras 2和PyTorch实现。

更为重要的是,Keras 3模型无需进行复杂的底层优化,即可提供卓越的开箱即用性能。

参考资料:

https://keras.io/getting_started/benchmarks/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨天真贾玲双双复胖上热搜!一个因伤一个为活,回应态度出奇一致

杨天真贾玲双双复胖上热搜!一个因伤一个为活,回应态度出奇一致

以茶带书
2026-06-22 13:48:30
湖南足协回应交流赛冲突:暂停涉事人员参加省内一切足球活动

湖南足协回应交流赛冲突:暂停涉事人员参加省内一切足球活动

界面新闻
2026-06-22 20:35:24
日本球迷一针见血:跟中国人看球后,才懂国足为何进不了世界杯

日本球迷一针见血:跟中国人看球后,才懂国足为何进不了世界杯

酷侃体坛
2026-06-18 22:58:10
73岁传奇歌后爆病危!肾癌转移恶化 友人曝:连喝水都困难

73岁传奇歌后爆病危!肾癌转移恶化 友人曝:连喝水都困难

ETtoday星光云
2026-06-22 11:39:43
2026偏财运爆棚四大星座:天降横财不停,不用费力也能躺赚

2026偏财运爆棚四大星座:天降横财不停,不用费力也能躺赚

别人都叫我阿螫
2026-06-19 07:42:16
牛津联盟主席称哈马斯会成英雄,英国反恐警察介入评估

牛津联盟主席称哈马斯会成英雄,英国反恐警察介入评估

桂系007
2026-06-22 09:48:26
世界杯爆红也白搭!曼联看不上 5000 万飞翼, 1 亿抢 19 岁天才

世界杯爆红也白搭!曼联看不上 5000 万飞翼, 1 亿抢 19 岁天才

澜归序
2026-06-22 06:32:27
只看人口总量,就无法解释“8亿人口限制生,14亿人口鼓励生”

只看人口总量,就无法解释“8亿人口限制生,14亿人口鼓励生”

何亚福
2026-05-25 19:46:53
癌入体,眼睛先知!眼睛出现4种变化,多半是癌,别不当回事

癌入体,眼睛先知!眼睛出现4种变化,多半是癌,别不当回事

芹姐说生活
2026-06-21 21:41:19
蔡澜:两个约人万能公式,再高冷的美女都能随叫随到

蔡澜:两个约人万能公式,再高冷的美女都能随叫随到

心理观察局
2026-06-17 07:10:09
黄仁勋,最新涉华表态!

黄仁勋,最新涉华表态!

每日经济新闻
2026-06-22 15:36:02
132名游客与死神擦肩而过!湖北公布18起“吹哨”案例,单人最高奖5000元

132名游客与死神擦肩而过!湖北公布18起“吹哨”案例,单人最高奖5000元

极目新闻
2026-06-22 15:53:41
晚清之翼:被严重低估的猛人

晚清之翼:被严重低估的猛人

最爱历史
2026-06-22 16:20:29
伊拉克已连输4场,可能成为首支前5场世界杯都输球的亚洲球队

伊拉克已连输4场,可能成为首支前5场世界杯都输球的亚洲球队

懂球帝
2026-06-23 01:01:23
热火恐成字母哥拍卖会看客?名记扎心提问:拆未来换31岁伤病号值吗

热火恐成字母哥拍卖会看客?名记扎心提问:拆未来换31岁伤病号值吗

林间小温柔
2026-06-23 00:44:58
希拉里的“干女儿”,二人关系亲密远胜母女,曾遭陌生议员侵犯

希拉里的“干女儿”,二人关系亲密远胜母女,曾遭陌生议员侵犯

董董历史烩
2026-06-23 01:11:19
600540,被证监会立案!

600540,被证监会立案!

证券时报e公司
2026-06-22 22:12:46
中国最珍贵的资源,不是石油不是稀土,是北方最常见的黄土层?

中国最珍贵的资源,不是石油不是稀土,是北方最常见的黄土层?

抽象派大师
2026-06-21 23:10:18
布达拉宫地下世界复杂得吓人!
金碧辉煌下藏着1200多个“地垄”

布达拉宫地下世界复杂得吓人! 金碧辉煌下藏着1200多个“地垄”

西楼知趣杂谈
2026-06-12 08:54:44
演员李现为世界杯开球!开场30分钟不到,西班牙3-0沙特

演员李现为世界杯开球!开场30分钟不到,西班牙3-0沙特

大象新闻
2026-06-22 07:05:03
2026-06-23 03:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15507文章数 66929关注度
往期回顾 全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

房产
教育
旅游
游戏
公开课

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

教育要闻

首届直博清华学长重返母校,见证科高毕业生最美的青春模样

旅游要闻

“茶和天下”端午游园会在悉尼举行

老司机落泪!爆料称《GTA6》没有"特殊工作者"

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版