网易首页 > 网易号 > 正文 申请入驻

集成3400 条commit!PyTorch 1.10 正式版发布,能帮你选batch size的框架

0
分享至

新智元报道

来源:GitHub

编辑:LRS

【新智元导读】历时四个多月,PyTorch 1.10终于发布了正式版,这次的更新内容性能更强,对安卓的支持更多,对开发人员也更友好了!

10月21日晚上,PyTorch 1.10终于发布!

本次更新包含了自1.9版本以来的426名贡献者的3400多条commit共同组成,更新内容主要在于改善PyTorch的训练、性能以及开发人员可用性。


  1. 集成了 CUDA Graphs API以减少调用CUDA时CPU开销;

  2. FX、torch.special和nn.ModuleParametrization等几个前端API已从测试版(beta)变为稳定版(stable);

  3. 除GPU外,JIT Compiler中对自动融合(automatic fusion)的支持目前也支持CPU了;

  4. Android NNAPI支持在测试版中已经可以用了。

前端API

FX 更加稳定。FX是一个Pythonic 的平台,能够用于转换和降低 PyTorch程序。它可以促进函数和nn.Module实例中的Python到Python转换。FX 工具包目的是支持Python语言中的一个子集以实现方便的转换即可,而非整个Python语言。随着1.10的发布,FX正在趋于稳定。

加入一个类似于 SciPy 的特殊模块 torch.special,目前可以稳定地使用。该模块包含30个操作,包括gamma、Bessel 和Gauss 误差函数。

nn.Module参数化允许用户在不修改 nn.Module本身的情况下参数化任何参数(parametrize any parameter)。这个版本还增加了权重归一化 (weight_norm)、正交参数化(矩阵约束和部分剪枝),用户在创建自己的参数化时更加灵活。

在测试版中,PyTorch集成了CUDA Graphs API以减少调用CUDA时CPU开销;CUDA Graphs大大降低了CPU绑定cuda(CPU-bound cuda)工作负载的CPU开销,从而通过提高GPU利用率来提高性能。对于分布式工作负载,CUDA Graphs还可以减少抖动,并且由于并行工作负载必须等待最慢的worker ,因此减少抖动可以提高整体并行效率。

这次集成允许由CUDA graph捕获的网络部件之间的无缝互操作和由于图形限制而无法捕获的网络部分。

PyTorch对复数tensor的共轭(torch.conj())现在消耗的时间已经是常数时间O(1) 的操作了,并且返回的是输入Tensor的一个共轭比特的view,通过调用torch.is_conj()可以验证。这已经利用了矩阵乘法,点乘等的各种其他PyTorch操作来融合共轭,这个操作促使CPU和CUDA上的性能显著提升,并且所需内存也更少了。

分布式训练

在1.10版本中,在torch.distributed 包中的功能很多从测试版转为稳定版。


  1. Remote 模块允许用户远程操作和使用本地模块一样,其中 RPC 对用户是透明的;

  2. DDP通信 hook允许用户覆盖DDP如何在进程中同步梯度;

  3. ZeroredUndanyOptimizer可与DistributedDataParallel 一起使用,以减小每个过程优化器状态的size。通过这种稳定版本,它现在还可以处理不均匀的输入到不同的数据并行woker。

性能优化工具

TorchScript严格要求源代码具有类型注释才能成功编译。 长期以来,用户只能通过反复试验来添加缺失或不正确的类型注释,也就是通过逐个修复Torch.Jit.Script生成的类型检查错误来解决bug,这种方式十分费时、效率也很低。 现在,PyTorch 1.10利用MonkeyType等现有工具为torch.jit.script启用了配置文件定向输入,这使得该过程变得更容易、更快和更高效。

PyTorch 1.10为CPU添加了一个基于LLVM的JIT编译器,可以将Torch库调用序列融合在一起以提高性能。虽然此前的版本在GPU上拥有此功能,但1.10版本是第一次将编译引入CPU。

PyTorch Profiler,它的目标是找到代码中时间或内存成本最高的执行步骤,并可视化 GPU 和 CPU 之间的工作负载分布,目前1.10 版本主要包含以下功能:


  1. 增强型内存视图:这有助于用户更好地了解内存使用,主要通过在程序运行的各个点显示活动内存分配来帮助开发人员避免内存错误;

  2. 增强型内核视图:附加列显示网格和块大小以及每个线程共享内存使用和寄存器的情况,这些工具可以给开发者推荐batch size的变化、TensorCore、内存缩减技术等;

  3. 分布式训练:Gloo现在支持分布式训练工作;

  4. TensorCore:该工具显示Tensor Core(TC)的使用,并为数据科学家和框架开发人员提供建议;

  5. NVTX:对NVTX markers的支持是从旧版autograd profiler移植过来的;

  6. 支持移动设备分析:PyTorch profiler现在与TorchScript 、移动后端能够更好的集成,支持移动工作负载的跟踪收集。

移动端 PyTorch

去年PyTorch 就发布了对Android神经网络API(NNAPI)的原型支持,NNAPI的作用主要是允许Android应用程序使用手机芯片中最高效的部分来运行神经网络,支持的设备主要包括GPU(图形处理单元)和NPU(专用神经处理单元)。

在新版本中,PyTorch 增加了更多的算子(op)覆盖率,包括在加载时支持更灵活的shape,以及在主机上运行模型进行测试的能力。

此外,迁移学习也已添加到对象检测示例中。

参考资料:

https://github.com/pytorch/pytorch/releases/tag/v1.10.0

https://pytorch.org/blog/pytorch-1.10-released/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

华史谈
2026-05-13 08:49:26
女子吃霸王餐给差评:正脸曝光,自认为没错,要上媒体跟老板对质

女子吃霸王餐给差评:正脸曝光,自认为没错,要上媒体跟老板对质

阅微札记
2026-05-13 14:31:03
看到中国给了特朗普最高礼遇,欧盟干脆做了最坏的打算?

看到中国给了特朗普最高礼遇,欧盟干脆做了最坏的打算?

爆笑大聪明阿衿
2026-05-14 17:44:09
178万吨榴莲涌入中国!进口量暴涨294%,泰国市场份额跌至不到60%

178万吨榴莲涌入中国!进口量暴涨294%,泰国市场份额跌至不到60%

阿纂看事
2026-05-14 15:18:51
消失的彭加木:一场精心策划的逃亡?隐藏在罗布泊的离奇秘密

消失的彭加木:一场精心策划的逃亡?隐藏在罗布泊的离奇秘密

云霄纪史观
2026-05-14 16:07:40
极度震撼!北约军演乌军无人机营4小时3次全歼瑞典军队

极度震撼!北约军演乌军无人机营4小时3次全歼瑞典军队

史政先锋
2026-05-14 16:55:54
黄仁勋被问英伟达是否会向华为出售芯片:这是个多么奇怪的问题啊

黄仁勋被问英伟达是否会向华为出售芯片:这是个多么奇怪的问题啊

泡泡网
2026-05-14 17:50:15
卖不动了,日系车集体退守中国

卖不动了,日系车集体退守中国

21世纪经济报道
2026-05-13 23:28:25
两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

笑饮孤鸿非
2026-05-13 18:59:58
杭州跪地救人女子找到!新华社点名,工作单位曝光,难怪后怕不已

杭州跪地救人女子找到!新华社点名,工作单位曝光,难怪后怕不已

奇思妙想草叶君
2026-05-14 13:44:31
山东招远一矿业公司基建矿区发生事故,造成3人死亡、2人受伤

山东招远一矿业公司基建矿区发生事故,造成3人死亡、2人受伤

界面新闻
2026-05-14 09:48:55
我工资4150全部门最低,我递辞呈后,老板急忙挽留:年薪随便提

我工资4150全部门最低,我递辞呈后,老板急忙挽留:年薪随便提

麦子情感故事
2026-05-14 17:07:37
高奢版售价或超10万元!追觅手机预计今年发布,创始人俞浩扬言要与苹果、三星三分天下,最终必将超越苹果4万亿美元市值

高奢版售价或超10万元!追觅手机预计今年发布,创始人俞浩扬言要与苹果、三星三分天下,最终必将超越苹果4万亿美元市值

大风新闻
2026-05-14 13:40:08
随特朗普来访的贝莱德究竟有多厉害?

随特朗普来访的贝莱德究竟有多厉害?

舜口说
2026-05-14 09:52:57
4300家个股下跌,中国长城、中国卫星直接跌停,大盘要做头了吗?

4300家个股下跌,中国长城、中国卫星直接跌停,大盘要做头了吗?

长风价值掘金
2026-05-14 15:36:38
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
黄仁勋赶飞机 藏着中美科技关系最真实的底色

黄仁勋赶飞机 藏着中美科技关系最真实的底色

看看新闻Knews
2026-05-13 23:00:02
杨振宁遗孀翁帆近照,红光满面变漂亮了,带妈妈和昆曲老师聚会

杨振宁遗孀翁帆近照,红光满面变漂亮了,带妈妈和昆曲老师聚会

法老不说教
2026-05-14 15:07:04
摩洛哥幸福新娘事件升级!河南一男子刷到该视频,断然与对象退婚

摩洛哥幸福新娘事件升级!河南一男子刷到该视频,断然与对象退婚

火山詩话
2026-05-14 07:04:08
胡雪岩临终顿悟:这世上最不能得罪的不是达官显贵,而是这三类人

胡雪岩临终顿悟:这世上最不能得罪的不是达官显贵,而是这三类人

史之铭
2026-05-14 15:53:49
2026-05-14 19:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15209文章数 66867关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

艺术
家居
亲子
时尚
军事航空

艺术要闻

美国务卿鲁比奥点赞中式美学,实景令人惊叹!

家居要闻

精神奢享 对话塔尖需求

亲子要闻

摆烂在家的孩子,为什么会疯狂要钱?

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版