网易首页 > 网易号 > 正文 申请入驻

集成3400 条commit!PyTorch 1.10 正式版发布,能帮你选batch size的框架

0
分享至

新智元报道

来源:GitHub

编辑:LRS

【新智元导读】历时四个多月,PyTorch 1.10终于发布了正式版,这次的更新内容性能更强,对安卓的支持更多,对开发人员也更友好了!

10月21日晚上,PyTorch 1.10终于发布!

本次更新包含了自1.9版本以来的426名贡献者的3400多条commit共同组成,更新内容主要在于改善PyTorch的训练、性能以及开发人员可用性。


  1. 集成了 CUDA Graphs API以减少调用CUDA时CPU开销;

  2. FX、torch.special和nn.ModuleParametrization等几个前端API已从测试版(beta)变为稳定版(stable);

  3. 除GPU外,JIT Compiler中对自动融合(automatic fusion)的支持目前也支持CPU了;

  4. Android NNAPI支持在测试版中已经可以用了。

前端API

FX 更加稳定。FX是一个Pythonic 的平台,能够用于转换和降低 PyTorch程序。它可以促进函数和nn.Module实例中的Python到Python转换。FX 工具包目的是支持Python语言中的一个子集以实现方便的转换即可,而非整个Python语言。随着1.10的发布,FX正在趋于稳定。

加入一个类似于 SciPy 的特殊模块 torch.special,目前可以稳定地使用。该模块包含30个操作,包括gamma、Bessel 和Gauss 误差函数。

nn.Module参数化允许用户在不修改 nn.Module本身的情况下参数化任何参数(parametrize any parameter)。这个版本还增加了权重归一化 (weight_norm)、正交参数化(矩阵约束和部分剪枝),用户在创建自己的参数化时更加灵活。

在测试版中,PyTorch集成了CUDA Graphs API以减少调用CUDA时CPU开销;CUDA Graphs大大降低了CPU绑定cuda(CPU-bound cuda)工作负载的CPU开销,从而通过提高GPU利用率来提高性能。对于分布式工作负载,CUDA Graphs还可以减少抖动,并且由于并行工作负载必须等待最慢的worker ,因此减少抖动可以提高整体并行效率。

这次集成允许由CUDA graph捕获的网络部件之间的无缝互操作和由于图形限制而无法捕获的网络部分。

PyTorch对复数tensor的共轭(torch.conj())现在消耗的时间已经是常数时间O(1) 的操作了,并且返回的是输入Tensor的一个共轭比特的view,通过调用torch.is_conj()可以验证。这已经利用了矩阵乘法,点乘等的各种其他PyTorch操作来融合共轭,这个操作促使CPU和CUDA上的性能显著提升,并且所需内存也更少了。

分布式训练

在1.10版本中,在torch.distributed 包中的功能很多从测试版转为稳定版。


  1. Remote 模块允许用户远程操作和使用本地模块一样,其中 RPC 对用户是透明的;

  2. DDP通信 hook允许用户覆盖DDP如何在进程中同步梯度;

  3. ZeroredUndanyOptimizer可与DistributedDataParallel 一起使用,以减小每个过程优化器状态的size。通过这种稳定版本,它现在还可以处理不均匀的输入到不同的数据并行woker。

性能优化工具

TorchScript严格要求源代码具有类型注释才能成功编译。 长期以来,用户只能通过反复试验来添加缺失或不正确的类型注释,也就是通过逐个修复Torch.Jit.Script生成的类型检查错误来解决bug,这种方式十分费时、效率也很低。 现在,PyTorch 1.10利用MonkeyType等现有工具为torch.jit.script启用了配置文件定向输入,这使得该过程变得更容易、更快和更高效。

PyTorch 1.10为CPU添加了一个基于LLVM的JIT编译器,可以将Torch库调用序列融合在一起以提高性能。虽然此前的版本在GPU上拥有此功能,但1.10版本是第一次将编译引入CPU。

PyTorch Profiler,它的目标是找到代码中时间或内存成本最高的执行步骤,并可视化 GPU 和 CPU 之间的工作负载分布,目前1.10 版本主要包含以下功能:


  1. 增强型内存视图:这有助于用户更好地了解内存使用,主要通过在程序运行的各个点显示活动内存分配来帮助开发人员避免内存错误;

  2. 增强型内核视图:附加列显示网格和块大小以及每个线程共享内存使用和寄存器的情况,这些工具可以给开发者推荐batch size的变化、TensorCore、内存缩减技术等;

  3. 分布式训练:Gloo现在支持分布式训练工作;

  4. TensorCore:该工具显示Tensor Core(TC)的使用,并为数据科学家和框架开发人员提供建议;

  5. NVTX:对NVTX markers的支持是从旧版autograd profiler移植过来的;

  6. 支持移动设备分析:PyTorch profiler现在与TorchScript 、移动后端能够更好的集成,支持移动工作负载的跟踪收集。

移动端 PyTorch

去年PyTorch 就发布了对Android神经网络API(NNAPI)的原型支持,NNAPI的作用主要是允许Android应用程序使用手机芯片中最高效的部分来运行神经网络,支持的设备主要包括GPU(图形处理单元)和NPU(专用神经处理单元)。

在新版本中,PyTorch 增加了更多的算子(op)覆盖率,包括在加载时支持更灵活的shape,以及在主机上运行模型进行测试的能力。

此外,迁移学习也已添加到对象检测示例中。

参考资料:

https://github.com/pytorch/pytorch/releases/tag/v1.10.0

https://pytorch.org/blog/pytorch-1.10-released/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两位已故巨星的合影,他们是好朋友,感情非常真挚,也有过合作

两位已故巨星的合影,他们是好朋友,感情非常真挚,也有过合作

喜欢历史的阿繁
2026-01-20 00:37:33
李亚鹏的嫣然天使儿童医院收到千万捐款,可否用于交房租?律师:须严格按约定使用

李亚鹏的嫣然天使儿童医院收到千万捐款,可否用于交房租?律师:须严格按约定使用

封面新闻
2026-01-20 16:17:05
特朗普另组联合国,邀几十国入群,中国老将出山,一个时代已淘汰

特朗普另组联合国,邀几十国入群,中国老将出山,一个时代已淘汰

天天热点见闻
2026-01-20 05:26:30
动了太多人的蛋糕!紧急逃回国的牢a,彻彻底底打了高晓松的脸

动了太多人的蛋糕!紧急逃回国的牢a,彻彻底底打了高晓松的脸

阿伧说事
2026-01-20 13:13:13
不像话!央视直播,刘维伟却“下架”4大主力,网友:体育精神呢?

不像话!央视直播,刘维伟却“下架”4大主力,网友:体育精神呢?

金山话体育
2026-01-20 05:03:09
出身浙江豪门,前夫是上海顶级富豪,现仍在前夫集团担任高层领导

出身浙江豪门,前夫是上海顶级富豪,现仍在前夫集团担任高层领导

素衣读史
2026-01-19 15:12:16
1米3袖珍美女:嫁1米48男孩,婚后丈夫奇迹长高,两人不欢而散

1米3袖珍美女:嫁1米48男孩,婚后丈夫奇迹长高,两人不欢而散

老范谈史
2026-01-20 12:41:14
必须给宋凯点赞!国足将迎战4大世界强队:邵佳一有勇气!

必须给宋凯点赞!国足将迎战4大世界强队:邵佳一有勇气!

邱泽云
2026-01-20 18:00:15
李湘没想到,全网封禁3天,李亚鹏竟成压垮她的“最后一根稻草”

李湘没想到,全网封禁3天,李亚鹏竟成压垮她的“最后一根稻草”

娱说瑜悦
2026-01-20 16:49:21
汪嘉伟:离婚又再婚,一生辜负两个女人,如今儿子是他的骄傲

汪嘉伟:离婚又再婚,一生辜负两个女人,如今儿子是他的骄傲

小嶯说故事
2026-01-19 12:57:15
G7开会回来,日本收到中方通知,稀土出口收紧,日企开始绝望

G7开会回来,日本收到中方通知,稀土出口收紧,日企开始绝望

通文知史
2026-01-19 17:50:03
包钢爆炸事件,彻底暴露了“减员增效”的企业通病!

包钢爆炸事件,彻底暴露了“减员增效”的企业通病!

青青子衿
2026-01-19 17:08:12
太惨,48个AI智能体集体跌停,美国释放3大利空,化债牛结束?

太惨,48个AI智能体集体跌停,美国释放3大利空,化债牛结束?

鹏哥投研
2026-01-20 22:18:54
为了让中国死心,高市早苗赌上前程,关键时刻,中方再次痛击日本

为了让中国死心,高市早苗赌上前程,关键时刻,中方再次痛击日本

科普100克克
2026-01-20 19:03:40
三峡大坝运营二十余年的 “账本” 对外披露,当初高达2500亿的投入,如今是否已经收回?

三峡大坝运营二十余年的 “账本” 对外披露,当初高达2500亿的投入,如今是否已经收回?

史海孤雁
2026-01-15 21:41:23
芯片巨头官宣巨额年终奖!人均64万元,创公司历史最高纪录,其股价去年涨幅达275%

芯片巨头官宣巨额年终奖!人均64万元,创公司历史最高纪录,其股价去年涨幅达275%

每日经济新闻
2026-01-20 10:54:20
中国患上癌症的人越来越多,和酵母蒸的馒头有关系?专家揭露真相

中国患上癌症的人越来越多,和酵母蒸的馒头有关系?专家揭露真相

岐黄传人孙大夫
2026-01-18 09:05:03
RTX 5070 Ti频繁宕机崩溃:竟是标签覆盖金手指!撕下就没保修玩家两难

RTX 5070 Ti频繁宕机崩溃:竟是标签覆盖金手指!撕下就没保修玩家两难

快科技
2026-01-20 10:34:11
惨!A股7倍最牛妖股4天暴跌34%,全是一字跌停板!散户想出都出不了!

惨!A股7倍最牛妖股4天暴跌34%,全是一字跌停板!散户想出都出不了!

股市皆大事
2026-01-20 15:58:41
苹果官网:已经支持安卓手机置换 iPhone 17 系列!

苹果官网:已经支持安卓手机置换 iPhone 17 系列!

XCiOS俱乐部
2026-01-19 21:21:04
2026-01-20 22:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14372文章数 66520关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

英方承认:美国反复插手中国使馆新馆舍的建造计划

头条要闻

英方承认:美国反复插手中国使馆新馆舍的建造计划

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

健康
家居
手机
教育
公开课

血常规3项异常,是身体警报!

家居要闻

隽永之章 清雅无尘

手机要闻

测试显示:误使用家用清洁剂难致苹果iPhone 17 Pro机身明显变色

教育要闻

来上课了——不一样的形容词 高中考点全击破第3段

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版