网易首页 > 网易号 > 正文 申请入驻

1块GPU+几行代码,大模型训练提速40%!无缝支持HuggingFace

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

不得不说,为了让更多人能用上大模型,技术圈真是各出奇招!

模型不够开放?有人自己上手搞免费开源版。

比如最近风靡全网的DALL·E Mini,Meta开放的OPT-175B(Open Pretrained Transformer)。

都是通过复刻的方式,让原本不够open的大模型,变成人人可用

还有人觉得模型太大,个人玩家很难承受起天价成本。

所以提出异构内存、并行计算等方法,让大模型训练加速又降本。

比如开源项目Colossal-AI,前不久刚实现了让一块英伟达3090就能单挑180亿参数大模型。

而在这两天,他们又来了一波上新:

无缝支持Hugging Face社区模型,只需添加几行代码,就能实现大模型的低成本训练和微调。

要知道,Hugging Face作为当下最流行的AI库之一,提供了超过5万个AI模型的实现,是许多AI玩家训练大模型的首选。

而Colossal-AI这波操作,是让公开模型的训练微调变得更加切实可行。

并且在训练效果上也有提升。

单张GPU上,相比于微软的DeepSpeed,使用Colossal-AI的自动优化策略,最快能实现40%的加速。

而PyTorch等传统深度学习框架,在单张GPU上已经无法运行如此大的模型。

对于使用8张GPU的并行训练,仅需在启动命令中添加-nprocs 8就能实现。

这波下来,可以说是把个人AI玩家需要考虑的成本、效率、实操问题,都拿捏住了~

无需修改代码逻辑

光说不练假把式。

下面就以OPT为例,详细展开看看Colossal-AI的新功能到底怎么用。

OPT,全称为Open Pretrained Transformer。

它由Meta AI发布,对标GPT-3,最大参数量可达1750亿。

最大特点就是,GPT-3没有公开模型权重,而OPT开源了所有代码及权重。

因此,每一位开发者都能在此基础上开发个性化的下游任务。

下面的举例,就是根据OPT提供的预训练权重,进行因果语言模型(Casual Language Modelling)的微调。

主要分为两个步骤:

  • 添加配置文件
  • 运行启动

第一步,是根据想进行的任务添加配置文件。

比如在一张GPU上,以异构训练为例,只需在配置文件里加上相关配置项,并不需要更改代码的训练逻辑。

比如,tensor_placement_policy决定了异构训练的策略,参数可以为CUDA、CPU及auto。

每个策略的优点不同、适应的情况也不一样。

CUDA:将全部模型参数都放置于GPU上,适合不offload时仍然能进行训练的传统场景

CPU:将模型参数都放置在CPU内存中,仅在GPU显存中保留当前参与计算的权重,适合超大模型的训练。

auto:根据实时的内存信息,自动决定保留在GPU显存中的参数量,这样能最大化利用GPU显存,同时减少CPU-GPU之间的数据传输。

对于普通用户来说,使用auto策略是最便捷的。

这样可以由Colossal-AI自动化地实时动态选择最佳异构策略,最大化计算效率。

from colossalai.zero.shard_utils import TensorShardStrategyzero = dict(model_config=dict(shard_strategy=TensorShardStrategy(), tensor_placement_policy="auto"), optimizer_config=dict(gpu_margin_mem_ratio=0.8))

第二步,是在配置文件准备好后,插入几行代码来启动新功能。

首先,通过一行代码,使用配置文件来启动Colossal-AI。

Colossal-AI会自动初始化分布式环境,读取相关配置,然后将配置里的功能自动注入到模型及优化器等组件中。

colossalai.launch_from_torch(config='./configs/colossalai_zero.py')

然后,还是像往常一样定义数据集、模型、优化器、损失函数等。

比如直接使用原生PyTorch代码,在定义模型时,只需将模型放置于ZeroInitContext下初始化即可。

在这里,使用的是Hugging Face提供的OPTForCausalLM模型以及预训练权重,在Wikitext数据集上进行微调。

with ZeroInitContext(target_device=torch.cuda.current_device(), shard_strategy=shard_strategy, shard_param=True): model = OPTForCausalLM.from_pretrained( 'facebook/opt-1.3b' config=config )

接下来,只需要调用colossalai.initialize,便可将配置文件里定义的异构内存功能统一注入到训练引擎中,即可启动相应功能。

engine, train_dataloader, eval_dataloader, lr_scheduler = colossalai.initialize(model=model, optimizer=optimizer, criterion=criterion, train_dataloader=train_dataloader, test_dataloader=eval_dataloader, lr_scheduler=lr_scheduler)

还是得靠GPU+CPU异构

而能够让用户实现如上“傻瓜式”操作的关键,还是AI系统本身要足够聪明。

发挥核心作用的是Colossal-AI系统的高效异构内存管理子系统Gemini

它就像是系统内的一个总管,在收集好计算所需的信息后,动态分配CPU、GPU的内存使用。

具体工作原理,就是在前面几个step进行预热,收集PyTorch动态计算图中的内存消耗信息。

在预热结束后,计算一个算子前,利用收集的内存使用记录,Gemini将预留出这个算子在计算设备上所需的峰值内存,并同时从GPU显存移动一些模型张量到CPU内存。

Gemini内置的内存管理器给每个张量都标记一个状态信息,包括HOLD、COMPUTE、FREE等。

然后,根据动态查询到的内存使用情况,不断动态转换张量状态、调整张量位置。

带来的直接好处,就是能在硬件非常有限的情况下,最大化模型容量和平衡训练速度。

要知道,业界主流方法ZeRO (Zero Reduency Optimizer),尽管也利用CPU+GPU异构内存的方法,但是由于是静态划分,还是会引起系统崩溃、不必要通信量等问题。

而且,使用动态异构CPU+GPU内存的办法,还能用加内存条的办法来扩充内存。

怎么也比买高端显卡划算多了。

目前,使用Colossal-AI的方法,RTX 2060 6GB普通游戏本能训练15亿参数模型;RTX 3090 24GB主机直接单挑180亿参数大模型;Tesla V100 32GB连240亿参数都能拿下。

除了最大化利用内存外,Colossal-AI还使用分布式并行的方法,让训练速度不断提升。

它提出同时使用数据并行、流水并行、2.5维张量并行等复杂并行策略

方法虽复杂,但上手却还是非常“傻瓜操作”,只需简单声明,就能自动实现。

无需像其他系统和框架侵入代码,手动处理复杂的底层逻辑。

parallel = dict( pipeline=2, tensor=dict(mode='2.5d', depth = 1, size=4))

Colossal-AI还能做什么?

实际上,自开源以来,Colossal-AI已经多次在GitHub及Papers With Code热榜位列世界第一,在技术圈小有名气。

除了如上提到的用单张GPU训练大模型外,Colossal-AI在扩展至数十张甚至数百张GPU的大规模并行场景时,相比于英伟达Megatron-LM等现有系统,性能可以翻倍,使用资源可以降低至其十分之一之下。

换算一下,在预训练GPT-3等超大AI模型上,节省的费用可以达到数百万元。

据透露,Colossal-AI相关的解决方案已经被自动驾驶、云计算、零售、医药、芯片等行业的知名厂商用上了。

与此同时,他们也非常注重开源社区建设,提供中文教程、开放用户社群论坛,根据大家的需求反馈不断更新迭代。

比如我们发现,之前有粉丝留言询问,Colossal-AI能否直接加载Hugging Face上的一些模型?

好嘛,这次更新就来了。

所以,对于大模型训练,你觉得现在还有哪些难点亟需解决呢?

欢迎评论区留言讨论~

传送门

项目地址:https://github.com/hpcaitech/ColossalAI

参考链接:
[1]https://medium.com/@yangyou_berkeley/colossal-ai-seamlessly-accelerates-large-models-at-low-costs-with-hugging-face-4d1a887e500d
[2]https://arxiv.org/abs/2202.05924v2
[3]https://arxiv.org/abs/2205.11487
[4]https://github.com/features/copilot
[5]https://github.com/huggingface/transformers

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国已经成为全球第一个集体拒接电话的国家

中国已经成为全球第一个集体拒接电话的国家

黯泉
2026-06-26 10:44:35
黎巴嫩政府“集体卖国”给我们的启示

黎巴嫩政府“集体卖国”给我们的启示

百味朱砂
2026-06-28 12:35:16
“带父母旅游,落地第一天妈妈晒脱水进医院”热浪席卷欧洲,旅行变生存挑战

“带父母旅游,落地第一天妈妈晒脱水进医院”热浪席卷欧洲,旅行变生存挑战

上观新闻
2026-06-28 09:36:33
谢娜北京演唱会取消,5万7千人想看,怎么就取消了?

谢娜北京演唱会取消,5万7千人想看,怎么就取消了?

蜜桔娱乐
2026-06-28 21:39:23
娃哈哈、怡宝部分饮用水确认涨价,原材料上涨传导到日用消费品了

娃哈哈、怡宝部分饮用水确认涨价,原材料上涨传导到日用消费品了

都市快报橙柿互动
2026-06-28 22:24:51
比缅北更恐怖!曾经的旅游胜地,现在黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,现在黄赌毒俱全,性交易随处可见

色彩斑斓的世界
2026-06-28 02:39:14
尊界冲刺138.8万元 余承东照着提词器念了20分钟

尊界冲刺138.8万元 余承东照着提词器念了20分钟

经济观察报
2026-06-27 21:03:27
苹果新机上架,6月28日,正式开卖

苹果新机上架,6月28日,正式开卖

科技堡垒
2026-06-28 12:53:34
男子一周睡情妇4天,睡妻子3天,2013年情妇嫌睡自己少被男子杀死

男子一周睡情妇4天,睡妻子3天,2013年情妇嫌睡自己少被男子杀死

汉史趣闻
2026-06-28 15:57:20
覆水难收!孙臣曦父亲“求原谅”,董路直播怒晒账本:永不合作

覆水难收!孙臣曦父亲“求原谅”,董路直播怒晒账本:永不合作

不似少年游
2026-06-28 09:50:12
梅西又创世界杯神纪录!7场连续破门首人,39岁首球,连创10纪录

梅西又创世界杯神纪录!7场连续破门首人,39岁首球,连创10纪录

奥拜尔
2026-06-28 11:46:41
强势美元回归,可怕的暴风雨要来了

强势美元回归,可怕的暴风雨要来了

光远看经济
2026-06-28 19:01:43
乌克兰新玩法!让全球玩家操纵无人机,若消灭俄军将会有现金奖励

乌克兰新玩法!让全球玩家操纵无人机,若消灭俄军将会有现金奖励

爆角追踪
2026-06-28 21:03:53
记者:梅西是历史第一人!C罗很强、但他落后一个档次!

记者:梅西是历史第一人!C罗很强、但他落后一个档次!

历史第一人梅西
2026-06-27 23:28:40
3人薅“以旧换新”漏洞,短短两个月“0元购”3711件家电,转手倒卖牟利,涉案上百万元,被抓时冰箱、洗衣机、空调堆满库房,场面触目惊心

3人薅“以旧换新”漏洞,短短两个月“0元购”3711件家电,转手倒卖牟利,涉案上百万元,被抓时冰箱、洗衣机、空调堆满库房,场面触目惊心

都市快报橙柿互动
2026-06-28 10:28:57
妮可前男友爆料:OJ家暴是“好莱坞公开的秘密”

妮可前男友爆料:OJ家暴是“好莱坞公开的秘密”

赴一场山海啊
2026-06-28 00:13:57
迎来第一波“失业潮”的不是教师,不是医生,而是这四个行业!

迎来第一波“失业潮”的不是教师,不是医生,而是这四个行业!

职场资深秘书
2026-06-28 14:27:05
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

胡一舸南游y
2026-06-28 22:43:38
男子骗走女子500余万用于打赏主播、充值游戏等,女子丈夫得知后自杀身亡!被判诈骗罪获刑14年半

男子骗走女子500余万用于打赏主播、充值游戏等,女子丈夫得知后自杀身亡!被判诈骗罪获刑14年半

红星新闻
2026-06-28 12:11:17
涉嫌严重违纪违法,毛锦被查!

涉嫌严重违纪违法,毛锦被查!

中国基金报
2026-06-28 21:24:08
2026-06-29 01:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12857文章数 176506关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

旅游
时尚
本地
手机
健康

旅游要闻

颠覆认知!西山不是只有爬山,这才是昆明人周末的正确打开方式

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

本地新闻

世界杯球迷节:比球赛更好玩的派对

手机要闻

iOS 27 Beta 2曝光百度视觉搜索组件,新机蓄势待发中

“无糖汤圆”是否隐藏着健康陷阱?

无障碍浏览 进入关怀版