网易首页 > 网易号 > 正文 申请入驻

仅480块GPU搞出万亿参数大模型!达摩院3个月打造,出手即商用

0
分享至

金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

  不要6000张GPU!不要2000张TPU!

  只要480万亿参数大模型“抱回家”!

  还没完,更惊艳的在后边。

  同为万亿“体量”,能耗降低超八成,效率还能提升11倍

  当真有这好事?

  没错,这就是阿里巴巴刚刚发布的万亿巨模型M6

  用绿油油的“低碳版”来形容很是恰当了。

  今年3月,M6作为中国首个千亿多模态大模型发布时,前OpenAI政策主管Jack Clark曾发文点赞道:

这个模型的规模和设计都非常惊人。

  这次,万亿M6的问世又顺利拿下了个中国第一——国内首个实现商业化落地的多模态大模型。

  而且是离你很近的那种哦~

  不仅是画画、写作,你的支付宝、淘宝就在用!

  自从大模型变得流行起来之后,它所具备的创意能力,一直是被世人所津津乐道。

  例如OpenAI的DALL·E,给自家设计出来的公司门面,是这样的:

  风格多变、设计多样倒是没错了。

  甚至被网友们一度称赞为“甲方克星、乙方福音”。

  但讲真,要是拿到现实来商用,真的能hold得住吗?

  不见得。

  单是从效果图来看,字体扭曲便是一个大问题。

  而要商用,图片还需要一个非常硬性的要求——得够清晰啊!

  但DALL·E生成图片的分辨率,却仅为256x256。

  了万亿参数规模,情况是否有所好转?

  那到

  直接来看下M6设计的作品效果:

  不难看出,万亿参数大模型所生成的图,在清晰度上有了较大的提升,分辨率直接翻倍,达到了1024x1024,放大后还能看清衣物纹理。

  或许你会说,除了M6之外,目前国内外已经诞生了几个万亿“体量”的大模型。

  那阿里此次提出的大模型,又有什么独到的特点?

  一大特点是,M6不仅公开了实现的详尽细节、模型的收敛情况(详见文末论文链接),而且还是国内首个实现商业落地的万亿参数多模态大模型。

  还是以生成图片为例,阿里已经初步将成果投入到了生产场景当中——阿里新制造平台犀牛智造

  目前,M6主要参与一些基础款的设计。但可预期的是,随着实践经验的丰富,M6的水平将不断进化。

  据了解,M6计划在一年内生成上万款高清服装设计图。

  什么概念?

  这个数量就相当于一些快时尚品牌数百人设计团队的年出款量。

  再具体一些,结合大数据预测的潮流趋势,M6可以实现快速设计和上身模拟,再经人类设计师进行筛选。

  这么一套流程下来,原本以月计的新款服饰开发周期,被压缩到了以周来计算。

  或许你会觉得这样的商业落地,离自己太远了。

  不不不,M6还可能会出现在你经常用到的App哦——支付宝淘宝

  懂“搜索”的人都知道,传统的搜索过程就是,查询语句与商品title的一个语义匹配过程。

  但现在的年轻人搜索商品可不按照套路出牌。

  举个例子,他们会搜“凹凸的咖啡杯”。

  其实他们想搜索的就是一种日式风格的咖啡杯,但商家可不会把这些细节写进商品title中。

  这时候,大模型就开始发挥它的看家本领了。

  M6会根据商家提供的图片,以及用户的查询,做一个跨模态的搜索。

  即使商家没有在title中描述关键词,M6可以根据图片中的信息,然后推荐出你想要的产品。

  这时候你又会说了,其它万亿参数大模型说不定也能做到!

  或许可以。

  但如果说,M6只烧了480张GPU就做到了呢?

  而且能耗比之前已有万亿参数模型低了8成,效率还提升了11倍

  不仅如此,达到这种惊人效果,从千亿到万亿参数规模,阿里只花了3个月时间。

  3个月打造万亿参数模型,怎么做到的?

  首先要了解的一点是,3个月时间的工作,并非是一蹴而就。

  早在今年1月份,阿里便推出了百亿参数模型,而当时谷歌就已经提出来了1.6万亿参数的Switch Transformer。

  谷歌能够达到这个量级,所借助的就是一个叫做MoE(Mixture of Experts)的架构。

  于是,阿里从百亿开始的“规模升级”过程中,便借鉴了这个架构,仅耗时2个月,便发布千亿参数大模型,而且只用了32个V100 GPU。

  不得不说,MoE这个架构确实好用。

  它能够做到的是在扩展模型容量并提升模型效果的基础上,不显著增加运算FLOPs,这样就可以实现高效训练大规模模型的目的。

  但阿里在却在研究过程中发现了一个问题:

MoE负载不均衡。

  简单来说,原理是这样的。

  大模型常用到的Transformer分布式训练中,通常是各个GPU同一FFN层中,使用同一份参数。

  而MoE就不同了,上述的这部分参数会在GPU之间共享,一份FFN参数被称为1个“专家”(expert),每个GPU上将存放若干份不同参数的“专家”。

  (如下图中标红框部分所示)

  但阿里却发现,在原来MoE的训练过程中,非常容易只选择top的几位“专家”,这就使得头部效应非常严重。

  于是乎,阿里便对MoE的这个问题进行了改良。

  研究人员对“专家”做了一个分组工作,即expert prototyping。

  具体而言,先是把“专家”分成k个组,在每组中再进行top-k的操作(通常采用top-1,便于理解)。然后再将k组的结果进行组合,也称之为k top-1。

  这种方式在实现上更直接简便,并且允许组合组之间并行做top-k操作,更加高效。

  例如在百亿模型下游image captioning任务上,甚至能观察到优于top-k的表现:

  而且在阿里与谷歌交流过程中,谷歌的研究人员也认可了这种改良思路,他们认为非常精巧。

  除此之外,算子精度也是阿里此次改良的工作之一。

  谷歌在做Switch Transformer时,为了将模型体积压下来,选择了BF16。

  但精度的降低会带来非常大的技术挑战,就是如何保证模型收敛的问题。

  而且阿里还要做到“低碳版”,不能烧太多的GPU,因此相比谷歌在算子精度方面的工作,阿里可谓走了一条更加“极端”的路线。

  具体而言,XLA优化、混合精度训练、半精度通信等训练效率优化技术,并采用了Adafactor优化器,成功在480张NVIDIA V100-32GB上完成万亿模型的训练。

  并且在训练中,他们采用绝对值更小的初始化,适当减小学习率,保证了训练的稳定性,实现正常的模型收敛,而训练速度也达到了约480samples/s。

  以上便是阿里“低碳版”万亿参数大模型的核心奥秘了。

  而抛开技术本身,细品阿里在大模型的规划路线,不免让人产生另一个问题:

  阿里为什么这么“急”?

  • 从百亿参数到千亿参数,用了2个月。
  • 从千亿参数到万亿参数,用了3个月。

  而且不同于其它大模型堆TPU、GPU,阿里选择的还是一条极端的“低碳”路线:

千亿参数模型仅需32张GPU,万亿参数模型只要480张GPU。

  “急”,确实有点“急”。

  但纵观全球大模型的发展,阿里的这种“急”也就不难理解了。

  • 谷歌1月份提出1.6万亿参数大模型Switch Transformer
  • 英伟达的“威震天”4月份也对万亿参数模型进行了训练
  • 智源研究院于本月初发布1.75万亿参数大模型悟道2.0

  除了万亿规模,这期间还穿插着像阿里、华为等大厂发布的百亿、千亿参数大模型。

  而更早的,谷歌的BERT、OpenAI的GPT-3等,可以说是开启了大模型了一股热潮。

  好一副“百家争鸣”之势。

  为什么会这样?

  因为这是必然,是大势所趋。

  就好比十几年前深度学习的崛起一样,国内外各大厂商看到了这个技术的正确性。

  于是纷纷前赴后继地入局于此,各式各样的深度学习模型不断涌现。

  现如今大模型的这种盛世,就与深度学习时代极其相似。

  而且比起深度学习,大模型的迭代速度只会更快。

  因为深度学习时代之下,并没有出现很多应用场景。

  但现如今,单是面向C端用户群里的大流量场景便应接不暇,搜索、推荐、广告等等。

  因此,在大模型的研发上,不仅仅是阿里“急”,可以说全球各大厂商和研究机构,都很“急”。

  而从技术本身来看,大模型还逐渐浮现出了无限的创造价值

  简而言之,就是在模型参数越发巨量的趋势之下,模型可能会做到更多“意想不到”的事情。

  还是以M6生成图片为例,很多人会有一个质疑:

这些生成的图片,会不会是拼接的,而不是真正意义上的生成。

  据阿里内部人士透露,还真不是这样:

它是真的有了认知和创造力。

  最简单的验证方式,就是拿这些图片去各种搜索引擎搜一下,结果定然是完全找不到。

  除此之外,技术应当有益于人类的发展。

  在这一点上,M6大模型还有计划“上岗”助农扶贫的工作了。

  具体而言,它将参与到帮助农民卖货的一个环节,可以帮助他们快速设计包装的logo以及各种IP衍生品。

  而在此之前,这些环节的人力成本相对来说还是比较高的。

  综上来看,大模型的发展迭代、落地,确实是一个很“急”,但又正确的大趋势了。

  最后一个问题,既然万亿规模参数已来,按照如此迭代速度,更大量级的大模型,还会远吗?

  按现在的趋势,答案是肯定的,只是时间问题。

  但据阿里的介绍,接下来在大模型的研究工作中,不仅是要追求参数规模的迭代,更要追求通用性和商业落地。

  那么对于接下来的大模型,你期待了吗?

  论文地址:

  https://arxiv.org/abs/2105.15082

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20米直塞!中超神级助攻:张稀哲1脚穿透5人,国足看到了吗

20米直塞!中超神级助攻:张稀哲1脚穿透5人,国足看到了吗

叶青足球世界
2024-04-26 20:40:06
网友劝字节跳动将TikTok出售给美国,毕竟那是实打实的几百亿美金

网友劝字节跳动将TikTok出售给美国,毕竟那是实打实的几百亿美金

映射生活的身影
2024-04-26 15:50:40
油价“跌翻天”!4月27日:调价后92号汽油价格,猪价如何?

油价“跌翻天”!4月27日:调价后92号汽油价格,猪价如何?

猪友巴巴
2024-04-26 14:23:15
王毅划下红线后,布林肯口风变了,离开中国前,见到中国领导人

王毅划下红线后,布林肯口风变了,离开中国前,见到中国领导人

有凤Talk
2024-04-26 18:32:38
新华社快讯:以色列公共广播公司25日报道,以总理内塔尼亚胡批准在拉法开展地面行动的计划。

新华社快讯:以色列公共广播公司25日报道,以总理内塔尼亚胡批准在拉法开展地面行动的计划。

新华社
2024-04-26 01:52:09
北约秘书长称中国为俄提供卫星能力和成像技术,中方驳斥:纯属捕风捉影

北约秘书长称中国为俄提供卫星能力和成像技术,中方驳斥:纯属捕风捉影

环球网资讯
2024-04-26 16:04:13
清凉峰爬山后续:女子被插伤,嘴巴也裂了,深情老公再发声!

清凉峰爬山后续:女子被插伤,嘴巴也裂了,深情老公再发声!

古希腊掌管松饼的神
2024-04-26 15:36:18
果然没谈拢,布林肯访华,大批外资撤离中国,美国反帮了普京大忙

果然没谈拢,布林肯访华,大批外资撤离中国,美国反帮了普京大忙

朝晖前哨
2024-04-26 09:59:31
王思聪:即便我们卖股份,卖地皮,但我们没有卖国,没有烂尾楼

王思聪:即便我们卖股份,卖地皮,但我们没有卖国,没有烂尾楼

泸沽湖
2024-04-26 10:19:05
60岁大爷每天用猪油炒菜,4年后体检,医生惊呼:你到底在吃些啥

60岁大爷每天用猪油炒菜,4年后体检,医生惊呼:你到底在吃些啥

荷兰豆爱健康
2024-04-26 17:08:12
这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

冷却爱情
2024-04-25 18:28:15
几千年都没有变过!

几千年都没有变过!

吴女士
2024-04-26 11:16:12
俄罗斯族乌军总司令上任近三个月 作战风格曝光:强调耐心和纪律性,重视无人机使用

俄罗斯族乌军总司令上任近三个月 作战风格曝光:强调耐心和纪律性,重视无人机使用

红星新闻
2024-04-26 18:04:11
有网友总结:在中国,想失业比考北大还要难,真正符合失业标准的少之又少!

有网友总结:在中国,想失业比考北大还要难,真正符合失业标准的少之又少!

可达鸭面面观
2024-04-26 18:55:09
11岁女孩遭妈妈前男友性侵,为何只判了16年?

11岁女孩遭妈妈前男友性侵,为何只判了16年?

新民周刊
2024-04-26 15:55:27
清凉峰一男一女最新后续:知情人透露二人关系,丈夫愤怒二次发声

清凉峰一男一女最新后续:知情人透露二人关系,丈夫愤怒二次发声

影孖看世界
2024-04-26 19:32:33
加沙的乱葬岗,迫使美国和以色列改变幕后交易?

加沙的乱葬岗,迫使美国和以色列改变幕后交易?

中国新闻周刊
2024-04-26 18:28:40
重磅,美已做好了与俄曹伊契四线同时作战的准备

重磅,美已做好了与俄曹伊契四线同时作战的准备

爱吃鱼的哆啦A梦
2024-04-26 09:33:19
当年在罗马尼亚有个著名的笑话,你要是走的话,我们就不用走了!

当年在罗马尼亚有个著名的笑话,你要是走的话,我们就不用走了!

翻开历史和现实
2024-04-26 13:48:06
凯特被追封?查尔斯国王亲自授予荣誉勋章,网友:死而后已,值了

凯特被追封?查尔斯国王亲自授予荣誉勋章,网友:死而后已,值了

小寒嫣语
2024-04-25 10:30:56
2024-04-26 21:26:44
量子位
量子位
追踪人工智能动态
9323文章数 175242关注度
往期回顾 全部

科技要闻

车展观察|德系日系绝不能放弃中国市场

头条要闻

辅警杀害新婚妻子被判死缓:捅刺49刀 隐瞒精神病史

头条要闻

辅警杀害新婚妻子被判死缓:捅刺49刀 隐瞒精神病史

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

数码
亲子
家居
公开课
军事航空

数码要闻

59元!小米米家夜灯3发布:内置锂电 续航8个月

亲子要闻

妈妈晒自己一岁半的宝贝女儿,太可爱了,浓眉大眼的小美人儿

家居要闻

光影之间 空间暖意打造生活律动

公开课

睡前进食会让你发胖吗?

军事要闻

以军称已完成对拉法地面军事行动准备工作

无障碍浏览 进入关怀版