网易首页 > 网易号 > 正文 申请入驻

阿里达摩院发布全球最大 AI 预训练模型 M6:参数跃迁至 10 万亿

0
分享至

IT之家 11 月 8 日消息,今天,阿里巴巴达摩院公布多模态大模型 M6 最新进展,其参数已从万亿跃迁至 10 万亿,成为全球最大的 AI 预训练模型。

M6 是达摩院研发的通用性人工智能大模型,拥有多模态、多任务能力,尤其擅长设计、写作、问答,在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。

与传统 AI 相比,大模型拥有成百上千倍“神经元”数量,认知和创造能力也更胜一筹,被普遍认为是未来的“基础模型”。但大模型的算力成本相当高昂,训练 1750 亿参数语言大模型 GPT-3 所需能耗,相当于汽车行驶地月往返距离。

今年 5 月,通过专家并行策略及优化技术,达摩院 M6 团队将万亿模型能耗降低超八成、效率提升近 11 倍。

10 月,M6 再次突破业界极限,使用 512 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型。相比去年发布的大模型 GPT-3,M6 实现同等参数规模,能耗仅为其 1%。

▲将 10 万亿参数放进 512 张 GPU

模型扩展到千亿及以上参数的超大规模时,将很难放在一台机器上。

为了帮助多模态预训练模型进行快速迭代训练,达摩院在阿里云 PAI 自研 Whale 框架上搭建 MoE 模型,并通过更细粒度的 CPU offload 技术,最终实现将 10 万亿参数放进 512 张 GPU:

  • 自研 Whale 框架:自研 Whale 分布式深度学习训练框架,针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计,让用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。

  • MoE 专家并行策略:在 Whale 架构中实现 Mixture-of-Experts(MoE)专家并行策略,在扩展模型容量、提升模型效果的基础上,不显著增加运算 FLOPs(每秒所执行的浮点运算次数),从而实现高效训练大规模模型的目的。

  • CPU offload 创新技术:在自研的分布式框架 Whale 中通过更细粒度的 CPU offload,解决了有限资源放下极限规模的难题,并通过灵活地选择 offload 的模型层,进一步地提高 GPU 利用率。

此外,针对训练效率问题,M6 团队设计了 Pseudo-to-Real(共享解除)机制,即利用训练好的共享参数模型初始化大模型,让收敛效率进一步提升 7 倍,解决大模型训练速度慢的问题。

对比不使用该机制,预训练达到同样 loss 用时仅需 6%;和此前万亿模型相比,训练样本量仅需 40%。

作为国内首个商业化落地的多模态大模型,M6 已在超 40 个场景中应用,日调用量上亿。

今年,大模型首次支持双 11,应用包括但不限于:

  • M6 在犀牛智造为品牌设计的服饰已在淘宝上线;

  • 凭借流畅的写作能力,M6 正为天猫虚拟主播创作剧本;

  • 依靠多模态理解能力,M6 正在增进淘宝、支付宝等平台的搜索及内容认知精度。

▲M6 设计的飞行汽车

未来,M6 将积极探索与科学应用的结合,通过 AI for science 让大模型的潜力充分发挥,并加强 M6 与国产芯片的软硬一体化研究。

目前,达摩院联合阿里云已推出 M6 服务化平台(https://m6.aliyun.com),为大模型训练及应用提供完备工具,首次让大模型实现“开箱即用”,算法人员及普通用户均可方便地使用平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
“德纳”舰返航途中遭美军鱼雷击沉:300公斤弹头爆炸,船体断成两半!伊外长:它是印度海军的客人;印度回应

“德纳”舰返航途中遭美军鱼雷击沉:300公斤弹头爆炸,船体断成两半!伊外长:它是印度海军的客人;印度回应

每日经济新闻
2026-03-05 22:08:43
告诉大家一个坏消息:深圳、杭州已出现4大怪象,值得每个人深思

告诉大家一个坏消息:深圳、杭州已出现4大怪象,值得每个人深思

北纬的咖啡豆
2026-03-05 15:33:27
央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

傲傲讲历史
2026-03-05 16:08:43
弹药告急?美对伊空袭能撑多久

弹药告急?美对伊空袭能撑多久

环球时报国际
2026-03-05 14:00:59
世界现役最大军舰,确认被击毁!

世界现役最大军舰,确认被击毁!

航空知识
2026-03-04 19:09:03
比亚迪发布第二代刀片电池,王传福:从10%充到97%只用9分钟

比亚迪发布第二代刀片电池,王传福:从10%充到97%只用9分钟

蓝鲸新闻
2026-03-05 19:39:30
悲壮:伊朗两架自杀式SU-24轰炸机在抵达目标2分钟前被击落!

悲壮:伊朗两架自杀式SU-24轰炸机在抵达目标2分钟前被击落!

胜研集
2026-03-05 09:56:41
A股:今晚2.5亿股民,要兴奋到睡不到觉,你知道为什么吗?

A股:今晚2.5亿股民,要兴奋到睡不到觉,你知道为什么吗?

夜深爱杂谈
2026-03-05 21:01:45
新的战场出现!美司令首次承认:中国卫星已经强到让美国必须反击

新的战场出现!美司令首次承认:中国卫星已经强到让美国必须反击

丁丁鲤史纪
2026-03-05 12:04:56
日本政府紧张研判:派自卫队去霍尔木兹海峡

日本政府紧张研判:派自卫队去霍尔木兹海峡

都市快报橙柿互动
2026-03-05 13:57:55
百名美军阵亡,美防长高兴早了:二炸卡塔尔雷达,伊朗亮剑杀手锏

百名美军阵亡,美防长高兴早了:二炸卡塔尔雷达,伊朗亮剑杀手锏

头条爆料007
2026-03-05 10:59:38
贝尔再谈C罗:他只想进球超越梅西!我不传球他就会挥动双臂不满

贝尔再谈C罗:他只想进球超越梅西!我不传球他就会挥动双臂不满

奥拜尔
2026-03-05 18:22:07
伊拉克电力部:伊国家电网全境断电

伊拉克电力部:伊国家电网全境断电

每日经济新闻
2026-03-05 08:23:23
突然大跳水!霍尔木兹海峡传来重磅消息

突然大跳水!霍尔木兹海峡传来重磅消息

中国能源网
2026-03-05 18:05:10
伊朗空军和防空系统已经瘫痪,美国军方开始在伊朗部署B-52轰炸机

伊朗空军和防空系统已经瘫痪,美国军方开始在伊朗部署B-52轰炸机

一种观点
2026-03-04 09:43:57
重磅:一吨重导弹命中以色列,美军或损失2架U2侦察机!

重磅:一吨重导弹命中以色列,美军或损失2架U2侦察机!

胜研集
2026-03-05 19:53:34
郭艾伦重伤广州爆冷力克山东 徐昕17+10+4帽克里斯22+16

郭艾伦重伤广州爆冷力克山东 徐昕17+10+4帽克里斯22+16

醉卧浮生
2026-03-05 21:40:55
马云最新发声:AI可取代所有技能,孩子未来真正的竞争力到底在哪

马云最新发声:AI可取代所有技能,孩子未来真正的竞争力到底在哪

复转小能手
2026-03-05 16:53:29
伊朗“半封锁”霍尔木兹,中国施压管用了

伊朗“半封锁”霍尔木兹,中国施压管用了

凤眼论
2026-03-05 17:01:38
2026-03-06 01:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
332546文章数 607043关注度
往期回顾 全部

科技要闻

独家|林俊旸辞职 我们和认识他的人聊了聊

头条要闻

伊朗:已作好准备应对美国地面行动

头条要闻

伊朗:已作好准备应对美国地面行动

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

艺术
本地
游戏
手机
公开课

艺术要闻

他偏要画最难的部分——这位韩国画师,只画手脚与人体,惊艳了无数人!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

今天是《生化危机5》发售17周年

手机要闻

不到200g的小屏旗舰塞进7500mAh电池!一加15T手感稳了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版