网易首页 > 网易号 > 正文 申请入驻

美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源

0
分享至

机器之心报道

编辑:佳琪、Panda

11 月 22 日,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

  • 技术报告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
  • Hugging Face 页面:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
  • GitHub 地址:https://github.com/PrimeIntellect-ai/prime
  • 体验链接:chat.primeintellect.ai

Prime Intellect 表示,相比此前的研究,INTELLECT-1 实现了 10 倍的规模提升。这一突破证明,大规模模型训练已不再是大公司的专利,通过去中心化的、社区驱动的方式同样可以实现。

他们的下一步计划是将模型进一步扩展到前沿规模,最终目标是实现开源 AGI。这一点在其在线 Demo 的模型选项中已有暗示 —— 其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。看起来这确实是一个雄心勃勃的团队。

模型发布后,虽也有质疑声音,但 AI 社区总体上还是给出了非常积极的肯定。

机器之心也用几个经典问题简单尝试了其在线 Demo 版本的模型。

首先是经典的草莓问题,INTELLECT-1 一开始答对了,但继续提问就又变成了常见的错误答案。

该模型也具备还不错的文本理解能力,但总体而言和 Llama 和 Qwen 等前沿开源模型还有所差距。

下面我们看看它的汉语能力。从多次测试的结果来看,这个模型的汉语能力并不好,并且幻觉现象似乎也挺严重的,比如下图中,即使该模型暂时并不具备读取链接的能力,也会根据上下文强行作答。

不管怎样,INTELLECT-1 都是 AI 历史上一次颇具开创性的实验。下面我们就来看看这个系统是如何炼成的。

大规模去中心化训练

Prime Intellect 的这场去中心化训练的规模其实相当大,涉及到 3 个大洲的 5 个国家,同时运行了 112 台 H100 GPU。

全球 30 位贡献者的基本信息

该团队表示:「我们在各大洲实现了 83% 的总体计算利用率。当仅在分布于整个美国的节点上进行训练时,实现了 96% 的计算利用率。与中心化训练方法相比,开销极小。」

这样的结果表明 INTELLECT-1 在存在严重的带宽限制和节点波动的情况下,依然能维持训练收敛性和高计算利用率,这昭示了一种新的可能性:能够以去中心化、社区驱动的方式训练出前沿的基础模型!

一万亿 token 的训练过程,这里给出了训练过程中损失、困惑度、训练速度等信息

训练细节与数据集

INTELLECT-1 基于 Llama-3 架构,它包含:

  • 42 层,隐藏维度为 4,096
  • 32 个注意力头
  • 序列长度为 8,192
  • 词表大小为 128,256

模型在经过精心筛选的 1 万亿 token 数据集上训练,数据构成如下:

数据集 Huggingface 链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

  • 55% FineWeb-Edu
  • 20% Stack v2(Stack Overflow 等技术问答数据)
  • 10% FineWeb(精选网页数据)
  • 10% DCLM-baseline(基准通用语料)
  • 5% OpenWebMath(数学数据)

模型训练持续了 42 天,采用了以下技术:

  • 采用 WSD 动态调整学习速度,让模型学习更高效
  • 精细调教的学习参数:内层学习率设为 7.5e-5
  • 引入特殊的损失函数(max-z-loss)来确保训练过程的稳定性
  • 使用 Nesterov 动量优化算法,帮助模型更快更好地学习
  • 支持训练机器的灵活接入和退出,最多可同时使用 14 台机器协同训练

从训练过程的监控图表可以看出,PRIME 系统表现出色:即使参与训练的机器数量经常变化(从最少 4 台逐渐增加到最多 14 台),整个训练过程依然保持稳定,充分证明了系统的可靠性。

训练动态图展示了整个训练过程中模型困惑度和学习率的变化,包括预热阶段、稳定阶段和退火阶段。

Prime:一个去中心化训练框架

该团队使用的训练框架名为 Prime,这基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前开发的 Distributed Low-Communication(DiLoCo)方法。

项目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo

在此之前,Prime Intellect 已经在 1B 参数规模上实验了去中心化 AI 模型训练。该团队表示:「这让我们到达了我们的 masterplan 的第三步:合作训练用于语言、智能体和科学的开放式基础模型。」

Prime Intellect 的 masterplan

相比于之前开源的 OpenDiLoCo,Prime 有两大关键提升。

一是在算法方面,他们在 OpenDiLoCo 上执行了许多消融研究,发现还能进一步降低通信要求。值得注意的是,他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合,从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下是有效的,该团队也将它们扩展到了更大的模型。

在具体的大规模扩展方面,我们知道,去中心化训练既是工程挑战,也是研究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示,Prime 这种全新的去中心化训练框架支持容错训练,支持计算资源的动态开启/关闭,还能优化全球分布式 GPU 网络中的通信和路由。

Prime 中用于容错训练的 ElasticDeviceMesh 的拓扑结构

该团队在博客中写道:「该框架构成了我们开源技术堆栈的基础,其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建,我们的目标是突破全球分布式 AI 训练的极限。」

具体来说,Prime 框架包含以下关键特性:

  • 用于容错训练的 ElasticDeviceMesh
  • 异步分布式检查点
  • 实时检查点恢复
  • 自定义 Int8 All-Reduce 内核
  • 最大化带宽利用率
  • PyTorch FSDP2 / DTensor ZeRO-3 实现
  • CPU 卸载

计算效率

虽然训练散作满天星,但计算效率仍保持「聚是一团火」的高水准:在美国境内集群部署时,计算资源利用率高达 96%(中位数同步延迟仅 103s);跨越大西洋的部署场景下依然维持在 85.6% 的优异水平(中位数同步延迟 382s);即便是在全球分布式节点配置下,计算利用率也能稳定保持在 83%(中位数同步延迟 469s)。

这一系列亮眼的数据充分证明了该去中心化训练框架的容错性和扩展性,不仅能够从容应对不同地理位置的网络延迟挑战,更在确保训练稳定性的同时实现了高效计算。

后训练

在完成分布在全球的预训练阶段后,Prime Intellect 与 Arcee AI 合作开展了一系列后训练,以提升 INTELLECT-1 的整体能力和特定任务表现。主要包含三个阶段:

  • SFT(监督微调,16 轮)
  • DPO(直接偏好优化,8 轮)
  • 使用 MergeKit 整合训练成果

更多信息请查看详细技术报告:

论文链接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf

未来计划:长期目标是 AGI

INTELLECT-1 的成功让我们看到了去中心化训练的巨大潜力。至于如何将开源的 PRIME 框架扩展到目前动辄 70B 的规模呢?Prime Intellect 提了三点规划:

  • 继续扩大全球计算网络
  • 用更多奖金激励推动社区参与
  • 进一步优化 PRIME 去中心化训练架构以支持更大的模型

在博客结尾,Prime Intellect 写道:「为了防止 AI 能力被少数组织垄断,我们诚邀全球 AI 社区通过 GitHub 或 Discord 加入我们。让我们携手共建一个更开放、更具协作性的 AI 发展未来。」

https://www.primeintellect.ai/blog/intellect-1-release

https://app.primeintellect.ai/intelligence

https://www.primeintellect.ai/blog/intellect-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

懂球帝
2026-07-04 18:28:46
一家三口新疆自驾游突遇山洪,母子被冲走失联6天,孩子刚过11岁生日 孩子父亲:只想尽快找到妻儿

一家三口新疆自驾游突遇山洪,母子被冲走失联6天,孩子刚过11岁生日 孩子父亲:只想尽快找到妻儿

红星新闻
2026-07-04 19:46:16
乌克兰或用弹道导弹袭击莫斯科,“回合制”互袭首都愈演愈烈

乌克兰或用弹道导弹袭击莫斯科,“回合制”互袭首都愈演愈烈

澎湃新闻
2026-07-03 21:24:29
4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

锐评利物浦
2026-07-04 09:47:18
女生乘车离开,一网约车司机崩溃:“全是素颜霜,根本擦不掉……”

女生乘车离开,一网约车司机崩溃:“全是素颜霜,根本擦不掉……”

都市快报橙柿互动
2026-07-04 17:32:50
非洲之光!摩洛哥两次进入世界杯八强,为非洲历史第一队

非洲之光!摩洛哥两次进入世界杯八强,为非洲历史第一队

懂球帝
2026-07-05 03:08:11
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-07-04 21:41:53
2020年佛得角废除了体育总局,然后……

2020年佛得角废除了体育总局,然后……

熊太行
2026-07-04 11:01:14
86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

垛垛糖
2026-07-04 13:36:20
夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

我就是一个说球的
2026-07-04 15:31:45
空袭惨烈!乌克兰第二大城市被炸成废墟,俄军接连拿下关键阵地!

空袭惨烈!乌克兰第二大城市被炸成废墟,俄军接连拿下关键阵地!

青青衫书生
2026-07-02 23:23:10
世界杯首例!非洲劲旅8人兴奋剂违规 检出违禁药物 FIFA拒绝置评

世界杯首例!非洲劲旅8人兴奋剂违规 检出违禁药物 FIFA拒绝置评

狍子歪解体坛
2026-07-04 11:54:56
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
佛得角门将社媒粉丝已破2000万!佛得角足协副主席:或将对阵中国男足

佛得角门将社媒粉丝已破2000万!佛得角足协副主席:或将对阵中国男足

封面新闻
2026-07-04 16:04:31
小某书在批量生产“擦边”跑步网红

小某书在批量生产“擦边”跑步网红

马拉松跑步健身
2026-07-04 20:33:50
一个小统计:民主国家在足球方面碾压非民主国家

一个小统计:民主国家在足球方面碾压非民主国家

黔有虎
2026-07-04 19:11:29
船都绕着走,“再不治理迟早出大事”

船都绕着走,“再不治理迟早出大事”

中国新闻周刊
2026-07-04 19:46:11
赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

贴小君
2026-07-04 13:12:59
第十四届全国政协委员、国家发展改革委原党组成员、国家能源局原党组书记、局长章建华到绿能公司调研

第十四届全国政协委员、国家发展改革委原党组成员、国家能源局原党组书记、局长章建华到绿能公司调研

新浪财经
2026-07-05 03:43:01
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

流史岁月
2026-07-03 16:00:07
2026-07-05 06:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
家居
亲子
艺术
旅游

教育要闻

高考地理中的植被响应

家居要闻

传奇筑 日常诗

亲子要闻

短到捏不住的铅笔头,写下的满是懂事和感恩。老师问:“怎么用这么短呀?”男孩安静鞠了一躬

艺术要闻

八大山人迷之印章 你认得几个?

旅游要闻

山野逐夏 乐享清凉!五莲黑虎山盛夏欢乐季火热启幕

无障碍浏览 进入关怀版