网易首页 > 网易号 > 正文 申请入驻

Grok 开源和 MM1 论文透露了哪些关键数据?

0
分享至

专题解读 事件: 马斯克在近期宣布 xAI 开源 Grok-1 模型,苹果团队则首次公布了在多模态基础模型的进展MM1。

马斯克旗下 xAI 如约宣布开源其混合专家模型「Grok-1」,3140 亿的参数让 Grok-1 成为了当前参数量最大的开源大语言模型,开放的许多数据细节引起了社区极大关注。

就在 Grok-1 开源几天前,苹果团队在库克有关实现 GenAI 领域重大进展的预告后也发布了 300 亿参数的 MM1 多模态大语言模型,论文中还分享了他们总结的模型设计准则。

Grok 开源和 MM1 论文透露了哪些关键数据?

1、根据 xAI 的博客,Grok-1 开源的内容包括模型的详细架构设计,如层数、每层的类型和参数数量等,其预训练权重也被开源,允许用户直接运行模型或将其用于迁移学习。

① Grok-1 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;

② Grok-1 是 3140 亿参数的 MoE 模型,在给定 token 上的激活权重为 25%;

③ 模型由 xAI 团队从 2023 年 10 月开始,使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

④ xAI 没有公开 Grok-1 的训练数据。

⑤ 知名机器学习研究者 Sebastian Raschka 评价称:「Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」

2、苹果团队在 MM1 的论文中探讨了不同架构组件和数据选择的重要性,并通过对图像编码器、视觉语言连接器和各种预训练数据的选择总结了几项关键设计原则。

① 建模设计方面的重要性按以下顺序排列:图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。

② 研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。

③ 该工作训练的 MM1 大型多模态模型含 3B、7B、30B 三个版本,在预训练指标中实现 SOTA,并在多个基准测试中表现出竞争性能。

表:Grok-1 与 MM1 公开信息对比


除了博客的三言两语,Grok-1 的架构细节还透露了什么数据?

1、推特用户@itsandrewgao Grok-1 模型的架构细节进行了总结。

① Grok-1 是一个混合专家(MoE)模型,包含 8 个专家网络,但在推理时活跃的只有 2 个。

② Grok-1 有 860 亿激活参数,大于 Llama-2 的 70B 版本。

③ Grok-1 包含 64 个 Transformer 层,每层都包含一个解码器层,由多头注意力块和密集块组成。

④ 多头注意力块中有 48 个头用于查询(queries),8 个头用于键(keys)和值(values),键值对的大小为 128。

⑤ Tokenizer 的词汇表大小为 131,072,类似于 GPT-4。

⑥ 嵌入层的大小为 6,144(48 * 128),这意味着每个 token 的嵌入向量大小为 6,144。

⑦ 前馈网络(Feed-Forward Block)的加宽因子为 8,隐藏层大小为 32,768。

⑧ 模型能够处理的上下文长度为 8,192 个 tokens。

⑨ 模型的精度为 bfloat16(一种数值精度格式,介于 float32 和 float16 之间)。

2、xAI 在项目说明中强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。

① 网友评估了 314B 参数的 Grok-1 可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)才能运行,大概需要 8 块 H100GPU。

② 同样有网友表示模型训练需要的算力远不止如此,即便 xAI 开源了训练数据,有能力复现的机构也很有限....

苹果团队的 MM1 重点在于数据配方?MM1 找到了最佳数据配方?Grok-1 和 MM1 终将走向端侧吗?...查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 12

本期完整版通讯含3个专题解读 +31项 AI & Robotics 赛道要事收录

1.从 GitHub Copilot 到独立 AI 开发者:「Devin 们」 还有多长的路要走?

AI 软件工程师 Devin 与 AutoDev 相比传统的 AI 编程助手具备哪些特殊的能力?实际使用效果如何?有没有「吹水」?距离替代人类程序员,还差哪些技术?...

2. Grok 开源和 MM1 论文透露了哪些关键数据?

Grok-1 有哪些巧思?谁都能复刻 Grok-1 了吗?MM1 找到了最佳数据配方?Grok-1 和 MM1 终将走向端侧吗?...

3.a16z 最新 GenAI Top100 报告要点解读

新报告和上一版有和差异?GenAI 市场有和变化?有哪些新上榜的GenAI应用?报告发现了哪些趋势变化?...

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
社评:中国是言行一致的亚太和平守护者

社评:中国是言行一致的亚太和平守护者

环球网资讯
2024-06-03 00:03:14
被制裁了几十年,大局仍然稳定,靠啥?

被制裁了几十年,大局仍然稳定,靠啥?

新民周刊
2024-05-31 11:10:46
很严重,很多人的工资已经发不下来了!

很严重,很多人的工资已经发不下来了!

霹雳炮
2024-06-02 23:22:49
浙江“八十万”绿帽门!“娇妻”交往十多个男友,未婚夫也不无辜

浙江“八十万”绿帽门!“娇妻”交往十多个男友,未婚夫也不无辜

北国向锡安
2024-05-30 08:44:14
最近乌军M1A1坦克,怎么都是屁股朝前?

最近乌军M1A1坦克,怎么都是屁股朝前?

枢密院十号
2024-06-02 23:26:26
逾7900人应聘宁夏煤业井下操作工,最低学历要求大学专科

逾7900人应聘宁夏煤业井下操作工,最低学历要求大学专科

澎湃新闻
2024-06-03 09:22:28
特朗普入驻TikTok 粉丝已破60万!

特朗普入驻TikTok 粉丝已破60万!

直新闻
2024-06-02 18:57:54
台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

星辰故事屋
2024-05-24 20:01:38
女子自曝摔成粉碎性骨折!这种鞋最近很多人都爱穿

女子自曝摔成粉碎性骨折!这种鞋最近很多人都爱穿

都市快报橙柿互动
2024-06-02 22:08:12
因失恋接拍三级片,她被多少人男人存在硬盘?

因失恋接拍三级片,她被多少人男人存在硬盘?

华人星光
2024-06-02 15:17:31
民进党支持度暴增,最新政党民调显示:蓝白相加不敌民进党支持率

民进党支持度暴增,最新政党民调显示:蓝白相加不敌民进党支持率

侦姐有料
2024-06-02 11:23:15
重磅信号!统一可能要提前了!

重磅信号!统一可能要提前了!

大嘴说天下
2024-06-02 21:36:26
晨意帮忙丨“滴滴滴”怪声每半分钟响一次!长沙女子求支招:到底哪来的?

晨意帮忙丨“滴滴滴”怪声每半分钟响一次!长沙女子求支招:到底哪来的?

潇湘晨报
2024-06-02 21:44:11
富豪默多克第五次大婚!穿高定西服精神又帅气,邓文迪小女儿缺席

富豪默多克第五次大婚!穿高定西服精神又帅气,邓文迪小女儿缺席

八八尚语
2024-06-02 23:11:36
董军划下红线,晚宴座位变了,奥斯汀对华作出保证,美方避免冲突

董军划下红线,晚宴座位变了,奥斯汀对华作出保证,美方避免冲突

说天说地说实事
2024-06-02 20:47:30
正在公示!首批15个城市,拟获中央财政支持

正在公示!首批15个城市,拟获中央财政支持

鲁中晨报
2024-06-02 11:55:03
领头羊一旦患上智障,带给羊群的将是死亡

领头羊一旦患上智障,带给羊群的将是死亡

霹雳炮
2024-06-02 23:22:49
麦迪质疑库里地位:少一位队友就无缘季后赛 他不是历史前十球星

麦迪质疑库里地位:少一位队友就无缘季后赛 他不是历史前十球星

罗说NBA
2024-06-03 07:01:31
捂着伤口追下25级台阶追击20多米倒在血泊中,武汉民警邱建军壮烈牺牲

捂着伤口追下25级台阶追击20多米倒在血泊中,武汉民警邱建军壮烈牺牲

极目新闻
2024-06-03 08:53:42
柳叶刀点名批评中国饮食,一日三餐都是碳水,升糖指数全球最高

柳叶刀点名批评中国饮食,一日三餐都是碳水,升糖指数全球最高

芝士圈
2024-06-02 14:09:50
2024-06-03 10:20:49
机器之能
机器之能
探索人工智能应用场景及商业化
1925文章数 4356关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

牛弹琴:莫迪又大获全胜 他的手腕令对手叹为观止

头条要闻

牛弹琴:莫迪又大获全胜 他的手腕令对手叹为观止

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

黄仁勋的计划:涉及新AI平台 HBM4 机器人

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

房产
健康
游戏
亲子
教育

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

晚餐不吃or吃七分饱,哪种更减肥?

《魔兽世界》今日接入战网!巫妖王之怒开启技术测试

亲子要闻

带着1岁宝宝打疫苗,妈妈紧张的快要哭了,宝宝反应却这么淡定?

教育要闻

聊点正经的吧~科研绘图(Fuel一营成环篇-4)

无障碍浏览 进入关怀版