网易首页 > 网易号 > 正文 申请入驻

马斯克如约开源Grok,10小时狂揽10000颗Star

0
分享至



作者|CSDN

编辑|屠敏

来源|CSDN

气「OpenAI 不 Open」以至于对其发起诉讼之后,马斯克践行自己自由、开放的原则,在刚刚过去的周末里选择重磅开源自家的AI大模型——Grok-1(https://github.com/xai-org/grok-1)。

距离 Grok-1 开源仅过去了 10 个小时,该项目便获得了 10k 的 Star,成为众人关注的焦点所在。




马斯克的 xAI 公司开源 Grok-1

高达 3140 亿参数

这款 Grok 大模型,是马斯克集结 Deepmind、微软、特斯拉、学术界多位大佬于 2023 年 7 月成立的人工智能初创公司 xAI 所带来的成果。

Grok 的设计初衷,灵感来源于英国作家道格拉斯·亚当斯所写的一系列科幻小说《银河系漫游指南》,和 ChatGPT 一样,可以以对话方式回答问题,也能联网,而有所不同的是,Grok 已集成到 X 社交媒体平台中,可以“实时访问”该平台上的所有信息,还可以回答大多数其他 AI 系统拒绝回答的尖锐问题,甚至就如何提问给出建议。

订阅 X 的高级功能用户可以向 Grok 提出问题并收到答复。

根据 xAI 在其官方博客更新的公告显示,其开源的 Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家(MoE)模型。

xAI 团队表示,“这是 Grok-1 预训练阶段的原始基础模型检查点,该阶段于 2023 年 10 月结束。这意味着该模型没有针对任何特定应用(例如对话)进行微调。”

该模型的详细情况:

  • 基于大量文本数据训练的基础模型,未针对任何特定任务进行微调。

  • 314B 参数的混合专家模型, 25% 的权重对给定 token 有效。

  • xAI 于 2023 年 10 月在 JAX 和 Rust 上使用自定义训练堆栈从头开始训练。


同时 Grok-1 是在 Apache 2.0 许可证下发布权重和架构。

值此,在 X 平台上,来自 LangChainAI 的工程师 Andrew Kean Gao 还对 Grok 架构进一步地展开深入分析。

他说道,“我刚刚浏览了 http://model.py ,对于这个 314B 开源的庞然大物,竟然没有附加任何条件。”


详细来看,Grok-1 是一个 314 B 的 Mixture-of-Experts(MoE)模型(8 个专家 2 个是活跃的),860 亿的激活参数,这比 Llama-2 的 70B 参数还要多。


此外,Grok-1 使用的旋转位置嵌入(RoPE)而非固定位置嵌入。

再者,Grok-1 tokenizer 词汇大小为 131,072(与 GPT-4 类似) 2^17,嵌入大小为 6,144(48*128);64 个 Transformer 层,每层都有一个解码器层:多头注意力块和密集块,键值大小 128。


其中,多头注意模块有 48 个 head 和 8 个键/值 (KV),KV 大小为 128。

密集块(密集前馈块):加宽因子为 8,隐藏层大小为 32768。

每个 token 从 8 个专家中选出 2 个。


  • 旋转位置嵌入大小为 6144,这是有道理的,因为它与模型的输入嵌入大小相同。

  • 上下文长度:8,192 个词块


  • 精度 bf16


Grok-1 的性能

关于 Grok-1 的详细细节,此前 CSDN 也曾报道过。

根据官方公告显示,为 Grok 提供动力的引擎 Grok-1,是在数万个 GPU 集群(外媒 Techcrunch 透露,可能是由 Oracle 提供的)上花了几个月时间开发的,训练数据来自网络(截至 2023 第三季度)和人类助手的反馈,xAI 将其称之为“AI 导师”。

在 Grok-1 之前,xAI 公司也训练了一个具有 330 亿个参数的原型 LLM (Grok-0)。这个早期模型在标准 LM 基准测试上接近 LLaMA 2 (70B) 功能,但只使用了一半的训练资源。之后,xAI 团队在推理和编码能力方面取得了重大改进,最终推出了 Grok-1,这是一种功能更强大的最先进的语言模型,在 HumanEval 编码任务中实现了 63.2%,在 MMLU 上实现了 73%。

为了验证 Grok-1 的能力,xAI 团队使用了一些衡量数学和推理能力的标准机器学习基准进行了一系列评估。


根据测试结果显示,Grok-1 目前处于中等水平,超过了 GPT-3.5、LLaMA 2 70B,但是距离 Claude 2、GPT-4 等大模型还有一定的距离。



使用指南

当前,Grok-1 面向所有人开放,而要开始使用该模型,可以先确保下载 checkpoint 并将 ckpt-0 目录放入 checkpoint。然后,运行:


pip install -r requirements.txtpython run.py

进而测试代码。

脚本在测试输入上加载检查点和模型样本。

值得注意的事,Grok-1 参数量高达 314B 个参数,其模型体积庞大,需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

xAI 团队在 GitHub 项目仓库里面也直言道:该资源库中 MoE 层的实现并不高效。选择这种实现方式是为了避免需要定制内核来验证模型的正确性。

你可以使用 torrent 客户端和下面磁铁链接下载权重:


magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannouncebr

详细使用指南也可以通过 GitHub 项目地址:github.com/xai-org/grok 进行速览。



开源 or 闭源

一直以来,关于究竟是该构建开源还是闭源的大模型,业界存有巨大的争议。对于 OpenAI 等公司而言,如今的 AI 存在不少未可知的风险,开源有可能造成技术被滥用,所以闭源似乎优于开源。

但是在马斯克等人看来,通过开放代码让所有人有权查看和使用有助于使技术更加安全。所以在此次开源 Grok 之际,马斯克还暗讽了 ChatGPT,希望让其“告诉我们更多有关 OpenAI 开放部分的信息....”


马斯克认为,任何话题都不应该成为聊天机器人的禁区。不过,他也警醒道:

“我的一位朋友提醒我澄清清醒人工智能的危险性质,尤其是强制多样性。

如果一个人工智能被设定为不惜一切代价推动多元化,就像 Google Gemini 那样,那么它就会不择手段地造成这种结果,甚至有可能杀人。”


亚利桑那州立大学计算机科学教授 Subbarao Kambhampati 同样认为,开源当今的人工智能技术是最安全的方法。

不过,也有不少用户担心马斯克只是做了初步开源 Grok-1 的计划,就没有后续跟进,毕竟他此前对 X 的推荐算法也做了开源,但只是开源之后就似乎没有更新过。

针对这一担忧,马斯克也现身回应有关开源 X 推荐算法时说道,“还有很多工作要做,但这个平台已经是迄今为止最透明、最求真的平台(说实话,门槛并不高)”。


不管怎样,马斯克成立的 xAI 公司仅仅用了 8 个月不仅创建了 Grok,还将 Grok-1 开源出来,其行动速度远超乎众人的想象,甚至 OpenAI 的员工也表达了他们对 Grok 的强烈兴趣。


而 Grok 的发布可能会给所有其他 LLM 提供商(尤其是其他竞争对手的开源提供商)带来不小的压力,但有竞争才有进步,对于普通用户而言,也是一件好事。

正如英伟达科学家 Jim Fan 评价道:「有史以来最大的开放 LLM,由世界级团队训练;通过磁力链接发布;Apache 2.0;314B;专家混合(8 个活跃中的 2 个)。就连激活参数仅(86B)就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的内容。」


“本文经授权转载自微信公众号「CSDN」(ID:csdnnews)”

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian ,注明真实身份。

数据支持天眼查,大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field


大模型应用创业者,你怎么看?

■ 百度文心一言,阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■ 网易,金山办公大模型 ▍ 更多行业大模型案例

上次介绍中国AI大模型平台排行榜 | 2月份


本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

欢迎提供新的大模型商业化落地思路

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯爆粗吐槽裁判曝光!浓眉死亡凝视哈姆 湖人球迷高喊炒掉他

詹姆斯爆粗吐槽裁判曝光!浓眉死亡凝视哈姆 湖人球迷高喊炒掉他

罗说NBA
2024-04-27 05:39:30
卡莱尔:哈利伯顿的防守进步了 今天他的5个进攻篮板至关重要

卡莱尔:哈利伯顿的防守进步了 今天他的5个进攻篮板至关重要

直播吧
2024-04-27 13:51:37
美国海军领先中国150年,055大驱造一万艘也没用,我们是在吹牛?

美国海军领先中国150年,055大驱造一万艘也没用,我们是在吹牛?

星辰故事屋
2024-04-14 15:56:15
广州男子凌晨遛狗走失后被宰杀分食,养了7年70多斤只剩20斤残肢

广州男子凌晨遛狗走失后被宰杀分食,养了7年70多斤只剩20斤残肢

小舞的爱好
2024-04-26 10:14:55
媚而不俗,高启兰隆妮不愧是人间尤物,与53岁的于和伟激吻!

媚而不俗,高启兰隆妮不愧是人间尤物,与53岁的于和伟激吻!

慎独赢
2024-04-20 13:07:10
北影节闭幕红毯名场面多:胡先煦张子疯合体撒糖,陈数闫妮美出圈

北影节闭幕红毯名场面多:胡先煦张子疯合体撒糖,陈数闫妮美出圈

水中烧烤的娱
2024-04-26 18:24:44
毛主席下巴的痣并非天生,而是遵义会议后才有的,科学解释是什么

毛主席下巴的痣并非天生,而是遵义会议后才有的,科学解释是什么

南书房
2024-04-26 00:00:03
未来可期!居勒尔:感谢教练给我机会 我也在调整心态不断努力

未来可期!居勒尔:感谢教练给我机会 我也在调整心态不断努力

直播吧
2024-04-27 06:24:27
瑞士议会通过了向乌克兰拨款55亿美元支持其重建的一揽子法案

瑞士议会通过了向乌克兰拨款55亿美元支持其重建的一揽子法案

探索星空
2024-04-26 19:34:20
哈姆拒绝G4更换首发!全队看录像恼火沮丧 明日或成赛季最后一战

哈姆拒绝G4更换首发!全队看录像恼火沮丧 明日或成赛季最后一战

罗说NBA
2024-04-27 06:29:41
连续2天逆跌,票房会破10亿?古天乐又要给港片杀出一条路来

连续2天逆跌,票房会破10亿?古天乐又要给港片杀出一条路来

靠谱电影君
2024-04-25 23:09:12
数学家波切蒂诺:我们上周6-0埃弗顿,埃弗顿两天前2-0利物浦

数学家波切蒂诺:我们上周6-0埃弗顿,埃弗顿两天前2-0利物浦

直播吧
2024-04-26 23:30:14
地下假“伟哥”工厂:白天干活,晚上按摩店试药,做出来的假货比真药还猛……

地下假“伟哥”工厂:白天干活,晚上按摩店试药,做出来的假货比真药还猛……

户外小阿隋
2024-04-27 07:45:03
北交台主持人的回复是假的。老杜:主持人给我打了两次电话

北交台主持人的回复是假的。老杜:主持人给我打了两次电话

渤海草堂2
2024-04-27 05:20:03
鲁尼透露自己会开两把风扇和吹风机睡觉,网友:被弗格森搞出PTSD

鲁尼透露自己会开两把风扇和吹风机睡觉,网友:被弗格森搞出PTSD

直播吧
2024-04-27 09:03:27
谭秦东:我就是个没有靠山的软柿子!

谭秦东:我就是个没有靠山的软柿子!

大众新闻报社记者
2024-04-25 10:22:33
带状疱疹,鸡蛋就能治

带状疱疹,鸡蛋就能治

今日养生之道
2024-04-24 21:27:04
“辛苦但无用”的节俭行为,看完破防了,全都是贫穷家庭的通病!

“辛苦但无用”的节俭行为,看完破防了,全都是贫穷家庭的通病!

娱乐洞察点点
2024-04-24 20:55:38
太阳三节落后22分众生相:主场球迷提前离场 老板总经理神色黯淡

太阳三节落后22分众生相:主场球迷提前离场 老板总经理神色黯淡

醉卧浮生
2024-04-27 12:55:00
美政客对抗议学生放狠话

美政客对抗议学生放狠话

环球时报国际
2024-04-26 07:26:19
2024-04-27 14:08:49
AI大模型工场
AI大模型工场
专注AI大模型行业媒体,深度解读公司大模型行业动态,且提供一手的AIGC,行业大模型内容。
27文章数 12关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

牛弹琴:越南两任国家主席辞职后 政坛又发生重大变动

头条要闻

牛弹琴:越南两任国家主席辞职后 政坛又发生重大变动

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

健康
家居
本地
手机
公开课

这2种水果可降低高血压死亡风险

家居要闻

光影之间 空间暖意打造生活律动

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

手机要闻

Google Pixel 8a 更多官方渲染图出现

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版