网易首页 > 网易号 > 正文 申请入驻

20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶

0
分享至

机器之心报道

机器之心编辑部

带点特斯拉、SpaceX 基因,工程能力很强。

马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了!

中午 12 点,所有人都在马斯克的直播预告中开始了等待。

在等到 20 分钟、线上观看人数达到 100 万时,直播终于开始,马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。

根据工程师们介绍,准确地说,Grok 3 是一个系列,不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。目前并非所有型号都已上线,但会从今天开始陆续推出。

马斯克则直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且拥有扩展的训练数据集。

另外,原定要发布的语音模式延期了,但也不会等太久,一周左右就行。

不过现在的大模型,总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。

这个数据中心建造的速度极快,只用了 122 天,二期还将增加到 20 万块 GPU。

Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确?

看来 Grok 3 主打一个力大砖飞,我们来看下基准测试的成绩吧。

在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。

下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到,Grok-3 在每个维度上都排第一。

比如,在编码任务中,Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:

  • Grok-3 + Thinking 的水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
  • Grok-3 会尝试解决黎曼猜想,这一点和 DeepSeek-R1 类似,不像其他许多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放弃并简单地说这是一个重要的未解问题。
  • DeepSearch 大约在 Perplexity DeepResearch 产品的水平,但还没有达到 OpenAI 最近发布的「Deep Research」的水平,后者感觉更加彻底和可靠。

推理能力一骑绝尘

超越 o3 mini、R1 等所有对手

与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。

Grok-3 的推理基准测试结果也说明了这一点,它分为了两个版本,分别是Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning

当使用更多测试时间计算时(图中延长部分),其中在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型

在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名,大幅超越了其他推理模型。

Grok-3 的用户界面如下所示,我们可以看到它的思考(Think)模式

在实际使用过程中,像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长

不仅如此,Grok-3 还支持了「Big Brain」模式,使用更多算力来解决问题,进行更深度的思考。

Grok-3 能做到的超乎你的想象,比如「生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。」

再比如「使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,代码可以很长,效果要炫酷」:

从演示来看,Grok-3 各项能力都在线的。

下一代智能体——DeepSearch 问世

Grok-3 还具备了强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。

可以说,DeepSearch 对标了此前 OpenAI 推出的深度搜索 Deep Research,后者通过联网可以在几十分钟内完成人类专家数小时才能完成得复杂研究任务。

我们可以看以下几个示例,Grok-3 在 DeepSearch 模式下可以联网进行更深入的搜索,过程中也调用了思考能力。并且,搜索本身所需要的步骤也展示了出来。

在下面这个示例中,让 Grok-3「对疯狂的三月比赛做出一个完整的预测」(create a full march madness bracket prediction)。

最后是订阅和定价的相关信息:

X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。

SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。

发布完之后,团队还根据网友提问进行了简单的问答。

其中提到,xAI 将会发布一个 Grok 驱动的语音应用(大约将在一周后发布)。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。

此外,马斯克还重申了 xAI 的开源原则,即发布了最新版的模型之后便会开源前一版本的模型。他表示在发布了 Grok 3 稳定版之后就会开源 Grok 2(可能还需要等待几个月时间)。这一点看来不如开源之光 DeepSeek。

马斯克曾发推说明 xAI 的开源原则:发布新一代模型时开源上一代模型。

最终,发布会在一个 xAI 语音模式演示视频中落下帷幕。

之后,马斯克发推暗示自己的公司将赢得与 OpenAI 的技术竞争,因为 xAI 的创新速率有更高的一阶和二阶导数。

对于马斯克今日的发布,你怎么看?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘慧被查!曾任宁夏自治区主席,是二十大以来落马又一女正部

刘慧被查!曾任宁夏自治区主席,是二十大以来落马又一女正部

南方都市报
2025-07-18 13:43:27
多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

观星赏月
2026-03-25 09:20:03
原来他俩是夫妻,兜兜转转破镜重圆,如今演《冬去春来》他又火了

原来他俩是夫妻,兜兜转转破镜重圆,如今演《冬去春来》他又火了

洲洲影视娱评
2026-03-26 16:37:01
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
伊朗对科威特乌代里基地、沙特苏丹王子空军基地、巴林谢赫伊萨空军基地以及美军一处后勤设施等目标实施打击

伊朗对科威特乌代里基地、沙特苏丹王子空军基地、巴林谢赫伊萨空军基地以及美军一处后勤设施等目标实施打击

潇湘晨报
2026-03-26 16:56:00
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

懂球帝
2026-03-26 11:24:21
比熬夜可怕十倍的10个坏习惯,一定要抛弃!

比熬夜可怕十倍的10个坏习惯,一定要抛弃!

深度知局
2026-02-26 21:39:44
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

懂球帝
2026-03-26 12:27:11
俄专家曾预言:中国军力追上俄罗斯需10年,赶超美国还得等25年?

俄专家曾预言:中国军力追上俄罗斯需10年,赶超美国还得等25年?

介知
2026-03-26 09:59:05
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
痛别!李幼平逝世

痛别!李幼平逝世

极目新闻
2026-03-26 13:31:27
张近东资产清零,张朝阳手握百亿现金:两种人生,一个忠告

张近东资产清零,张朝阳手握百亿现金:两种人生,一个忠告

老特有话说
2026-03-26 14:31:44
不可错过!3月26日晚间18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:31:17
特朗普心腹说漏嘴,伊朗的麻烦还没解决,美就急着要和中国打一架

特朗普心腹说漏嘴,伊朗的麻烦还没解决,美就急着要和中国打一架

无悔的灿烂人生
2026-03-26 16:01:06
美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

阿芒娱乐说
2026-03-26 16:52:32
2026-03-26 18:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
房产
数码
旅游

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

皮衣+裙,高级到炸

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

无障碍浏览 进入关怀版