网易首页 > 网易号 > 正文 申请入驻

20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶

0
分享至

机器之心报道

机器之心编辑部

带点特斯拉、SpaceX 基因,工程能力很强。

马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了!

中午 12 点,所有人都在马斯克的直播预告中开始了等待。

在等到 20 分钟、线上观看人数达到 100 万时,直播终于开始,马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。

根据工程师们介绍,准确地说,Grok 3 是一个系列,不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。目前并非所有型号都已上线,但会从今天开始陆续推出。

马斯克则直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且拥有扩展的训练数据集。

另外,原定要发布的语音模式延期了,但也不会等太久,一周左右就行。

不过现在的大模型,总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。

这个数据中心建造的速度极快,只用了 122 天,二期还将增加到 20 万块 GPU。

Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确?

看来 Grok 3 主打一个力大砖飞,我们来看下基准测试的成绩吧。

在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。

下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到,Grok-3 在每个维度上都排第一。

比如,在编码任务中,Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:

  • Grok-3 + Thinking 的水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
  • Grok-3 会尝试解决黎曼猜想,这一点和 DeepSeek-R1 类似,不像其他许多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放弃并简单地说这是一个重要的未解问题。
  • DeepSearch 大约在 Perplexity DeepResearch 产品的水平,但还没有达到 OpenAI 最近发布的「Deep Research」的水平,后者感觉更加彻底和可靠。

推理能力一骑绝尘

超越 o3 mini、R1 等所有对手

与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。

Grok-3 的推理基准测试结果也说明了这一点,它分为了两个版本,分别是Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning

当使用更多测试时间计算时(图中延长部分),其中在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型

在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名,大幅超越了其他推理模型。

Grok-3 的用户界面如下所示,我们可以看到它的思考(Think)模式

在实际使用过程中,像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长

不仅如此,Grok-3 还支持了「Big Brain」模式,使用更多算力来解决问题,进行更深度的思考。

Grok-3 能做到的超乎你的想象,比如「生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。」

再比如「使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,代码可以很长,效果要炫酷」:

从演示来看,Grok-3 各项能力都在线的。

下一代智能体——DeepSearch 问世

Grok-3 还具备了强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。

可以说,DeepSearch 对标了此前 OpenAI 推出的深度搜索 Deep Research,后者通过联网可以在几十分钟内完成人类专家数小时才能完成得复杂研究任务。

我们可以看以下几个示例,Grok-3 在 DeepSearch 模式下可以联网进行更深入的搜索,过程中也调用了思考能力。并且,搜索本身所需要的步骤也展示了出来。

在下面这个示例中,让 Grok-3「对疯狂的三月比赛做出一个完整的预测」(create a full march madness bracket prediction)。

最后是订阅和定价的相关信息:

X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。

SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。

发布完之后,团队还根据网友提问进行了简单的问答。

其中提到,xAI 将会发布一个 Grok 驱动的语音应用(大约将在一周后发布)。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。

此外,马斯克还重申了 xAI 的开源原则,即发布了最新版的模型之后便会开源前一版本的模型。他表示在发布了 Grok 3 稳定版之后就会开源 Grok 2(可能还需要等待几个月时间)。这一点看来不如开源之光 DeepSeek。

马斯克曾发推说明 xAI 的开源原则:发布新一代模型时开源上一代模型。

最终,发布会在一个 xAI 语音模式演示视频中落下帷幕。

之后,马斯克发推暗示自己的公司将赢得与 OpenAI 的技术竞争,因为 xAI 的创新速率有更高的一阶和二阶导数。

对于马斯克今日的发布,你怎么看?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾琦医生“回来了”!名字和简历重回专家栏,坐诊时间也公示出来

曾琦医生“回来了”!名字和简历重回专家栏,坐诊时间也公示出来

火山詩话
2026-06-23 16:33:56
巴斯夫中国退出与中国石油合资公司

巴斯夫中国退出与中国石油合资公司

雷达财经
2026-06-23 15:40:27
全红婵留长发,近170cm颜值惊人,网友:这脸,变化好大

全红婵留长发,近170cm颜值惊人,网友:这脸,变化好大

新动察
2026-06-24 08:54:19
时隔近20年!韩国总理重返母校清华大学

时隔近20年!韩国总理重返母校清华大学

看看新闻Knews
2026-06-24 00:14:56
云南一对夫妻吃菌中毒擅自离开医院后互殴,男子觉得妻子变成了蛇,两人从十几楼楼道打斗到27楼,女子身上全是脚印灰尘,目前两人已经康复

云南一对夫妻吃菌中毒擅自离开医院后互殴,男子觉得妻子变成了蛇,两人从十几楼楼道打斗到27楼,女子身上全是脚印灰尘,目前两人已经康复

极目新闻
2026-06-24 11:29:44
项立刚:EUV光刻机,中国不仅可以做出来,还会把它搞成白菜价

项立刚:EUV光刻机,中国不仅可以做出来,还会把它搞成白菜价

混沌录
2026-06-22 17:48:16
炒冷饭的《抓特务》,还是大院子弟伤痕那一套

炒冷饭的《抓特务》,还是大院子弟伤痕那一套

新潮沉思录
2026-06-24 00:52:49
美联储再次举起带血镰刀,用当年洗劫亚洲那套,来收割全球财富!

美联储再次举起带血镰刀,用当年洗劫亚洲那套,来收割全球财富!

史料布籍
2026-06-24 11:34:54
世界杯太残酷了:随着克罗地亚1-0,第5支提前出局的球队诞生

世界杯太残酷了:随着克罗地亚1-0,第5支提前出局的球队诞生

侧身凌空斩
2026-06-24 09:12:43
濒临出局!52岁卡纳瓦罗或被解雇:我会承担责任 但踢100次都是输

濒临出局!52岁卡纳瓦罗或被解雇:我会承担责任 但踢100次都是输

风过乡
2026-06-24 05:47:27
彻底凉透!冯小刚号称3亿执导的大片,上映第5天票房跌破250万

彻底凉透!冯小刚号称3亿执导的大片,上映第5天票房跌破250万

火山詩话
2026-06-24 05:43:02
俄国家重器太空中心遭导弹击中,欧盟警告白俄:乌克兰有权自卫!

俄国家重器太空中心遭导弹击中,欧盟警告白俄:乌克兰有权自卫!

史政先锋
2026-06-23 20:51:37
大幅跳水!2026广东高考分数线出炉,数据和原因详析

大幅跳水!2026广东高考分数线出炉,数据和原因详析

史海流年号
2026-06-24 11:35:55
“运城13岁女孩称遭男子强奸,警方不予立案” 当地已成立联合调查组 女孩家属讲述事件前后

“运城13岁女孩称遭男子强奸,警方不予立案” 当地已成立联合调查组 女孩家属讲述事件前后

红星新闻
2026-06-24 10:40:27
为了选秀吵起来了!这就是勇士走向衰败的原因,科尔多次替他背锅

为了选秀吵起来了!这就是勇士走向衰败的原因,科尔多次替他背锅

你的篮球频道
2026-06-24 12:01:58
腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

说故事的阿袭
2026-06-22 19:00:44
终于明白!普通人再也不养冯小刚们了:你住豪宅,我凭啥给你撑面

终于明白!普通人再也不养冯小刚们了:你住豪宅,我凭啥给你撑面

魔都姐姐杂谈
2026-06-24 10:01:02
1岁半男童被生父女友踢死,事发1个月后生父出具谅解书,孩子爷爷发声:不想认这个儿子,“每次和孙子视频,他都在哭”

1岁半男童被生父女友踢死,事发1个月后生父出具谅解书,孩子爷爷发声:不想认这个儿子,“每次和孙子视频,他都在哭”

都市快报橙柿互动
2026-06-24 02:30:24
法国最大露天音乐节268人被捕:2人遇刺多人遭性侵,10多名女性遭注射不明物质

法国最大露天音乐节268人被捕:2人遇刺多人遭性侵,10多名女性遭注射不明物质

新京报
2026-06-23 13:31:53
我们吃饱饭才几年,这么多人就没一个对手看得上

我们吃饱饭才几年,这么多人就没一个对手看得上

担扑
2026-06-21 14:32:26
2026-06-24 14:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13346文章数 142680关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

郑丽文称国民党追求和平但不放弃自我防卫 国台办回应

头条要闻

郑丽文称国民党追求和平但不放弃自我防卫 国台办回应

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

教育
房产
本地
公开课
军事航空

教育要闻

2026内蒙古普通高考录取控制分数线公布

房产要闻

这个海南地王,可能是今年豪宅的分水岭!

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版