网易首页 > 网易号 > 正文 申请入驻

Grok3 来了,马斯克笑了,网站崩溃了

0
分享至

「地球上最聪明的AI」,露了个面,还没来。

作者 | 宛辰
编辑| 靖宇


几个小时前,伊隆·马斯克终于发布了他口中「地球上最聪明的 AI」——Grok3。

在 Grok3 中,马斯克团队一口气带来了「地表最强」基础模型、推理模型以及第一个 agent(智能体)产品,还预告了正在路上的语音模型。官宣这一揽子新品,xAI 旨在追平甚至超越当前所有领先的 AI 产品能力。让所有人都重视 xAI 这头「房间里的大象」。

目前,只有 X 社交平台的 Premium+会员可以用 Grok3 测试版,但可能受限于其订阅价格(40 美元/月)价格或发布时间(当地晚上)的原因,X 平台暂未出现很多使用案例分享。

马斯克的老同事 Andrej Karpathy(早年特斯拉自动驾驶负责人)提前内测了 Grok3,综合使用下来,他认为 Grok 3 的能力大致与 o1-pro(200 美元/月)相当,优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

同时,对于 Grok3 发的第一个 Agent 产品「Deep Search」,他认为这个功能大概和 Perplexity 的「Deep Research」产品差不多,可以查阅网络资料进行自主探索、给出高质量回答,但有时也会出现编造信息或错误引用的情况,似乎还没到 OpenAI 最新发布的「Deep Research」水平,后者给人感觉更全面更可靠。

值得注意的是,Grok3 对发布只有一场直播 demo,没有官方博客和技术报告等更多信息。马斯克表示,模型每小时都在升级中,一周以后,Grok3 会带来更好更稳定的能力和更多基准测试的成绩。

马斯克的号召力还是很强,Grok3 网站刚一上线,就被热情的网友们点崩溃了。

显然,竞争越来越白热化的 AI 大战,让马斯克仓促地举办了这场发布会。Grok3 以及 xAI 的含金量几何,还要再等等。

01

第一个 10 万级 H100 训练出来的模型,Grok3 怎么样?

在已有谷歌、Anthropic 和 OpenAI 的情况下,马斯克的 xAI 仍被视为最有希望与这三家巨头抗衡的公司之一。一大原因就在于拥有 20 万卡集群——Colossus。作为世界上最大的人工智能超级计算机,Colossus 采用英伟达全栈参考设计,配备 20 万个英伟达 Hopper GPU。

Grok3 便是在这一集群上训练的,1 月初刚刚完成了预训练,现在 Grok3 的计算能力是 Grok-2 的 10 倍以上。

马斯克表示,Grok3 实际上仍然还在训练中,今天先展示 Grok3 在一部分基准测试中的成绩。

「如果上述基准看起来是在评测『教科书的背诵能力』,那么在实际使用能力上,Grok3 基座模型也确实是第一」。他们表示,在发布前两周,Grok3 以巧克力的代号在 Imarena 基准(前 Lmsys 基准)上进行了盲评,问同一个问题,让用户根据回答评价哪个模型更好,该基准被视为更加客观的测试。

在这一基准测试中,Grok3 达到了 1400 分,这也是这一榜单首次出现超过 1400 分的基座模型。并且,Grok3 在总体/风格控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等基座模型的所有评测类别上,都是第一。

官方称 Grok3 还在不断更新中,每天、每小时都在改进,今天给大家演示的模型版本就比送去评测的版本更先进。同时,最佳的预训练模型显然不够,Grok3 还可以像人类一样思考、反思、验证,回到第一性原理再思考等,具备了强大的推理能力。

他们表示,从 1 月初完成预训练模型以来,努力通过强化学习对其进行推理训练,现在还在早期阶段,但已经激发出了更多的能力。当给予更多的求解时间或者计算量,Grok3 模型表现更好。未来,还会发布一个 mini 版本的推理模型。

最后,团队放出了 Grok3 的第一代 agent,帮助工程师、研究人员和科学家进行编码、帮助每个人回答研究问题,有点像下一代搜索引擎的「Deep Search」。该功能与此前谷歌、OpenAI 和 Perplexity 的「Deep Research」类似,旨在帮助人类完成比较深度的研究工作。

02

Grok3 究竟行不行,还需要让子弹再飞一会

看完马斯克的 Grok3 发布会,鲜少能感受到「世界上最聪明的 AI」,总体是对齐第一梯队玩家、并没有超越的感觉。所以不少网友直呼:

「白瞎了」20 万张 HopperGPU

但现在下结论,还是太早了。

整个行业预训练上 Scaling Law 放缓,更多是受限于互联网数据用完了。换句话说,马斯克的 20 万卡集群和他本人的极致工程能力,还没有得以发挥。

我们来算算。

去年 4 月决定自建数据中心,迅速搞定英伟达 20 万张 Hopper 卡的到货,122 天拉起了 10 万卡集群,又用 92 天将数据中心扩展到 20 万卡集群。这是独有的马斯克执行力。黄仁勋都说了,当模型大小增加一倍,算力崩掉的概率要多出一个数量级。马斯克在十万级卡上完成预训练满打满算也就半年多。

另一边,推理上的 Scaling Law,放在整个 AI 行业也刚刚开始,而这部分也更吃算力、无论是需要做实验探索还是实际训练。

在不久前举办的迪拜世界政府峰会上,马斯克表示 Grok3 强大的推理能力背后,使用了创新的训练方法和大量合成数据,能够通过数据来回迭代实现逻辑一致性。如果发现错误数据,系统会反思并移除不符合现实的内容。但这些创新马斯克团队在今天的发布会上并未提及,就像他说的 Grok3 还在继续训练中,更好的版本要等下周以后。

显然,AI 竞争白热化,让马斯克在当下显仓促地拿出了 Grok3。或许是要在谷歌、Anthropic、OpenAI 在接下来一两周内更新下一代模型之前,占个先手。至少让大家看到 Grok3 即将追平现状了,但究竟有没有突破、能不能再突破,还需要时间的检验。

别忘了,马斯克可是战略高手,一方面加紧修炼 xAI,一方面放出「收购 OpenAI」的新闻给对手造成困扰。在 AI 这条路上,你很难预测马斯克到底能做出什么来。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 Grok 3

马斯克回应开源:在 X 上可优先订阅 Grok 3,数月后将开源系列模型。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
费率0.3%,社保“第六险”来了,退休人员也要交

费率0.3%,社保“第六险”来了,退休人员也要交

财话连篇
2026-03-26 13:09:33
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

都市快报橙柿互动
2026-03-26 07:59:37
东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

懂球帝
2026-03-26 14:13:09
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

全栈遛狗员
2026-03-25 17:33:34
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
张雪峰猝死前最后午餐,吃六碗外卖,用塑料餐盒装着,全网泪崩!

张雪峰猝死前最后午餐,吃六碗外卖,用塑料餐盒装着,全网泪崩!

风起见你
2026-03-26 15:07:07
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
女人其实比男人更开放、更大胆、更热烈、更需要刺激

女人其实比男人更开放、更大胆、更热烈、更需要刺激

加油丁小文
2026-03-24 11:55:30
绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

极目新闻
2026-03-26 16:43:13
沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻
2026-03-26 16:51:04
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

极果酷玩
2026-03-26 16:58:41
罗杰斯再抛惊人预言:2026年将出现史上最严重的金融动荡

罗杰斯再抛惊人预言:2026年将出现史上最严重的金融动荡

东风寄的千愁
2026-03-19 08:31:17
2026-03-26 19:24:50
极客公园
极客公园
让最棒的创新成为头条
11911文章数 78856关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
手机
时尚
房产

艺术要闻

哪一座桥不是风景?

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

皮衣+裙,高级到炸

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版