网易首页 > 网易号 > 正文 申请入驻

20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI联合创始人:略强于 DeepSeek-R1

0
分享至

一度“跳票”的AI模型Grok 3终于迎来正式发布。

当地时间2月17日晚,马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。前天马斯克就在X上造势称,Grok 3是“地球上最聪明的人工智能”。

图片来源:直播截图

在发布会上,马斯克和三位xAI的工程师一起演示了Grok 3的各种功能。马斯克在直播演示中声称,Grok 3在包括AIME(测试模式在数学问题上的表现)和GPQA(测试模型在博士级物理、生物和化学问题上的表现)在内的基准测试中击败了所有的市面上所有模型。

马斯克似乎也并非在打“诳语”。从AI基准测试开放平台lmarena.ai放出的截图看,测试数据显示,早期版本的Grok 3(代号chocolate)在Arena排行榜上拿下了第一,吊打其他主流AI大模型,并且,Grok 3还是第一个获得超过1400分的模型。

然而,有用户在观看发布会后指出,Grok 3给出的关于《流放之路2》游戏的结论错误频出,另有用户测试发现,Grok 3在经典的多边形小球编程问题上也出现了错误。

OpenAI联合创始人Andrej Karpathy也在发布会后放出了自己的感想。他认为,就目前短暂上手的体验而言,Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

拿下Arena榜单第一!Grok 3是首个超1400分的模型

早在2024年7月,马斯克在与乔丹·彼得森的访谈节目时就表示,Grok 3预计将在2024年12月底发布。但到了年底,这个承诺并没有兑现,一度有人怀疑这只不过是马斯克无数个大饼中的其中一个,Grok 3或许遥遥无期。

不过,在上周的迪拜峰会上,马斯克却突然宣布,xAI将在一到两周内推出新一代AI模型Grok 3,而这个模型的强大程度,用他的话说,“强到让人感到害怕”。马斯克甚至预言这可能是“最后一次有AI比Grok更优秀”。

从xAI在直播中放出的基准测试结果来看,Grok 3在数学、科学和编程领域的表现大幅领先于市面上其他主流的AI模型。

在数学能力测试(AIME'24)中,Grok 3获得52分,明显超过DeepSeek-V3的39分和GPT-4o的9分;在科学知识评估(GPQA)中,Grok 3以75分的成绩领先,而DeepSeek-V3和GPT-4o的得分分别为65分和50分;在编程能力测试(LCB Oct-Feb)中,Grok 3同样以57分超过DeepSeek-V3的36分合GPT-4o的34分。

图片来源:xAI

在推理模型的比较中,Grok 3 Reasoning Beta也战胜了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模型。不过,演示团队表示允许Grok去进行更长时间的思考和推理。

图片来源:xAI

AI基准测试开放平台lmarena.ai也爆出猛料,最新测试数据显示,早期版本的Grok 3(代号chocolate)在经过约8000次投票后,在Arena排行榜上拿下第一。

图片来源:X

lmarena.ai称,Grok 3是第一个突破了1400分的模型,并且在所有分类中都排名第一,而这一里程碑以后会越来约难以实现。

图片来源:X

三个月数据中心容量翻倍至20万块GPU

和DeepSeek从技术层面对模型进行改进不同,马斯克的新模型还是属于“大力出奇迹”。

此前有新闻报道,马斯克组建了一个配有十万块H100 GPU的、世界上最大的超级计算机集群Colossus来帮助训练Grok模型。在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。

图片来源:xAI

也难怪有人说Grok 3是终极的Scaling Law测试了,是靠吞噬算力训练起来的怪物。

演示团队为了使大家更直观地了解Grok 3的强大之处,还演示了物理学和游戏的例子。

首先,要求Grok 3生成一段代码绘制从地球发射火箭,降落在火星,然后在下一个发射窗口返回地球的三维动画图表。这一任务涉及大量的数学和物理计算,极具挑战性。Grok 3很快生成了完整的动画,研究人员在检查后表示结果完全正确。

图片来源:xAI

之后,演示团队又要求Grok编写一个结合俄罗斯方块和宝石迷城的游戏,Grok也顺利完成了任务。

除了基本的模型能力之外,Grok 3也具备智能体功能。

xAI为Grok 3开发了一个类似于OpenAI的DeepSearch智能体。DeepSearch可以对互联网进行全面搜索,并为用户提供详尽的整合报告。马斯克表示,这可以省下你几十次谷歌搜索的时间,而公司将得到几十亿美元的回报。

OpenAI 联合创始人:Grok 3 + Thinking与o1-pro差不多,略好于DeepSeek-R1

在演示团队的展示中,Grok 3似乎无所不能,拳打OpenAI,脚踢Deepseek,已然站上世界AI模型的巅峰,但有些观看了演示和迫不及待体验了Grok 3的用户却发现了一些奇怪的问题。

在发布会中,为了演示DeepSearch功能,演示团队就马斯克最近在玩的游戏《流放之路2》询问了一个相关问题。有游戏博主看后表示,Grok 3给出的游戏结论错误频出,感觉不如马斯克宣称的那么聪明。

图片来源:哔哩哔哩

有专门直播该游戏的游戏博主也对《每日经济新闻》记者表示,Grok 3给出的答案没一个是对的,不如GPT。

另外,有用户体验了Grok 3的编程功能,随后也表示,Grok 3的编程能力并不是很强大。在经典的多边形小球编程问题上,Grok 3出现了错误。

图片来源:X

OpenAI联合创始人Andrej Karpathy作为为数不多的提前拿到测试资格的人,也在发布会后放出了自己的感想。他认为,就目前短暂上手的体验而言,Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

Karpathy表示,Grok 3显然有一个最先进的思维模型,并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠做到这一点。顶级的OpenAI推理模型(如o1-pro,月订阅费为200美元)也能做到这一点,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的所有模型都没办法做到。

但Grok 3并没有解决“表情符号之谜”问题,即使以Rust代码的形式给出了有关如何解码它的强烈提示。而在这点上,Karpathy称其见过的最大进展来自DeepSeek-R1,它曾经部分解码了消息。

此外,Karpathy认为,DeepSearch大约等于Perplexity DeepResearch的产品,但还没有达到OpenAI最近发布的“深度研究”的水平。

不过,他同时也指出,考虑到xAI团队在大约在1年前从头开始,这是相当令人难以置信的,达到最先进领域的时间跨度是前所未有的。目前得出完整结论还为时过早,需要在在接下来的几天/几周内等待更多的评估。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
反转了?弄坏6.8万大衣女子找“1818黄金眼”澄清,只字不提赔偿

反转了?弄坏6.8万大衣女子找“1818黄金眼”澄清,只字不提赔偿

离离言几许
2026-04-12 11:02:33
3-0切尔西 13亿欧曼城露出獠牙+7天后决战阿森纳 夺冠概率升至43%

3-0切尔西 13亿欧曼城露出獠牙+7天后决战阿森纳 夺冠概率升至43%

风过乡
2026-04-13 06:30:22
中国第1前锋 31岁韦世豪霸气回应工体看台:10分造2球 疑逃过红牌

中国第1前锋 31岁韦世豪霸气回应工体看台:10分造2球 疑逃过红牌

风过乡
2026-04-12 22:09:39
海港确认外援加布里埃尔髌腱断裂,但赛季初被雪藏的梅伦多能回归吗?

海港确认外援加布里埃尔髌腱断裂,但赛季初被雪藏的梅伦多能回归吗?

上观新闻
2026-04-12 23:14:05
广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

澎湃新闻
2026-04-12 09:31:10
赛后拒绝握手引热议!李金羽甩手离场郑智怒喷,发生了什么

赛后拒绝握手引热议!李金羽甩手离场郑智怒喷,发生了什么

林子说事
2026-04-12 20:46:10
专家分析得出:一旦核战爆发,中国3个地方可躲灾难,一定要知道

专家分析得出:一旦核战爆发,中国3个地方可躲灾难,一定要知道

文史达观
2024-06-14 21:35:17
亚马尔将社媒头像换成詹姆斯照片,后者帮骑士在16年逆转夺冠

亚马尔将社媒头像换成詹姆斯照片,后者帮骑士在16年逆转夺冠

懂球帝
2026-04-13 00:02:41
以为是最后一天!盐田这家小店被网友和政府联手“留”住了

以为是最后一天!盐田这家小店被网友和政府联手“留”住了

爱下厨的阿酾
2026-04-13 02:50:12
理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

澎湃新闻
2026-04-12 04:46:55
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

流史岁月
2026-04-09 16:30:07
ASPI智库涉台报告纯属荒诞闹剧

ASPI智库涉台报告纯属荒诞闹剧

烽火瞭望者
2026-04-13 06:19:34
格拉斯纳:再拿11分能刷新队史英超积分纪录,这是我们的目标

格拉斯纳:再拿11分能刷新队史英超积分纪录,这是我们的目标

懂球帝
2026-04-13 00:34:02
郑丽文访大陆结束前,为国捐款的张明敏,凭一个举动实现口碑暴增

郑丽文访大陆结束前,为国捐款的张明敏,凭一个举动实现口碑暴增

小娱乐悠悠
2026-04-12 10:34:17
夜已深,关于明日A股的行情,我再强调几句,防止有人没有看到

夜已深,关于明日A股的行情,我再强调几句,防止有人没有看到

风风顺
2026-04-13 04:15:03
天价耳环风波10个月后,张萌公开爆料,没给黄杨钿甜留一丝体面

天价耳环风波10个月后,张萌公开爆料,没给黄杨钿甜留一丝体面

丹妮观
2026-04-12 05:33:08
国资委46号令:30年国企旧账全面清查,职工权益刚性保障落地

国资委46号令:30年国企旧账全面清查,职工权益刚性保障落地

说故事的阿袭
2026-04-12 21:21:44
2.7秒送走MVP!35+15+0失误,SGA一剑封喉

2.7秒送走MVP!35+15+0失误,SGA一剑封喉

茅塞盾开本尊
2026-04-12 18:06:16
山东医院停诊背后:800名医护两年未领工资,白衣天使变讨薪英雄

山东医院停诊背后:800名医护两年未领工资,白衣天使变讨薪英雄

我不叫阿哏
2026-04-13 00:25:09
这一次,“宠女无度”的贾平凹被扒了个底朝天,王朔的评价是对的

这一次,“宠女无度”的贾平凹被扒了个底朝天,王朔的评价是对的

揽星河的笔记
2026-04-10 20:02:37
2026-04-13 08:20:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1535767文章数 2725280关注度
往期回顾 全部

科技要闻

4000亿智谱,想变得更贵

头条要闻

大伯为35岁女儿周末连跑3处相亲角:女儿平时工作太忙

头条要闻

大伯为35岁女儿周末连跑3处相亲角:女儿平时工作太忙

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

房产
家居
手机
亲子
数码

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

家居要闻

复古风格 自然简约

手机要闻

三星 Galaxy Z Flip8渲染图曝光,精致小折叠

亲子要闻

“晚上疼得睡不着”!8岁女童双眼、身上被灼伤!警惕这东西,不少人家里有

数码要闻

PocketTerm35掌上电脑现身,内置树莓派4/5

无障碍浏览 进入关怀版