网易首页 > 网易号 > 正文 申请入驻

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

0
分享至

20 万张 GPU 颠覆 AI 格局。

作者丨郑佳美

编辑丨马晓宁

2 月 16 号,马斯克在 X 上发布了一条自家 Grok 3 模型的发布预告。

并配文“地球上最聪明的 AI”要来了。

北京时间 2025 年 2 月 18 日中午,马斯克如约带领着 xAI 的工程师和研究团队开启了 Grok 3 的首发直播。

这次发布会主要分为三个部分,介绍了 Grok 3 在训练上比 Grok 2 多投入了 10 倍的计算资源,解锁了更强大的计算能力,展示了基于 Grok 3 的 AI Agent,展现了 xAI 团队在自主智能体领域的最新进展。

1

各项能力一骑绝尘

“我们非常高兴能够推出 Grok3,我们认为,在很短的时间内,它的功能比 Grok2 强大一个数量级。这要归功于一支不可思议的团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。

马斯克还透露,Grok 3 由 Colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的10倍。

据 xAI 团队介绍,xAI 最开始搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万 GPU 集群仅用了 92 天。显著的算力提升让 Grok 3 能够更高效地处理庞大数据集,缩短训练时间。

随即他们便晒出了一组和 ChatGPT 的数据对比图,并表示虽然 Grok 起步较晚,但在 MMLU 得分上以超快地速度追上了 ChatGPT。

并且 Grok3 在 LMSYS(大模型竞技场)中的排名也是一骑绝尘。

其中 Grok-3 和 Grok-3 mini 在多方面性能上都超过或媲美 Gemini、DeepSeek 和 ChatGPT 等对手。

发布会列出的数据显示,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,表现超越了所有主流模型,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro等。

而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本,则凭借强大的推理能力,超越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模型。

此外,xAI团队还现场演示了一个任务,要求Grok-3在现场生成一段关于太空发射的3D动画代码。在大约两分钟的思考后,Grok 3生成了可直接运行的Python代码,成功展示了可以运行的3D动画。

除此之外团队还要求 Gork-3 制作一款类似于俄罗斯方块和宝石迷阵的游戏。在Grok-3 思考了数分钟后,给出了答案。

最后,xAI 团队演示了一个全新的产品,基于 Grok 3 的搜索引擎 —— DeepSearch 。

它不仅能够搜索网页并查找现有资料,还能“推测用户的真实意图”并进行思考。通过交叉对比多个信息源,它能够确保“返回最准确的答案”。

2

Grok 3 搅动 AI 大模型格局

直播结束后,不少网友纷纷发声。

AI 大牛卡帕西总结了一下自己的“先行版”使用体验:

首先 Grok 3 的“思考”功能非常先进,能够出色地解决复杂问题,如创建《卡坦岛》风格的棋盘游戏网页。相比之下,其他顶级模型(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能解决相同问题。除此之外,Grok 3 也能尝试解决如黎曼假设等难题。

其次 Grok 3还具备类似“深度研究”的搜索功能,能够提供高质量的研究问题答案。例如,它能够回答 Apple 新品发布、Palantir 股价上涨等问题。但在某些情况下,它会错误地产生幻觉(如错误的URL或不准确的事实)。

最后在测试一些简单的“陷阱”问题时,Grok 3 表现良好,能够正确回答一些逻辑谜题。但在幽默和道德问题方面,它仍然存在一些问题,如生成重复笑话和对复杂伦理问题过于敏感等。

但总的来说 Grok 3 整体表现接近 OpenAI 的 o1-pro 模型,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

Imarena.ai 官方更是在经过测试后发文称:

Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一,这是一个越来越难以实现的里程碑。

更有网友直呼:Grok 3 可能是现实世界中在物理层面处理得最好的基础大语言模型了!

当然也有网友在测试之后,认为 Grok 3 在编程方面并不是很擅长。

值得一提的是,Grok 3 第一批获得访问权限的人将首先从 X 上的 Premium+ 订阅者开始,而普通用户何时能用上,他们也并不清楚。

但基于网友们对 Grok 3 褒贬不一的评价,不禁让人好奇,这被 “钞能力” 风风火火砸出来的的 “no.1” 在权限全面放开之后会不会口碑两极反转,亦或是依旧好评如潮,稳坐 AI 大模型王座?

时间还早,让子弹再飞一会。

参考链接:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

为什么中国只有一个 DeepSeek?

谁将替代 Transformer?

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
即将横扫!0分,又0分!这可是骑士的首发前锋

即将横扫!0分,又0分!这可是骑士的首发前锋

篮球实战宝典
2026-05-24 11:12:47
燃油车集体大降价!45万元的奥迪降至26万元,宝马最高降超30万元!

燃油车集体大降价!45万元的奥迪降至26万元,宝马最高降超30万元!

新浪财经
2026-05-23 23:34:36
山西矿难已致90死!煤矿背后大佬登上热搜,是土生土长的沁源农民

山西矿难已致90死!煤矿背后大佬登上热搜,是土生土长的沁源农民

火山詩话
2026-05-23 15:50:44
留神峪矿难家属讲述:丈夫是外包工,逃生时晕倒三四次还帮人逃生;女儿打来视频电话,还没开口父女俩都哭了

留神峪矿难家属讲述:丈夫是外包工,逃生时晕倒三四次还帮人逃生;女儿打来视频电话,还没开口父女俩都哭了

大风新闻
2026-05-24 09:55:04
痛心!2名少女身亡!27岁男子带4名未成年人到偏僻水域嬉戏,做出危险动作

痛心!2名少女身亡!27岁男子带4名未成年人到偏僻水域嬉戏,做出危险动作

南方都市报
2026-05-24 11:21:58
山西留神峪矿难涉事企业有重大违法行为,实控人拉煤炭跑运输起家

山西留神峪矿难涉事企业有重大违法行为,实控人拉煤炭跑运输起家

新京报
2026-05-24 00:33:25
全球4个最顶尖大脑作出共同判断,留给人类的时间只有5年了

全球4个最顶尖大脑作出共同判断,留给人类的时间只有5年了

史政先锋
2026-05-23 15:03:56
53岁袁立突发重病!病床素颜照曝光,身处上海顶级医院治疗

53岁袁立突发重病!病床素颜照曝光,身处上海顶级医院治疗

行者聊官
2026-05-23 14:57:01
有钱人,开始集体覆灭

有钱人,开始集体覆灭

我是历史其实挺有趣
2026-05-23 11:03:05
上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

大风新闻
2026-05-24 11:19:04
李晨郑凯冲上热搜!跑男停宣引热议,网友调侃太损了

李晨郑凯冲上热搜!跑男停宣引热议,网友调侃太损了

光辉记
2026-05-24 10:21:12
窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

天津生活通
2026-05-23 14:47:55
至少被3条以上毒蛇咬了10多口,26岁男子不慎踩中蛇窝,左腿肿胀发紫发黑,伤口不断渗血,一个小时后,彻底陷入休克

至少被3条以上毒蛇咬了10多口,26岁男子不慎踩中蛇窝,左腿肿胀发紫发黑,伤口不断渗血,一个小时后,彻底陷入休克

环球网资讯
2026-05-24 07:53:06
让耿同学博士肄业!女博导怕了吗?她与董小姐的情夫肖飞啥关系?

让耿同学博士肄业!女博导怕了吗?她与董小姐的情夫肖飞啥关系?

大江看潮
2026-05-24 09:14:45
大樱桃跌成"白菜价",为啥便宜还没人买?网友:4个原因,真扎心

大樱桃跌成"白菜价",为啥便宜还没人买?网友:4个原因,真扎心

天天热点见闻
2026-05-24 06:35:41
日媒:高市早苗发文称对中国山西煤矿事故深感悲痛

日媒:高市早苗发文称对中国山西煤矿事故深感悲痛

随波荡漾的漂流瓶
2026-05-23 22:02:02
乌克兰捅了大篓子,袭击俄罗斯学校死伤惨重,中方果断挺身而出

乌克兰捅了大篓子,袭击俄罗斯学校死伤惨重,中方果断挺身而出

阿器谈史
2026-05-24 07:09:56
哈登濒临出局:前三节19分末节却0分 连续4场硬仗不足20分

哈登濒临出局:前三节19分末节却0分 连续4场硬仗不足20分

醉卧浮生
2026-05-24 10:53:09
监管形同虚设!杨梅泡药水事件,监管部门比黑心商家还要可恨

监管形同虚设!杨梅泡药水事件,监管部门比黑心商家还要可恨

爆角追踪
2026-05-23 16:14:07
徐静蕾十月官宣生子,黄立行十六年等待终得偿

徐静蕾十月官宣生子,黄立行十六年等待终得偿

看尽落尘花q
2026-05-24 00:37:54
2026-05-24 14:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7298文章数 20753关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

白宫发生枪击事件枪手已死亡 曾多次踩点问如何进白宫

头条要闻

白宫发生枪击事件枪手已死亡 曾多次踩点问如何进白宫

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

李晨郑恺冲上热搜!跑男停宣引热议

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

本地
健康
时尚
公开课
军事航空

本地新闻

用云锦的方式,打开江苏南京

外泌体 ≠ 生长因子!它们之间究竟有何区别?

伊姐周六热推:电视剧《嫁金枝》;电视剧《大唐迷雾 第一季》......

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普再酝酿对伊打击 美伊谈判连放信号

无障碍浏览 进入关怀版