网易首页 > 网易号 > 正文 申请入驻

马斯克用20万卡集群,做出了比DeepSeek还强的模型?

0
分享至

今年才刚刚过去两个月, AI 模型竞技场的火热程度,堪比年底冲业绩。

就在今天中午,马斯克预告的那个号称 “ 地球上最聪明的人工智能 ” Grok 3 ,终于来了。

发布会还是马斯克惯有的风格,说好的十二点准时开始,结果还是晾了大家快二十分钟。


一个小时的直播,马斯克携 xAI 天团( 四个人里就有两位华人 ),从各个方面介绍了 Grok 3 究竟有多厉害。一看纸面数据,又是吊打诸如谷歌、 OpenAI 和 DeepSeek 等一众明星公司的招牌模型。

反正直播刚一结束, X 上就不淡定了,有人已经提前体验上了 Grok 3 , Andrej Karpathy 说它的推理能力跟 o1-pro 差不多,而且还要略优于 DeepSeek R1 和 Gemini 的推理模型。


还有老哥用 AI 生成了一个奥特曼看到 Grok 3 发布后的视频。。。


国内外关于 Grok 3 的报道也是满天飞, “ 首个突破 1400 分(模型在 Imarena.ai 竞技场的得分 )的模型 ” “ 首个十万卡集群训练出来的模型 ” 。。。各种 title 看着就唬人。

而世超在第一时间,也观看了这场发布会,不能说炸裂,但至少从直播内容来看, Grok 3 确实又一次延续了AI 领域大力出奇迹的神话。

目前, Grok 3 只对部分 X 的 Premium+ 会员开放,所以咱就简单从发布会的内容给大伙儿介绍,这个 Grok 3 究竟是啥水平。

一上来,就拿 Grok 和 GPT 的模型迭代速度进行了对比。

图上明明标着 Others ,但 GPT 是卷卷有爷名,针对性很强。


而在模型性能方面, Grok 3 这次也是铁了心要跟其他模型争个高低。

需要注意,根据官方的介绍,这次的 Grok 3 事实上是一个模型家族,大致可以分为非推理模型和推理模型两种。

咱先来看非推理模型,也就是 Grok 3 和 Grok 3 mini 。

还是熟悉的 Benchmark 基准测试, xAI 拉来了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 还有 GPT-4o 四个模型,跟自家孩子进行对比。

在 AIME ’ 24 数学竞赛、 GPQA ( 研究生水平科学知识问答能力的基准测试 )和代码三项测试中, Grok 3 的成绩肉眼可见高出了其他模型一大截。

Grok 3 mini 的水平虽然跟其他模型大差不差,但直播中也提到了, mini 版本可以通过牺牲一定程度的准确性,来换取更快速度的回答。


另外,在 Chatbot Arena 的盲测中, Grok 3 代号叫 “ 巧克力 ” 的早期版本也登上了榜一,分数更是史无前例破了 1400 分。


具体来看,巧克力在整体风格控制、编码、数学还有创意写作等多个方面,全都拿了第一。


主要巧克力还只是早期版本的 Grok 3 ,今天的最新版 Grok 3 性能或许还会更强。。。

再来看 Grok 3 的推理模型。

推理模型大家应该不陌生,毕竟 OpenAI 的 o1 系列、 o3 mini 还有 DeepSeek R1 ,都已经杀红眼了,思维链也不是什么新鲜玩意儿。现在各家上新的模型里,如果不是推理模型,可能都不好意思拿出来。

所以这次, Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出战了。

同样还是纸面实力,表面一看还是吊打的姿态。


但有个需要注意的地方,这个测试中,加了 Test-Time Compute 。

简单理解就是给了模型更多的时间去思考,同一个横坐标上颜色浅一点的部分,就是加时赛的成绩。

可以看到,如果不算上加时赛, Grok 3 两个推理模型跟其他模型的差距,并没有那么大。一旦加了时长,这差距马上就体现出来了。

换句话说, Grok 3 的推理模型思考的时间越久,表现越好。

在现场,马斯克他们还展示了 Grok 3 推理模型,在 2025 年 AIME 数学竞赛上的测试结果。

说实在的,如果不算上 Test-Time Compute ,好像还是 o3-mini ( high )的推理能力更强。。。


为了证明自己不是说说而已,马斯克他们在现场直接进行了效果演示。

让 Grok 3 生成 3D 动画代码,可以看到模型一步步的思考过程。但他们也提到,这个思考过程是被模糊处理过的,理由跟奥特曼的差不多,都说是为了防止模型被抄袭。

另外,现场还让 Grok 3 生成一个,结合了俄罗斯方块和宝石迷阵两种游戏规则的新游戏。


这很难不让人联想到,马斯克昨天实锤了 xAI 要成立一家 AI 游戏工作室的事情,如果 Grok 3 的游戏制作能力,真的跟现场演示的一样甚至更强,这对于整个游戏圈的影响都将是巨大的。

而且根据马斯克的说法, Grok 3 在未来的两到三年内,还可能参与到特斯拉的生产还有火箭发射的过程当中。

最后,就是基于 Grok 3 构建的 Agent , Deepsearch 。

这玩意儿其实就是个智能搜索引擎,有点像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research 。

当你问 Grok 3 下一次星舰发射是啥时候,左边会显示一个总体的进度条,右边则是展示浏览了哪些网页、对哪些信源进行了验证。。。


最后得出了下一次发射的时间,是 2 月 24 日。

当然了,这次 Grok 3 之所以看上去如此强大,抛不开马斯克老早就在念叨的,只花了 122 天就搭建起来的 10 万卡集群。

在此之后,他们又花了 92 天扩展到了 20 万卡集群,一招大力出奇迹,在不到一年的时间里,供出了 Grok 3 。


这段时间大家都在争论的技术路线问题,但 Grok 3 的出现似乎再一次证明了,算力的绝对力量。

就是,把 20 万卡供出来的 Grok 3 和 DeepSeek 的模型放在一起比较,多少有点刻意了。。。

除此之外,马斯克在前几天的迪拜峰会上也提到, Grok 3 经过了合成数据的训练,能够通过检查、验证信息来反思自己的错误。

总而言之,这次的 Grok 3 的确算是拿出了点真家伙。

不过世超也注意到,在 Grok3 抢先体验的用户分享当中,有不少跟宣传不符的实际测试案例。

就比如这位老哥用同一组 prompt 测试了 Grok 3 、 o3 mini 还有 Claude 3.5 Sonnet ,结果 Grok 3 翻得有点彻底。。。


在另外一组测试中, o3 mini 的表现也要优于 Grok 3 和 DeepSeek R1 。


还有放大镜选手,直接指出了发布会演示的案例里,有明显错误。


虽然世超这次没能实际上手测试,但从外部的一些实测案例来看, Grok 3 似乎也没有营销的这么神。

而且这次 Grok 3 上线后,很多人的注意力都放在了模型是否开源上。

根据马斯克的说法, xAI 一般是新模型发布后再开源旧模型,也就是说,就算开源也是老版的 Grok 2 。

看样子,来自开源阵营的压力还是不够大,马斯克想狙的还是老对手奥特曼。

就是不知道,已经在 X 上预告了的 GPT 4.5 ,能不能打一场翻身仗了,大家就等着看吧。

责任编辑:钟齐鸣_NF5619

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
基本没悬念了!李嘉诚旗下四公司股价暴跌,记者发布会被迫取消

基本没悬念了!李嘉诚旗下四公司股价暴跌,记者发布会被迫取消

智观科技
2025-03-20 13:40:07
莱州烧烤店网红老板娘私聊被曝光,尺度无下限,网红人设崩塌

莱州烧烤店网红老板娘私聊被曝光,尺度无下限,网红人设崩塌

派大星纪录片
2025-03-20 21:23:25
周星驰江郎才尽?7000㎡暴雨戏竟用浇花水管!网友:不如短剧团队

周星驰江郎才尽?7000㎡暴雨戏竟用浇花水管!网友:不如短剧团队

乌娱子酱
2025-03-20 13:35:44
李嘉诚再爆避税千亿,信托基金障眼法被戳穿,面临巨额罚款或刑诉

李嘉诚再爆避税千亿,信托基金障眼法被戳穿,面临巨额罚款或刑诉

说天说地说实事
2025-03-20 20:27:13
退休后必办的6张证,少一张可能损失十几万,附详细办理流程

退休后必办的6张证,少一张可能损失十几万,附详细办理流程

娱乐圈见解说
2025-03-20 15:35:39
华为宣布!“全国人民买得起、想不到的产品”来了……

华为宣布!“全国人民买得起、想不到的产品”来了……

券商中国
2025-03-20 16:47:41
后续:商k全关,因为两块钱的代驾费,小哥一怒之下整顿了商k场!

后续:商k全关,因为两块钱的代驾费,小哥一怒之下整顿了商k场!

老鹈爱说事
2025-03-20 16:54:44
气炸克鲁伊维特带队1-5惨败,印尼球迷3小时狂喷近30万条评论

气炸克鲁伊维特带队1-5惨败,印尼球迷3小时狂喷近30万条评论

直播吧
2025-03-20 22:45:09
江苏帅哥侯侨烧炭自杀,年仅36岁长得帅气,生前将茅台当茶喝

江苏帅哥侯侨烧炭自杀,年仅36岁长得帅气,生前将茅台当茶喝

180°视角
2025-03-20 11:42:38
它们张口闭口大是大非的时候,便是准备不讲理了

它们张口闭口大是大非的时候,便是准备不讲理了

胖胖说他不胖
2025-03-20 14:51:49
王启荣主动投案,接受审查调查

王启荣主动投案,接受审查调查

观察者网
2025-03-20 18:18:04
价格大跳水!家电界“爱马仕”割不动了?中产彻底醒悟:智商税

价格大跳水!家电界“爱马仕”割不动了?中产彻底醒悟:智商税

史行途
2025-03-19 10:31:43
天塌了!官方点名的5样“毒产品”,我家竟然有4个

天塌了!官方点名的5样“毒产品”,我家竟然有4个

小正说娱乐
2025-03-19 14:03:05
周鸿祎损失惨重,哪吒汽车出大事了

周鸿祎损失惨重,哪吒汽车出大事了

科技头版Pro
2025-03-20 14:49:33
票房破50亿,只是个开始!37岁的赵丽颖,要掀起一波“新高潮”了

票房破50亿,只是个开始!37岁的赵丽颖,要掀起一波“新高潮”了

皮皮电影
2025-03-20 17:07:10
主流媒体为大S发声,大S没能等到的判决,生前最后一条动态被提起

主流媒体为大S发声,大S没能等到的判决,生前最后一条动态被提起

素素娱乐
2025-03-20 14:30:57
顾行长的后宫里,都是窝边草

顾行长的后宫里,都是窝边草

仓一胤
2025-03-10 08:30:03
热搜爆了!12款酱油检出镉,7款检出总砷,“千禾0”竟然只是个商标?

热搜爆了!12款酱油检出镉,7款检出总砷,“千禾0”竟然只是个商标?

21世纪经济报道
2025-03-20 15:32:59
“确实没钱了”!知名车企三大工厂已停摆,高管现场爆料:我们工资也欠着,尽量确保车主一些基本的东西!公司此前3年亏超180亿元

“确实没钱了”!知名车企三大工厂已停摆,高管现场爆料:我们工资也欠着,尽量确保车主一些基本的东西!公司此前3年亏超180亿元

每日经济新闻
2025-03-20 13:15:11
没想到,李乘德用“一纸声明”,将胡杏儿钉在众人围观的耻辱柱上

没想到,李乘德用“一纸声明”,将胡杏儿钉在众人围观的耻辱柱上

八卦南风
2025-03-20 15:35:16
2025-03-20 23:56:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
8624文章数 488241关注度
往期回顾 全部

科技要闻

华为发业界首款阔折叠华为Pura X,7499元起

头条要闻

13款宣称零添加酱油被送检:12款检出镉 7款检出总砷

头条要闻

13款宣称零添加酱油被送检:12款检出镉 7款检出总砷

体育要闻

赛季快结束了,想起来自己是合同年了?

娱乐要闻

主流媒体为大S发声,生前最后一条动态被提起

财经要闻

快递诈骗 韵达出事

汽车要闻

搭华为ADS 3.3 问界新M5 Ultra售22.98万起

态度原创

亲子
家居
房产
数码
军事航空

亲子要闻

5岁娃如何学数学?用行星游戏激发思维潜力,学习也可以很快乐

家居要闻

阳光简约 清新大气

房产要闻

官宣要搬!海秀商圈,要大变样了!

数码要闻

AWE2025石头科技全系新品展出 洗烘套装首次亮相

军事要闻

与泽连斯基通话结束 特朗普:谈得非常好

无障碍浏览 进入关怀版