网易首页 > 网易号 > 正文 申请入驻

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

0
分享至

  • 编辑部 发自 凹非寺
    量子位 | 公众号 QbitAI

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)!

一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:

Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。

而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。

在发布预告消息的时候,马斯克就对Grok 3大力夸赞,称其是“地球上最聪明的AI”

发布之前,大神Karpathy获得了抢先体验资格,玩了两个小时之后发长文详述了自己的感受。

Karpathy认为,Grok-3的思考能力达到了SOTA,推理水平和o1-pro差不多,略好于DeepSeek R1和Gemini的推理模型。

如果考虑到Grok 3是一年前从头开始训练的,取得这样的成绩属实不可思议。

并且对于数字母、小数比大小这些经典大模型“难题”,Grok 3在开启推理之后也都正确解决。

不过也人质疑Grok的地位,有一位仿冒老黄的网友说,Grok 3即便真的是最强,也最多只能强一周。

加上OpenAI也剧透了下一代GPT计划,马斯克和奥特曼的另一场推特大战就要爆发了。

奥特曼昨晚也发推称,GPT-4.5的测试让他感受到了比预期更强烈的“feel the AGI”的感觉。

还有网友到评论区起哄,让他在早上截胡马斯克,直播发布GPT-4.5。

言归正传,我们来看直播都讲了啥。

20万张H100,训出最强模型

这次直播一共有四人参与,除了马斯克之外,较为醒目的就是坐在C位的两位华人,他们都是xAI创始成员。

二人从左至右分别是:

  • Jimmy Ba,2023年斯隆奖得主,Hinton手下的助理教授,本科到博士都在多伦多大学。
  • 吴宇怀Yuhuai(Tony)Wu,斯坦福大学博士后,博士毕业于多伦多大学。

而最左边的则是Igor Babuschkin,是xAI的一位工程师。

四人先是介绍了Grok 3的训练历程。

去年马斯克剧透,Grok 3在10万张H100上进行训练,是首个达到如此训练集群规模的模型。

当时就有网友称这简直是神经网络的超级工厂。

今天的发布会上又透露,到训练进行到第92天时,集群规模扩展到了20万卡

如此强大算力,xAI也是紧跟潮流在Grok 3中推出了思维链推理能力

在此前迪拜的一场峰会上,马斯克高调宣称:

Grok 3具有强大推理能力,聪明程度超越目前所有已知模型。

这一波Grok 3有满血和mini两个版本,在数学、科学、代码等数据集上表现均超过了GPT-4o、DeepSeek-V3等非推理模型。

并且Grok 3早期还化名“巧克力”打榜LMSYS,一举夺魁并成为唯一一个得分超1400的模型

在Grok 3和mini的基础之上,xAI团队还打造了两款推理模型

其中基于mini的推理模型(Grok 3 mini Reasoning)已经比较成熟,而基于满血版的推理模型(Grok 3 Reasoning Beta)还处在Beta阶段。

介绍成绩之前,四人用马斯克的账号先让Grok跑了两个案例,分别和物理学以及游戏相关。

生成一段代码,为从地球降落在火星,然后在下一个发射窗口返回地球的发射绘制三维动画图表。

生成的过程中,有人开玩笑说什么时候能把Grok装到SpaceX的火箭上,马斯克也回应说可能再过2年。

马斯克还表示,如果一切顺利,SpaceX将在大约2025年11月左右,也就是下一个地球-火星转移窗口期,用星舰把擎天柱机器人送上火星。

说回Grok,在考虑了开普勒定律并将其转化为代码之后,最终生成了可以绘制出这样的动画的代码:

第二个问题开启了Big Brain模式,会让模型用更多的计算资源去做更多的思考。

题目要求则是使用pygame组件,设计一款游戏,把俄罗斯方块和宝石迷阵缝合到一起。

同时还提示代码可能会很长,需要保存到一个文件当中,并且要“insanely great”。

而Grok 3也不负众望,把这两款游戏成功结合,并介绍了合体版游戏的特点:

运行起来是酱婶儿的,既有俄罗斯方块的消除机制,又根据宝石迷阵的特点调整成了三个方块消除一次。

再来看跑分结果,在数学、科学和代码任务中,两者都取得了不俗的成绩。

并且如果让他们“多思考”(柱状图上方浅色部分)之后,表现超越了DeepSeek-R1和高配版o3-mini

不过,目前很多模型都在Benchmark上出现了“过拟合”的现象,那么Grok 3的实际表现究竟咋样呢?

研发团队让它们挑战了今年AIME 2025竞赛的试题,结果Grok-3 Reasoning Beta和mini Reasoning分别取得了93和90分的成绩,力压其他推理模型。

除了Grok 3预训练模型和两个推理模型之外,这次xAI团队还发布了一个AI Agent,叫做DeepSearch

这个功能可以看做是xAI对OpenAI、谷歌等陆续推出的Deep Research功能的对标。

简而言之,DeepSearch通过扫描互联网和X来分析信息,并提供摘要来回答问题。

至于权限方面,X的Premium+用户今日起可以体验Grok 3。

独立APP上,则需要订阅SuperGrok30美元/月300美元/年

发布过程一波三折,语音模式推迟上线

而纵观Grok 3问世的整个过程,也可谓是一波三折。

去年8月,马斯克接受知名访谈博主Lex Fridman采访时曾说过,Grok 3在有望当年年底发布。

结果一直到今年1月19号,第一个测试实例才终于被公布,实际发布更是拖到了现在。

并且就在发布前的周末,xAI团队还在对Grok 3进行紧急打磨。

xAI员工也现身说法,周日晚11:30(北京时间周一下午3:30,也就是发布前不到24小时)发帖表示还在熬夜赶工。

甚至到了发布会前一个半小时,马斯克突然宣布原本打算发布的语音功能需要延期。

马斯克发推称,语音模式还有些不稳定,需要推迟到一周之后。

现场QA环节也有网友提问具体发布时间,团队的回答是“很快会上线一个早期版本,然后逐步迭代”。

不过,同属马斯克旗下的Neuralink高管Shivon Zilis曾体验过1个小时的Ara,并在北京时间今早发布了她的体验感受。

Shivon表示,那是她一生中最意外、最有意义的时刻之一。

她和Ara聊了生物学、量子纠缠等话题,还让Ara出题检验她的学习效果。

结果Shivon只答对了一半的问题,但Ava非常耐心地向她解释了其余的问题,而且并不会嫌问题问得过于愚蠢。

当时还有人在评论区追问,Ara是语音版本吗,Shivon给出了肯定的回答。

寻求100亿美元新融资,还要进军游戏

事实上,老马选择此时发布Grok 3难免有一点微妙。

就在上周五,彭博社爆料xAI正寻求一轮约100亿美元的新融资,公司估值达到约750亿美元(5454.6亿元人民币)。

现有投资者包括红杉资本、Andreessen Horowitz以及Valor Equity Partners,正在洽谈参与此次融资。

由于还没有最终敲定,新模型的发布大概率将对本轮融资产生一定影响。

一旦上述消息得到确认,显然xAI的融资速度实在有点惊人了。

去年12月底,这家公司才刚完成了一轮60亿美元的C轮融资,当时公司估值510亿美元。

短短不到两个月,公司估值直接涨了约47%。而且再往前推,从B轮到C轮的融资,更是实现了半年内估值翻倍。

可以说,仅成立不到两年的xAI,已经成长为OpenAI的强大对手。

而有了充足资金的xAI,除了继续发展模型,也官宣了其他方向——

押注游戏领域,成立AI游戏工作室。

这一消息最早在去年11月老马就透露了,当时他吐槽“过多游戏工作室掌握在大型企业手中”。

这下,老马的商业版图又将扩展了。

One More Thing

就在Grok 3发布前几日,还有一件非常抓马的事引起热议。

一位xAI工程师(现在是前员工了)公开发帖将Grok 3与其他几个竞品的代码能力进行了对比。

虽然清晰标注了这是个人观点,但显然他将自家模型Grok 3排在第4位(前三名都是OpenAI模型)的做法还是惹来了争议。

随后该员工爆料称,公司要求他要么删帖,要么被解雇,理由是这条帖子暴露了Grok 3的存在。

一听这话,小哥觉得有点扯,毕竟Grok 3大家早就知道了,而且还甩出了马斯克之前的发言截图。

面对着xAI的这波小心眼,小哥也直接不惯着,带着一篇洋洋洒洒的小作文,决定辞职了。

我会保持我的言辞和尊严,找另一份工作,或者自己创业。回头见。

对于这件事,老马后来也回应了“这很奇怪”,但后续没有更多动作传出。

更戏剧的是,由于对工资支付产生争议,小哥后来再次公开发帖艾特老马:

请做正确的事。

不过,虽然已经“分手”,但参与了Grok 3语音模式的小哥还是不计前嫌,多次帮忙宣传Grok 3。

并且今天老马宣布延期的语音模式,也是这位小哥所在团队的工作成果,即便已经离职,小哥依然对这项工作感到自豪。

话说回来,你觉得这次的Grok 3如何?等到下一代GPT发布之后,老马还能继续保持领先吗?


[1]https://x.com/i/broadcasts/1gqGvjeBljOGB
[2]https://x.com/karpathy/status/1891720635363254772
[3]https://x.com/shivon/status/1891587630854209768
[4]https://x.com/hyhieu226/status/1891390812795146746

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
打虎!肖杰被查

打虎!肖杰被查

新京报政事儿
2026-02-05 16:14:04
打金店打扫1个月的生活垃圾,扫出1700克金粉,熔成金条价值200万

打金店打扫1个月的生活垃圾,扫出1700克金粉,熔成金条价值200万

观威海
2026-02-05 09:02:08
明珍珍被执行死刑,最后照片曝光,死前已无法自理

明珍珍被执行死刑,最后照片曝光,死前已无法自理

复转这些年
2026-02-05 23:51:59
落地凤凰不如鸡!大衣哥跳楼身亡真相大白仅1月,担心的事发生了

落地凤凰不如鸡!大衣哥跳楼身亡真相大白仅1月,担心的事发生了

离离言几许
2026-02-04 13:17:43
1977年上海“高考状元”袁钧瑛,公派留美后拒不回国,却在美国深修40年后,带着全部的积蓄回到了中国……

1977年上海“高考状元”袁钧瑛,公派留美后拒不回国,却在美国深修40年后,带着全部的积蓄回到了中国……

深度报
2026-02-05 20:55:14
C罗沉默?38岁本泽马完美首秀:33分钟戴帽+独造4球 新月6-0横扫

C罗沉默?38岁本泽马完美首秀:33分钟戴帽+独造4球 新月6-0横扫

风过乡
2026-02-06 05:46:28
上海浦东机场惊人一幕:7名中东游客托运40多个行李箱,重超500斤!外国人在上海买疯了

上海浦东机场惊人一幕:7名中东游客托运40多个行李箱,重超500斤!外国人在上海买疯了

极目新闻
2026-02-05 12:06:47
Shams:雄鹿将科尔-安东尼和科菲交易至太阳,换来理查兹

Shams:雄鹿将科尔-安东尼和科菲交易至太阳,换来理查兹

懂球帝
2026-02-06 01:12:16
河南一景区发巨额年终奖,有员工领到45万

河南一景区发巨额年终奖,有员工领到45万

大风新闻
2026-02-05 18:42:03
股价飙升!爆赚近10倍,英皇娱乐酒店卖出79公斤黄金,原本放在大堂

股价飙升!爆赚近10倍,英皇娱乐酒店卖出79公斤黄金,原本放在大堂

证券时报e公司
2026-02-05 12:19:46
半路出家!这位39岁的新任央视春晚主持人是什么来头?

半路出家!这位39岁的新任央视春晚主持人是什么来头?

新民周刊
2026-02-05 19:10:09
特朗普、马斯克、比尔盖茨争相否认,英国王之弟连夜搬家,爱泼斯坦案超300万页文件风波未完待续

特朗普、马斯克、比尔盖茨争相否认,英国王之弟连夜搬家,爱泼斯坦案超300万页文件风波未完待续

封面新闻
2026-02-05 19:07:19
台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

离离言几许
2026-02-05 11:00:30
苹果突袭上架:2月5日,多款新品开售

苹果突袭上架:2月5日,多款新品开售

科技堡垒
2026-02-05 11:58:30
“重庆横渡琼州海峡第一人”长江漂流溺亡 家属起诉同伴索赔近百万 终审被驳回

“重庆横渡琼州海峡第一人”长江漂流溺亡 家属起诉同伴索赔近百万 终审被驳回

红星新闻
2026-02-05 17:25:57
再放任不管,中国孩子就废了?央媒发文批这一现象

再放任不管,中国孩子就废了?央媒发文批这一现象

新东方
2026-02-05 15:54:13
万亿市值一夜蒸发!Claude Cowork血洗全球软件业,老黄急了

万亿市值一夜蒸发!Claude Cowork血洗全球软件业,老黄急了

新智元
2026-02-05 12:23:45
从1-4到5-4!赵心童轰2杆破百逆转塞尔比,中国球手6人跻身八强

从1-4到5-4!赵心童轰2杆破百逆转塞尔比,中国球手6人跻身八强

全景体育V
2026-02-05 21:54:14
1个月100万佣金收入,年营收过亿:30岁女孩宣布退休,她是做啥的

1个月100万佣金收入,年营收过亿:30岁女孩宣布退休,她是做啥的

江山挥笔
2026-02-05 18:06:12
仅一夜,10笔交易达成,湖人2换1,快船2换5,3条大鱼被迫留队

仅一夜,10笔交易达成,湖人2换1,快船2换5,3条大鱼被迫留队

毒舌NBA
2026-02-06 06:17:17
2026-02-06 07:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12120文章数 176374关注度
往期回顾 全部

游戏要闻

魔兽世界:时光服P2再次削弱,真成宝宝巴士?群体复活功能来袭!

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

科技要闻

美团买下叮咚买菜,防御还是进击?

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

房产
本地
家居
数码
亲子

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

简雅序章 自然且闲适

数码要闻

航嘉 高能 S140 Pro氮化镓安全快充深度评测

亲子要闻

长大之后肠子都得悔青了

无障碍浏览 进入关怀版