网易首页 > 网易号 > 正文 申请入驻

马斯克Grok-4碾压所有大模型!“比所有博士聪明”,AIME25拿满分

0
分享至

明敏 鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

全世界屏息以待1个小时,马斯克的“世界最强”Grok 4终于发布!

一出手,就在“人类最后考试”上,成为首个突破50%准确率的模型

得益于在训练中原生融入工具,Grok-4找到刷分法门,Grok-4 Heavy达到44.4%,比Gemini-2.5-Pro直接提升将近18个百分点。

如果测试时训练+融入工具,可直接打到50.7%

马斯克给了个直观对比:普通人类在这一基准上的得分,可能只有5%。

马斯克直言,Grok-4比所有领域的博士生都聪明!

它即便裸考SAT(不提前看题目)也能拿到几乎完美的分数,GRE考试几乎满分。
……
我估计最晚明年,我们就能看到Grok带来的物理学新发现。

此外在其他基准上,Grok-4也全部刷榜,甚至可以直接满分。

  • GPQA(研究生水平问答)上得分88.9%;
  • AIME25(美国数学邀请赛)上得分100%;
  • LCB(Jan-May)上得分79.4%;
  • HMMT25(数学推理)上得分96.7%;
  • USAMO25(美国数学奥林匹克竞赛)上得分61.9%。

为了更直观体现Grok-4有多聪明,发布直播了和ChatGPT的语音对话对比,从发布来看Grok-4确实赢得相当明显。

值得一提的,就在发布前夕,OpenAI预热已久的开源推理模型突然有了风声:可能在下周四(美国时间)发布。

Grok-4这边也出了些小插曲,比原定时间推迟1小时发布,让大家好等了一会儿。

有人调侃:再等一等马上就训练好了,然后直接发布!

言归正传,我们来看Grok-4的最新表现。

直播内容

这一次和马斯克一起发布新模型的还是老熟人吴宇怀Yuhuai(Tony) Wu和Jimmy Ba。

吴宇怀Yuhuai(Tony) Wu,斯坦福大学博士后,博士毕业于多伦多大学。

Jimmy Ba,2023年斯隆奖得主,Hinton手下的助理教授,本科到博士都在多伦多大学。

他们俩主要负责介绍模型具体性能。

一开场,马斯克先对Grok-4的亮点表现做了一些概括性介绍,比如比博士生还聪明,“这一点值得反复强调”。

然后便开始揭秘Grok-4是如何这么强大。

首先,Grok-4的训练量是Grok-2的100倍、Grok-3的10倍,这其中在RL方面投入了大量计算资源。主要依靠xAI建设的20万卡计算集群。

Grok基础模型的前7个版本已经在这个月完成训练。

其次,Grok-4特别强调了在后训练过程中原生融入工具,并通过多项结果对比论证其有效性。

比如在“人类最后考试HLE”上,在训练中融入工具,不仅比不使用工具能取得更高分数,而且Scaling提升效率也更高。即增加同样的计算资源,工具融入训练能换来更高智能。

测试时训练下这一分数还能进一步提升10个百分点。

通过这一方法,Grok-4能灵活调用工具完成各种复杂任务。

发布直播中主要展示了几个demo。

  • 强大推理能力:基于预测市场数据,预测MLB世界大赛胜率(给出道奇队胜率21.6%)

  • 可视化理解:通过后牛顿近似模型模拟黑洞引力波碰撞,生成真实的波形视觉动画。

  • 还有联网找到xAI员工中头像最古怪的人:

这些都很好展示了Grok-4的数学、推理、多模态理解等方面能力。

此外,发布还展示了Grok-4在编程、药物发现等领域能力。

在Live Coding Bench 编程测试上几乎满分,而且预告了未来还将推出专门的快速+智能编程模型。

在RKG药物基准中,成为唯一突破10%准确率的模型。

还要在真实世界场景中,Grok-4的表现也值得关注,比如在自动零售bench上排名第一。

还能协助生物医疗领域筛选假设、分析数据。

以及在马斯克忠爱的游戏领域,Grok-4现在可以设计和构建视频游戏了,包括资源获取、写代码等,只需4个小时就能完成一款第一人称射击游戏。

马斯克表示,真正意义上的AI视频游戏将会在明年出现,之前他也成立了工作室来做AI游戏。

最后,马斯克还透露了Grok系列接下来的计划:马上会发一个编程模型,后面多模态Agent、视频生成模型也都在路上了。

体验方面还和之前类似,订阅SuperGrok——30美元/月或300美元/年。

Grok-4差点熄火

几乎是老规矩了,Grok-4的上线也是一波三折。

最开始马斯克打算发的版本其实是3.5,但是到了6月,马斯克觉得这个版本值得称为Grok-4。

当时说,要用Grok重写整个人类知识体系,然后在这个版本上训练Grok的最新模型。

但这还没完,就在老马已经确定Grok-4就要今天发了,结果昨天Grok-3被曝出现不当言论引发轩然大波。随后官方表示正在删除此类帖子,并禁止Grok再发表此类言论。

然后,今天的发布就比原定推迟了一个小时。

看着直播间的老马,突然觉得他有点疲惫。

不过从这次发布来看,Grok系列的矩阵正在逐步扩大。大热的多模态、视频模式,都已经安排上了。

以及最近有人发现,特斯拉最新固件里已经偷偷加上了Grok的全功能版本,只等激活。

根据猜测,Grok将会成为特斯拉中的语音助手,比传统的对话AI更能理解人类对话,“彻底改变驾驶员与汽车的对话交互方式”。目前似乎可以支持英语、汉语。

此外,马斯克也确认擎天柱人形机器人也将搭载Grok语音助手,未来将成为擎天柱人形机器人的大脑。

One More Thing

最近两次模型上新,马斯克都拉着华人科学家一起做发布。

有人发现,Grok团队里,亚洲面孔似乎已经占半壁江山了。

参考链接:
[1]https://x.com/xai/status/1943158495588815072
[2]https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
勇士真梭哈了?4首轮3互换!为了库里全不要了!

勇士真梭哈了?4首轮3互换!为了库里全不要了!

篮球盛世
2026-01-31 15:01:10
澳媒:中国总被描述为全球第二大经济体,这并非事实

澳媒:中国总被描述为全球第二大经济体,这并非事实

南宗历史
2025-12-13 23:41:38
纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

谈史论天地
2026-01-23 10:04:14
1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

磊子讲史
2026-01-23 15:21:12
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

户外钓鱼哥阿旱
2026-02-01 01:34:55
绝不姑息!!乔治服用违禁品,被禁赛25场!!该来的还是来了,库里受伤!!

绝不姑息!!乔治服用违禁品,被禁赛25场!!该来的还是来了,库里受伤!!

生活新鲜市
2026-02-01 11:16:03
郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

悄悄史话
2026-01-26 18:00:42
英超:曼联vs富勒姆 赛事前瞻

英超:曼联vs富勒姆 赛事前瞻

白国华
2026-02-01 12:18:47
突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

爱吃醋的猫咪
2026-01-27 20:31:00
军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

霁寒飘雪
2026-02-01 11:33:02
大哥还是大哥!各大品牌因为奔驰140岁生日,团结在了一起

大哥还是大哥!各大品牌因为奔驰140岁生日,团结在了一起

AutoBusiness
2026-01-30 16:06:31
导弹还没等点火,几万公里外的屏幕上,红点就亮了“目标已锁定”

导弹还没等点火,几万公里外的屏幕上,红点就亮了“目标已锁定”

南权先生
2026-01-28 15:54:10
联盟重磅官宣!乔治被禁赛25场:球员本人已紧急发布道歉声明

联盟重磅官宣!乔治被禁赛25场:球员本人已紧急发布道歉声明

移动挡拆
2026-02-01 02:01:54
CCTV5播德约科维奇VS阿尔卡拉斯,开球时间确定,谁能夺澳网冠军

CCTV5播德约科维奇VS阿尔卡拉斯,开球时间确定,谁能夺澳网冠军

体育大学僧
2026-01-31 11:19:10
牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

静若梨花
2026-01-27 15:33:14
加拿大总理卡尼也没想到,英国首相访华,自己竟因一举动口碑暴涨

加拿大总理卡尼也没想到,英国首相访华,自己竟因一举动口碑暴涨

何嗀爱捕渔
2026-01-31 07:30:19
145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

牛锅巴小钒
2026-02-01 10:41:04
陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

明星私服穿搭daily
2026-01-19 07:30:49
Lady Gaga东京演唱会上突然暂停表演抨击美移民局:想到那些受害者,我的心就隐隐作痛

Lady Gaga东京演唱会上突然暂停表演抨击美移民局:想到那些受害者,我的心就隐隐作痛

环球网资讯
2026-01-31 15:03:09
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
2026-02-01 12:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

旅游
游戏
数码
教育
公开课

旅游要闻

韩国民众赴华旅游热度持续升温

《金庸群侠传》首爆贺岁PV(含战斗演示)

数码要闻

博西家电重构新年俗,让团圆不再被家务“捆绑”

教育要闻

平行线间的蔓叶线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版