网易首页 > 网易号 > 正文 申请入驻

马斯克20万GPU训出史上最聪明AI,Grok 4重返地球之巅!人类博士全线溃败

0
分享至

  

  新智元报道

  编辑:编辑部

  【新智元导读】马斯克手中的最后一张牌——Grok 4,终于打出来了。这个全球最聪明AI,一上线就刷爆全球榜单登顶TOP 1,把所有其他大模型都踩在脚下。重磅登场的Grok Heavy,月费则达到了300刀。马斯克已经预言:明年Grok将发现新物理学。

  马斯克的背水一战,大获全胜!

  就在刚刚的发布会上,xAI的重磅炸弹Grok 4,终于在千呼万唤中登场了。

  而它,可以说是全球最聪明的AI!

  不仅超越了大多数人类研究生,甚至比博士都好。

  

  

  

  左右滑动查看

  

  

  

  左右滑动查看

  发布会全程1个小时,下面是太长不看的简单总结:

  

  现在,SuperGrok的用户已经可以用上了,普通版月费30刀,Heavy版月费300刀。

  同时Grok 4 API也已向所有开发者正式开放,并将登录第三方云平台。

  

  刚从政坛上铩羽而归,却在AI界王者归来。

  果然,马斯克还是那个传说中打不败的男人。

  

  完整直播可点击观看

  20万块GPU,成绩刷爆HLE

  在各种考试和基准测试中,Grok 4的成绩惊人。

  比如,它在SAT中每次都能拿满分,即使从未见过这些题目。

  而在GRE考试中,它在所有学科领域,都能拿到近乎满分,无论是人文学科、语言、数学、物理还是工程。

  可以说,在所有学科领域,Grok 4都比几乎所有人类研究生都要聪明。

  怎么做到的?马斯克进行了揭秘。

  首先,比起Grok 2,Grok 4的训练时间达到了Grok 2的100倍。

  

  从Grok 2到Grok 3,xAI投入的主要是预训练算力;但从Grok 3到Grok 4,大量算力已经被投入到推理和强化学习中。

  通过训练Grok 2,团队第一次大规模扩展了预训练。

  这让他们意识到:如果对数据消融、基础设施和算法进行更细致的处理,将预训练的规模可以再提升10倍,从而打造出最顶尖的预训练基础模型!

  

  网友直呼:xAI在强化学习上投入的算力,竟然和预训练一样多?这太疯狂了!

  这就是为什么,xAI要斥巨资建起有10万块H100的世界级超算Colossus超算。

  如果能收集可验证结果的奖励数据,就可以训练模型从第一性原理出发进行思考、推理、纠正自身错误,这就是Grok 2推理能力的由来。

  那么,接下来,如果把Colossus超算的20万GPU全部都投入,会发生什么?

  答案就是——Grok 4的诞生!

  在 「人类最后考试」HLE上,Grok 4直接成绩刷爆,分数惊人。

  HLE总共有2500道问题,涵盖了多个学科,今年早些时候刚发布时,大多数模型的准确率得分仅为个位数。

  

  原因就在于,HLE的考题极难,比如下面这些题,分别是一道关于范畴论中自然变换的数学题、一道关于电环化反映的有机化学题,以及一道从希伯来语原文中区分闭音节和开音节的语言学题。

  显然,这些题目已经达到了博士级,甚至更前沿的难度。

  几乎没有任何一个人类,能答对所有这些问题,并且取得高分。如果能答对5%,就算人群中极聪明的人了。

  

  然而,Grok 4却在HLE的所有领域,都达到了博士级别,甚至胜过了大多数人类博士生,因为后者大概率都会不及格。

  当然,如果要说Grok 4目前有什么缺憾,就是还未发明出新的技术,或者发现新的物理学。

  但马斯克认为,这只是时间问题——最早在今年年底,Grok就会发明出新技术,明年它就会发现新的物理学。

  海量算力,训出全球最聪明AI

  团队研究者爆料说,其实刚开始,Grok 4的准确率也只是个位数。

  但随着投入的算力越来越多,奇迹发生了!最终,它做出了HLE中1/4的难题,这还是在没有工具辅助的情况下。

  

  而在被赋予工具使用能力,将工具使用直接融入训练过程后,Grok 4的性能开始了惊人的暴涨。

  

  而且,目前Grok 4还未使用任何公司级的强大工具。

  如果给它提供企业级的工具,比如特斯拉或Space X使用的有限元分析、计算流体力学、碰撞模拟,以及高精度的物理模拟器,那么毫无疑问,Grok 4还将发生颠覆级的改变!

  比如,如果把Grok和擎天柱结合,它就可以和真实世界互动,提出假设,亲手验证真伪。

  「重量级」Grok Heavy登场

  除了算力的问题,我们还需要解决的一大难题,就是如何突破数据瓶颈。

  RL的原则,就是不仅要找到大量有挑战性的强化学习问题,还要有可靠的信号告诉模型,它做对了还是做错了。

  然而,如今我们已经快找不到可用的测试题了!大多数人类无法解决的难题,对AI已经开始变得轻而易举。

  好在,我们还有一个绝佳的裁判,那就是现实。物理学是终极法则,对AI最终的推理测试,就是现实世界。

  让我们设想一下,如果单个AI智能体能解决40%的问题,那么同时运行多个智能体呢?

  这,就是所谓的测试时计算(test-time compute)。随着它的扩展,Grok 4已经能解决HLE中超50%的纯文本题目。

  而如果并行生成多个AI智能体,Grok 4 Heavy就诞生了!

  

  这些智能体会独立工作,互相比较各自的成果,决定哪个更好。一旦有智能体发现了关键解决方案,就会分享给其他智能体,最终它们通过交流,得出最终答案。

  这就是Grok 4之所以「Heavy」的原因,因为测试和计算的规模扩大了一个数量级。

  · Grok 4 Heavy惊人演示

  Grok 4 Heavy,已经进化到可以不止会考试,还能解决真实世界中各种刁钻的问题!

  比如,我们可以让它预测当前美国职业棒球大联盟(MLB)各队的夺冠赔率。

  它能计算出,洛杉矶道奇队是今年的夺冠热门,获胜概率为21.6%。

  并且,我们还能让它生成两个黑洞碰撞的可视化图像。

  

  在下图中可以看到,从两个黑洞相互旋进开始、合并、到达铃振阶段,这个碰撞过程大致是正确的。

  尤为精彩的是,它使用了后牛顿近似法,而非计算黑洞中心附近的广义相对论效应。

  也就是说,它进行了一个真实的模拟,对该使用的物理常数进行了相当多的推理。

  

  另外,它还能发现X上头像最诡异的xAI员工。

  

  要知道,最神奇的地方就在于,它竟然理解了什么是「诡异」。

  

  如果说Grok 4有什么弱点的话,就是目前它还是「部分失明」,图像理解能力和生成能力都比较弱。

  不过令人期待的是,Grok 4是xAI目前训练的第六版模型,第七版已经在训练中了!

  对于所有AGI模型来说,最权威的测试就是ARC-AGI了。

  在直播前24小时,ARC-AGI团队接到xAI电话后,才开始了Grok 4的跑分测试。

  

  结果显示,Grok 4是唯一一个成绩突破10%的模型。

  具体来说,Grok 4(Thinking)在ARC-AGI-2刷新了SOTA,准确率为15.9%。

  在ARC-AGI-1上,它的成绩达到了66.7%。同时,Grok 4实现了每美元智能成本的最优化。

  

  ChatGPT和Grok 4现场飚语音

  此外,研究人员还改进了Grok 4的「语音模式」,延迟率直接减半,还新增了两种全新的音色——

  Sal:拥有深沉的声线

  Eve:音色优美的英伦女声,能演绎丰富的情感

  接下来,直接进入demo。xAI员工打开Grok问道,「现在正在有数百万人观看我们直播,你感到兴奋吗」?

  Eve好像真的就在直播现场,激动地表示,「这就像站在老维克剧院的舞台上,看着台下人山人海」。

  它还会低声细语,说了一些能够让xAI员工不再紧张的话。

  

  不仅如此,Eve现场还献上了一段非常优美的歌剧,还能、即兴表演随时更换曲调,让人听着陶醉。

  

  更有趣的是,为了测试Grok 4的反应速度,xAI员工直接让ChatGPT和Grok同台PK。

  任务是,我说一句,你说一句,跟读数字。

  ChatGPT的反应有些迟缓,而且并没有依据指令跟读,自主说一些不相关的话。

  此时,Grok的表现令人惊艳,一步一步跟着读了下来。

  

  最后,研究人员总结到,自Grok模型上线以来,在过去八周的时间,实现了端到端延迟提速2倍,新增了5种不同音色,活跃用户量更是增长了10倍。

  足见,Grok语音功能正在飞速发展。

  

  Grok 4卖货,年入47亿填补GPU巨销

  那么,Grok 4在现实生活中能做什么?

  赚钱!!!

  在Vending-Bench商业场景的基准测试中,Grok 4能够长期运营自动售货机,并且成为了榜单第一。

  在此过程中,它不仅要完成库存管理,还得与供应商谈判、制作定价策略等任务。

  这些任务看似简单,但要求模型「长期持续运营」,只有Grok 4能够赚到,净资产也是所有模型两倍。

  

  发布会上,马斯克半开玩笑表示,「这下我们GPU算力开销有着落了。只需要部署100万台自动售货机,年收入就能达47亿美元」。

  看来,下一步Grok 4也要为自己打工了。

  此外,Grok 4的诞生,将带来生物医药、金融等跨领域的突破,重塑商业AI范式。

  如下demo所见,Grok正成为企业级的智能Copilot,拥有256k的上下文窗口,前沿的多模态推理,实时的数据搜索,以及企业级的安全能力。

  

  4小时,肝出爆款射击游戏

  更令人激动的是,Grok 4在AI游戏实时生成领域,大有前途。

  现场,员工展示了AI游戏设计师Danny Limanseta,在极限4小时内,制作出了第一人称射击游戏。

  

  马斯克预言,「首个真正优质的AI电子游戏可能会在明年问世,今年或许能看到半小时长度的可观看AI剧集,而首部AI电影很可能在明年诞生」。

  在未来路线图中,xAI还计划发布编码模型、多模态智能体和视频生成模型。

  

  发布会最后,屏幕上出现了道格拉斯·亚当斯《银河系搭车客指南》第四部的书名——《再见,谢谢所有的鱼》。

  果然,还是那个我们熟悉的科幻迷马斯克。

  

  文明奇点已至

  马斯克激动表示,我们正处于智能大爆炸的起点。奇点时刻已经到来,这是人类历史上最激动人心的时代。

  而此时最重要的,就是打造一个好的AI,一个善良的AI,让它去最大程度地追求真理。

  如果把AI看作一个超级天才的孩子,它最终一定会比人类聪明,而我们能做的,就是开始就给它灌输正确的价值观,让它追求真实、正直、善良。

  给AI算力,加上正确的工具,最终还要和物理世界互动,到时,我们的经济体量将会是现在的数千倍,甚至数百万倍!

  马斯克说,如果把文明进程看作是完成卡尔达肖夫等级的百分比,那我们距离1级文明的10%还很远,可能只完成了1%或2%。

  

  1级文明利用整个行星的能源;2级文明利用整个恒星的能源;3级文明利用整个星系的能源

  如果文明没有自我毁灭,我们就会迈向2级文明。跟那时相比,我们今天的经济水平,会像穴居人往火里扔木棍一样原始。

  马斯克承认,亲手创造出这样一个远超人类自身的智能,也令人有些不安——它对人类究竟是好是坏?

  最终,他说服了自己:这个AI大概率是好的,就算不是,自己也要活到亲眼见证这一切发生的那一天。

  马斯克,背水一战

  如今,马斯克真的是破釜沉舟,背水一战了。

  本来是特朗普竞选的最大功臣,最近他却成了「大而美法案」的最大输家,随着「特马同盟」的彻底崩塌,马斯克似乎已经无牌可出了。

  

  首先,随着「大而美法案」的出台,7500美元的电动汽车购车税收抵免,已经提前至2025年9月30日终止,从此,特斯拉每年的利润损失将高达17亿美元。

  而DOGE前期的努力,也随着大而美法案中的大规模赤字扩张而付诸东流。

  政坛的失意,让马斯克全美业务的关键布局,包括电动汽车、Space X、脑机接口、加密货币等,商业利益全面被连累。

  在这种背景下诞生的Grok 4,可以说是马斯克最后的希望。

  终于,这次发布会上他用Grok 4告诉全世界:我手里还有最后一张牌。

  

  Grok团队中,华人学者占据半壁江山

  参考资料:

  https://x.com/i/events/1942716886258528256

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跌至-2℃!刚刚浙江降温时间确认,这波太猛

跌至-2℃!刚刚浙江降温时间确认,这波太猛

鲁中晨报
2025-11-13 18:39:03
沈飞明确表示:空警600无法滑跃起飞!若造6艘山东舰,空警600一定能上

沈飞明确表示:空警600无法滑跃起飞!若造6艘山东舰,空警600一定能上

利刃号
2025-11-13 18:41:07
狗咬人被摔死,狗主人上门理论被反杀

狗咬人被摔死,狗主人上门理论被反杀

中国新闻周刊
2025-11-13 12:44:20
中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

易玄
2025-11-13 06:25:22
随着王楚钦4-2林高远,全运男单4强出炉!大概率以下2人会师决赛

随着王楚钦4-2林高远,全运男单4强出炉!大概率以下2人会师决赛

小火箭爱体育
2025-11-13 20:00:10
全运会乒乓:女单4强名单出炉,国乒2大主力出局,陈梦超级逆转

全运会乒乓:女单4强名单出炉,国乒2大主力出局,陈梦超级逆转

知轩体育
2025-11-13 14:56:52
血腥且残酷,库尔斯克之战重演了

血腥且残酷,库尔斯克之战重演了

中国新闻周刊
2025-11-13 17:55:52
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
突发!Synopsys 裁员 2000人!

突发!Synopsys 裁员 2000人!

EETOP半导体社区
2025-11-13 08:11:22
曾主任的运动照被扒出!笑容灿烂很有韵味,网友:挺阳光的人

曾主任的运动照被扒出!笑容灿烂很有韵味,网友:挺阳光的人

鋭娱之乐
2025-11-13 00:45:03
突发:许家印最新消息!儿子也被抓!23亿信托资产失效!

突发:许家印最新消息!儿子也被抓!23亿信托资产失效!

新浪财经
2025-11-13 00:07:07
记者直击张家界七星山荒野求生选手“刀疤哥”制作钻木取火工具,他称每天吃30多个野生猕猴桃,将坚持到底

记者直击张家界七星山荒野求生选手“刀疤哥”制作钻木取火工具,他称每天吃30多个野生猕猴桃,将坚持到底

极目新闻
2025-11-13 18:05:15
正在被饿死的县医院们

正在被饿死的县医院们

医脉圈
2025-11-12 12:14:28
泪崩了!网传两小伙来大连打工,被老板辞退后,在楼梯间借宿一宿

泪崩了!网传两小伙来大连打工,被老板辞退后,在楼梯间借宿一宿

火山诗话
2025-11-13 12:05:26
狗主人被反杀妻子后悔闯入对方家中?果然是打不过才爱和平

狗主人被反杀妻子后悔闯入对方家中?果然是打不过才爱和平

姬鹏
2025-11-13 17:09:41
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
副院长与曾主任合照被挖出,网友:果然有缘

副院长与曾主任合照被挖出,网友:果然有缘

深度报
2025-11-11 21:42:52
爱泼斯坦档案再曝大瓜,前美财长、高盛律师痛批特朗普“粗俗”“恶心”

爱泼斯坦档案再曝大瓜,前美财长、高盛律师痛批特朗普“粗俗”“恶心”

凤凰网财经
2025-11-13 14:51:02
被取消成绩!覃海洋:正常拿金牌肯定没问题 犯规后在水里都笑了

被取消成绩!覃海洋:正常拿金牌肯定没问题 犯规后在水里都笑了

风过乡
2025-11-13 21:17:47
上汽,把爆款从偶然做成必然

上汽,把爆款从偶然做成必然

水滴汽车App
2025-10-03 18:35:41
2025-11-13 22:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13860文章数 66246关注度
往期回顾 全部

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表 警方介入

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表 警方介入

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

房产
家居
亲子
艺术
公开课

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

家居要闻

莫奈时间 重构先锋概念

亲子要闻

“60天长高30%”,儿童奶粉营销不能搞数字游戏 | 新京报快评

艺术要闻

黄君璧:仿古山水册

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版