网易首页 > 网易号 > 正文 申请入驻

马斯克推最强Grok 4!人类终极测试干翻OpenAI,包月费超2千元

0
分享至

智东西7月10日报道,今日,马斯克的AI公司xAI发布其最新旗舰大模型Grok 4和多智能体版本Grok 4 Heavy,并推出史上最贵的每月300美元(约合2153元人民币)的AI订阅计划Super Grok Heavy

在“人类的最后考试”(Humanity’s Last Exam)中,Grok 4在无需“工具”的情况下取得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%OpenAI o3(高版本)的21%

配备“工具”的Grok 4 Heavy获得44.4%的得分,优于配备工具的Gemini 2.5 Pro的26.9%

▲Grok 4在Humanity’s Last Exam测评中取得第一

“就学术问题而言,Grok 4在各个学科上都比博士水平高,无一例外。”马斯克在直播中说,“有时,它可能缺乏常识,而且它还没有发明新技术或发现新的物理学说,但这只是时间问题。”

▲埃隆·马斯克在直播中发言

xAI还推出了迄今为止最昂贵的AI订阅计划——每月300美元的Super Grok Heavy。订阅者可以抢先体验Grok 4 Heavy,并抢先体验新功能。这些新功能包括但不限于:将于8月推出的AI编码模型,9月推出的多模态智能体,以及10月推出的视频生成模型。

▲每月300美元的Super Grok Heavy正式推出

直播结束后,马斯克在X上发文称:“你可以将整个源代码文件剪切并粘贴到Grok上的查询输入框中,然后@Grok 4 会帮你解决,比Cursor更好用。”

▲马斯克在社交平台X上发言

除此之外,xAI推出了Grok 4 API。xAI的企业部门仅成立两个月,但它计划与超大规模企业合作,通过其云平台提供 Grok。

近几个月来,xAI不仅拿下100亿美元最新融资,还收购了社交平台X,这也让最新推出的Grok 4成为产业的关注焦点。Grok 4能否成为对打OpenAI计预告今夏推出的GPT-5的有力对手?让我们来一起先睹为快。

一、Grok 4测评赶超OpenAI o3,马斯克:科研能力强过人类博士

马斯克在直播中称,在人文、语言、数学、物理、工程等多个基准测试中,Grok 4都取得了好成绩。“有些人认为AI不能推理,但Grok 4的推理能力可以超越人类水平,比几乎所有学科的研究生同时都聪明。”马斯克说。

xAI的研究人员称,Humanity’s Last Exam测试极具挑战性,总共有2500个问题,包括数学、自然科学、工程以及所有人文学科,问题广泛且都是博士甚至高级研究水平,Grok 4在这些问题上可以得到很好的分数。

Grok 4在无需“工具”的情况下,在“测试中获得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%。马斯克称,在学术问题方面,Grok 4比每个学科的博士水平都要好,现在没有例外。他预测Grok 4最快今年就能去发明新技术了,两年之内就能发现新物理学说。

在GPQA、AIME25、LCB(Jan-May)、HMMT25等多项测评中,Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2测试中,Grok 4取得了新的最高得分,得分为16.2%。ARC-AGI-2测试是另一项高难度基准测试,包含类似谜题的问题,要求AI识别视觉模式。Grok的得分几乎是排名第二的商业AI模型Claude Opus 4得分的两倍。

二、训练量级达到Grok 2 100倍,Grok 4将与人形机器人互动

从Grok2到Grok 4,每一次迭代xAI都增加了一个数量级的训练,因此Grok 4的训练量级达到了Grok 2的100倍,这使得智力增长非常显著。

这是xAI第一次像预训练一样扩大训练规模。基于拥有10万块H100 GPU的超级算力中心,训练主要包括两种类型:一个是从Grok 2到Grok 3到的预训练,一个是从Grok 3到Grok 4在推理中投入了大量的算力。

谈及幕后,如图所示,当投入越来越多的训练算力,模型开始逐渐变得越来越聪明,最终在没有任何工具的情况下,解决了四分之一的Humanity’s Last Exam测试问题。

接下来研发人员做的是向模型中添加工具功能。与Grok 3不同的是,研发人员使其更加本地化,将工具放入训练中,从而显着提高了模型使用这些工具的能力。

马斯克透露,今年晚些时候,Grok 4还将融合有限元分析、计算流体动力学等更强大的工具进行训练,将打造非常精确的物理模拟器,比如去做提供精确的黑洞模拟等任务。最终,Grok 4最大的区别在于,其将能够通过人形机器人(如擎天柱)与现实世界互动。

马斯克说,我们正处于智能大爆炸的开端。我们需要确保AI是一个好的AI,安全最重要的事,AI需要最大限度地寻求真理。你可以把AI看作是超级天才的孩子,最终会比你聪明,但你仍然可以灌输正确的价值观并鼓励它长成想要的样子。

除了计算之外,还有一个技术问题是数据瓶颈。研发人员称,在强化学习训练过程中,他们实际上已经没有可用来测试的问题了,已有的问题对AI来说正在迅速变得微不足道。

但马斯克称,最能出色判断事物的就是现实。如果物理学是定律,最终其他一切都是建议。你不能打破物理。因此,我认为对于AI的最终测试是现实。就像你发明一项新技术,比如改进汽车或火箭,它有效吗?现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

三、现场演示:看论文进行现实模拟,语音模式延迟减少一半

xAI研究员在直播中演示了Grok 4回答问题的能力。

Grok 4的一大特点是能够理解世界,并通过利用工具来解决难题。比如要求Grok 4生成两个黑洞碰撞的可视化图像,它有一些清晰的思考过程,比如,为了让它真正可见,Grok 4考虑到通过海浪的形式扩放它的规模。从思考过程看,Grok 4使用了搜索,从一堆链接中收集结果,参考了现有的现实世界数据,而且还阅读了分析引力波模型的本科论文。

除此之外,xAI还演示了Grok 4解答数学问题、创建一个基于X个帖子的时间线、查看Humanity’s Last Exam测试成绩等问题。

在多模态测试方面,Grok 4分数略有下降。马斯克坦言,Grok 4的基本弱点是它部分盲目地理解图像生成偏好。Grok 4的多模态理解能力正在改进,这些问题将在几周内实现改善。

Grok 4的语音模式也进一步更新,已将延迟减少了一半。Grok 4今天推出一系列更具自然性和韵律的新声音,API版本也将发布。

四、推出Grok 4企业API,编程、多模态、视频模型在路上

xAI的企业部门仅成立两个月,但它正在通过其API发布Grok 4,已有各行业企业通过云平台使用了Grok 4。

聚焦现实的自动售货机商业场景,xAI的客户团队采用了大模型管理库存、联系供应商,大多数模型在去进行长线任务时都很困难。但使用了Grok 4 API之后,团队获得了令人印象深刻的结果。它设法运行模拟的时间翻了一倍,得分也翻了一倍,前后能保持较强一致性。

聚焦AI创作游戏方面,Grok 4可以在4个小时内制作的第一人称射击游戏。制作游戏并不一定是对游戏的核心逻辑进行编码,而是去寻找所有资源、文件素材,以创建一个具有视觉吸引力的游戏。对于开发人员来说,你可以专注于核心开发本身,让Grok 4去整理所有资产,自动化完成任务。

未来Grok 4将具有出色的视频理解和改进的工具使用能力,例如可以使用虚幻引擎生成艺术品模型,然后创建一个可在PC或手机上运行的可执行文件。xAI预计第一个真正优秀的AI视频游戏将在明年出现。

除此之外,马斯克透露,团队目前正在加大力度训练编码模型,在未来几周内将推出一个专业的编码模型。编码任务展现了Grok 4的弱点,即多模态能力。就像透过玻璃眯着眼睛看世界,看到所有模糊的特征,并试图感知它。xAI将在下一代模型中看到的最直接改进是,模型在理解图像和音频方面会能力逐步提高。

在视频模型方面,xAI将在接下来三到四周开始训练一个新的视频模型,具备出色视频生成和理解能力。

结语:抢发Grok 4,马斯克对战GPT-5

Grok 4在高难度测试中展现的“超越博士水平”的推理能力,在理解和解决复杂问题方面迈出了关键一步。其通过工具加持实现的新能力,以及雄心勃勃的多模态与视频生成路线图,展现了xAI与即将发布的OpenAI GPT-5竞赛的决心。

在To B端落地,xAI正加速将Grok 4的能力从企业应用到零售、游戏创作等领域。同时,马斯克强调的“安全至上”与“寻求真理”的AI发展原则,以及对现实世界作为最终测试场的认知,为这场席卷全球的智能爆炸提供了不可或缺的思考维度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
风向变了,委代总统军权到手,美国立即归还油轮,马杜罗有救了?

风向变了,委代总统军权到手,美国立即归还油轮,马杜罗有救了?

老搽学科普
2026-01-30 10:30:45
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
上海这一夜,50岁保剑锋秒了44岁张丹峰,才知内心强大的区别

上海这一夜,50岁保剑锋秒了44岁张丹峰,才知内心强大的区别

大铁猫娱乐
2026-01-28 16:30:03
什么?泽连斯基求见普京?

什么?泽连斯基求见普京?

新民周刊
2026-01-29 09:08:55
朱高炽在位不足一年 ,为何能青史留名?他解决了三个天大的难题

朱高炽在位不足一年 ,为何能青史留名?他解决了三个天大的难题

千秋文化
2026-01-21 20:55:53
火箭104-86击败老鹰 球员评价:杜兰特满分,5人及格,3人低迷

火箭104-86击败老鹰 球员评价:杜兰特满分,5人及格,3人低迷

篮球资讯达人
2026-01-30 11:38:49
4个月13盒药触发红线!上海医保局出手,这笔糊涂账你算过吗?

4个月13盒药触发红线!上海医保局出手,这笔糊涂账你算过吗?

三农老历
2026-01-30 06:26:16
美媒:确认中国霹雳-17导弹真实存在,该导弹性能让美国十分担忧

美媒:确认中国霹雳-17导弹真实存在,该导弹性能让美国十分担忧

阿龙聊军事
2026-01-29 11:31:57
今晚开播!CCTV8又一年代大剧来袭,看完预告我想说:这剧要爆!

今晚开播!CCTV8又一年代大剧来袭,看完预告我想说:这剧要爆!

情感大头说说
2026-01-30 11:45:05
“花坛白骨案”,死者儿子从富二代到辍学、流浪、租房的落魄人生

“花坛白骨案”,死者儿子从富二代到辍学、流浪、租房的落魄人生

牛锅巴小钒
2026-01-30 06:44:28
站在中国领土上,英首相的一句话震动欧洲,美国直接对中国摊牌了

站在中国领土上,英首相的一句话震动欧洲,美国直接对中国摊牌了

墨兰史书
2026-01-30 00:00:03
长不长寿就看72岁,72岁若还能轻松完成这5件事,或可以活到90岁

长不长寿就看72岁,72岁若还能轻松完成这5件事,或可以活到90岁

我心纵横天地间
2026-01-29 15:19:53
特斯拉4680电池悄悄回归Model Y汽车

特斯拉4680电池悄悄回归Model Y汽车

IT之家
2026-01-29 07:54:09
1980 年张铚秀对越立功升任司令,徐帅却摇头不满,这是为何

1980 年张铚秀对越立功升任司令,徐帅却摇头不满,这是为何

唠叨说历史
2025-12-24 14:30:34
为啥城里的麻雀越来越少?而斑鸠却越来越多?两者之间有啥关系吗

为啥城里的麻雀越来越少?而斑鸠却越来越多?两者之间有啥关系吗

向航说
2026-01-24 00:45:03
珠海这天,陈晓骨瘦如柴,高圆圆红裙霸气,被李小冉眼镜造型惊艳

珠海这天,陈晓骨瘦如柴,高圆圆红裙霸气,被李小冉眼镜造型惊艳

银河史记
2026-01-29 19:03:05
库克称AirPods Pro 3太火了,苹果始料未及

库克称AirPods Pro 3太火了,苹果始料未及

IT之家
2026-01-30 08:42:09
短道速滑队出征冬奥前突发状况:主力选手被队友撞伤,正进行检查

短道速滑队出征冬奥前突发状况:主力选手被队友撞伤,正进行检查

米修体育
2026-01-30 00:19:30
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

来科点谱
2026-01-29 08:56:35
挣再多钱有什么用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有什么用,61岁崔培军如今的现状,给所有企业家提了醒

揽星河的笔记
2026-01-29 18:52:42
2026-01-30 12:15:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11153文章数 116945关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

两名公民在本土死于联邦执法人员枪下 特朗普"退缩"了

头条要闻

两名公民在本土死于联邦执法人员枪下 特朗普"退缩"了

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

艺术
游戏
时尚
家居
亲子

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

《明日方舟:终末地》现神秘bug 角色变蓝变成阿凡达

“工装混搭风”今年爆火!全世界的时髦女人都在穿

家居要闻

蓝调空舍 自由与个性

亲子要闻

四岁前孩子这些行为越管越耽误成长

无障碍浏览 进入关怀版