网易首页 > 网易号 > 正文 申请入驻

马斯克推最强Grok 4!人类终极测试干翻OpenAI,包月费超2千元

0
分享至

智东西7月10日报道,今日,马斯克的AI公司xAI发布其最新旗舰大模型Grok 4和多智能体版本Grok 4 Heavy,并推出史上最贵的每月300美元(约合2153元人民币)的AI订阅计划Super Grok Heavy

在“人类的最后考试”(Humanity’s Last Exam)中,Grok 4在无需“工具”的情况下取得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%OpenAI o3(高版本)的21%

配备“工具”的Grok 4 Heavy获得44.4%的得分,优于配备工具的Gemini 2.5 Pro的26.9%

▲Grok 4在Humanity’s Last Exam测评中取得第一

“就学术问题而言,Grok 4在各个学科上都比博士水平高,无一例外。”马斯克在直播中说,“有时,它可能缺乏常识,而且它还没有发明新技术或发现新的物理学说,但这只是时间问题。”

▲埃隆·马斯克在直播中发言

xAI还推出了迄今为止最昂贵的AI订阅计划——每月300美元的Super Grok Heavy。订阅者可以抢先体验Grok 4 Heavy,并抢先体验新功能。这些新功能包括但不限于:将于8月推出的AI编码模型,9月推出的多模态智能体,以及10月推出的视频生成模型。

▲每月300美元的Super Grok Heavy正式推出

直播结束后,马斯克在X上发文称:“你可以将整个源代码文件剪切并粘贴到Grok上的查询输入框中,然后@Grok 4 会帮你解决,比Cursor更好用。”

▲马斯克在社交平台X上发言

除此之外,xAI推出了Grok 4 API。xAI的企业部门仅成立两个月,但它计划与超大规模企业合作,通过其云平台提供 Grok。

近几个月来,xAI不仅拿下100亿美元最新融资,还收购了社交平台X,这也让最新推出的Grok 4成为产业的关注焦点。Grok 4能否成为对打OpenAI计预告今夏推出的GPT-5的有力对手?让我们来一起先睹为快。

一、Grok 4测评赶超OpenAI o3,马斯克:科研能力强过人类博士

马斯克在直播中称,在人文、语言、数学、物理、工程等多个基准测试中,Grok 4都取得了好成绩。“有些人认为AI不能推理,但Grok 4的推理能力可以超越人类水平,比几乎所有学科的研究生同时都聪明。”马斯克说。

xAI的研究人员称,Humanity’s Last Exam测试极具挑战性,总共有2500个问题,包括数学、自然科学、工程以及所有人文学科,问题广泛且都是博士甚至高级研究水平,Grok 4在这些问题上可以得到很好的分数。

Grok 4在无需“工具”的情况下,在“测试中获得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%。马斯克称,在学术问题方面,Grok 4比每个学科的博士水平都要好,现在没有例外。他预测Grok 4最快今年就能去发明新技术了,两年之内就能发现新物理学说。

在GPQA、AIME25、LCB(Jan-May)、HMMT25等多项测评中,Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2测试中,Grok 4取得了新的最高得分,得分为16.2%。ARC-AGI-2测试是另一项高难度基准测试,包含类似谜题的问题,要求AI识别视觉模式。Grok的得分几乎是排名第二的商业AI模型Claude Opus 4得分的两倍。

二、训练量级达到Grok 2 100倍,Grok 4将与人形机器人互动

从Grok2到Grok 4,每一次迭代xAI都增加了一个数量级的训练,因此Grok 4的训练量级达到了Grok 2的100倍,这使得智力增长非常显著。

这是xAI第一次像预训练一样扩大训练规模。基于拥有10万块H100 GPU的超级算力中心,训练主要包括两种类型:一个是从Grok 2到Grok 3到的预训练,一个是从Grok 3到Grok 4在推理中投入了大量的算力。

谈及幕后,如图所示,当投入越来越多的训练算力,模型开始逐渐变得越来越聪明,最终在没有任何工具的情况下,解决了四分之一的Humanity’s Last Exam测试问题。

接下来研发人员做的是向模型中添加工具功能。与Grok 3不同的是,研发人员使其更加本地化,将工具放入训练中,从而显着提高了模型使用这些工具的能力。

马斯克透露,今年晚些时候,Grok 4还将融合有限元分析、计算流体动力学等更强大的工具进行训练,将打造非常精确的物理模拟器,比如去做提供精确的黑洞模拟等任务。最终,Grok 4最大的区别在于,其将能够通过人形机器人(如擎天柱)与现实世界互动。

马斯克说,我们正处于智能大爆炸的开端。我们需要确保AI是一个好的AI,安全最重要的事,AI需要最大限度地寻求真理。你可以把AI看作是超级天才的孩子,最终会比你聪明,但你仍然可以灌输正确的价值观并鼓励它长成想要的样子。

除了计算之外,还有一个技术问题是数据瓶颈。研发人员称,在强化学习训练过程中,他们实际上已经没有可用来测试的问题了,已有的问题对AI来说正在迅速变得微不足道。

但马斯克称,最能出色判断事物的就是现实。如果物理学是定律,最终其他一切都是建议。你不能打破物理。因此,我认为对于AI的最终测试是现实。就像你发明一项新技术,比如改进汽车或火箭,它有效吗?现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

三、现场演示:看论文进行现实模拟,语音模式延迟减少一半

xAI研究员在直播中演示了Grok 4回答问题的能力。

Grok 4的一大特点是能够理解世界,并通过利用工具来解决难题。比如要求Grok 4生成两个黑洞碰撞的可视化图像,它有一些清晰的思考过程,比如,为了让它真正可见,Grok 4考虑到通过海浪的形式扩放它的规模。从思考过程看,Grok 4使用了搜索,从一堆链接中收集结果,参考了现有的现实世界数据,而且还阅读了分析引力波模型的本科论文。

除此之外,xAI还演示了Grok 4解答数学问题、创建一个基于X个帖子的时间线、查看Humanity’s Last Exam测试成绩等问题。

在多模态测试方面,Grok 4分数略有下降。马斯克坦言,Grok 4的基本弱点是它部分盲目地理解图像生成偏好。Grok 4的多模态理解能力正在改进,这些问题将在几周内实现改善。

Grok 4的语音模式也进一步更新,已将延迟减少了一半。Grok 4今天推出一系列更具自然性和韵律的新声音,API版本也将发布。

四、推出Grok 4企业API,编程、多模态、视频模型在路上

xAI的企业部门仅成立两个月,但它正在通过其API发布Grok 4,已有各行业企业通过云平台使用了Grok 4。

聚焦现实的自动售货机商业场景,xAI的客户团队采用了大模型管理库存、联系供应商,大多数模型在去进行长线任务时都很困难。但使用了Grok 4 API之后,团队获得了令人印象深刻的结果。它设法运行模拟的时间翻了一倍,得分也翻了一倍,前后能保持较强一致性。

聚焦AI创作游戏方面,Grok 4可以在4个小时内制作的第一人称射击游戏。制作游戏并不一定是对游戏的核心逻辑进行编码,而是去寻找所有资源、文件素材,以创建一个具有视觉吸引力的游戏。对于开发人员来说,你可以专注于核心开发本身,让Grok 4去整理所有资产,自动化完成任务。

未来Grok 4将具有出色的视频理解和改进的工具使用能力,例如可以使用虚幻引擎生成艺术品模型,然后创建一个可在PC或手机上运行的可执行文件。xAI预计第一个真正优秀的AI视频游戏将在明年出现。

除此之外,马斯克透露,团队目前正在加大力度训练编码模型,在未来几周内将推出一个专业的编码模型。编码任务展现了Grok 4的弱点,即多模态能力。就像透过玻璃眯着眼睛看世界,看到所有模糊的特征,并试图感知它。xAI将在下一代模型中看到的最直接改进是,模型在理解图像和音频方面会能力逐步提高。

在视频模型方面,xAI将在接下来三到四周开始训练一个新的视频模型,具备出色视频生成和理解能力。

结语:抢发Grok 4,马斯克对战GPT-5

Grok 4在高难度测试中展现的“超越博士水平”的推理能力,在理解和解决复杂问题方面迈出了关键一步。其通过工具加持实现的新能力,以及雄心勃勃的多模态与视频生成路线图,展现了xAI与即将发布的OpenAI GPT-5竞赛的决心。

在To B端落地,xAI正加速将Grok 4的能力从企业应用到零售、游戏创作等领域。同时,马斯克强调的“安全至上”与“寻求真理”的AI发展原则,以及对现实世界作为最终测试场的认知,为这场席卷全球的智能爆炸提供了不可或缺的思考维度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重新开征农业税,激发农民责任感和荣誉感?这是要把农民逼上绝路

重新开征农业税,激发农民责任感和荣誉感?这是要把农民逼上绝路

刚哥说法365
2025-09-24 16:33:59
澳网落下帷幕!诞生7个赢家,以及5个输家,阿卡、德约位列其中

澳网落下帷幕!诞生7个赢家,以及5个输家,阿卡、德约位列其中

小火箭爱体育
2026-02-01 20:00:51
江渭清复出拒绝担任省委书记,副总理纪登奎:这是通知,不是商量

江渭清复出拒绝担任省委书记,副总理纪登奎:这是通知,不是商量

老脸科普君
2026-01-14 17:28:57
华人换汇30万, 直接被抓! 回国刚落地机场, 就被带走...

华人换汇30万, 直接被抓! 回国刚落地机场, 就被带走...

澳微Daily
2026-02-01 15:06:04
打爆文班亚马!进攻联盟第一!2026年NBA最强黑马

打爆文班亚马!进攻联盟第一!2026年NBA最强黑马

篮球教学论坛
2026-02-01 18:44:40
全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

阿器谈史
2026-01-31 22:54:03
亲手拆散一切:国王将四大核心全摆上货架,这次重建不留退路!

亲手拆散一切:国王将四大核心全摆上货架,这次重建不留退路!

体育闲话说
2026-02-01 18:51:42
速心丸得备!本轮英超出现三场让二追二剧情,但结局各不相同

速心丸得备!本轮英超出现三场让二追二剧情,但结局各不相同

懂球帝
2026-02-02 03:06:21
媒体人传来消息!王钰栋加盟欧洲豪门悬念揭晓 徐彬外租下家曝光

媒体人传来消息!王钰栋加盟欧洲豪门悬念揭晓 徐彬外租下家曝光

侃球熊弟
2026-02-01 00:06:51
卫星图像显示:伊朗两处受损核设施有新动作

卫星图像显示:伊朗两处受损核设施有新动作

观察者网
2026-02-01 17:30:47
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
刘强东小妹近照曝光,一头长发打扮时髦,妈妈干活她在院里溜达!

刘强东小妹近照曝光,一头长发打扮时髦,妈妈干活她在院里溜达!

古希腊掌管松饼的神
2026-01-31 17:00:17
今年丑苹果为何难卖了?云南本地朋友揭露:4个原因,很无奈

今年丑苹果为何难卖了?云南本地朋友揭露:4个原因,很无奈

餐饮新纪元
2025-12-16 07:14:11
事大了!大陆突然把10人“扔”给金门,赖清德这就慌了?

事大了!大陆突然把10人“扔”给金门,赖清德这就慌了?

菊宝视界
2025-12-09 08:00:03
太惨了!广州外卖员猝死,父母兄长皆亡仅剩独苗:麻绳专挑细处断

太惨了!广州外卖员猝死,父母兄长皆亡仅剩独苗:麻绳专挑细处断

没有偏旁的常庆
2026-02-01 07:55:05
张怡宁真翻车了?嫁大20岁富商16年后,现状让人意外!

张怡宁真翻车了?嫁大20岁富商16年后,现状让人意外!

TVB的四小花
2026-01-31 06:45:00
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
英超最新积分战报:曼联奇迹绝杀,维拉爆冷,曼城2-2热刺

英超最新积分战报:曼联奇迹绝杀,维拉爆冷,曼城2-2热刺

足球狗说
2026-02-02 02:30:49
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

沧海一书客
2025-12-25 19:27:44
破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

乐悠悠娱乐
2026-01-22 08:57:21
2026-02-02 04:12:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11161文章数 116947关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
艺术
手机
数码
家居

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

家居要闻

蓝调空舍 自由与个性

无障碍浏览 进入关怀版