网易首页 > 网易号 > 正文 申请入驻

马斯克发布 Grok 4 模型:推理能力较前代提升 10 倍,各学科测试接近满分

0
分享至

刚刚,xAI 发布了新一代大模型 Grok 4,包括 Grok 4 和 Grok 4 Heavy 两个型号。

据介绍,Grok 4 的推理能力相较于前代提升了 10 倍,在 SAT 和 GRE 各学科等高难度考试中取得了接近满分的成绩。

马斯克在发布会上称,「这是世界上最好的 AI」。

「数字生命卡兹克」快速总结了 Grok 4 发布会上的一些关键信息:

  • 这次发了两个模型,Grok 4 和 Grok 4 Heavy。

  • 训练量是 Grok 2 的 100 倍,在强化学习上的计算量是现有任何模型的 10 倍。

  • 在人类最后的考试(Humanity's Last Exam, HLE)中,Grok 4 在 HLE 上拿到 38.6%;Grok 4 Heavy 借助多智能体进一步拉到 44.4%,刷新了最高纪录。

  • 官方同时公布 GPQA、AIME25、HMMT25、USAMO25 等学科赛题,Grok 4 Heavy 在其中 4 项夺冠,尤其在 AIME25 与 HMMT25 获得 100% / 96.7% 的近满分表现。

  • 全程都在聊知识,隐隐感觉到不妙,一实测,果然,代码能力拉垮了。

  • Grok 4 在训练阶段就深度整合了工具使用能力,将工具(如代码解释器、搜索引擎等)直接纳入训练流程,最终效果更好。

  • 设计了一个名为「Vending-Bench」的商业模拟场景,AI 需要像人一样经营自动售货机业务,测试结果:Grok 4 平均净资产 $4684.15,是第二名 Claude 4 的两倍,证明 Grok 4 比其他模型的长任务能力更牛逼。

  • ARC-AGI v2 评测记上,达到了 SOTA,Grok 4 准确率 15.9%,第二名 Claude 4 为 8.6%,几乎翻倍。同时,单位成本推理效率业界最佳。

  • 定价方面:

    • Free:只能用 Grok 3,不给用 Grok4;

    • SuperGrok(30 美元/月):Grok 4、128 k Token、更多接口额度;

    • SuperGrok Heavy(300 美元/月):独享 Grok 4 Heavy、提前试用新特性、专属技术支持。

  • xAI 后续发布计划:8 月推代码模型、9 月上线多模态智能代理、10 月发视频生成模型。

超 9000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

01Grok 4在基准测试上的表现达到人类博士后水平

得益于计算能力的增强、强化学习的训练,Grok 4 的推理能力相较于前代提升了 10 倍。从 Grok 2 到 Grok 4,采用的技术范式不同,分别为下一个 token 预测、预训练计算、预训练 + RL、RL 计算。

其中,Grok 2 到 Grok 3 预训练阶段的计算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微调,带来了深度推理能力。Grok 4 reasoning 的强化学习再度提升了 10 倍的计算量,这意味着显著的推理能力提升。

另外因为调用工具能力的提升,Grok 4 进一步放大了自身智慧。因此可以在各类高难度 Benchmark 上实现远超 SOTA 的成绩。

接下来是重头戏:Grok 4 的基准测试结果。

首先是HLE(Humanities Last Exam,人类最后的考试),包括数学、化学和逻辑学。在中,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%,但多数网友持质疑态度。

在今天的直播中,xAI 研究人员表示,以往的 SOTA 模型在使用工具(with tool)的情况下,成绩最高可以达到 41.0%。

如今,Grok 4 进一步提升了这一基准测试成绩。

具体来讲,与其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情况下,Grok 4 的成绩为 38.6%,Grok 4 Heavy 的成绩飙升到了 44.4%。如果让大模型在测试时花费更多时间思考,并恰当的使用更多外部工具,则 HLE 的分数还能进一步提升到 50.7%。

关于其他更多基准测试结果,包括 GPQA(研究生级别的 Google 验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛 / 在线算法竞赛)、HMMT25(高中生团队数学竞赛)和 USAMO25(美国顶级高中生数学竞赛)。从下图可以看到,Grok 4 Heavy 均取得了最新 SOTA

相比之下,人类面对 HLE 测试也几乎答不上几个题。马斯克多遍强调:Grok 现在在所有学科都达到了博士后水平,没有例外。它没有发现新科学或是新的物理定律,但这只是一个时间问题。

「如果 Grok 在今年内没有发现实用的新科学技术,我会感觉很意外,」马斯克表示。

大模型性能评估平台 Artificial Analysis 的全套基准测试成绩表明,Grok 4 已经成为当前领先的 AI 模型,总成绩达到了 73 分,领先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。

想象一下我们现在处在的位置,我们正处于智能发展的大爆炸过程中,这是人类历史上前所未见的。是时候看看 Grok 4 具体能做些什么了。

我们来看一两个 demo,比如「基于物理原理的 HTML 动画,模拟两个黑洞碰撞并产生引力波的 30 秒可视化效果」:

Grok 4 几乎完整地呈现了从两个黑洞接近到最后合并结束的引力波模拟效果。动图的一边是推理过程和计算的步骤和代码,查阅的论文每一篇都有链接。

02多语言、语音、角色功能等方面能力提升

除了各大语言基准成绩的提升,Grok 4 在其他方面同样得到了加强。

其中,Grok 4 的语音能力相较于上代速度快了 2 倍,端到端延迟更低;支持 5 种语音;单日用户总停留时长提升了 10 倍。

新增的 Grok 角色 Eve 和 Sal 现已可在 iOS 版 Grok 中使用,Sal 支持多种性格,Eve 可以唱歌和低语。

ARC-AGI 基准测试集中,它专门设计用于评估人工智能系统通用推理能力,被视为通向 AGI 的重要试金石,旨在检验模型是否能像人类一样灵活解决从未见过的新问题。

在这个直指 AGI 核心能力的超难基准上,Grok 4 同样取得了最新 SOTA,其中在 ARC-AGI-2 上达到 15.9%,几乎将之前的商业 SOTA 翻了一番,并超越了当前的 Kaggle 竞赛 SOTA。

在 Vending-Bench 基准测试中,它专注于评估智能体在真实物理世界中执行复杂操作任务的能力,其核心目标是解决传统模拟环境(如 Habitat、AI2-THOR)与真实世界间的「Sim2Real Gap」(仿真到现实的鸿沟),推动机器人技术在开放场景中的实际应用能力。

可以看到,Grok 4 相较于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了领先。

Grok 4 可通过 API 调用,提供 256K tokens 的上下文窗口。目前已经开放使用,版本号为 grok-4-0709,价格与 Grok 3 相同。

根据 Artificial Analysis 的测试,xAI 的 API 当前以每秒 75 个 token 的速度提供 Grok 4 服务,速度虽不及 o3(每秒 188 个 token),但优于 Claude 4 Opus Thinking(每秒 66 个 token)。

最后是游戏体验,DannyLimanseta 在 4 小时内用 Grok 4 制作了一款 FPS 射击游戏,Grok 不仅可以用于制作游戏,还能实际运行游戏,洞察优秀游戏的要素并提出改进建议。看着效果真的挺不错。

03付费会员价格昂贵,接下来计划发布多款模型

下一步,xAI 预计将发布代码模型、多模态智能体以及视频生成模型,看起来新产品发布要达到月更的速度。

目前,Grok 4 已经上线,不过需要付费使用,而且价格相当昂贵。其付费模式分为年付和月付两种,其中 SuperGrok 是每年 300 美元(折合人民币约 2154 元),SuperGrok Heavey 则是每年 3000 美元(折合人民币 21540 元)。

官网链接: https://grok.com/

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《鬼吹灯》反复提到公元前841年,这一年发生了什么?竟如此重要

《鬼吹灯》反复提到公元前841年,这一年发生了什么?竟如此重要

抽象派大师
2026-04-27 01:20:46
陈妍希告陈晓大粉,诋毁网暴7年,男方坐视不管,赵丽颖一语成谶

陈妍希告陈晓大粉,诋毁网暴7年,男方坐视不管,赵丽颖一语成谶

笑饮孤鸿非
2026-04-27 14:21:44
吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这4物能不吃就不吃!

吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这4物能不吃就不吃!

新时代的两性情感
2026-04-27 00:19:12
扎克·施奈德首曝《蝙蝠侠大战超人》未公开海报!

扎克·施奈德首曝《蝙蝠侠大战超人》未公开海报!

3DM游戏
2026-04-27 09:20:10
何小鹏发文:恭喜小鹏P7挑战吉尼斯世界纪录成功,73.594公里连续漂移,是对P7底盘与三电技术的一次扎实验证;雷军转发表示祝贺

何小鹏发文:恭喜小鹏P7挑战吉尼斯世界纪录成功,73.594公里连续漂移,是对P7底盘与三电技术的一次扎实验证;雷军转发表示祝贺

潇湘晨报
2026-04-27 11:22:10
董路是对的!日本联赛黑人归化70人左右,非洲裔00后占大多数

董路是对的!日本联赛黑人归化70人左右,非洲裔00后占大多数

湖北的老球迷
2026-04-27 18:04:23
6点吃晚饭是错的?医生建议:过了70岁晚饭尽量做到这5点

6点吃晚饭是错的?医生建议:过了70岁晚饭尽量做到这5点

白话电影院
2026-04-10 14:44:50
美国高技能移民绿卡审批“变脸”:EB-1A拒批率翻倍,NIW成功率腰斩,百万申请“吃灰”!

美国高技能移民绿卡审批“变脸”:EB-1A拒批率翻倍,NIW成功率腰斩,百万申请“吃灰”!

留学生日报
2026-04-27 20:23:13
赚翻!曼联隐形王牌身价暴涨,全面碾压皇马巨星,红魔捡到宝了

赚翻!曼联隐形王牌身价暴涨,全面碾压皇马巨星,红魔捡到宝了

澜归序
2026-04-27 05:33:48
冲突两个月,金价最多跌了20%!央行卖金,大摩改口,黄金牛市还在吗?

冲突两个月,金价最多跌了20%!央行卖金,大摩改口,黄金牛市还在吗?

财商侠客行
2026-04-27 19:34:43
老蒋得知毛岸英牺牲,半夜支开宋美龄,向儿子蒋经国吐露心声

老蒋得知毛岸英牺牲,半夜支开宋美龄,向儿子蒋经国吐露心声

历史点行
2026-04-09 23:52:43
塞尔比哑火!吴宜泽12-9冲8强,火箭救赛点追平巫师,决胜局来了

塞尔比哑火!吴宜泽12-9冲8强,火箭救赛点追平巫师,决胜局来了

刘姚尧的文字城堡
2026-04-27 22:56:09
iPhone 18 Pro Max再确认:首发2nm+可变光圈,入门版价格有惊喜

iPhone 18 Pro Max再确认:首发2nm+可变光圈,入门版价格有惊喜

小8说科技
2026-04-27 14:02:56
官方!皇马宣布姆巴佩受伤:无缘周末西甲 有望复出踢巴萨

官方!皇马宣布姆巴佩受伤:无缘周末西甲 有望复出踢巴萨

叶青足球世界
2026-04-27 19:10:21
别害羞!这几种“前戏”,比正戏更重要

别害羞!这几种“前戏”,比正戏更重要

精彩分享快乐
2026-04-27 13:16:20
赤身被吊在房梁上,下体被插上铜棒通电,遗照却一直被日寇供奉着

赤身被吊在房梁上,下体被插上铜棒通电,遗照却一直被日寇供奉着

芳芳历史烩
2026-03-17 22:06:40
轰炸中,伊朗国宝来到中国

轰炸中,伊朗国宝来到中国

中国新闻周刊
2026-04-27 07:30:21
国米将士齐放松,一分温暖情意重!点球标准不一致再引争议!

国米将士齐放松,一分温暖情意重!点球标准不一致再引争议!

肥强侃球
2026-04-27 23:18:21
省长低调去行政大厅办事,被窗口人员呵斥:没号就滚,谁都得排队

省长低调去行政大厅办事,被窗口人员呵斥:没号就滚,谁都得排队

红豆讲堂
2026-02-26 13:20:04
王志文承认:“除了我太太,江珊真的是我的太太的那种感觉。”

王志文承认:“除了我太太,江珊真的是我的太太的那种感觉。”

可乐谈情感
2026-04-26 01:00:16
2026-04-28 03:11:00
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1199文章数 160关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

时尚
亲子
健康
教育
公开课

丝巾的10种系法,爱美的女人必看

亲子要闻

宝妈花近20万,住月子中心,月子餐是油炸食品,婴儿床很多小虫子

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

你不说这是计算障碍,我真以为我是智障呢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版