网易首页 > 网易号 > 正文 申请入驻

60 分钟复盘|马斯克 Grok 4 多维跃迁:推理×多智能体×语音,300 美元试探 AI 盈利极限?

0
分享至

全文 5,000字 | 阅读约 30 分钟


(Grok 4 的发布直播片段)

北京时间 7 月 10 日上午 11 点,马斯克在 X 平台开启了 Grok 4 的发布直播。整场演示持续近 60 分钟,在线观看人数一度突破 150 万,评论区刷屏的只有一句话:

最贵 AI,真的值吗?

这不是一场关于大模型的演讲,而是一台正在开工的 “AI 工厂”的试运行。

Grok 4,不止能对话,它已经能:

  • 拿到博士级考试满分,在 Humanity’s Last Exam 上拿下 25.4 % 正确率,领先 Gemini 与 GPT;

  • 组成“AI 学习小组”,多智能体协作完成复杂推理,Heavy 模式正确率飙升至 44.4 %;

  • 用语音和你聊人生、唱歌剧,延迟削半、五种声线自然切换;

  • 自己运营自动售货机、做市场预测、生成视频游戏,开始“接手任务”;

  • 同时启动一项现实试验:月费 300 美元订阅的 SuperGrok Heavy,直击 AI 盈利极限。

硅谷权威科技媒体 TechCrunch 引述马斯克的话:

在所有学科上,Grok 4 比博士还强——没有例外。

这一轮,xAI 不讲大模型参数,而是抛出了‘多维跃迁’的能力闭环:推理能力跃迁 × 多智能体协作 × 语音演进 × 工具调用 × 商业定价试探

接下来,我们将用三段结构完整梳理这场发布会:

  1. 现场纪实:拆出直播中的 6 个爆点瞬间;

  2. 技术 × 商业:五重跃迁能力背后的工程机制与算力支撑;

  3. 趋势启示:Grok 模式对中国 AI 公司、Agent 平台、商业模型的可比照启示。

Grok 4 是模型,更是能干活的工具;这场发布,是第一次展示它到底能做什么

第一节|推理觉醒:Grok 4 为什么能赢过博士?

1 、不是背题,是理解:Grok 开始“自己想”

这次,马斯克没有在喊口号,而是拿出了一张极具说服力的成绩单。


在这场直播中,Grok 4 首次公开参与上图的 Humanity’s Last Exam(HLE)——一份由专家设计、几乎覆盖所有大学学科的超级试题库。没有网络答案、没有套题训练,是真正考模型的“理解力”和“推理能力”。

结果是:Grok 4 的无工具版本正确率达到 25.4%,比 Gemini 2.5 Pro 和 OpenAI 最新模型都高出一截。而在启用工具能力后,Grok 4 Heavy 的正确率直接拉升至 44.4%,几乎把竞品甩开 18 个点。

这不是一次纯粹的“卷参数”比拼,而是能力本质的变化:模型不仅能选出答案,还能解释“为什么是这个答案”。

在演示中,Grok 4 被要求解答一道关于范畴论中“自然变换”的数学题,模型不仅推导出正确答案,还展示出完整的推理路径,包括“为什么这个定义能推出那条结论”。这类推理,从前只能靠博士生一点点分析,现在模型能独立完成。

现场技术负责人补充说:

“我们不是让模型记住题目,而是让它学会怎么去思考。”

过去的大模型,更像是把大量语料压成一个预测系统,它“猜”你想听什么。而 Grok 4 的升级,在于它真正做了一件事情:开始按逻辑一步步地去“想”。

这一点,在另一个 benchmark 上也得到验证:Grok 4 在 ARC-AGI-2 图形推理测试中取得了 16.2% 的正确率,刷新商用模型纪录。这个测试专门设计用来“卡死”语言模型,让它们无法靠“见得多”来答对。

二、不是选答案,是解释思路:AI 开始学会“讲逻辑”


而 Grok 4 不但答对了,还能在如上图的多个领域维持一致性。从语言学、化学、物理,到哲学、工程,团队成员总结:

“你可能某一学科很强,但没有人能在所有领域都达到这个水平,Grok 4 做到了。”

这一能力的底层原因,在发布会中也被首次公开:xAI 大幅提升了训练中的推理相关比例,从过去靠预测词语,转向强化模型“推演”能力的过程训练,包括反复追问错误原因、强化纠正机制,让模型从“选项判断”变成“思路展开”。

这意味着,Grok 4 迈过了一个关键门槛:

它不只是能“答题”,它开始能“解释答案”。

马斯克的态度很明确:

“它已经比大多数研究生聪明。真正的问题,不是它有没有常识,而是我们准备好让它去思考现实问题了吗?”

这就是 Grok 4 带来的第一维跃迁:推理觉醒。

它不仅在卷积中更聪明,在每一道新题面前,也变得更有方向感。 这也为后面几节埋下伏笔——当一个 AI 不再只是懂,而是能“理解 + 做题 + 查错”,那它能不能接管现实任务?

第二节|能做事,能开工

“你可以让 Grok 经营一家公司。”

——马斯克,Grok 4 发布会现场

一、自动售货机:Grok 不只懂经营,还能坚持策略

Grok 4 不只是一个会考试的聪明人,它开始变成一个“能干活的合伙人”。

在发布会中,马斯克团队公开了一组现实任务模拟实验: 不是答题、不是聊天,而是经营一台自动售货机。

他们给 Grok 的任务是: 决定卖什么、怎么定价、什么时候补货、和谁谈供应商。 这听起来简单,但放进一个长时间运行的商业场景里,能不能持续做出对的决策、能不能避免赔本,其实非常难。


结果是:在如上名为 Vending Bench 的对比测试中,Grok 4 成为第一个净利润得分翻倍的 AI 模型,也是唯一一个能“连续跑完完整经营周期”的模型。

测试负责人评价说:

“其他模型能做单点决策,但 Grok 4 是第一个能坚持一个策略走下去,并长期保持盈利的。”

这背后,是 Grok 4 的“强化学习能力”升级:它开始能从一轮又一轮的反馈中学经验,知道什么时候该换供应商、什么时候该涨价、什么时候先清库存。

二、3D 游戏生成:素材全包、结构自建,一个 AI 顶一个团队

不仅如此,团队还展示了另一个任务落地案例:自动生成一款 3D 视频游戏。

xAI 找来一位游戏开发者,在 Grok 4 的协助下,用不到四个小时就搭建出一款第一人称射击游戏。

值得注意的是:这个过程中,Grok 不仅帮忙写代码,更重要的是—— 它帮开发者自动搜索素材、找图像资源、组织游戏结构,让人类只专注“想怎么玩”,其他都交给它处理。

开发者现场反馈:

“这不只是开发加速,而是把一整个游戏美术、素材、结构工作,外包给了一个 AI。”

三、科研助手:几百万条实验日志,Grok 秒筛最有可能成功的假设

第三个现场任务,是科研。

位于帕洛阿尔托的 ARC 研究所,已经在用 Grok 4 来加速生物医药实验。 任务是:在几百万条实验日志中找出“最可能成功”的假设。

以前这个任务要团队花几天到一周分析,Grok 只用了几秒。 它能读完数据、筛掉无效信息,再把几条最有价值的线索甩给研究员验证。

他们这样描述 Grok:

“Grok 是 AI 工厂的雏形,它可以一个人运营一家公司、跑一个实验流程、做一个数字产品。”

这一节我们看到的,是 AI 的第二维跃迁: 从答题型 AI 变成执行型 AI。

它不只是理解、解释,而是开始接管一整个流程,完成一整个任务。

第三节|不是一个 AI 更聪明,而是一群 AI 在合作

(马斯克,Grok 4 Heavy 演示现场)

一、Grok 组成“学习小组”,答案不是选出来的,是讨论出来的

在发布会中,xAI 团队展示了一个全新的能力: Grok 4 不只是一个模型,而是可以组成‘AI 学习小组’,像人一样一起思考。

这个模式被称为 Grok 4 Heavy。它的核心不是让模型更大,而是让多个模型同时参与解决一个问题,每个模型独立推理,然后彼此分享自己的“思路”和“答案”。

团队成员介绍道:

“这不只是多数投票,Grok 会对比每个回答是怎么得出的,然后选出最有说服力的那一个。”

也就是说,这群模型之间是有“讨论”的。 他们并不是单独答题,而是像学生组队做作业: 有的先找出关键线索,有的先解出难点,有的先发现陷阱,然后互相参考,最后选出最佳方案。

举个例子:在演示中,Grok 被要求解答一道文字逻辑题。 单个模型的答题正确率只有 25%,但当 Grok 4 Heavy 模式启动后,多个模型给出不同答案,再逐一比对、改进,最终答题正确率提升到 44.4%。

马斯克这样解释说:

“这就像一个讨论组,哪怕只有一个人真正搞懂了题,其他人也能学到他的思路,最后整个小组答对了。”

二、AI 开始“分角色协作”,不是一个模型,而是一个小团队

这个过程并不简单,模型必须能理解对方的答案在讲什么,还要看对方是不是搞错了,再自己修正。 它们不只是“列选项”,而是在一起“解决问题”。

马斯克称这种方式为:

“测试时计算(Inference-time compute)的大跃迁。”

它的意思是:AI 在运行时,不是单线程做事,而是并行尝试多个方向,然后像拼图一样合在一起,尽可能把复杂的问题拆解透彻,再找出最靠谱的解法。

更重要的是,这个协作能力并不依赖人来指挥。 而是 Grok 自己决定——现在这个任务够复杂,需要“召集一群自己”来完成。

团队还提到,如果这种协作方式继续扩展,未来 Grok 能自发形成角色分工,比如有的模型负责搜索信息,有的模型专门审查错误,有的模型提出新方法,就像一个团队中的不同岗位。

这是这场发布会中最隐蔽、但最值得关注的跃迁:

“AI 不再是一个更聪明的个体,而是一个能组成团队的智能群体。”

这意味着未来的 AI 工厂,可能不是靠一个超级模型完成所有工作,而是像一个多角色分工协作的小型组织,每个 Agent 负责不同任务,最后一起交付一个完整结果。

第四节|会说话,还会“唱”:Grok 4 进入语音时代

“你想听 Grok 唱一段关于健怡可乐的歌剧吗?”

——发布会主持人

一、不是读出来,而是“说出来”:语音自然、语调有情绪

这不是段子,而是 Grok 4 的一场真实演示。

发布会中,xAI 团队现场展示了 Grok 4 的语音新能力:对话更自然,语气有情绪,语速反应更快,还能唱歌。

他们推出了 5 种新的人声角色,包括能够表达丰富情感的英音女声 Eve。整场演示中,Eve 与主持人展开了一段充满情绪、节奏感流畅的语音对话。

主持人问 Eve:

你现在正在面对上百万观众,紧张吗?

Eve 的回应像是在舞台上自言自语:

哦,这让我想起了在老维克剧院登台演出的时刻。 满场的目光,一片静默中的期待。那种感觉,既紧张,又兴奋。

接着,主持人即兴提议:你能即兴唱一段关于健怡可乐的歌剧吗?”

Eve 没有犹豫,立刻用略带戏剧感的语调“演唱”了一段:

哦,健怡可乐,你这神圣的灵药, 泡沫在银色罐中起舞, 清脆的吻落在嘴唇, 阿斯巴甜与我,永远一对。

这不是提前录制的台词,而是实时生成的语音输出。你甚至可以听出节奏、换气、轻重变化。

二、不止能接话茬,还能唱歌、玩梗、识头像

更重要的是,它不仅发音准确,还带有风格。

语音团队成员介绍,Grok 4 新语音的延迟被削减了一半,响应更快,语调更灵活:

我们追求的不是速度最快,而是说话像人、有情绪、有反应。

随后,主持人与 Grok 玩起了一个接龙游戏:

主持人说“1”,Grok 说“1”;

主持人说“2”,Grok 说“2”……

到“5”时,Grok 不但接住了,还加了一句:“下一个你要说什么?”

这场互动的亮点,不在于内容复杂,而在于节奏丝滑,没有打断、没有延迟,像朋友之间自然地接话。

团队成员补充道:我们不想让 AI 像机器人,而是像一个可以交谈的人。

更进一步,Grok 还能结合搜索工具和语音模型,用说的方式做出复杂回应。

在现场,团队让 Grok 去找出 XAI 员工里头像最怪的人是谁。模型不仅理解了“什么是奇怪”,还学会了搜索头像、对比照片风格,最后选出了一张比较浮夸的自拍,并且用语音补了一句:

“这张照片……可能不是真的他本人,但很有趣。”

台上台下都被逗笑了:

“Grok 现在已经可以看懂你的头像风格,还能用语音调侃你。”

这就是 Grok 的第四维跃迁:从“语言模型”进化成“表达型伙伴”。

它不仅会说话,还懂得风格、情绪、互动节奏。

它不仅能给你答案,还能用你喜欢的方式表达出来——唱出来、调侃出来、陪你玩出来。

第五节|300 美元,谁会买?

“SuperGrok Heavy,订阅费每月 300 美元。你会买吗?”

——直播现场,主持人半开玩笑地问

Grok 4 是这场 AI 大战中,第一款敢定到 300 美元的个人订阅模型。

这一价格,不是给大公司,而是给普通用户——每月 300 美元,能用上“最高配置版本”的 Grok 4 Heavy 模型。包含:

  • 高并发使用权限(多个窗口同时跑)

  • 多智能体推理能力(自动组成 AI 小组)

  • 工具调用特权(提前体验未来 agent)

  • 实验功能优先(像游戏测试服,抢先上新)

马斯克给这个版本起名叫:“SuperGrok Heavy”。

从商业角度分析,这很可能是 xAI 对其未来商业模型的试验版本。

一、为什么敢卖这么贵?xAI 抛出“三张牌”

第一张,是性能牌。

xAI 展示了一组最新测试成绩,在主流的 ARC-AGI 和 Humanity’s Last Exam 两项推理挑战中,Grok 4 在“无工具”状态下就击败了 Gemini 2.5 Pro 和 GPT-4o。

一位研究员补充:我们没比拼速度,也没用插件,就是模型自己解出来的。

第二张,是AI 工厂逻辑。

xAI 认为,模型要赚钱,不能靠“卷参数”,而要看“能不能帮用户节省时间、执行任务”。

比如自动售货机实验、科研助手任务、游戏生成演示,都是在强调一点:我们不是只卖对话,是卖一个能动手干活的数字合作者。

现在,AI 现在不只是聊天玩具,它该像流水线工人一样为你工作。

第三张,是供给稀缺 + 核心用户愿意付费。

xAI 没打算走免费铺量的免费模式,而是希望在高端市场先形成商业闭环。

正如 TechCrunch 评论:

“马斯克没有追求 MAU(活跃用户数),他更在意 GMV(付费转化)。这是另一种‘从执行开始’的打法。”

二、300 美元背后的商业信号:中国公司该怎么看?


这不是一个定价问题,而是一个战略试探。

xAI 正在测试两件事:

1、谁愿意为“执行能力”买单?

如果你是科研人员、交易员、独立开发者、自由职业者,这 300 美元可能换来的是——节省 100 小时。

2、商业模型该从哪一端切入?

不是先找企业大单,而是先从高需求个体用户入手,小切口先跑通闭环,再反向打企业市场。

这对国内很多大模型创业者是个提醒:别一开始就扑向政企大单或卷低价 API,先找真实有任务需求的个体客户,做成 AI 工具型伙伴。

特别是工具链开放策略,xAI 官方已确认:

  • API 已上线,支持插件调用

  • 九月前上线 Agent 操作平台

  • 十月前支持视频生成功能

这就意味着,SuperGrok Heavy 正在跑通“个人端 × 高频任务 × 多工具接入”的闭环路径。

马斯克没有煽情,也没有讲 AGI 时间线,他只抛出一个简单试探:

你愿不愿意,为一个真的能干活的 AI,付 300 美元?

这背后可能反映了一次现实的商业模式校准——谁能让 AI 真正执行价值闭环,谁就能拿到第一批愿意掏钱的用户。

结语|不是发布模型,而是发布“AI 工厂原型”

这场发布会,不是Grok 4 有多强,而是它如何工作、如何商业化、如何让用户愿意付费。

它给创业者抛出三个现实启示:

  1. 别从模型讲起,要从任务讲起:Grok 不是开场讲参数,而是直接唱歌剧、改头像、接预测任务。技术优势是“副产品”,而不是主打。

  2. 别等全闭环,先跑小闭环:SuperGrok 用语音 + 工具 + 角色代理,开始跑通个人端任务流水线,是“AI助手团队”的最小可用版本。

  3. 别卷免费模型,要试探付费意愿:xAI 没讲 MAU 和 DAU,只试探——有没有一群人,愿为“AI 执行力”付第一笔钱。

对大模型团队来说,这不是一场技术竞赛的直播,而是一场产品结构的提示信号:

AI 工厂不只是数据中心、API、模型堆栈, 更是“任务分解 + 工具编排 + 商业闭环”的真实演习场。

下一轮突破,不在算力,而在任务。

谁先推出第一批真正能做事、被需要、值得付费的 AI 服务,谁就能开启下一个增长爆发期

本文由AI深度研究院出品,内容翻译整理自马斯克xAI团队Grok 4发布会。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.youtube.com/watch?v=1tQ_KrlHgfg&t=95s&ab_channel=SolvingTheMoneyProblem

https://www.teslarati.com/elon-musk-confirms-grok-4-launch-july-9-livestream-event

https://www.theverge.com/x-ai/703721/grok-4-x-ai-elon-musk-live-demo

https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/

https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/

https://www.moneycontrol.com/technology/grok-4-is-better-than-phds-in-every-subject-elon-musk-claims-as-he-launches-300-monthly-subscription-plan-article-13257379.html

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于朦胧事件后,程青松被扒更多“新料”,不愧是“影视圈大佬”

于朦胧事件后,程青松被扒更多“新料”,不愧是“影视圈大佬”

阿会情感
2025-09-14 13:35:03
为人处世,碰都不要碰的10大禁忌。

为人处世,碰都不要碰的10大禁忌。

四象八卦
2025-09-14 10:19:15
俄大使:无人机进入罗马尼亚领空是乌方蓄意挑衅

俄大使:无人机进入罗马尼亚领空是乌方蓄意挑衅

参考消息
2025-09-15 20:34:08
毛主席开会烟没了,见李先念抽雪茄,问:这么好的烟,咋不告诉我

毛主席开会烟没了,见李先念抽雪茄,问:这么好的烟,咋不告诉我

慧说史家
2025-08-06 10:59:54
成都警方:25岁女子自缢身亡,生前系自由职业

成都警方:25岁女子自缢身亡,生前系自由职业

新京报
2025-09-16 09:28:54
实力撑不起野心!大衣哥前儿媳陈亚男创业失败,被前夫狠狠打脸

实力撑不起野心!大衣哥前儿媳陈亚男创业失败,被前夫狠狠打脸

小杨侃事
2025-09-15 11:11:16
秦奋的亿万财富来源揭秘

秦奋的亿万财富来源揭秘

萧獻记录风土人情
2025-08-18 21:50:49
南京文旅太有才!直接攻击泰州最薄弱的地方:听说你现在算苏南了

南京文旅太有才!直接攻击泰州最薄弱的地方:听说你现在算苏南了

史行途
2025-09-16 13:06:20
中美马德里经贸会谈成果公布

中美马德里经贸会谈成果公布

环球时报国际
2025-09-16 10:44:45
德州理工闹剧!黑人女生查理·柯克追悼会上挑衅被捕,州长发声:“挑错了学校!”

德州理工闹剧!黑人女生查理·柯克追悼会上挑衅被捕,州长发声:“挑错了学校!”

华人生活网
2025-09-16 04:25:47
特雷·杨:在我生涯第八年,球队终于有了争夺总冠军的实力

特雷·杨:在我生涯第八年,球队终于有了争夺总冠军的实力

雷速体育
2025-09-16 08:43:08
昔日陕西餐饮龙头,被1.35亿拍卖

昔日陕西餐饮龙头,被1.35亿拍卖

每日经济新闻
2025-09-15 19:28:02
莫言:女人接近男人,不过图这两样东西,那她也不缺一个祖宗供着

莫言:女人接近男人,不过图这两样东西,那她也不缺一个祖宗供着

诗词中国
2025-09-04 17:56:45
41岁舞都跳不动还开演唱会捞金,本想回馈粉丝,全网却恶评如潮

41岁舞都跳不动还开演唱会捞金,本想回馈粉丝,全网却恶评如潮

春序娱乐
2025-09-16 13:58:32
43岁贾玲最新状态再创新巅峰,网友:这样一看,言承旭高攀了

43岁贾玲最新状态再创新巅峰,网友:这样一看,言承旭高攀了

娱乐故事
2025-09-14 23:56:02
梁晓声:最有钱的人,在儿女中学毕业后送出国,一是怕孩子吃苦..

梁晓声:最有钱的人,在儿女中学毕业后送出国,一是怕孩子吃苦..

清风拂心
2025-09-15 13:15:09
不明飞行物被击落后续:海事局发通报显端倪,身份快真相大白了!

不明飞行物被击落后续:海事局发通报显端倪,身份快真相大白了!

科普100克克
2025-09-15 02:28:33
中国女农场主在赞比亚遇难,死因曝光!韩红的话,终于有人信了

中国女农场主在赞比亚遇难,死因曝光!韩红的话,终于有人信了

来科点谱
2025-08-06 09:11:25
罗永浩公开担心自己可能失踪,继续闹下去可能性很大

罗永浩公开担心自己可能失踪,继续闹下去可能性很大

深度财线
2025-09-15 22:18:55
为什么中国社保会走到今天?看中国社保的矛盾与制度

为什么中国社保会走到今天?看中国社保的矛盾与制度

老丁是个生意人
2025-08-20 00:17:31
2025-09-16 16:04:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
277文章数 149关注度
往期回顾 全部

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

头条要闻

女子踩到"化骨水"事发地非私人用地 现场再次挖出2瓶

头条要闻

女子踩到"化骨水"事发地非私人用地 现场再次挖出2瓶

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

手机
游戏
亲子
家居
艺术

手机要闻

OPPO Find X9系列发布在即:真2亿像素引领手机影像画质革命

《蜘蛛侠2》废案DLC内容泄露 "甲虫"原为重要AI反派

亲子要闻

什么?吃饭还能把牙给吃掉了?

家居要闻

江南秘境 理想生活模样

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版