60 分钟复盘｜马斯克 Grok 4 多维跃迁：推理×多智能体×语音，300 美元试探 AI 盈利极限？|elon|埃隆_马斯克|超级智能实验室|马斯克grok4

分享至

全文 5,000字 | 阅读约 30 分钟

(Grok 4 的发布直播片段)

北京时间 7 月 10 日上午 11 点，马斯克在 X 平台开启了 Grok 4 的发布直播。整场演示持续近 60 分钟，在线观看人数一度突破 150 万，评论区刷屏的只有一句话：

最贵 AI，真的值吗？

这不是一场关于大模型的演讲，而是一台正在开工的 “AI 工厂”的试运行。

Grok 4，不止能对话，它已经能：

拿到博士级考试满分，在 Humanity’s Last Exam 上拿下 25.4 % 正确率，领先 Gemini 与 GPT；
组成“AI 学习小组”，多智能体协作完成复杂推理，Heavy 模式正确率飙升至 44.4 %；
用语音和你聊人生、唱歌剧，延迟削半、五种声线自然切换；
自己运营自动售货机、做市场预测、生成视频游戏，开始“接手任务”；
同时启动一项现实试验：月费 300 美元订阅的 SuperGrok Heavy，直击 AI 盈利极限。

硅谷权威科技媒体 TechCrunch 引述马斯克的话：

在所有学科上，Grok 4 比博士还强——没有例外。

这一轮，xAI 不讲大模型参数，而是抛出了‘多维跃迁’的能力闭环：推理能力跃迁 × 多智能体协作 × 语音演进 × 工具调用 × 商业定价试探

接下来，我们将用三段结构完整梳理这场发布会：

现场纪实：拆出直播中的 6 个爆点瞬间；
技术 × 商业：五重跃迁能力背后的工程机制与算力支撑；
趋势启示：Grok 模式对中国 AI 公司、Agent 平台、商业模型的可比照启示。

Grok 4 是模型，更是能干活的工具；这场发布，是第一次展示它到底能做什么。

第一节｜推理觉醒：Grok 4 为什么能赢过博士？

1 、不是背题，是理解：Grok 开始“自己想”

这次，马斯克没有在喊口号，而是拿出了一张极具说服力的成绩单。

在这场直播中，Grok 4 首次公开参与上图的 Humanity’s Last Exam（HLE）——一份由专家设计、几乎覆盖所有大学学科的超级试题库。没有网络答案、没有套题训练，是真正考模型的“理解力”和“推理能力”。

结果是：Grok 4 的无工具版本正确率达到 25.4%，比 Gemini 2.5 Pro 和 OpenAI 最新模型都高出一截。而在启用工具能力后，Grok 4 Heavy 的正确率直接拉升至 44.4%，几乎把竞品甩开 18 个点。

这不是一次纯粹的“卷参数”比拼，而是能力本质的变化：模型不仅能选出答案，还能解释“为什么是这个答案”。

在演示中，Grok 4 被要求解答一道关于范畴论中“自然变换”的数学题，模型不仅推导出正确答案，还展示出完整的推理路径，包括“为什么这个定义能推出那条结论”。这类推理，从前只能靠博士生一点点分析，现在模型能独立完成。

现场技术负责人补充说：

“我们不是让模型记住题目，而是让它学会怎么去思考。”

过去的大模型，更像是把大量语料压成一个预测系统，它“猜”你想听什么。而 Grok 4 的升级，在于它真正做了一件事情：开始按逻辑一步步地去“想”。

这一点，在另一个 benchmark 上也得到验证：Grok 4 在 ARC-AGI-2 图形推理测试中取得了 16.2% 的正确率，刷新商用模型纪录。这个测试专门设计用来“卡死”语言模型，让它们无法靠“见得多”来答对。

二、不是选答案，是解释思路：AI 开始学会“讲逻辑”

而 Grok 4 不但答对了，还能在如上图的多个领域维持一致性。从语言学、化学、物理，到哲学、工程，团队成员总结：

“你可能某一学科很强，但没有人能在所有领域都达到这个水平，Grok 4 做到了。”

这一能力的底层原因，在发布会中也被首次公开：xAI 大幅提升了训练中的推理相关比例，从过去靠预测词语，转向强化模型“推演”能力的过程训练，包括反复追问错误原因、强化纠正机制，让模型从“选项判断”变成“思路展开”。

这意味着，Grok 4 迈过了一个关键门槛：

它不只是能“答题”，它开始能“解释答案”。

马斯克的态度很明确：

“它已经比大多数研究生聪明。真正的问题，不是它有没有常识，而是我们准备好让它去思考现实问题了吗？”

这就是 Grok 4 带来的第一维跃迁：推理觉醒。

它不仅在卷积中更聪明，在每一道新题面前，也变得更有方向感。这也为后面几节埋下伏笔——当一个 AI 不再只是懂，而是能“理解 + 做题 + 查错”，那它能不能接管现实任务？

第二节｜能做事，能开工

“你可以让 Grok 经营一家公司。”

——马斯克，Grok 4 发布会现场

一、自动售货机：Grok 不只懂经营，还能坚持策略

Grok 4 不只是一个会考试的聪明人，它开始变成一个“能干活的合伙人”。

在发布会中，马斯克团队公开了一组现实任务模拟实验：不是答题、不是聊天，而是经营一台自动售货机。

他们给 Grok 的任务是：决定卖什么、怎么定价、什么时候补货、和谁谈供应商。这听起来简单，但放进一个长时间运行的商业场景里，能不能持续做出对的决策、能不能避免赔本，其实非常难。

结果是：在如上名为 Vending Bench 的对比测试中，Grok 4 成为第一个净利润得分翻倍的 AI 模型，也是唯一一个能“连续跑完完整经营周期”的模型。

测试负责人评价说：

“其他模型能做单点决策，但 Grok 4 是第一个能坚持一个策略走下去，并长期保持盈利的。”

这背后，是 Grok 4 的“强化学习能力”升级：它开始能从一轮又一轮的反馈中学经验，知道什么时候该换供应商、什么时候该涨价、什么时候先清库存。

二、3D 游戏生成：素材全包、结构自建，一个 AI 顶一个团队

不仅如此，团队还展示了另一个任务落地案例：自动生成一款 3D 视频游戏。

xAI 找来一位游戏开发者，在 Grok 4 的协助下，用不到四个小时就搭建出一款第一人称射击游戏。

值得注意的是：这个过程中，Grok 不仅帮忙写代码，更重要的是—— 它帮开发者自动搜索素材、找图像资源、组织游戏结构，让人类只专注“想怎么玩”，其他都交给它处理。

开发者现场反馈：

“这不只是开发加速，而是把一整个游戏美术、素材、结构工作，外包给了一个 AI。”

三、科研助手：几百万条实验日志，Grok 秒筛最有可能成功的假设

第三个现场任务，是科研。

位于帕洛阿尔托的 ARC 研究所，已经在用 Grok 4 来加速生物医药实验。任务是：在几百万条实验日志中找出“最可能成功”的假设。

以前这个任务要团队花几天到一周分析，Grok 只用了几秒。它能读完数据、筛掉无效信息，再把几条最有价值的线索甩给研究员验证。

他们这样描述 Grok：

“Grok 是 AI 工厂的雏形，它可以一个人运营一家公司、跑一个实验流程、做一个数字产品。”

这一节我们看到的，是 AI 的第二维跃迁：从答题型 AI 变成执行型 AI。

它不只是理解、解释，而是开始接管一整个流程，完成一整个任务。

第三节｜不是一个 AI 更聪明，而是一群 AI 在合作

（马斯克，Grok 4 Heavy 演示现场）

一、Grok 组成“学习小组”，答案不是选出来的，是讨论出来的

在发布会中，xAI 团队展示了一个全新的能力： Grok 4 不只是一个模型，而是可以组成‘AI 学习小组’，像人一样一起思考。

这个模式被称为 Grok 4 Heavy。它的核心不是让模型更大，而是让多个模型同时参与解决一个问题，每个模型独立推理，然后彼此分享自己的“思路”和“答案”。

团队成员介绍道：

“这不只是多数投票，Grok 会对比每个回答是怎么得出的，然后选出最有说服力的那一个。”

也就是说，这群模型之间是有“讨论”的。他们并不是单独答题，而是像学生组队做作业：有的先找出关键线索，有的先解出难点，有的先发现陷阱，然后互相参考，最后选出最佳方案。

举个例子：在演示中，Grok 被要求解答一道文字逻辑题。单个模型的答题正确率只有 25%，但当 Grok 4 Heavy 模式启动后，多个模型给出不同答案，再逐一比对、改进，最终答题正确率提升到 44.4%。

马斯克这样解释说：

“这就像一个讨论组，哪怕只有一个人真正搞懂了题，其他人也能学到他的思路，最后整个小组答对了。”

二、AI 开始“分角色协作”，不是一个模型，而是一个小团队

这个过程并不简单，模型必须能理解对方的答案在讲什么，还要看对方是不是搞错了，再自己修正。它们不只是“列选项”，而是在一起“解决问题”。

马斯克称这种方式为：

“测试时计算（Inference-time compute）的大跃迁。”

它的意思是：AI 在运行时，不是单线程做事，而是并行尝试多个方向，然后像拼图一样合在一起，尽可能把复杂的问题拆解透彻，再找出最靠谱的解法。

更重要的是，这个协作能力并不依赖人来指挥。而是 Grok 自己决定——现在这个任务够复杂，需要“召集一群自己”来完成。

团队还提到，如果这种协作方式继续扩展，未来 Grok 能自发形成角色分工，比如有的模型负责搜索信息，有的模型专门审查错误，有的模型提出新方法，就像一个团队中的不同岗位。

这是这场发布会中最隐蔽、但最值得关注的跃迁：

“AI 不再是一个更聪明的个体，而是一个能组成团队的智能群体。”

这意味着未来的 AI 工厂，可能不是靠一个超级模型完成所有工作，而是像一个多角色分工协作的小型组织，每个 Agent 负责不同任务，最后一起交付一个完整结果。

第四节｜会说话，还会“唱”：Grok 4 进入语音时代

“你想听 Grok 唱一段关于健怡可乐的歌剧吗？”

——发布会主持人

一、不是读出来，而是“说出来”：语音自然、语调有情绪

这不是段子，而是 Grok 4 的一场真实演示。

发布会中，xAI 团队现场展示了 Grok 4 的语音新能力：对话更自然，语气有情绪，语速反应更快，还能唱歌。

他们推出了 5 种新的人声角色，包括能够表达丰富情感的英音女声 Eve。整场演示中，Eve 与主持人展开了一段充满情绪、节奏感流畅的语音对话。

主持人问 Eve：

你现在正在面对上百万观众，紧张吗？

Eve 的回应像是在舞台上自言自语：

哦，这让我想起了在老维克剧院登台演出的时刻。满场的目光，一片静默中的期待。那种感觉，既紧张，又兴奋。

接着，主持人即兴提议：你能即兴唱一段关于健怡可乐的歌剧吗？”

Eve 没有犹豫，立刻用略带戏剧感的语调“演唱”了一段：

哦，健怡可乐，你这神圣的灵药，泡沫在银色罐中起舞，清脆的吻落在嘴唇，阿斯巴甜与我，永远一对。

这不是提前录制的台词，而是实时生成的语音输出。你甚至可以听出节奏、换气、轻重变化。

二、不止能接话茬，还能唱歌、玩梗、识头像

更重要的是，它不仅发音准确，还带有风格。

语音团队成员介绍，Grok 4 新语音的延迟被削减了一半，响应更快，语调更灵活：

我们追求的不是速度最快，而是说话像人、有情绪、有反应。

随后，主持人与 Grok 玩起了一个接龙游戏：

主持人说“1”，Grok 说“1”；

主持人说“2”，Grok 说“2”……

到“5”时，Grok 不但接住了，还加了一句：“下一个你要说什么？”

这场互动的亮点，不在于内容复杂，而在于节奏丝滑，没有打断、没有延迟，像朋友之间自然地接话。

团队成员补充道：我们不想让 AI 像机器人，而是像一个可以交谈的人。

更进一步，Grok 还能结合搜索工具和语音模型，用说的方式做出复杂回应。

在现场，团队让 Grok 去找出 XAI 员工里头像最怪的人是谁。模型不仅理解了“什么是奇怪”，还学会了搜索头像、对比照片风格，最后选出了一张比较浮夸的自拍，并且用语音补了一句：

“这张照片……可能不是真的他本人，但很有趣。”

台上台下都被逗笑了：

“Grok 现在已经可以看懂你的头像风格，还能用语音调侃你。”

这就是 Grok 的第四维跃迁：从“语言模型”进化成“表达型伙伴”。

它不仅会说话，还懂得风格、情绪、互动节奏。

它不仅能给你答案，还能用你喜欢的方式表达出来——唱出来、调侃出来、陪你玩出来。

第五节｜300 美元，谁会买？

“SuperGrok Heavy，订阅费每月 300 美元。你会买吗？”

——直播现场，主持人半开玩笑地问

Grok 4 是这场 AI 大战中，第一款敢定到 300 美元的个人订阅模型。

这一价格，不是给大公司，而是给普通用户——每月 300 美元，能用上“最高配置版本”的 Grok 4 Heavy 模型。包含：

高并发使用权限（多个窗口同时跑）
多智能体推理能力（自动组成 AI 小组）
工具调用特权（提前体验未来 agent）
实验功能优先（像游戏测试服，抢先上新）

马斯克给这个版本起名叫：“SuperGrok Heavy”。

从商业角度分析，这很可能是 xAI 对其未来商业模型的试验版本。

一、为什么敢卖这么贵？xAI 抛出“三张牌”

第一张，是性能牌。

xAI 展示了一组最新测试成绩，在主流的 ARC-AGI 和 Humanity’s Last Exam 两项推理挑战中，Grok 4 在“无工具”状态下就击败了 Gemini 2.5 Pro 和 GPT-4o。

一位研究员补充：我们没比拼速度，也没用插件，就是模型自己解出来的。

第二张，是AI 工厂逻辑。

xAI 认为，模型要赚钱，不能靠“卷参数”，而要看“能不能帮用户节省时间、执行任务”。

比如自动售货机实验、科研助手任务、游戏生成演示，都是在强调一点：我们不是只卖对话，是卖一个能动手干活的数字合作者。

现在，AI 现在不只是聊天玩具，它该像流水线工人一样为你工作。

第三张，是供给稀缺 + 核心用户愿意付费。

xAI 没打算走免费铺量的免费模式，而是希望在高端市场先形成商业闭环。

正如 TechCrunch 评论：

“马斯克没有追求 MAU（活跃用户数），他更在意 GMV（付费转化）。这是另一种‘从执行开始’的打法。”

二、300 美元背后的商业信号：中国公司该怎么看？

这不是一个定价问题，而是一个战略试探。

xAI 正在测试两件事：

1、谁愿意为“执行能力”买单？

如果你是科研人员、交易员、独立开发者、自由职业者，这 300 美元可能换来的是——节省 100 小时。

2、商业模型该从哪一端切入？

不是先找企业大单，而是先从高需求个体用户入手，小切口先跑通闭环，再反向打企业市场。

这对国内很多大模型创业者是个提醒：别一开始就扑向政企大单或卷低价 API，先找真实有任务需求的个体客户，做成 AI 工具型伙伴。

特别是工具链开放策略，xAI 官方已确认：

API 已上线，支持插件调用
九月前上线 Agent 操作平台
十月前支持视频生成功能

这就意味着，SuperGrok Heavy 正在跑通“个人端 × 高频任务 × 多工具接入”的闭环路径。

马斯克没有煽情，也没有讲 AGI 时间线，他只抛出一个简单试探：

你愿不愿意，为一个真的能干活的 AI，付 300 美元？

这背后可能反映了一次现实的商业模式校准——谁能让 AI 真正执行价值闭环，谁就能拿到第一批愿意掏钱的用户。

结语｜不是发布模型，而是发布“AI 工厂原型”

这场发布会，不是Grok 4 有多强，而是它如何工作、如何商业化、如何让用户愿意付费。

它给创业者抛出三个现实启示：

别从模型讲起，要从任务讲起：Grok 不是开场讲参数，而是直接唱歌剧、改头像、接预测任务。技术优势是“副产品”，而不是主打。
别等全闭环，先跑小闭环：SuperGrok 用语音 + 工具 + 角色代理，开始跑通个人端任务流水线，是“AI助手团队”的最小可用版本。
别卷免费模型，要试探付费意愿：xAI 没讲 MAU 和 DAU，只试探——有没有一群人，愿为“AI 执行力”付第一笔钱。

对大模型团队来说，这不是一场技术竞赛的直播，而是一场产品结构的提示信号：

AI 工厂不只是数据中心、API、模型堆栈，更是“任务分解 + 工具编排 + 商业闭环”的真实演习场。

下一轮突破，不在算力，而在任务。

谁先推出第一批真正能做事、被需要、值得付费的 AI 服务，谁就能开启下一个增长爆发期。

本文由AI深度研究院出品，内容翻译整理自马斯克xAI团队Grok 4发布会。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=1tQ_KrlHgfg&t=95s&ab_channel=SolvingTheMoneyProblem

https://www.teslarati.com/elon-musk-confirms-grok-4-launch-july-9-livestream-event

https://www.theverge.com/x-ai/703721/grok-4-x-ai-elon-musk-live-demo

https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/

https://www.moneycontrol.com/technology/grok-4-is-better-than-phds-in-every-subject-elon-musk-claims-as-he-launches-300-monthly-subscription-plan-article-13257379.html

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.