全文 5,000字 | 阅读约 30 分钟
(Grok 4 的发布直播片段)
北京时间 7 月 10 日上午 11 点,马斯克在 X 平台开启了 Grok 4 的发布直播。整场演示持续近 60 分钟,在线观看人数一度突破 150 万,评论区刷屏的只有一句话:
最贵 AI,真的值吗?
这不是一场关于大模型的演讲,而是一台正在开工的 “AI 工厂”的试运行。
Grok 4,不止能对话,它已经能:
拿到博士级考试满分,在 Humanity’s Last Exam 上拿下 25.4 % 正确率,领先 Gemini 与 GPT;
组成“AI 学习小组”,多智能体协作完成复杂推理,Heavy 模式正确率飙升至 44.4 %;
用语音和你聊人生、唱歌剧,延迟削半、五种声线自然切换;
自己运营自动售货机、做市场预测、生成视频游戏,开始“接手任务”;
同时启动一项现实试验:月费 300 美元订阅的 SuperGrok Heavy,直击 AI 盈利极限。
硅谷权威科技媒体 TechCrunch 引述马斯克的话:
在所有学科上,Grok 4 比博士还强——没有例外。
这一轮,xAI 不讲大模型参数,而是抛出了‘多维跃迁’的能力闭环:推理能力跃迁 × 多智能体协作 × 语音演进 × 工具调用 × 商业定价试探
接下来,我们将用三段结构完整梳理这场发布会:
现场纪实:拆出直播中的 6 个爆点瞬间;
技术 × 商业:五重跃迁能力背后的工程机制与算力支撑;
趋势启示:Grok 模式对中国 AI 公司、Agent 平台、商业模型的可比照启示。
Grok 4 是模型,更是能干活的工具;这场发布,是第一次展示它到底能做什么。
第一节|推理觉醒:Grok 4 为什么能赢过博士?
1 、不是背题,是理解:Grok 开始“自己想”
这次,马斯克没有在喊口号,而是拿出了一张极具说服力的成绩单。
在这场直播中,Grok 4 首次公开参与上图的 Humanity’s Last Exam(HLE)——一份由专家设计、几乎覆盖所有大学学科的超级试题库。没有网络答案、没有套题训练,是真正考模型的“理解力”和“推理能力”。
结果是:Grok 4 的无工具版本正确率达到 25.4%,比 Gemini 2.5 Pro 和 OpenAI 最新模型都高出一截。而在启用工具能力后,Grok 4 Heavy 的正确率直接拉升至 44.4%,几乎把竞品甩开 18 个点。
这不是一次纯粹的“卷参数”比拼,而是能力本质的变化:模型不仅能选出答案,还能解释“为什么是这个答案”。
在演示中,Grok 4 被要求解答一道关于范畴论中“自然变换”的数学题,模型不仅推导出正确答案,还展示出完整的推理路径,包括“为什么这个定义能推出那条结论”。这类推理,从前只能靠博士生一点点分析,现在模型能独立完成。
现场技术负责人补充说:
“我们不是让模型记住题目,而是让它学会怎么去思考。”
过去的大模型,更像是把大量语料压成一个预测系统,它“猜”你想听什么。而 Grok 4 的升级,在于它真正做了一件事情:开始按逻辑一步步地去“想”。
这一点,在另一个 benchmark 上也得到验证:Grok 4 在 ARC-AGI-2 图形推理测试中取得了 16.2% 的正确率,刷新商用模型纪录。这个测试专门设计用来“卡死”语言模型,让它们无法靠“见得多”来答对。
二、不是选答案,是解释思路:AI 开始学会“讲逻辑”
而 Grok 4 不但答对了,还能在如上图的多个领域维持一致性。从语言学、化学、物理,到哲学、工程,团队成员总结:
“你可能某一学科很强,但没有人能在所有领域都达到这个水平,Grok 4 做到了。”
这一能力的底层原因,在发布会中也被首次公开:xAI 大幅提升了训练中的推理相关比例,从过去靠预测词语,转向强化模型“推演”能力的过程训练,包括反复追问错误原因、强化纠正机制,让模型从“选项判断”变成“思路展开”。
这意味着,Grok 4 迈过了一个关键门槛:
它不只是能“答题”,它开始能“解释答案”。
马斯克的态度很明确:
“它已经比大多数研究生聪明。真正的问题,不是它有没有常识,而是我们准备好让它去思考现实问题了吗?”
这就是 Grok 4 带来的第一维跃迁:推理觉醒。
它不仅在卷积中更聪明,在每一道新题面前,也变得更有方向感。 这也为后面几节埋下伏笔——当一个 AI 不再只是懂,而是能“理解 + 做题 + 查错”,那它能不能接管现实任务?
第二节|能做事,能开工
“你可以让 Grok 经营一家公司。”
——马斯克,Grok 4 发布会现场
一、自动售货机:Grok 不只懂经营,还能坚持策略
Grok 4 不只是一个会考试的聪明人,它开始变成一个“能干活的合伙人”。
在发布会中,马斯克团队公开了一组现实任务模拟实验: 不是答题、不是聊天,而是经营一台自动售货机。
他们给 Grok 的任务是: 决定卖什么、怎么定价、什么时候补货、和谁谈供应商。 这听起来简单,但放进一个长时间运行的商业场景里,能不能持续做出对的决策、能不能避免赔本,其实非常难。
结果是:在如上名为 Vending Bench 的对比测试中,Grok 4 成为第一个净利润得分翻倍的 AI 模型,也是唯一一个能“连续跑完完整经营周期”的模型。
测试负责人评价说:
“其他模型能做单点决策,但 Grok 4 是第一个能坚持一个策略走下去,并长期保持盈利的。”
这背后,是 Grok 4 的“强化学习能力”升级:它开始能从一轮又一轮的反馈中学经验,知道什么时候该换供应商、什么时候该涨价、什么时候先清库存。
二、3D 游戏生成:素材全包、结构自建,一个 AI 顶一个团队
不仅如此,团队还展示了另一个任务落地案例:自动生成一款 3D 视频游戏。
xAI 找来一位游戏开发者,在 Grok 4 的协助下,用不到四个小时就搭建出一款第一人称射击游戏。
值得注意的是:这个过程中,Grok 不仅帮忙写代码,更重要的是—— 它帮开发者自动搜索素材、找图像资源、组织游戏结构,让人类只专注“想怎么玩”,其他都交给它处理。
开发者现场反馈:
“这不只是开发加速,而是把一整个游戏美术、素材、结构工作,外包给了一个 AI。”
三、科研助手:几百万条实验日志,Grok 秒筛最有可能成功的假设
第三个现场任务,是科研。
位于帕洛阿尔托的 ARC 研究所,已经在用 Grok 4 来加速生物医药实验。 任务是:在几百万条实验日志中找出“最可能成功”的假设。
以前这个任务要团队花几天到一周分析,Grok 只用了几秒。 它能读完数据、筛掉无效信息,再把几条最有价值的线索甩给研究员验证。
他们这样描述 Grok:
“Grok 是 AI 工厂的雏形,它可以一个人运营一家公司、跑一个实验流程、做一个数字产品。”
这一节我们看到的,是 AI 的第二维跃迁: 从答题型 AI 变成执行型 AI。
它不只是理解、解释,而是开始接管一整个流程,完成一整个任务。
第三节|不是一个 AI 更聪明,而是一群 AI 在合作
(马斯克,Grok 4 Heavy 演示现场)
一、Grok 组成“学习小组”,答案不是选出来的,是讨论出来的
在发布会中,xAI 团队展示了一个全新的能力: Grok 4 不只是一个模型,而是可以组成‘AI 学习小组’,像人一样一起思考。
这个模式被称为 Grok 4 Heavy。它的核心不是让模型更大,而是让多个模型同时参与解决一个问题,每个模型独立推理,然后彼此分享自己的“思路”和“答案”。
团队成员介绍道:
“这不只是多数投票,Grok 会对比每个回答是怎么得出的,然后选出最有说服力的那一个。”
也就是说,这群模型之间是有“讨论”的。 他们并不是单独答题,而是像学生组队做作业: 有的先找出关键线索,有的先解出难点,有的先发现陷阱,然后互相参考,最后选出最佳方案。
举个例子:在演示中,Grok 被要求解答一道文字逻辑题。 单个模型的答题正确率只有 25%,但当 Grok 4 Heavy 模式启动后,多个模型给出不同答案,再逐一比对、改进,最终答题正确率提升到 44.4%。
马斯克这样解释说:
“这就像一个讨论组,哪怕只有一个人真正搞懂了题,其他人也能学到他的思路,最后整个小组答对了。”
二、AI 开始“分角色协作”,不是一个模型,而是一个小团队
这个过程并不简单,模型必须能理解对方的答案在讲什么,还要看对方是不是搞错了,再自己修正。 它们不只是“列选项”,而是在一起“解决问题”。
马斯克称这种方式为:
“测试时计算(Inference-time compute)的大跃迁。”
它的意思是:AI 在运行时,不是单线程做事,而是并行尝试多个方向,然后像拼图一样合在一起,尽可能把复杂的问题拆解透彻,再找出最靠谱的解法。
更重要的是,这个协作能力并不依赖人来指挥。 而是 Grok 自己决定——现在这个任务够复杂,需要“召集一群自己”来完成。
团队还提到,如果这种协作方式继续扩展,未来 Grok 能自发形成角色分工,比如有的模型负责搜索信息,有的模型专门审查错误,有的模型提出新方法,就像一个团队中的不同岗位。
这是这场发布会中最隐蔽、但最值得关注的跃迁:
“AI 不再是一个更聪明的个体,而是一个能组成团队的智能群体。”
这意味着未来的 AI 工厂,可能不是靠一个超级模型完成所有工作,而是像一个多角色分工协作的小型组织,每个 Agent 负责不同任务,最后一起交付一个完整结果。
第四节|会说话,还会“唱”:Grok 4 进入语音时代
“你想听 Grok 唱一段关于健怡可乐的歌剧吗?”
——发布会主持人
一、不是读出来,而是“说出来”:语音自然、语调有情绪
这不是段子,而是 Grok 4 的一场真实演示。
发布会中,xAI 团队现场展示了 Grok 4 的语音新能力:对话更自然,语气有情绪,语速反应更快,还能唱歌。
他们推出了 5 种新的人声角色,包括能够表达丰富情感的英音女声 Eve。整场演示中,Eve 与主持人展开了一段充满情绪、节奏感流畅的语音对话。
主持人问 Eve:
你现在正在面对上百万观众,紧张吗?
Eve 的回应像是在舞台上自言自语:
哦,这让我想起了在老维克剧院登台演出的时刻。 满场的目光,一片静默中的期待。那种感觉,既紧张,又兴奋。
接着,主持人即兴提议:你能即兴唱一段关于健怡可乐的歌剧吗?”
Eve 没有犹豫,立刻用略带戏剧感的语调“演唱”了一段:
哦,健怡可乐,你这神圣的灵药, 泡沫在银色罐中起舞, 清脆的吻落在嘴唇, 阿斯巴甜与我,永远一对。
这不是提前录制的台词,而是实时生成的语音输出。你甚至可以听出节奏、换气、轻重变化。
二、不止能接话茬,还能唱歌、玩梗、识头像
更重要的是,它不仅发音准确,还带有风格。
语音团队成员介绍,Grok 4 新语音的延迟被削减了一半,响应更快,语调更灵活:
我们追求的不是速度最快,而是说话像人、有情绪、有反应。
随后,主持人与 Grok 玩起了一个接龙游戏:
主持人说“1”,Grok 说“1”;
主持人说“2”,Grok 说“2”……
到“5”时,Grok 不但接住了,还加了一句:“下一个你要说什么?”
这场互动的亮点,不在于内容复杂,而在于节奏丝滑,没有打断、没有延迟,像朋友之间自然地接话。
团队成员补充道:我们不想让 AI 像机器人,而是像一个可以交谈的人。
更进一步,Grok 还能结合搜索工具和语音模型,用说的方式做出复杂回应。
在现场,团队让 Grok 去找出 XAI 员工里头像最怪的人是谁。模型不仅理解了“什么是奇怪”,还学会了搜索头像、对比照片风格,最后选出了一张比较浮夸的自拍,并且用语音补了一句:
“这张照片……可能不是真的他本人,但很有趣。”
台上台下都被逗笑了:
“Grok 现在已经可以看懂你的头像风格,还能用语音调侃你。”
这就是 Grok 的第四维跃迁:从“语言模型”进化成“表达型伙伴”。
它不仅会说话,还懂得风格、情绪、互动节奏。
它不仅能给你答案,还能用你喜欢的方式表达出来——唱出来、调侃出来、陪你玩出来。
第五节|300 美元,谁会买?
“SuperGrok Heavy,订阅费每月 300 美元。你会买吗?”
——直播现场,主持人半开玩笑地问
Grok 4 是这场 AI 大战中,第一款敢定到 300 美元的个人订阅模型。
这一价格,不是给大公司,而是给普通用户——每月 300 美元,能用上“最高配置版本”的 Grok 4 Heavy 模型。包含:
高并发使用权限(多个窗口同时跑)
多智能体推理能力(自动组成 AI 小组)
工具调用特权(提前体验未来 agent)
实验功能优先(像游戏测试服,抢先上新)
马斯克给这个版本起名叫:“SuperGrok Heavy”。
从商业角度分析,这很可能是 xAI 对其未来商业模型的试验版本。
一、为什么敢卖这么贵?xAI 抛出“三张牌”
第一张,是性能牌。
xAI 展示了一组最新测试成绩,在主流的 ARC-AGI 和 Humanity’s Last Exam 两项推理挑战中,Grok 4 在“无工具”状态下就击败了 Gemini 2.5 Pro 和 GPT-4o。
一位研究员补充:我们没比拼速度,也没用插件,就是模型自己解出来的。
第二张,是AI 工厂逻辑。
xAI 认为,模型要赚钱,不能靠“卷参数”,而要看“能不能帮用户节省时间、执行任务”。
比如自动售货机实验、科研助手任务、游戏生成演示,都是在强调一点:我们不是只卖对话,是卖一个能动手干活的数字合作者。
现在,AI 现在不只是聊天玩具,它该像流水线工人一样为你工作。
第三张,是供给稀缺 + 核心用户愿意付费。
xAI 没打算走免费铺量的免费模式,而是希望在高端市场先形成商业闭环。
正如 TechCrunch 评论:
“马斯克没有追求 MAU(活跃用户数),他更在意 GMV(付费转化)。这是另一种‘从执行开始’的打法。”
二、300 美元背后的商业信号:中国公司该怎么看?
这不是一个定价问题,而是一个战略试探。
xAI 正在测试两件事:
1、谁愿意为“执行能力”买单?
如果你是科研人员、交易员、独立开发者、自由职业者,这 300 美元可能换来的是——节省 100 小时。
2、商业模型该从哪一端切入?
不是先找企业大单,而是先从高需求个体用户入手,小切口先跑通闭环,再反向打企业市场。
这对国内很多大模型创业者是个提醒:别一开始就扑向政企大单或卷低价 API,先找真实有任务需求的个体客户,做成 AI 工具型伙伴。
特别是工具链开放策略,xAI 官方已确认:
API 已上线,支持插件调用
九月前上线 Agent 操作平台
十月前支持视频生成功能
这就意味着,SuperGrok Heavy 正在跑通“个人端 × 高频任务 × 多工具接入”的闭环路径。
马斯克没有煽情,也没有讲 AGI 时间线,他只抛出一个简单试探:
你愿不愿意,为一个真的能干活的 AI,付 300 美元?
这背后可能反映了一次现实的商业模式校准——谁能让 AI 真正执行价值闭环,谁就能拿到第一批愿意掏钱的用户。
结语|不是发布模型,而是发布“AI 工厂原型”
这场发布会,不是Grok 4 有多强,而是它如何工作、如何商业化、如何让用户愿意付费。
它给创业者抛出三个现实启示:
别从模型讲起,要从任务讲起:Grok 不是开场讲参数,而是直接唱歌剧、改头像、接预测任务。技术优势是“副产品”,而不是主打。
别等全闭环,先跑小闭环:SuperGrok 用语音 + 工具 + 角色代理,开始跑通个人端任务流水线,是“AI助手团队”的最小可用版本。
别卷免费模型,要试探付费意愿:xAI 没讲 MAU 和 DAU,只试探——有没有一群人,愿为“AI 执行力”付第一笔钱。
对大模型团队来说,这不是一场技术竞赛的直播,而是一场产品结构的提示信号:
AI 工厂不只是数据中心、API、模型堆栈, 更是“任务分解 + 工具编排 + 商业闭环”的真实演习场。
下一轮突破,不在算力,而在任务。
谁先推出第一批真正能做事、被需要、值得付费的 AI 服务,谁就能开启下一个增长爆发期。
本文由AI深度研究院出品,内容翻译整理自马斯克xAI团队Grok 4发布会。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.youtube.com/watch?v=1tQ_KrlHgfg&t=95s&ab_channel=SolvingTheMoneyProblem
https://www.teslarati.com/elon-musk-confirms-grok-4-launch-july-9-livestream-event
https://www.theverge.com/x-ai/703721/grok-4-x-ai-elon-musk-live-demo
https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/
https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/
https://www.moneycontrol.com/technology/grok-4-is-better-than-phds-in-every-subject-elon-musk-claims-as-he-launches-300-monthly-subscription-plan-article-13257379.html
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.