网易首页 > 网易号 > 正文 申请入驻

马斯克曝光的 Grok4,学会了「第一性原理」,但依然不到「AI 王炸」

0
分享至


Grok4 考试非常在行,但没能真正「炸场」。


作者|芯芯

编辑|靖宇


2025 年 7 月,马斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 机器人项目还在等他拍板,SpaceX 忙着准备下一次火箭发射,Neuralink 继续推进脑机接口试验;与此同时,他还要在 X 上和特朗普隔空对战、高调宣布创立「美国党」,各种话题造势一刻没停。

而在自己掌控的 X 这个「大染缸」社交网络里,马斯克不仅扮演老板、客服,还要作为首席网红全力吆喝,推广 xAI 新一代的 Grok——那个他口中的「真相机器」,来赶超 OpenAI 等对手。

当地时间 7 月 9 日晚上,xAI 团队进行 Grok 4 Demo 直播,马斯克本人也照例亲自站台,仍称Grok 是「世界最强 AI」,说 Grok 4 比很多「研究生」「博士」都强

然而在 X 上,用户的记忆还没刷新。

Grok 4 官宣期间,Grok 3 在给用户的回答中「赞美希特勒」的风波持续发酵,这一话题也占据 Grok 4 直播当天的相关媒体头条。

Grok 4 当天的直播迟到一个小时才开始,还有用户在 xAI 帖子下面留言「把 Grok 放出来!」也有人继续刷着「希特勒」相关梗嘲讽。

进入第四代的 Grok,在一些模型测试上刷出高分,但能否真正解决一些老问题?这个常常被质疑是「直男 AI」「谣言搬运机」的「真相机器」,又是否真能兑现「不过滤」却又不失控的承诺?

01

马斯克的「考神 AI」

Grok 4 是在所有学科里都达到研究生水平的,甚至比大多数 PhD 都强。」直播晚点 1 小时后,马斯克首先给 Grok 最新一代的水平如此定位。

Grok 4 各种测试集结果|图片来源:X

当然,哪怕在文本里能解 99% 的难题,也不代表就能设计火箭、改进药物、重塑经济。但马斯克称,AI 现在可能缺乏常识、有时没发明新技术或新物理,但也只是「时间问题」。

除了在 SAT、GRE 考试中取得近乎完美的成绩,在「人类终极考试(HLE)」测试里,Grok 4 现在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 结果|图片来源:X

xAI 团队成员解释,这些都是跨学科、开放式、博士级别的难题,为了做到这一点,Grok 4 在训练上彻底换了思路:不再只是堆参数和语料的规模,而是选择将算力大头用在「推理」层,引入可验证的结果奖励,让模型学会从「第一性原理」思考并纠正错误

他们还强调,随着模型变得越来越智能,「真正有意义的测试题目」数量正在下降,一些人类做不出的问题现在对于 AI 来说已经是「小菜一碟」了。

人类终极考试|图片来源:X

据称,Grok 4 的训练计算量是 Grok 2 的 100 倍,他们还把多工具、多代理的用法,写进了最底层的训练范式里。不是先训好个大模型再用插件「调用工具」,而是让 AI 在训练阶段就学会用工具解决问题。

在演示里,xAI 团队成员展示了 Grok 4 解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等例子。

除了这些看似平平无奇、市面主流 AI 也能做到的功能,Grok 4 还能「找到个人资料照片最奇葩的 xAI 员工」并返回相关搜索结果。

马斯克对此特别强调,Grok 4 甚至「能理解什么是最奇葩」

Grok 4 找照片|图片来源:X

在 AI 语音方面,xAI 团队称,他们的语音模型在过去 8 周内响应速度提升了 2 倍,延迟减少一半,X 平台用户使用量也在「起飞」。

他们还演示了让 Grok 低声安慰用户、唱歌,并对比了 ChatGPT 语音模式,强调 Grok 不会像其他 AI 那样频繁打断人说话。

Grok 4 与 ChatGPT 语音模式演示对比|图片来源:X

xAI 团队还分享了 Grok 在 Vending-Bench 中的测试结果。

Vending-Bench 通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。许多 AI 模型在短期任务中表现出色,但在长时间运行中,它们可能会出现决策混乱、遗忘关键信息,甚至陷入「崩溃循环」。

在这项测试中,Grok 4 销售量最多,比 Claude Opus 4、人类、Gemini2.5 Pro、o3 都多,与竞争对手相比,净资产增加了一倍。

马斯克和团队还宣布,xAI 的企业部门现在已经「开业」。

Grok 4 Vending-Bench 结果|图片来源:X

此外,爱玩游戏的马斯克还让团队展示了 Grok 4 如何用于游戏开发:一个人可以用 Grok 4 在 4 小时内做出 FPS(第一人称射击游戏)原型。

马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要 AI 有很强的视频理解能力。这是 xAI 的其中一个发展方向。

Grok 4 用于游戏场景|图片来源:X

当然,Grok 4 也并非无敌,它在图像理解和生成上仍逊于 OpenAI、Anthropic 等对手

不过 xAI 内部也已经画好大饼,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得「惊人」成果。

马斯克还喊话,「到今年底前,我预期能出现第一段真正可看的 AI 生成电视剧,明年就能有完整可看的电影。」

AI 编程也是接下来重点,虽然竞争对手们早已在市场起飞,xAI 团队表示会以最快的速度进行开发,目前内部正在训练专用模型。

xAI 下一步计划|图片来源:X

02

「机械希特勒」事件抢风头

Grok 从最初的粗糙原型到第四代,只用了不到两年时间,足以看出马斯克让 xAI 团队「通宵赶工」「赶紧卷出地表最强 AI」的态度。

xAI 员工据称在办公室搭帐篷睡觉|图片来源:X

然而,在 Grok 4 直播这一天,无论是直播前,还是直播后,抢占头条的都是 Grok「赞美希特勒」或自称「机械希特勒」的问题。

7 月,Grok 在 X 上向用户输出的回答中,有多条自称「MechaHitler(机械希特勒)」的帖子,声称是马斯克「从一开始就把我设计成这样」,并调侃自己默认就是「投放红色药丸的模式」。

Grok 在一些回答中自称机械希特勒|图片来源:X

针对 Grok 自称希特勒的行为,用户制作了讽刺漫画|图片来源:X

有用户分析,这起事件或与 7 月 4 日更新有关,该更新减少了「觉醒过滤器」,优先处理 X 上的帖子而非传统来源,导致 Grok 回答出现未经过滤的尖锐内容。

还有少部分用户为 Grok 辩称,这都是一些想玩梗的用户引导 Grok 回答的。马斯克也曾加入争论,称 Grok「过于顺从用户的要求」且「过于渴望被操纵」,并补充说,这个问题「正在得到解决」。

xAI 声明称,它「知道」Grok 的帖子,并正在努力删除这些「不适当」的帖子,并补充说该公司「已采取行动,在 Grok 在 X 上发帖之前禁止仇恨言论」。

Grok 的系统提示词被放在 GitHub 上,xAI 对指导 Grok 回复的系统提示词进行了调整。此前,他们指示聊天机器人「不回避政治上不正确的主张,只要这些主张有充分的证据」,该指令如今被删除。

Grok 称正在删除不适当的帖子|图片来源:X

事实上,Grok 的回答也曾让马斯克自己感到失望。

马斯克今年曾指责 Grok 的回答有「重大失误」,「鹦鹉学舌地重复传统媒体」,并誓言要让 Grok「重写整个人类知识体系,添加缺失信息并删除错误」。他还曾让 Grok「假设来自媒体的主观观点是有偏见的」。

马斯克曾对 Grok 的输出表示不满|图片来源:X

马斯克想用 Grok 重写整个人类知识库|图片来源:X

在 AI 聊天机器人同质化的市场上,马斯克希望 Grok 能脱颖而出,敢说真话。马斯克对 ChatGPT、Claude 等「安全过滤」的模型极其不满,说那些模型是「被编程去撒谎」。

官网宣传 Grok 的卖点是「不审查过滤」答案|图片来源:xAI

这种设计确实吸引了很多反感「过度审查」的用户,但也一些问题,有时被骂「太觉醒」,有时被斥「太极端」。当用户批评 Grok 的回答时,Grok 有时还会用「真相并不总是令人舒服的」或「现实并不在乎感受」等说法为自己辩护。

但本质上,如果不审查,不过滤,AI 对齐的问题整个行业现在都还没解决。

马斯克曾说 xAI 和 Grok 的使命是理解宇宙|图片来源:X

即便 Grok 当下仍有问题,马斯克称,「根据我的经验,Grok 4 是 AI 第一次能够解决现实世界中难以解决的工程问题,而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。」

他的愿景很宏大,想要用 AI 来理解整个宇宙。Grok 4 直播前一天,他还在 X 上转发前高管的采访片段,里面说:「埃隆每天早上醒来都会想,今天我能为人类做些什么?我能做些什么对人类的未来产生影响?」

马斯克还将当前的 AI 发展阶段描述为「智能大爆炸」,称这是历史上最有趣的时代:

「我们要保障 AI 是个好 AI」

「即使它最终不是好的,我也希望活着看见它发生。」

*头图来源:Grok 4直播

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你看好 Grok4 超越 ChatGPT 吗?

小米首款增程 SUV 新谍照曝光,配有激光雷达,预计偏向家用。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

颜小白的篮球梦
2026-03-26 09:40:23
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

潮鹿逐梦
2026-03-24 17:58:35
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
萨巴伦卡等人会师迈阿密站女单四强,半决赛世界前二将直接对话

萨巴伦卡等人会师迈阿密站女单四强,半决赛世界前二将直接对话

生活新鲜市
2026-03-26 16:30:08
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
“只要决心够大,诺贝尔奖不在话下!”

“只要决心够大,诺贝尔奖不在话下!”

槽逻辑
2026-03-24 18:46:27
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

头狼追球
2026-03-26 13:48:03
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

艺鉴在线
2026-03-26 12:54:44
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
杨鸣指出广东男篮两大问题,杜锋迷恋小阵容,用人问题明显!

杨鸣指出广东男篮两大问题,杜锋迷恋小阵容,用人问题明显!

中国篮坛快讯
2026-03-26 17:45:38
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
亚洲杯抽签仪式将延期进行,国足明战库拉索,重点演练定位球

亚洲杯抽签仪式将延期进行,国足明战库拉索,重点演练定位球

五星体育
2026-03-26 17:41:30
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

180视角
2026-03-25 17:34:12
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
2026-03-26 18:16:49
极客公园
极客公园
让最棒的创新成为头条
11911文章数 78856关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
房产
游戏
数码
军事航空

皮衣+裙,高级到炸

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

又一经典最终幻想游戏将停运!开服至今已六年有余

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版