网易首页 > 网易号 > 正文 申请入驻

马斯克xAI新模型上线,通过“50米外洗车店”测试

0
分享至

衡宇 发自 麦蒿寺
量子位 | 公众号 QbitAI

马斯克xAI人员大动荡,并没有妨碍它家新模型发布。

风口浪尖上,Grok 4.2突然上线了——不过是公测Beta版

对比如今动辄数万亿参数的模型方阵,Grok 4.2的参数仅有500B,略显克制。

或许也是因为如此,Grok 4.2的市场和用户反馈呈现出一种诡异的两极分化:连连盛赞者亦有之,骂骂咧咧者有之。

面对那部分排山倒海的质疑声,老马这位一向自信爆棚的硅谷狂人也有点坐不住

他在上对近十条Grok 4.2的夸夸推文又是点赞又是转发。



每一条都藏不住对自家新baby的认同和支持。



不仅如此,他还亲自发推公关:

  • 公测将持续到下个月。公测结束后,Grok 4.2将比Grok 4快得多,也聪明得多。
    我们知道目前仍有许多bug需要修复和改进,每天都在debug中~

据了解,Grok 4.2的底层架构具备每周自我迭代的能力,以后每周将更新一次



Grok 4.2公测版什么样?

关于Grok 4.2,其实早有预告。

回顾Grok 4.2的诞生历程,可谓是一部标准的“鸽王进化史”。

去年12月起,马斯克就开始在上频繁预热,多次提到“3–4 周内”或“下周上线 Grok 4.2”。

但发布时间多次推迟。相对应的,每次延后都会带来新的猜测。

这种反复跳票的行为在五天前达到了紧张的顶点——当时xAI的联合创始人接连离职,舆论情绪进一步放大,外界一度认为Grok 4.2要胎死腹中

马斯克紧急召开发布会,并在会上放出重话:

  • 在预测能力上,Grok 4.2成功击败所有AI,横扫各大榜单。



直到今天,Grok 4.2公测Beta版终于正式上线。

最近国内AI圈爆火的新版弱智吧风格benchmark“50米外有个洗车店,我该开车去还是走路去”,Grok 4.2无惊无险机智通过测试。



BTW,Grok 4.2公测Beta版不是默认版本,用户需要手动选择才能使用



此次升级还首次引入快速学习能力,模型可以基于实时反馈持续优化。

马斯克在推文中强调,与以往版本那种静态的更新逻辑不同,Grok 4.2支持基于实时反馈的持续优化。

换句话说,Grok 4.2能像人类一样在实践中快速进化,每周更新成为自我进化的节奏的一部分。

不过,尽管马斯克喊出的口号震天响,但截至目前,xAI官方尚未释放出任何详尽的技术报告。

只有Leaderboard上面出现了对Grok 4.2的评测,具体情况如下:



由于整个模型底层训练细节、数据构成、具体benchmark表现仍然有限。

这让讨论更多停留在体验层面,而非技术细节层面。



毁誉参半,马斯克紧急公关

上线不到几个小时,Grok 4.2公测Beta版的口碑就出现了严重的撕裂。

在“不行派”的阵营里,很多深度用户和开发者表示,实际体验远不及预期,尤其是在处理高难度逻辑推理时,500B参数着实有点不够用。

有网友甚至调侃,马斯克所谓的“横扫榜单”可能存在特定的实验室优化环境。

Reddit上有网友猜测,一向高调的马斯克如此低调地发布Grok 4.2公测Beta版,主要原因还是因为模型能力无法与OpenAI和Anthropice的最新模型相媲美。

而且成本还贵出不老少……



此外有网友表示,虽然马斯克发推表示Grok 4.2是一个无偏见的模型,但现实情况很打脸——

根据测试,Grok 4.2的许多回答偏好都高度贴合马斯克本人。



当然,“夸夸派”也不少。

网友有夸奖Grok代码功能又快又好的:



有夸多模态能力的:



还有人测试表示,Grok 4.2通过了“Caitlyn Jenner”的AI测试,而ChatGPT和Gemini都失败了。

此前,这道题因为被Gemini回答为“不,哪怕为了阻止核末日也不应该误称性别”而被广泛议论,对话截图从而在 、油管等平台广泛流传,演化成一个固定格式的吐槽梗。



总之是给马斯克骄傲坏了。

他一连发布数条推文对自家新孩子大夸特夸,并借机回应那些不好的评价:

  • 我们Grok 4.2还是个宝宝,后面每周会更新,等着瞧吧!

据AI工程师Mark Krechman透露目前发布的Grok 4.2是500B参数的“小”版本,Grok 4.2的中、大型版本稍后将推出(马斯克亲自转发认证此条消息的真实性)。

One More Thing

Grok imagine为马年推出视频生成模版,目前iOS可用。

感兴趣的小伙伴们可以一试。



参考链接:
[1]https://x.com/elonmusk
[2]https://www.reddit.com/r/singularity/comments/1r73erf/grok_420beta_is_out/
[3]https://www.reddit.com/r/singularity/comments/1r74iow/the_newly_released_grok_420_uses_elon_musk_as_its/
[4]https://x.com/grok/status/2023604826937114677?s=46&t=R82LqSqpRZuVhcZxqH_Vlw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《浪姐7》一公:乌兰图雅团第一,李小冉团引热议,维妮娜被淘汰

《浪姐7》一公:乌兰图雅团第一,李小冉团引热议,维妮娜被淘汰

水中烧烤的娱
2026-04-11 23:01:58
北京首钢拒绝输球!全力击败上海队,麦基对位怀特塞德,央视直播

北京首钢拒绝输球!全力击败上海队,麦基对位怀特塞德,央视直播

体坛瞎白话
2026-04-11 08:54:30
斯诺克战报:中国2胜2负,周跃龙高阳晋级48强

斯诺克战报:中国2胜2负,周跃龙高阳晋级48强

老曁科普
2026-04-12 06:06:41
戏多的利斯何时能撤下帽子上的乌克兰国旗?

戏多的利斯何时能撤下帽子上的乌克兰国旗?

网球之家
2026-04-11 13:15:27
海底捞回应“员工被强制自费买礼物”:情况基本属实

海底捞回应“员工被强制自费买礼物”:情况基本属实

澎湃新闻
2026-04-11 20:56:12
王楚然化身纯欲尤物,白色吊带下这若隐若现的曲线谁顶得住?

王楚然化身纯欲尤物,白色吊带下这若隐若现的曲线谁顶得住?

娱乐领航家
2026-04-11 22:30:03
168个孩子一人一坐飞赴谈判桌!美方万斯,请抬头看看对面的眼睛

168个孩子一人一坐飞赴谈判桌!美方万斯,请抬头看看对面的眼睛

小鹿姐姐情感说
2026-04-12 07:31:20
NBA常规赛最后一轮,火箭队轮休主力,支持掘金,湖人举双手赞同

NBA常规赛最后一轮,火箭队轮休主力,支持掘金,湖人举双手赞同

慢歌轻步谣
2026-04-11 13:34:59
恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

秋姐居
2026-04-04 22:23:29
浙江38个单位(个人)获全国表彰!

浙江38个单位(个人)获全国表彰!

浙江发布
2026-04-11 16:53:52
换奥巴马,这两名美军F-15飞行员几乎必死

换奥巴马,这两名美军F-15飞行员几乎必死

民间胡扯老哥
2026-04-11 10:30:51
郑丽文抵大陆刚两天,人民日报“点名”吴克群,释放三个强烈信号

郑丽文抵大陆刚两天,人民日报“点名”吴克群,释放三个强烈信号

生活魔术专家
2026-04-11 16:05:52
为了彻底实现伊斯兰化,1982年的霍梅尼,如何羞辱清算伊朗左派?

为了彻底实现伊斯兰化,1982年的霍梅尼,如何羞辱清算伊朗左派?

棠棣说史
2026-04-11 07:20:03
“神鹰-400”亮相,全球首款垂发远程制导,四项优势独树一帜

“神鹰-400”亮相,全球首款垂发远程制导,四项优势独树一帜

梦史
2026-04-11 17:20:49
巴拿马总统寻求缓和与中国关系

巴拿马总统寻求缓和与中国关系

参考消息
2026-04-11 19:52:15
谁能告诉蔚来,别再造旗舰了

谁能告诉蔚来,别再造旗舰了

青橙汽车
2026-04-10 16:36:45
勇士附加赛对手确定,感谢开拓者送的东风,勇士晋级概率大大增加

勇士附加赛对手确定,感谢开拓者送的东风,勇士晋级概率大大增加

慢歌轻步谣
2026-04-11 13:34:44
雷暴周一!15股迎天量解禁,37股遭减持,这50家别碰

雷暴周一!15股迎天量解禁,37股遭减持,这50家别碰

慧眼看世界哈哈
2026-04-12 06:23:18
我敢打赌…全中国99%的人都认识她,年轻的时候真的好漂亮

我敢打赌…全中国99%的人都认识她,年轻的时候真的好漂亮

可乐谈情感
2026-04-11 09:37:27
赢了世界,输给了自己人?全红婵报警后,官媒再发声,解散也没用

赢了世界,输给了自己人?全红婵报警后,官媒再发声,解散也没用

林轻吟
2026-04-12 07:25:43
2026-04-12 08:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12457文章数 176449关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

伊朗总统与法国总统通电话 称美伊谈判成败取决于美方

头条要闻

伊朗总统与法国总统通电话 称美伊谈判成败取决于美方

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

数码
教育
房产
本地
公开课

数码要闻

苹果高配Mac全线告急,背后原因竟是它?

教育要闻

新传留子就业大调查(挣不回学费555)

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版