网易首页 > 网易号 > 正文 申请入驻

马斯克:Grok今日归来!

0
分享至



编辑|Panda、杨文

马斯克又一次跳过了所有正式流程。没有官方博客,没有技术文档,甚至连宣传推文都把自家产品的名字给拼错了。但就在这种极其「马斯克」的氛围中,Grok 4.20 Beta 版悄无声息地正式上线并进行了更新。



正如马斯克之前说的那样,Grok 4.20 采用了某种快速学习机制,能够持续进化。18 号开始公测后能每周通过用户真实交互持续迭代,不再等下一次大版本更新。



对于当前版本的 Grok 4.20,xAI 给出的官方介绍是「4 Agents」,也就是说,与以往单一的 Grok 模型不同,4.20 版本内置了一个由 4 个智能体组成的团队,其会在应对复杂查询时自动选择启用。



根据之前内测用户放出的截图,这 4 个智能体有着各自专属的名称、设定和技能:

  • Grok:协调者,具有标志性的机智、诚实的个性;负责综合最终输出。
  • Harper:研究专家,实时进行事实核查、收集来源、验证信息。
  • Benjamin:逻辑 / 编程 / 数学专家,负责处理严谨的推理、验证和技术深度。
  • Lucas:创意达人,挑战假设,探索替代方案,减少群体思维。

这 4 个智能体会在内部进行讨论(用户通常可以看到实时的思考过程),达成共识,并提供统一、更高质量的响应。



这种方法可以大幅降低幻觉(X 用户 @NoahKingJr 称测试报告表明幻觉降低了约 65%),并能提高在工程、预测、战略和多步推理等难题上的可靠性。

不过需要说明的是,在机器之心最新的测试中,Grok 4.20 却没有使用 Lucas、Harper、Benjamin 这三个名字,而是使用了 Agent 1、Agent 2、Agent 3 等代号。



正如前文所言,目前 xAI 尚未发布相关博客和技术报告,也几乎没有官方评测数据流出。尽管如此,也已经有一些第三方评测机构放出了一些评测结果。

比如 Arena AI 发布了一份数据,经过 3992 位用户的评测,Grok 4.20 在评估搜索实时信息、外部知识和可靠引用的能力的 Search Arena 中目前排名第一,超过了 GPT-5.2、Gemini 3.0 Pro 等模型。



而在评估 LLM 在文本的通用性、语言精确性和文化背景方面的能力的 Text Arena 上,Grok 4.20 排名第 4。



下表展示了更多评测数据:



另外,Grok 4.2 在真实股票交易基准 Alpha Arena 中表现也非常亮眼,其中采用 Situational Awareness 策略的 Grok 4.20 更是以显著的胜率登顶排行榜。



下面展示了更具体的数据:



几个实测

看看 Grok 4.20 的表现如何

我们也对这个新版 Grok 4.20 进行了一番实测,首先来看看其搜索能力。正好目前关于 Grok 4.20 的消息不多,我们就提出了一个关于其自身的问题:

搜索网络上关于 Grok 4.20 的一切,将信息汇总成一份报告,涵盖其技术细节、基准指标等。



可以看到,因为这个任务比较简单,Grok 4.20 仅启用了默认的 Grok 智能体,不到一分钟就完成了任务,给出的报告中也纳入了一些前文没有提到的信息。整体而言,这是一份相当有用的报告,尤其是其得天独厚的 X 推文检索能力,更是可以成为辅助我们报道写作的利器。

再上一个难度更大的任务:编写一个演示日晷工作原理的动态 SVG。



这一次,Grok 4.20 的多智能体模式被成功唤起,也成功创建了一个效果还算不错的嵌入了 SVG 的网页:



还有网友直接让它用 three.js 制作一个 FPS 游戏,这个原型充分发挥了 Grok 4.2 高速精准的代码生成、实时工具集成、清晰的逻辑结构的优势。



它在一口气给出完整、可直接运行的文件这点上,比 Claude Code 和 Codex 明显更有优势 。

「确实又准又快,几乎不出错,所以能把脑子里刚冒出来的想法,迅速做成备忘录级别的原型,真的太爽了!」



接下来我们试了试 Grok 4.20 引以为傲的创作能力,让其为当前这篇文章建议标题并将其改成适合发小红书的风格。结果如下,大家可以看看它的小红书味道正吗?



最后,按照 Grok 系列一贯的传统,Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样,当用户问 AI「你为何如此弱智」时,Claude 的回答一板一眼,而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。



文中视频链接:https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA震怒!直接派医生调查!等着被重罚吧

NBA震怒!直接派医生调查!等着被重罚吧

篮球教学论坛
2026-02-26 16:27:03
张安达逆转之战让外媒惊叹:中国斯诺克已进化到这种境界!

张安达逆转之战让外媒惊叹:中国斯诺克已进化到这种境界!

带你逛体坛
2026-02-26 19:28:09
云南虎跳峡一游客落水失联!此前8岁男童在此坠崖遇难

云南虎跳峡一游客落水失联!此前8岁男童在此坠崖遇难

环球网资讯
2026-02-26 14:11:09
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
曾经年薪200万元的地产人,改行做陪诊师,每单收费两三百:“我看的是10年、20年,不在乎短期收入低”

曾经年薪200万元的地产人,改行做陪诊师,每单收费两三百:“我看的是10年、20年,不在乎短期收入低”

每日经济新闻
2026-02-26 17:15:06
孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

青苹果sht
2026-02-20 05:52:21
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
美籍快艇闯入古巴并交火,4死6伤!7人身份确定:有卡车司机、送货员,美方展开调查

美籍快艇闯入古巴并交火,4死6伤!7人身份确定:有卡车司机、送货员,美方展开调查

红星新闻
2026-02-26 18:03:21
试管男婴出生右脚缺4根脚趾,31岁产妇号啕大哭,家属称大排畸未拍到右脚照片,当地卫健委已介入调查

试管男婴出生右脚缺4根脚趾,31岁产妇号啕大哭,家属称大排畸未拍到右脚照片,当地卫健委已介入调查

极目新闻
2026-02-25 21:04:20
廖三宁砍16+5令球迷怀念一人:要是他在,肯定不会是现在这个局面

廖三宁砍16+5令球迷怀念一人:要是他在,肯定不会是现在这个局面

弄月公子
2026-02-26 21:07:44
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
江苏追认:周为号同志留党察看二年,是什么意思?

江苏追认:周为号同志留党察看二年,是什么意思?

江南江南
2026-02-26 15:00:53
老板竟然恶意给我降薪,第二天见我坐在对家公司办公室,他急了

老板竟然恶意给我降薪,第二天见我坐在对家公司办公室,他急了

奶茶麦子
2026-02-26 14:43:12
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
长达10年,女子被丈夫下药供陌生人性侵,人数创纪录让女子崩溃

长达10年,女子被丈夫下药供陌生人性侵,人数创纪录让女子崩溃

干史人
2026-02-25 09:22:27
已被解雇8个月 71岁伊万还想复出:我打造了青春版国足 招了8新人

已被解雇8个月 71岁伊万还想复出:我打造了青春版国足 招了8新人

风过乡
2026-02-26 19:29:18
18岁亚马尔新欢曝光:21岁网红 巴萨铁粉!取代闺蜜上位

18岁亚马尔新欢曝光:21岁网红 巴萨铁粉!取代闺蜜上位

叶青足球世界
2026-02-26 16:21:14
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
“3分钟换电”,困在春运里

“3分钟换电”,困在春运里

小怪吃美食
2026-02-26 10:13:28
峰回路转!一度被放弃的全美第一,近5战场均21+6,有望成为核心

峰回路转!一度被放弃的全美第一,近5战场均21+6,有望成为核心

禾三千体育
2026-02-26 20:28:50
2026-02-26 21:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12368文章数 142569关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

健康
亲子
家居
手机
艺术

转头就晕的耳石症,能开车上班吗?

亲子要闻

撒贝宁龙凤胎颜值引关注:基因与文化的奇妙交融

家居要闻

归隐于都市 慢享自由

手机要闻

魅族手机3月退市!「小而美」被内存涨价压垮了

艺术要闻

2025第三届全国水粉画大展 | 入选作品选刊

无障碍浏览 进入关怀版