网易首页 > 网易号 > 正文 申请入驻

刚刚,马斯克Grok 4.1低调发布!通用能力碾压其他一切模型

0
分享至


机器之心报道

机器之心编辑部

几乎毫无预兆,马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。

就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。



Grok 4.1将立即在 Auto 模式中推送,并可在模型选择器中手动选择。



此次,Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强,与用户对话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。



马斯克在 x 上宣传一波自家模型。

为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。

与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。



接下来看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。

在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分

Grok 4.1 的非推理模式(代号:tensor)无需使用思维 token 便能即时响应,在排行榜上以 1465 Elo 分数位居第二。即便不启用推理,Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。

与 Grok 4 相比,Grok 4.1 的整体表现实现了大幅超越 ,前者此前的总排名仅为第 33 名。



情感智能

为了评估模型在个性与人际互动能力方面的进展,xAI 在 EQ-Bench3 上对 Grok 4.1 进行了测试。

EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含 45 个具有挑战性的角色扮演场景,其中大多数由预先编写的三轮对话提示组成。该基准通过多项标准验证模型的回答质量,以评估模型表现。此外,它还通过成对对比的方式,为排行榜中的每个模型计算归一化的 Elo 分数。

xAI 使用官方基准仓库运行测试,并报告评分细则(rubric score)与归一化 Elo 分数。所有分数均在遵循基准要求的条件下计算:使用默认采样参数、指定的评判模型(Claude Sonnet 3.7),并且不添加 system prompt。

结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名



以下示例展示了 Grok 4.1 对情绪类提示的回应方式:



创意写作

xAI 还在 Creative Writing v3 基准测试上评估了 4.1 系列模型的表现。

在该基准中,模型需要针对 32 个不同的写作提示生成回答,并进行 3 轮迭代。与 EQ-Bench 类似,评分同时基于评分细则(rubrics)和模型对战的归一化 Elo 分数进行计算。

结果显示,Grok 4.1 的推理模式和非推理模式位居基准测试第二和第三名,仅次于早期 GPT 5.1



以下示例展示了 Grok 4.1 在创意写作提示下的回答方式:



减少幻觉

配备搜索工具的 Fast(非推理)模型能够提供即时答案,但由于推理深度受限、工具调用次数有限,它们更容易出现事实性错误。

在 Grok 4.1 的后训练过程中,xAI 着重降低了信息查询类提示的事实幻觉。随后,xAI 在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降。

xAI 使用来自生产流量的真实信息查询请求,按类别分层抽样评估模型幻觉率。同时,也评测了 FActScore —— 一个包含 500 个关于不同人物的传记类问题的公共基准测试。



更多 Grok 4.1 的技术细节请参阅模型卡:



模型卡地址:https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf

官方博客:https://x.ai/news/grok-4-1#silent-rollout-november-114-2025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西贝创始人贾国龙发长文为华杉正名:华与华是“最好的企业咨询公司”,当时他流泪劝我不要回应,是我不听

西贝创始人贾国龙发长文为华杉正名:华与华是“最好的企业咨询公司”,当时他流泪劝我不要回应,是我不听

大风新闻
2026-01-16 08:14:05
上午匿名投诉下午就被精准找出来,这合理吗?

上午匿名投诉下午就被精准找出来,这合理吗?

走读新生
2026-01-15 20:41:13
涉中国电动汽车,卡尼宣布大消息

涉中国电动汽车,卡尼宣布大消息

环球时报国际
2026-01-16 18:27:32
贺娇龙追悼会举行!丈夫心碎送别妻子,主编透露坠马真实原因

贺娇龙追悼会举行!丈夫心碎送别妻子,主编透露坠马真实原因

180视角
2026-01-16 15:04:46
李湘凉凉了,全网封禁仅5小时,三大疑点被扒,前夫已被抓

李湘凉凉了,全网封禁仅5小时,三大疑点被扒,前夫已被抓

查尔菲的笔记
2026-01-16 19:27:39
聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

古希腊掌管松饼的神
2026-01-16 17:04:41
央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

晓今娱
2026-01-16 11:03:57
日本半场0-1!首次丢球!U23亚洲杯最大冷门要诞生?约旦反击犀利

日本半场0-1!首次丢球!U23亚洲杯最大冷门要诞生?约旦反击犀利

大秦壁虎白话体育
2026-01-16 20:37:36
CBA出现重大丑闻,超级外援恶意操控比赛,广东队被坑了

CBA出现重大丑闻,超级外援恶意操控比赛,广东队被坑了

宗介说体育
2026-01-16 13:51:53
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

180视角
2026-01-15 13:33:23
签完了,卡尼离开人民大会堂,中方拿到了想要的,特朗普损失惨重

签完了,卡尼离开人民大会堂,中方拿到了想要的,特朗普损失惨重

时时有聊
2026-01-16 19:38:38
证监会:严查过度炒作乃至操纵市场,坚决防止市场大起大落|快讯

证监会:严查过度炒作乃至操纵市场,坚决防止市场大起大落|快讯

华夏时报
2026-01-16 17:13:05
本该发给媳妇的信息,却发到了工作群,后续让人没想到……

本该发给媳妇的信息,却发到了工作群,后续让人没想到……

环球网资讯
2026-01-15 14:50:09
尹锡悦悬崖逃生!死刑改判5年,金建希傻眼了:我的15年怎么办?

尹锡悦悬崖逃生!死刑改判5年,金建希傻眼了:我的15年怎么办?

白露文娱志
2026-01-16 15:50:23
从11000例手术到强制腾退:嫣然天使儿童医院困境揭示明星公益沉疴

从11000例手术到强制腾退:嫣然天使儿童医院困境揭示明星公益沉疴

看看新闻Knews
2026-01-16 12:37:21
A股:盘后,证监会最新发声:严肃查处!宽基ETF爆天量,下周看法

A股:盘后,证监会最新发声:严肃查处!宽基ETF爆天量,下周看法

云鹏叙事
2026-01-16 16:16:47
欧洲多国都只派几个兵去格陵兰岛,啥意思?短期考察,为军事演习做准备 白宫回应

欧洲多国都只派几个兵去格陵兰岛,啥意思?短期考察,为军事演习做准备 白宫回应

红星新闻
2026-01-16 17:43:10
-7℃!南京将有中到大雪,严重冰冻!

-7℃!南京将有中到大雪,严重冰冻!

现代快报
2026-01-16 18:41:05
曝浙江富豪俞兆洪去世,年仅48岁,心梗导致,每天坚持晨跑五公里

曝浙江富豪俞兆洪去世,年仅48岁,心梗导致,每天坚持晨跑五公里

裕丰娱间说
2026-01-16 17:23:47
2026-01-16 22:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12133文章数 142542关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

温州一家企业火了:春节放假35天 准时返岗再发5000元

头条要闻

温州一家企业火了:春节放假35天 准时返岗再发5000元

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

健康
游戏
时尚
家居
公开课

血常规3项异常,是身体警报!

LCK春季赛:T1阵容初见峥嵘,三局战胜HLE,宙斯和姑妈有点难看

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

家居要闻

岁月柔情 现代品质轻奢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版