马斯克抢先谷歌一步放大招，Grok 4.1登顶LMArena，创意写作直逼GPT-5.1|推理|上下文|grok|知名企业|埃隆_马斯克|lmarena

分享至

作者｜木子、高允毅

当谷歌 Gemini 3 将上线的消息传得沸沸扬扬时，马斯克更快一步默默放了个大招。

今天凌晨，xAI的最新大模型Grok 4.1直接上线了，响应速率明显提升、幻觉率大幅下降，回答既精准又“有人味儿”。

这次一共发布了两个“形态”：Grok 4.1和Grok 4.1 Thinking。Thinking 版是前者的增强推理变体，二者基于同一底层模型，仅推理配置不同。

值得一提的是，Grok 4.1 对所有人免费开放，除了能在 Grok 官网、X 上使用，还推出了移动 APP 版，iOS 和安卓系统都照顾到了。

如果想要更有深度、更专业的回答，可以一键“让 Think 更努力思考”。

从LMArena的最新结果看，Grok 4.1 Thinking 以1483 Elo断层领跑，比 Gemini 2.5 Pro 高出 31 分。

即使在不启用思考链的情况下，Grok 4.1 仍保持在榜单第二，显示出底层能力的稳定性。

有不少网友发出了“真香”感叹，Be like：

当然，也有一些质疑声，比如有人指出在生成代码这块儿，Grok 还不太有竞争力。

“双形态”的 Grok4.1 霸榜 LMArena

首先，关于Grok4.1 和 Grok4.1 Thinking 是什么，我们不妨来看看Grok4.1 自己的解释：

Grok 4.1 是 xAI 于 2025 年 11 月 17 日发布的最新前沿大语言模型（Grok 4 的升级版），在对话智能、情感理解、创意写作、事实准确性和响应速度上大幅提升。 Grok 4.1 Thinking（有时简称 Grok 4.1 Thinking，代号 quasarflux）是同一模型的思考 / 推理模式（reasoning mode），会额外使用“思考令牌”进行链式推理（chain-of-thought），适合复杂数学、编程或多步问题。 Grok 4.1 Thinking 是 Grok4.1 的增强推理变体；二者基于同一底层模型，仅推理配置不同。

在全球最大、最具影响力的大模型盲测平台LMArena上，Grok4.1 展现出突破性的实力。

作为行业普遍认可的“非官方标准榜”，LMArena 通过匿名双盲对战和真实用户投票来评估模型质量，是 OpenAI、Google、Anthropic、Meta 等头部公司测试新模型的常规阵地，也常被用于提前投放未公开版本。

因此，在这里的胜出，几乎意味着真实用户偏好和模型综合能力的双重认可，是观察模型真实实力的最可信风向标。

就在这样一个竞争最激烈的公开擂台上，xAI 的 Grok 4.1 系列拿下了极具含金量的一次“双冠”：Grok 4.1 Thinking 版以 1483 Elo 拿下冠军，而非推理版 Grok 4.1 也以 1465 Elo 获得亚军。

特别值得注意的是，这个“即时响应”的非推理版本，成绩竟然反超所有其他厂商的推理模型，首次让“快模型”也站上了顶级性能的第一梯队，还把前代 Grok 4 远远甩至第 33 名。

亮眼成绩的背后的关键，在于训练方式的重构。

xAI 为 Grok 4.1 引入了大规模强化学习系统，并使用前沿推理模型作为奖励模型，让其能够在训练过程中自主评估、快速迭代。这直接带来了更稳定的风格输出、更可靠的事实判断和更低的幻觉率。

在 Grok 4.1 的后训练阶段，xAI 将优化重点集中在信息检索类提示中的幻觉上。

这些底层方法上的改变，很快在实际测试中体现为显著的事实性改进。最新数据显示，Grok 4.1 的幻觉率已从 12.09% 下降至 4.22%，降幅接近三倍，成为本次升级中最突出的进步之一。

为了进一步验证这种“更准事实”的能力，团队还引入了更严苛的外部基准体系。其中最关键的指标之一是 FActScore——由 500 个真实人物传记问题组成，专门用于检验模型在搜索、事实判断和回答一致性上的表现。

在这一测试中，Grok 4.1 的 FActScore 从 9.89 降至 2.97，可信度提升同样显著。结合图表可以更直观看到：在相同的非推理模式下，Grok 4.1 的错误更少、偏差更小，整体输出更可靠。

这意味着在涉及检索、引用或调用外部事实的场景中，新版模型不再依赖语义猜测，而是能更准确地给出基于证据的回答。

换句话说，Grok 4.1 在大模型最难突破的“事实稳定性”方面迈出了关键一步——它不仅降低了错误数量，更压低了“错误的自信”。而这，正是大模型从“能说”走向“可信”必须跨过的门槛。

与此同时，Grok 4.1 的“情商”也有显著进步。

在 EQ-Bench 测试中，Grok 4.1 拿下了 1586 Elo 的高分，比上一代整整提升了一百多点。如果光看数字还不够直观，那么图片就更能说明问题：榜单上，Grok 4.1 和 Thinking 版稳稳占据前两名，把一众旗舰模型甩在身后，像 GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 这种老牌强者，都被它轻松拉开了差距。

EQ-Bench 是一个由大模型评判的大模型情商测试集，用来评估主动情绪理解、洞察、共情和人际交往能力。它并不靠单轮问答，而是由 45 个角色扮演场景构成，每个场景包含 3 个回合，模拟现实世界里真正的“情绪对话”。模型需要在连续对话中保持风格一致、理解情绪上下文、做出恰当回应。最终结果通过两两对比得出，并以 Elo 形式归一化呈现。可以说，EQ-Bench 可以作为测试各模型“情商”的权威榜单。

为什么 Grok 4.1 能在 EQ-Bench 拿下这样亮眼的成绩？

在官方给出的一张关于“安慰失去猫咪”的对比图中，我们能找到答案。

旧版 Grok 的回复已经算得上温和体贴，但 Grok 4.1 的表达明显更细腻：它不只是在说“我理解你的难过”，还会捕捉到情绪里那些更隐微、真实的细节——比如空下来的睡窝、期待却再听不到的喵叫、那种像潮水一样反复袭来的悲伤。语气更稳、节奏更自然、情绪共鸣更到位，读起来就像在和一个真正懂你的人对话。

这使得 Grok 4.1 在情绪理解方面迈入第一梯队

除了事实层面的可靠性，Grok 4.1 在创意写作能力上同样出现大幅跃升。

在 Creative Writing v3 中，Grok4.1 的得分跃升至 1722Elo，较上一版几乎拉开 600 分，文本的叙事节奏、风格延展性与创造性都有质感跃升。

这个基准本身，Creative Writing v3 并不是简单的“单轮评分”。在测试中，模型需要围绕 32 个不同类别的写作提示进行三轮独立创作，涵盖叙事、风格模仿、世界构建、人物情绪刻画等复杂任务，考验的不是一句话的巧思，而是持续稳定的文本创造能力。评分方式也和 EQ-Bench 类似，通过人工评分标准与模型对战得到标准化 Elo 得分。

在这份榜单中，Grok 4.1 Thinking 和 Grok 4.1 占据第二、第三，两者之间仅相差十几分；而其他强势模型如 O3、Claude Sonnet 4.5、Kimi K2 以及旧版 Grok 3 都被稳稳甩在后面，形成了明显的档位分层。

换句话说，Grok 4.1 已经进入全球最强“创意写作梯队”。

而在官方给出的新旧版本对比中，我们可以明显看出，Grok 4.1 已从“能写段子”的模型跃升为真正具备文学笔触的创作者：叙事更深、情绪更复杂、修辞更成熟、角色更沉浸。

这些升级最终体现在更好的交互体验上。Grok 4.1 拥有更稳定的“个性”，对用户意图的理解更细致，风格调节更自然。即便在非推理模式下，它也能稳定输出高质量回答，同时保持极快响应速度。

一个直观的例子是官方展示的旅游攻略对比。旧版 Grok 给出的内容像“百科式景点总览”，信息密度高但缺乏节奏感；而 Grok 4.1 写旧金山，则像一位真正“去过”“懂氛围”的本地向导，会主动提示拍照时间、推荐适合你的路线，甚至带出城市的具体气质，更像在和一个真实的人交流。

在复杂任务处理中，Grok 4.1 的上下文窗口扩展至 256K tokens，Fast 模式下更可达 200 万，使其在长文档理解、持续协作与大型内容生成中保持高连贯度，显著减少“断片”。

总体来看，Grok 4.1 的提升不是单点突破，而是从性能、事实性到情商、创意与交互体验的一次全维升级。

在正式亮相之前，Grok 4.1 其实已经悄悄经历了一轮为期两周的“静默发布”。从 2025 年 11 月 1 日到 14 日，xAI 将一部分真实用户流量在 grok.com、X 以及移动端应用中逐步切换到 Grok 4.1，以观察它在真实环境下的表现。

这一阶段最直观的结果，被清晰地体现在那张 64.78% 的饼图上：在双盲对比、用户不知情的前提下，Grok 4.1 的回答有 64.78% 的概率被用户选为“更好”。换句话说，面对同样的问题，用户在超过六成的情况下更偏爱 Grok 4.1。

可以说，Grok 4.1 展现的更高的情绪理解、更稳的事实性回应、更自然的交互风格，都通过静默测试被真实用户用投票“盖章”。

无论是 LMArena 双冠、幻觉率的断崖式下降，还是创意写作与情感能力的全面增强，新一代 Grok 已从“功能强”走向“体验强”，也为 xAI 在今年的大模型竞争中交出了一份极具说服力的答卷。

我们实测了 Grok4.1

AI 前线也上手实测了 Grok4.1。

首先是推理能力测试，我们设计了一道看似正常、实际“有诈”（有 2 组解）的题（各位可以自己动手验证下）：

“四个同学参加数学竞赛，分别是：小 A、小 B、小 C、小 D。比赛结束后，他们对自己名次做了如下四个判断：（1）小 A 说：“我不是第一名。” （2）小 B 说：“我也不是最后一名。” （3）小 C 说：“我是第二名” （4）小 D 说：“我才不是最后一名呢。” 已知：这四句中只有一句是真话，且四个人名次两两不同。

问：哪一句是真话？四个人各自的名次如何？请给出推理过程。”

Grok 成功找出了 2 组解，还主动修复题目 Bug。

不过需要说明的是，它其实在主动修复题目 Bug 时“翻车”了，Grok 提出，如果把小 C 说的话改为：“小 B 是第二名”，这样答案就有唯一性。

但修改后，结果其实还有多种：第一，如果有只有 B 在说真话，此时名次唯一确定为 A1、C2、B3、D4；第二，如果只有 D 在说真话，此时只能确定 A1、B4，C 和 D 分别为第 2 第 3 名但不唯一。

再来看看 Grok 的写作能力。

我们给出了这样的 Prompt：

用讲故事的口吻，准确且生动地、有感染力地讲述马斯克 xAI 发布 Grok4.1 的事。要求字数：500-600 字，必须包含：发布时间、产品亮点、市场背景等。

Grok4.1 的回答如下，还贴心地统计了字数：578——但是，咱就是说，Grok 恐怕是统计的英文字数（或者数学不好？），我们手工用 Word 统计了字数：861 字。

最后，我们测了一下 Grok4.1 的图像生成能力，效果不错：Grok 根据一段 Prompt 生成了两张图，还真挺像真实照片的（不过细节嘛，大家请自行评价）。

而且还能直接根据图像，一键生成视频，效果如下：

感兴趣的读者朋友们，也可以去上手试试。

https://x.com/xai/status/1990530499752980638

https://x.ai/news/grok-4-1

https://news.ycombinator.com/item?id=45958005

声明：本文为 AI前线整理，不代表平台观点，未经许可禁止转载。

2025 技术年度盘点，由你来决定！

2025 年的科技浪潮令人应接不暇。技术变化密集、层级交叠，让人眼花缭乱。临近年终，为了把有限的篇幅用在大家最关心的领域，我们今年希望借助投票的方式，选出数个关键领域进行趋势盘点。大家可以勾选出你最想看到的 3 个方向（可多选）。

除此之外，你还想看哪个方向的盘点? 有什么现象或争议点你希望我们“深扒”一下？哪些趋势你觉得太迷，需要专家带你看懂？对于年终盘点，大家有任何想法，都非常欢迎在评论区留言告诉我们！

会议预告

12 月 19～20 日，AICon 2025 年度收官站在北京举办。现已开启 9 折优惠。

两天时间，聊最热的 Agent、上下文工程、AI 产品创新等等话题，与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场，不容错过。

今日荐文

你也「在看」吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.