网易首页

注册免费邮箱

网易首页 > 网易科技 > 网易科技 > 正文

AI榜单“变天”了！马斯克发布Grok 4.1，盲测排名登顶第一

2025-11-18 08:23:23　来源: 网易科技报道

北京举报

0

分享至

就在OpenAI发布GPT-5.1，大谈“情商”之际，埃隆·马斯克（Elon Musk）也带着他的xAI，火速加入了这场“AI体验”之战。

就在刚刚，xAI宣布推出Grok 4.1，这是对现有Grok 4模型的重大升级，并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称，新版本在创意表达、情感互动和协同交流方面表现尤为突出，并且出现幻觉的概率仅为此前模型的三分之一。

更引人注目的是，在一个公开的“盲测”竞技场（LMArena）上，Grok 4.1的“思考模式”版本已悄然登顶总榜第一，甚至其“非推理”的快速模式，都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”，无疑为日趋白热化的AI竞赛，又增添了浓重的火药味。

Grok 4.1升级了什么？

xAI本次发布了两个Grok 4.1模型：Grok 4.1（非推理模式）和 Grok 4.1 Thinking（思考模式）。这两个模型均可免费使用，但付费用户面临的限制更少。

官方表示，新版本能更细致地理解隐含意图，与之对话引人入胜，也更能保持人设的一致性。

为了优化模型的风格、人格和有用性，xAI利用前沿的代理型推理模型（agentic reasoning models）作为“奖励模型”，在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间，xAI在真实流量上进行了盲测式的成对比较评估，结果显示，在64.78%的情况下，用户更偏好Grok 4.1。

“盲测”登顶，Grok 4.1到底有多强？

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具，用户可以通过并排、盲测的方式，比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里，Grok 4.1取得了惊人的成绩：

· Grok 4.1的“思考模式”（代号：quasarflux）以1483 Elo的成绩位列总榜第一，领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”（代号：tensor）无需使用“思考词元”（thinking tokens），可立即生成回答，并以1465 Elo的成绩排名第二。

· 更夸张的是，Grok 4.1的“非推理”模式表现，超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。

与之相比， Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”，一个都不能少

除了通用能力，xAI还强调了新模型在“软实力”上的提升。

· 情绪智能（Emotional Intelligence） 为评估模型在个性与人际互动方面的进展，xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试，用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力（Creative Writing） xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中，模型需要根据32个不同的写作提示，在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后，虽然能迅速给出答案，但更容易出现事实性错误。

在Grok 4.1的后训练阶段，xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法，Grok 4.1出现幻觉的概率是此前模型的三分之一，这使其成为xAI迄今为止的最佳版本之一。

为了验证这一点，xAI不仅在真实的生产流量中进行了评估，还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来：真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然，但AI的王座之争远未结束。

目前，我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是，谷歌（Google）正在准备发布Gemini 3.0，这可能会成为迄今为止最强大的模型。

Grok 4.1的发布，无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中，谁能笑到最后，还远未可知。（易句）

（本文由AI翻译，网易编辑负责校对）

延伸阅读

本文来源：网易科技报道责任编辑：王凤枝_NT2541

相关推荐

热点推荐

马斯克：3年内机器人超越顶尖医生

财联社 2026-01-09 15:31:35
2 跟贴 2
马斯克坦言智能密度被低估100倍

机器之心Pro 2026-01-07 18:40:30
15 跟贴 15

FAA监管松绑？马斯克让美国商业航天开上高速公路

翔说航天 2026-03-24 08:40:00
0 跟贴 0

黄仁勋GTC直言：现在是OpenClaw的时代，SaaS都将变AgaaS

机器之心Pro 2026-03-17 17:22:21
7 跟贴 7
马斯克拿1万亿工资，为什么大家都觉得超值

雷科技 2025-11-08 14:17:34
0 跟贴 0

马斯克放出Optimus最新视频，称有望在今年夏季启动量产

华尔街见闻官方 2026-03-26 14:11:25
29 跟贴 29

马斯克发布最强芯片计划，目标年产1太瓦算力

量子位 2026-03-25 20:15:13
0 跟贴 0
人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
0 跟贴 0

马斯克的小目标：星舰10000发/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
0 跟贴 0
马斯克用Grok替代X员工，裁员90%

量子位 2025-11-29 16:58:47
0 跟贴 0
贝佐斯创业，马斯克嘲笑，两人的恩怨纠葛20年

量子位 2025-11-22 12:44:22
0 跟贴 0
在四五年内，在太空运行大规模AI将比地面更划算

每日经济新闻 2026-01-22 12:48:26
0 跟贴 0
马斯克私生子众筹，赴美认亲，这张脸就是最好的权威

柠檬瞰趣事 2026-03-26 14:06:44
3 跟贴 3
特斯拉CEO马斯克大胆预测：未来人人都有高收入，AI驱动财富大爆发

知了3C 2026-03-24 02:54:26
0 跟贴 0
马斯克4秒挣的钱相当于普通人一年的收入

每日经济新闻 2026-01-21 00:05:31
0 跟贴 0
马斯克造车是否偷工减料？大哥揭秘一目了然，伤害不大侮辱极强！

王芸爱搞笑 2026-03-26 17:07:29
1 跟贴 1
马斯克介绍特斯拉的车门，瞬间打败国内厂商，这才是真正的技术

逗乐先锋队 2026-03-24 09:41:51
1 跟贴 1
17岁高中生破解AI底层难题，马斯克都点赞！

许泽玮 2026-03-23 21:45:58
0 跟贴 0
科技圈3大肝帝！最后一个连睡觉都在干活

雷科技 2026-02-03 20:54:35
0 跟贴 0
马斯克最新回复来了

新浪财经 2026-03-26 19:29:33
0 跟贴 0
马斯克：巅峰产生虚伪的拥护黄昏才能见证虔诚的信徒

网易科技态度见闻 2026-03-24 18:13:29
0 跟贴 0
特斯拉或在准备新车型马斯克透露比小型货车炫酷的多

TechWeb 2026-03-26 17:54:07
0 跟贴 0
疑似特斯拉Model Y L现身得州工厂，马斯克曾称短期不会登陆美国

IT之家 2026-03-26 16:31:09
0 跟贴 0
养虾省91%词元！这家AI记忆公司用1亿个多模态文件验证了！

机器之心Pro 2026-03-25 11:01:48
1 跟贴 1
OpenAI重磅揭秘：你认为的AI幻觉，可能是模型故意出错

新智元 2026-03-25 08:36:09
64 跟贴 64
马云树下听戏乘凉，马斯克开源特斯拉，同样都是姓马的人！

滨彬爆笑社 2026-03-25 10:06:12
1 跟贴 1
瘫痪23年后，他用脑机接口打魔兽

量子位 2026-03-20 04:40:54
0 跟贴 0
护士都得懂点推理，听完患者的话护士秒懂，原来是馋虫作祟！

环游旅行家 2026-03-26 09:02:49
0 跟贴 0
马斯克的战争预言，会成真吗，看起来有点背道而驰

君子搞笑 2026-03-26 09:13:33
3 跟贴 3
马斯克盛赞中国：人口更多更努力，美国靠机器人才能赢

量子位 2026-02-12 03:27:32
0 跟贴 0
【吃透 Kimi 前沿创新】Attention残差如何重构Transformer架构？马斯克都点赞！

卢菁老师 2026-03-24 09:29:37
0 跟贴 0
马斯克达沃斯震撼发言：人类终将找到逆转衰老之法！

财联社 2026-01-23 14:47:16
0 跟贴 0
TechWeb微晚报：雷军辞任金山云董事长，问界M7未提车就变“老款”？

TechWeb 2026-03-26 17:22:04
0 跟贴 0
马斯克下场抢人 xAI组建人才狙击队让工程师做HR 马斯克亲自组建xAI“人才狙击队”：让工程

量子位 2026-01-22 12:57:14
0 跟贴 0
于东来从30岁开始吃药，拍CT上百次，身体出什么问题都不足为奇，哪天说不定没了就没了

新闻晨报 2026-03-25 21:24:37
4527 跟贴 4527
纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1887 跟贴 1887
新番资讯，被杀后在助手膝枕下复活顺便破案的侦探日常

起纛漫说 2026-03-23 18:01:37
0 跟贴 0
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
44 跟贴 44
张少康辞去广东省人民政府副省长职务

新快报新闻 2026-03-26 11:50:03
20 跟贴 20
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
2 跟贴 2

黄金、白银，直线跳水！特朗普，大消息！

黄金、白银，直线跳水！特朗普，大消息！

证券时报e公司

2026-03-26 14:47:48

跟着黄仁勋下注：如今的token可能就是20年的房子

跟着黄仁勋下注：如今的token可能就是20年的房子

梦大明白

2026-03-24 11:05:49

重返广东！李春江有了新工作，亮相篮球场，岗位曝光，杜锋期待

重返广东！李春江有了新工作，亮相篮球场，岗位曝光，杜锋期待

萌兰聊个球

2026-03-26 13:02:53

江苏省盐城市政协原副主席潘道津接受审查调查

江苏省盐城市政协原副主席潘道津接受审查调查

界面新闻

2026-03-26 19:12:28

日产43万桶炼油厂被炸！特朗普遭背刺，油价飙11元，重油全砸手里

日产43万桶炼油厂被炸！特朗普遭背刺，油价飙11元，重油全砸手里

李健政观察

2026-03-26 11:21:58

中国最丑18大建筑：南京卫生巾、昆山螃蟹，不忍直视！

中国最丑18大建筑：南京卫生巾、昆山螃蟹，不忍直视！

秘密即将揭晓

2026-03-25 16:56:26

是什么，让这个日本自卫官竟敢对中国大使馆举刀？

是什么，让这个日本自卫官竟敢对中国大使馆举刀？

环球时报国际

2026-03-26 00:13:51

四天619次进攻、6090人伤亡：俄春季攻势为何高伤亡低战果？

四天619次进攻、6090人伤亡：俄春季攻势为何高伤亡低战果？

高博新视野

2026-03-25 08:00:28

石油危机一旦爆发，房子、现金、股票、黄金谁最危险？

石油危机一旦爆发，房子、现金、股票、黄金谁最危险？

蜉蝣说

2026-03-26 16:52:10

浙江省高校排名更新！宁波大学第4，浙工大第7，温州医科大仅排14

浙江省高校排名更新！宁波大学第4，浙工大第7，温州医科大仅排14

朗威谈星座

2026-03-26 18:09:46

蒋介石下令炸开汪精卫之墓，发现他身上放着一张纸条，写了何内容

蒋介石下令炸开汪精卫之墓，发现他身上放着一张纸条，写了何内容

北海史记

2026-03-26 15:06:32

80年陈云建议陈锡联辞职，陈锡联猛拍桌：让我干啥，我绝无二话！

80年陈云建议陈锡联辞职，陈锡联猛拍桌：让我干啥，我绝无二话！

抽象派大师

2026-03-25 12:04:28

梁兴初被隔离审查8年，自由后叶帅给出两个选择，梁：一个也不要

梁兴初被隔离审查8年，自由后叶帅给出两个选择，梁：一个也不要

兴趣知识

2026-03-25 12:32:27

油价调整：注意，预计下调120元/吨，油价突破下调红线！

油价调整：注意，预计下调120元/吨，油价突破下调红线！

金投网

2026-03-26 11:16:05

张雪峰猝死事件发酵！网传内蒙一公司老板开会，出资全员急救培训

张雪峰猝死事件发酵！网传内蒙一公司老板开会，出资全员急救培训

火山詩话

2026-03-26 10:42:17

迟迟都等不到中企复工，巴拿马头号帮手已介入，中方加强港口管制

迟迟都等不到中企复工，巴拿马头号帮手已介入，中方加强港口管制

福建平子

2026-03-26 09:00:29

森林狼逆火箭：申京努力了，然而杜兰特啊

森林狼逆火箭：申京努力了，然而杜兰特啊

张佳玮写字的地方

2026-03-26 13:03:18

东北两省书记省长会见刘强东

观察者网

2026-03-25 21:43:37

伊朗：击中击落美以202架飞机；以方：坦格西里身亡，他负责封锁霍尔木兹！想快速抽身，特朗普：打伊朗不是战争，是“军事行动”

伊朗：击中击落美以202架飞机；以方：坦格西里身亡，他负责封锁霍尔木兹！想快速抽身，特朗普：打伊朗不是战争，是“军事行动”

每日经济新闻

2026-03-26 17:27:09

伊媒：伊朗若遭美国地面入侵将打击曼德海峡

伊媒：伊朗若遭美国地面入侵将打击曼德海峡

参考消息

2026-03-26 11:02:08

网易新闻

iOS

Android

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

教育

旅游

房产

公开课

艺术要闻

哪一座桥不是风景？

教育要闻

来上课了——高考阅读难题大综合（细节+主旨+含义）（下）第1段

旅游要闻

20元人民币背景观景台乱收费？景区通报：不存在封闭管控、强制收费等

房产要闻

突发，三亚又有大批征迁补偿方案出炉！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版

×