网易首页 > 网易科技 > 网易科技 > 正文

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

0
分享至

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。


就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。


“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。


与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
快船2连败后,裁判解释判罚,科林斯很坦诚,马克西表态哈登

快船2连败后,裁判解释判罚,科林斯很坦诚,马克西表态哈登

体坛大辣椒
2025-11-18 14:49:02
工龄40年,个人账户385565.08元,60岁2个月退休,养老金能拿多少?

工龄40年,个人账户385565.08元,60岁2个月退休,养老金能拿多少?

养老规划罗姐说
2025-11-16 19:54:29
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
娃哈哈2025年实现了5亿收入增长,但全年收入并未公开

娃哈哈2025年实现了5亿收入增长,但全年收入并未公开

第一财经资讯
2025-11-18 18:58:10
别以为日本现在不敢对中国开战,赌国运是他们千年来一贯操作!

别以为日本现在不敢对中国开战,赌国运是他们千年来一贯操作!

阿胡
2025-11-16 12:08:43
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

明月清风阁
2025-11-14 15:20:03
赛季第一支10连胜球队!核心伤缺难阻活塞高歌猛进

赛季第一支10连胜球队!核心伤缺难阻活塞高歌猛进

体坛周报
2025-11-18 18:18:11
女儿怒怼父亲“没钱别生我”,父亲一番话刷屏:生你不是欠你

女儿怒怼父亲“没钱别生我”,父亲一番话刷屏:生你不是欠你

娱乐洞察点点
2025-11-12 11:27:45
回顾:张扣扣被执行死刑后,父亲拒绝领骨灰,回应:我永远都不要

回顾:张扣扣被执行死刑后,父亲拒绝领骨灰,回应:我永远都不要

博览历史
2023-11-19 20:00:03
许绍雄出殡众星相送,78岁林子祥双眼含泪,佘诗曼哭着脸奔赴灵堂

许绍雄出殡众星相送,78岁林子祥双眼含泪,佘诗曼哭着脸奔赴灵堂

开开森森
2025-11-18 11:22:50
暂停!“感受到中方态度的严厉”

暂停!“感受到中方态度的严厉”

观察者网
2025-11-18 10:04:03
这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

翻开历史和现实
2025-10-12 15:49:50
41岁张翰看“婚房”!徐汇350大平层7500万,售楼小姐姐蹲地服务

41岁张翰看“婚房”!徐汇350大平层7500万,售楼小姐姐蹲地服务

翰林涛涛
2025-11-16 17:03:32
欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

正经的烧杯1
2025-11-14 21:09:14
官媒锐评张伟丽挑战失败,言辞犀利,释放3大信号,体坛风向变了

官媒锐评张伟丽挑战失败,言辞犀利,释放3大信号,体坛风向变了

好贤观史记
2025-11-18 17:08:16
谢谢陈思诚,贡献出25年年底内娱最大的笑话!

谢谢陈思诚,贡献出25年年底内娱最大的笑话!

娱乐圈笔娱君
2025-11-18 18:12:15
此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

乡野小珥
2025-10-19 14:41:29
女篮新霸主横空出世!一年内狂揽三冠:郑薇确实比宫鲁鸣更强?

女篮新霸主横空出世!一年内狂揽三冠:郑薇确实比宫鲁鸣更强?

篮球快餐车
2025-11-18 08:09:44
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
2025-11-18 19:40:49

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

家居
旅游
教育
艺术
军事航空

家居要闻

彰显奢华 意式经典风格

旅游要闻

新疆新源县:萨哈景区初雪至 冰雪秘境引客来

教育要闻

论区老师“拗柴”与中考体育满分之间的逻辑必然性

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版
×