网易首页 > 网易科技 > 网易科技 > 正文

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

0
分享至

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。


就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。


“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。


与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
中国男篮赢球不到12小时,郭士强登上日本体育头版,若处理不好或会追罚!

中国男篮赢球不到12小时,郭士强登上日本体育头版,若处理不好或会追罚!

隐于山海
2026-02-27 12:47:05
趴在中国仁爱礁9000多天的菲律宾军舰,如今已经再也拖不走了

趴在中国仁爱礁9000多天的菲律宾军舰,如今已经再也拖不走了

小小科普员
2025-11-21 20:23:24
TVB歌手被指失去一哥地位,本尊親回:無乜所謂

TVB歌手被指失去一哥地位,本尊親回:無乜所謂

粤睇先生
2026-02-27 21:36:47
WTT大满贯女单4强名单揭晓,张本美和横扫晋级,王曼昱逆转

WTT大满贯女单4强名单揭晓,张本美和横扫晋级,王曼昱逆转

吕彍极限手工
2026-02-27 10:11:18
揭秘注册“不用实名”的国际版支付宝,每天能赚三五万?

揭秘注册“不用实名”的国际版支付宝,每天能赚三五万?

流苏晚晴
2026-02-22 15:12:40
电力股大涨!001896,斩获7连板

电力股大涨!001896,斩获7连板

证券时报
2026-02-27 17:03:08
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
3月一口气放出10部好莱坞大片?!

3月一口气放出10部好莱坞大片?!

君君电影院
2026-02-26 22:05:14
死了一个女人,埋葬半个王朝

死了一个女人,埋葬半个王朝

我是历史其实挺有趣
2026-02-27 15:23:11
马筱梅大方晒幸福,坦言不会喂奶、拍嗝,育儿重任全都交给汪小菲

马筱梅大方晒幸福,坦言不会喂奶、拍嗝,育儿重任全都交给汪小菲

一盅情怀
2026-02-27 15:36:08
日本主帅:当廖三宁登场时我们需要用协防去针对,他比赵睿更难防

日本主帅:当廖三宁登场时我们需要用协防去针对,他比赵睿更难防

林小湜体育频道
2026-02-27 03:05:04
男子高速上语音呼叫“关闭阅读灯”,语音助手却误将大灯熄灭致车辆撞上护栏,领克致歉:已更新,行驶状态下只能手动关闭大灯

男子高速上语音呼叫“关闭阅读灯”,语音助手却误将大灯熄灭致车辆撞上护栏,领克致歉:已更新,行驶状态下只能手动关闭大灯

大象新闻
2026-02-27 09:57:17
黄金白银,集体下跌

黄金白银,集体下跌

第一财经资讯
2026-02-27 09:54:21
恐高女游客游乐园玩蹦极 跳下后因太紧张把自己吓晕 工作人员:十几秒就清醒了 身体无碍

恐高女游客游乐园玩蹦极 跳下后因太紧张把自己吓晕 工作人员:十几秒就清醒了 身体无碍

闪电新闻
2026-02-27 16:18:28
“闺女,回婆家坐月子,你哥要结婚”“阿姨,房是我这个外人的”

“闺女,回婆家坐月子,你哥要结婚”“阿姨,房是我这个外人的”

秀秀情感课堂
2026-02-27 19:30:03
北京市公安局发布通告!3月1日零时起——

北京市公安局发布通告!3月1日零时起——

BRTV新闻
2026-02-27 14:59:34
千万别姐弟恋,很累!

千万别姐弟恋,很累!

果粉之家
2026-01-06 11:26:21
Opta欧冠夺冠概率预测:阿森纳高居榜首,皇马几率骤降

Opta欧冠夺冠概率预测:阿森纳高居榜首,皇马几率骤降

星耀国际足坛
2026-02-27 23:23:49
离开美国是“最正确的决定”:《复仇者联盟》演员称不喜欢洛杉矶

离开美国是“最正确的决定”:《复仇者联盟》演员称不喜欢洛杉矶

TVB的四小花
2026-02-27 02:00:18
2-1,38岁梅西遭抱摔+替补登场一剑封喉,率队终结2场比赛不胜

2-1,38岁梅西遭抱摔+替补登场一剑封喉,率队终结2场比赛不胜

侧身凌空斩
2026-02-27 10:56:26
2026-02-28 01:23:00

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
数码
旅游
游戏
公开课

本地新闻

津南好·四时总相宜

数码要闻

Omdia:时隔5年,小米去年再度回归可穿戴设备出货榜首

旅游要闻

蜜雪冰城主题乐园来了 选址已"出炉"!在河南总部

知名舅舅党爆料:索尼克游戏新作有望今年公布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×