网易首页 > 网易科技 > 网易科技 > 正文

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

0
分享至

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。


就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。


“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。


与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
新加坡华裔男生被评“全球最丑”?本地网友怒怼:这锅不背!

新加坡华裔男生被评“全球最丑”?本地网友怒怼:这锅不背!

新加坡万事通
2025-12-07 20:55:03
痛心!连霍高速十几车连撞9死7伤,现场曝光十分惨烈,网友求改名

痛心!连霍高速十几车连撞9死7伤,现场曝光十分惨烈,网友求改名

派大星纪录片
2025-12-07 11:46:14
姓名及排序完全吻合,六安一份《为民服务办理事项清册》疑照搬百度人名库

姓名及排序完全吻合,六安一份《为民服务办理事项清册》疑照搬百度人名库

澎湃新闻
2025-12-08 08:46:12
大反转!库皮扬斯克市内俄军遭全歼,美国又开始向乌交付武器

大反转!库皮扬斯克市内俄军遭全歼,美国又开始向乌交付武器

史政先锋
2025-12-07 12:10:49
杨瀚森首次首发:19分钟4+5+2末节秀暴扣 5犯规成最大隐患

杨瀚森首次首发:19分钟4+5+2末节秀暴扣 5犯规成最大隐患

醉卧浮生
2025-12-08 09:38:15
张本智和输球后炮轰:在中国发生了很多事 我不想说 但我早料到了

张本智和输球后炮轰:在中国发生了很多事 我不想说 但我早料到了

风过乡
2025-12-08 07:49:46
两米铁棍追打妻子,胃癌丈夫的崩溃:我只是想让你撑起这个家……

两米铁棍追打妻子,胃癌丈夫的崩溃:我只是想让你撑起这个家……

福建第一帮帮团
2025-12-07 19:04:56
军事 | 美国这也重返,那也重返,到底啥情况?

军事 | 美国这也重返,那也重返,到底啥情况?

新民周刊
2025-12-08 09:08:57
0-2大冷门!14亿豪门主场轰然倒下5轮1胜 两大边后卫染红中卫重伤

0-2大冷门!14亿豪门主场轰然倒下5轮1胜 两大边后卫染红中卫重伤

狍子歪解体坛
2025-12-08 06:28:49
新国标电动自行车陆续到店开售 价格如何?

新国标电动自行车陆续到店开售 价格如何?

新京报
2025-12-08 07:19:40
上映6天,才5个观众,总票房仅146元,年度最惨电影出炉

上映6天,才5个观众,总票房仅146元,年度最惨电影出炉

娱说瑜悦
2025-12-06 13:09:08
从没见过她赛后那样哭的撕心裂肺!

从没见过她赛后那样哭的撕心裂肺!

贵圈真乱
2025-12-07 12:25:20
湖南烟花店老板放烟花自杀事件后续来了:真相大白,令人唏嘘

湖南烟花店老板放烟花自杀事件后续来了:真相大白,令人唏嘘

复转这些年
2025-12-07 18:02:55
“美国战略重大转向”,震动欧洲!俄总统新闻秘书:不再将俄称为“直接威胁”是积极举措,将详细研究

“美国战略重大转向”,震动欧洲!俄总统新闻秘书:不再将俄称为“直接威胁”是积极举措,将详细研究

每日经济新闻
2025-12-08 00:08:13
订单根本做不完!宁波一服装厂提前请假回家取消年终奖,工资缓发

订单根本做不完!宁波一服装厂提前请假回家取消年终奖,工资缓发

火山詩话
2025-12-08 07:05:54
官方通报44岁男子在公园搂抱女童:刑拘

官方通报44岁男子在公园搂抱女童:刑拘

界面新闻
2025-12-08 09:02:55
刚刚结束中国访问的马克龙,几乎是脚刚沾地就立刻翻脸不认账

刚刚结束中国访问的马克龙,几乎是脚刚沾地就立刻翻脸不认账

我心纵横天地间
2025-12-07 16:03:04
52岁男子三亚捅死3人!现场画面曝光,起因竟是两年前车辆剐蹭

52岁男子三亚捅死3人!现场画面曝光,起因竟是两年前车辆剐蹭

乌娱子酱
2025-12-07 12:23:36
陈震朋友圈发文:海外账号停止更新,暂停一切对外表达

陈震朋友圈发文:海外账号停止更新,暂停一切对外表达

凤凰网科技
2025-12-07 14:44:04
最新谈判结束!普京开出停战条件,特朗普表态,泽连斯基开始急了

最新谈判结束!普京开出停战条件,特朗普表态,泽连斯基开始急了

时时有聊
2025-12-07 21:40:46
2025-12-08 10:27:00

科技要闻

独家|李笛再创业,炮轰大模型,再战AI

头条要闻

外媒:德外长访华 迎来政治生涯中最艰难一次出国之旅

头条要闻

外媒:德外长访华 迎来政治生涯中最艰难一次出国之旅

体育要闻

梅开48度!2年半,这是梅西在迈阿密的一人一城

娱乐要闻

林俊杰AAA颁奖礼,韩娱爱豆均站起鞠躬

财经要闻

养牛场未见一头牛 每天开采矿石倒卖

汽车要闻

传奇超跑电动形态重生 雷克萨斯LFA纯电概念车

态度原创

数码
家居
房产
手机
军事航空

数码要闻

TUXEDO推出新一代“台式机替代”Linux笔记本Gemini 17 - Gen4

家居要闻

白味汤馆 当代宴饮仪式

房产要闻

封关启幕宜居新时代!观岚森屿定义三亚旅居度假新范本

手机要闻

Viwoods推出彩色电纸书手机:150PPI墨水屏,4G网络、侧边指纹

军事要闻

日本称中方雷达照射日战机 国防部回应

无障碍浏览 进入关怀版
×