网易首页 > 网易科技 > 网易科技 > 正文

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

0
分享至

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。


就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。


“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。


与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
民主党支持率跌至历史低点,中期选举前景承压

民主党支持率跌至历史低点,中期选举前景承压

一路荒凉如歌aa
2026-04-08 23:44:17
车牌靓!成都一辆10年的百万级保时捷卡宴拍卖,6.993万就成交

车牌靓!成都一辆10年的百万级保时捷卡宴拍卖,6.993万就成交

天天话事
2026-04-08 09:41:47
杀人诛心!以色列袭击美大使馆?新变数出现,伊朗:美政权更迭!

杀人诛心!以色列袭击美大使馆?新变数出现,伊朗:美政权更迭!

小噎论事
2026-04-09 03:03:37
撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

涵豆说娱
2026-04-08 20:05:39
“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

近史谈
2026-03-31 18:57:49
曝陈丽华去世不到3小时,“大人物”出面,几百亿遗产早就有规划

曝陈丽华去世不到3小时,“大人物”出面,几百亿遗产早就有规划

一抹宁静
2026-04-07 22:07:31
蓝牙耳机不香了?年轻人纷纷换回有线耳机,原因太现实

蓝牙耳机不香了?年轻人纷纷换回有线耳机,原因太现实

小柱解说游戏
2026-04-02 18:48:39
速转!中国驻以色列使馆宣布:4月7日再次撤侨!含港澳台同胞!

速转!中国驻以色列使馆宣布:4月7日再次撤侨!含港澳台同胞!

长野星河散去了
2026-04-07 18:25:28
樊振东没想到,转会不到半个月,自己因王楚钦一番话再次口碑暴增

樊振东没想到,转会不到半个月,自己因王楚钦一番话再次口碑暴增

以茶带书
2026-04-08 18:03:50
大陆说到做到,中欧班列铁轨已拆,立陶宛被打疼,找台当局要钱

大陆说到做到,中欧班列铁轨已拆,立陶宛被打疼,找台当局要钱

流史岁月
2026-04-08 09:45:02
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

CSDN
2026-03-31 17:33:02
又袭击!伊朗上当了?

又袭击!伊朗上当了?

财经要参
2026-04-08 21:20:03
灾难!拜仁巨星全场摆烂,安联王牌亲手送皇马生机

灾难!拜仁巨星全场摆烂,安联王牌亲手送皇马生机

澜归序
2026-04-08 06:00:16
美国人最喜爱的汽车排名:没有一款欧洲车,美系车也只有一款上榜

美国人最喜爱的汽车排名:没有一款欧洲车,美系车也只有一款上榜

铁锤妹妹是只猫
2026-04-08 03:27:36
伊朗外长:美国必须在停火和“通过以色列继续战争”之间作选择

伊朗外长:美国必须在停火和“通过以色列继续战争”之间作选择

新华社
2026-04-09 02:13:03
幸福不断蔓延:从一件小事开始,长成了一片春天

幸福不断蔓延:从一件小事开始,长成了一片春天

疾跑的小蜗牛
2026-04-08 23:14:41
马士基租用的船只在霍尔木兹海峡被炮弹击中

马士基租用的船只在霍尔木兹海峡被炮弹击中

每日经济新闻
2026-04-08 07:38:50
赵今麦,每个男人都想拥有的女孩样板。

赵今麦,每个男人都想拥有的女孩样板。

野狐馋师
2026-02-17 08:50:46
2026-04-09 04:28:49

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗武装部队:伊朗对美以绝不信任

头条要闻

伊朗武装部队:伊朗对美以绝不信任

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

亲子
艺术
旅游
数码
公开课

亲子要闻

胡图图说他差几分就能兑换发卡

艺术要闻

惊艳!她的私房自拍照让人无法抵挡!

旅游要闻

三大花海已浪漫盛放!来这里“花”点时间!

数码要闻

小米多款新品本月发,看看你期待哪款?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×