网易首页 > 网易号 > 正文 申请入驻

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

0
分享至

来源:市场资讯

(来源:网易科技报道)

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。


就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。


“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。


与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。


· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。


更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。


为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌突发脑出血命悬一线!训练中情绪失控痛哭,母亲披露内情,官媒罕见表态

谷爱凌突发脑出血命悬一线!训练中情绪失控痛哭,母亲披露内情,官媒罕见表态

动物奇奇怪怪
2026-02-03 06:23:41
中方发声强烈谴责瓜达尔港袭击事件:对遇难者表示深切哀悼,中方将一如既往坚定支持巴方打击恐怖主义

中方发声强烈谴责瓜达尔港袭击事件:对遇难者表示深切哀悼,中方将一如既往坚定支持巴方打击恐怖主义

扬子晚报
2026-02-03 17:14:22
明日立春,这菜使劲吃!一排毒、二清肝明目、三强免疫,别不懂吃

明日立春,这菜使劲吃!一排毒、二清肝明目、三强免疫,别不懂吃

Lily美食谈
2026-02-03 00:20:28
内蒙古一银行员工将11名储户存款转走挥霍,银行不愿承担赔偿

内蒙古一银行员工将11名储户存款转走挥霍,银行不愿承担赔偿

经理人杂志
2026-02-03 11:57:08
“立春五不吃,吃了疾祸多”,2月4号立春,哪5不吃?立春要忌嘴

“立春五不吃,吃了疾祸多”,2月4号立春,哪5不吃?立春要忌嘴

小谈食刻美食
2026-01-31 12:47:11
A股大跌,社保重仓的55股暴涨,8股集体涨停,这才是真主线

A股大跌,社保重仓的55股暴涨,8股集体涨停,这才是真主线

鹏哥投研
2026-02-03 12:45:42
别把 “暴露” 当时尚!格莱美女星遭网友吐槽,戳中全球审美痛点

别把 “暴露” 当时尚!格莱美女星遭网友吐槽,戳中全球审美痛点

小徐讲八卦
2026-02-03 06:38:51
加快男性衰老的因素:喝酒仅第5,排在第1的,很多男性还没发现!

加快男性衰老的因素:喝酒仅第5,排在第1的,很多男性还没发现!

医学科普汇
2026-01-27 10:41:31
我妈逼我每周给博导姨妈家搞卫生,考博复试五个考官四个是她学生

我妈逼我每周给博导姨妈家搞卫生,考博复试五个考官四个是她学生

兰姐说故事
2026-01-30 05:25:03
进度也太快了,004舰尾已经安装

进度也太快了,004舰尾已经安装

三叔的装备空间
2026-02-03 10:23:08
日薪50万欧元!媒体人:C罗无法重返欧洲,没人会签下40岁的他

日薪50万欧元!媒体人:C罗无法重返欧洲,没人会签下40岁的他

奥拜尔
2026-02-03 16:23:43
小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

心中的麦田
2026-01-21 20:18:15
东莞小将职业首秀,广东季后赛再战老对手

东莞小将职业首秀,广东季后赛再战老对手

刺猬篮球
2026-02-03 17:06:43
多吃1颗,结石或增大1圈!这种“小红果”正大量上市,再馋也别吃

多吃1颗,结石或增大1圈!这种“小红果”正大量上市,再馋也别吃

39健康网
2026-01-04 20:13:24
这个世界怎么变成了足控的样子?

这个世界怎么变成了足控的样子?

3DM游戏
2026-02-01 12:07:03
C罗去年投敌新月失败!今年目睹新月主动要本泽马!破防!

C罗去年投敌新月失败!今年目睹新月主动要本泽马!破防!

氧气是个地铁
2026-02-03 15:02:40
预判如炬:巴拿马港口变局印证李嘉诚的商业远见

预判如炬:巴拿马港口变局印证李嘉诚的商业远见

蓝色海边
2026-02-02 16:50:19
网传南宁一商场发生持刀伤人事件,商场回应:不实

网传南宁一商场发生持刀伤人事件,商场回应:不实

现代快报
2026-02-02 15:17:26
06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

温情邮局
2026-01-27 10:14:26
赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

乡野小珥
2026-02-02 02:24:54
2026-02-03 17:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2085975文章数 5343关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

克林顿将就爱泼斯坦案出庭作证 在美国历史上极为罕见

头条要闻

克林顿将就爱泼斯坦案出庭作证 在美国历史上极为罕见

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

精神病医院骗保内幕调查:住院相当于坐牢

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

手机
旅游
本地
数码
公开课

手机要闻

消息称三星Galaxy S26系列手机需选配官方保护壳才能实现Qi2

旅游要闻

“万岁山”,进军影视圈了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

2399元!盛色OM74星尘白显示器开抢啦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版