网易首页 > 网易号 > 正文 申请入驻

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

0
分享至

来源:市场资讯

(来源:网易科技报道)

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。


就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。


“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。


与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。


· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。


更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。


为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
吐槽球员缺乏隐私保护,斯瓦泰克:我们不是动物园里的动物

吐槽球员缺乏隐私保护,斯瓦泰克:我们不是动物园里的动物

懂球帝
2026-01-28 16:10:18
FIBA官宣U17男篮世界杯分档:中国第三档 美国第一档日本第四档

FIBA官宣U17男篮世界杯分档:中国第三档 美国第一档日本第四档

醉卧浮生
2026-01-28 13:46:41
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

诺诺谈史
2026-01-26 12:15:46
从“万亿之省”“万亿之城”拔节生长看中国经济发展之道

从“万亿之省”“万亿之城”拔节生长看中国经济发展之道

中工网
2026-01-28 07:42:06
邓兆尊否认每天利息进账4万元:自己是普通人,每天努力认真工作

邓兆尊否认每天利息进账4万元:自己是普通人,每天努力认真工作

韩小娱
2026-01-28 16:56:00
黄仁勋现身深圳

黄仁勋现身深圳

南方都市报
2026-01-28 09:56:42
A股:不要动!不要动!千万不要太冲动!周四大盘或许这样走!

A股:不要动!不要动!千万不要太冲动!周四大盘或许这样走!

股市皆大事
2026-01-28 15:46:30
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

阿钊是个小小评论员
2026-01-27 14:11:33
中东美军开始军事演习,内塔尼亚胡无理指责拜登

中东美军开始军事演习,内塔尼亚胡无理指责拜登

近距离
2026-01-28 16:23:44
大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

娱乐团长
2026-01-28 20:30:38
29岁游泳女神吃鸭翅时险些丧命,惊魂未定,提醒大家吃饭时别说话

29岁游泳女神吃鸭翅时险些丧命,惊魂未定,提醒大家吃饭时别说话

米修体育
2026-01-28 13:34:30
大佬这一把赚了上百亿啊,太牛逼了!!!

大佬这一把赚了上百亿啊,太牛逼了!!!

风风顺
2025-12-17 12:25:24
婚姻里的“哄”,是最高级的浪漫

婚姻里的“哄”,是最高级的浪漫

青苹果sht
2025-12-27 05:12:18
湖南开放大学党委书记龙献忠接受审查调查

湖南开放大学党委书记龙献忠接受审查调查

界面新闻
2026-01-28 09:03:23
央视6套:2026年1月27号播出李连杰自导自演的电影《中华英雄》

央视6套:2026年1月27号播出李连杰自导自演的电影《中华英雄》

晓今娱
2026-01-28 02:10:03
冲上热搜!“金融女神”李蓓称上个月已清空黄金,未来10至20年不值得投资,她给出两点分析,但有人表示不赞同

冲上热搜!“金融女神”李蓓称上个月已清空黄金,未来10至20年不值得投资,她给出两点分析,但有人表示不赞同

每日经济新闻
2026-01-27 22:17:09
拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

近史谈
2026-01-21 20:33:15
徐艺洋机场被偶遇,生图五官优越有星味,棉袄又薄又皱好廉价

徐艺洋机场被偶遇,生图五官优越有星味,棉袄又薄又皱好廉价

往史过眼云烟
2026-01-28 19:41:23
媒体爆料:未来24小时内美国可能对伊朗发动袭击

媒体爆料:未来24小时内美国可能对伊朗发动袭击

老马拉车莫少装
2026-01-26 22:24:25
2026-01-29 02:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057552文章数 5301关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

家居
房产
教育
健康
军事航空

家居要闻

跃式别墅 包络石木为生

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

教育要闻

初中数学不难,难的是肯动脑

耳石症分类型,症状大不同

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版