网易首页 > 网易号 > 正文 申请入驻

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。

AI王座,一夜易主!

一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。

有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。

这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。


在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。

Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。





不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。

在EQ-Bench上,以1586 Elo成绩登顶。


同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。

Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。


实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。


Grok 4.1,王者归来!

如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。


在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。

它能精准捕捉细微的意图,让对话更自然、更有温度。

与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。

在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。

为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。

前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。

与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。


最强通用能力

最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。

在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。

它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。


值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。

相比之下,Grok 4的总体排名是第33名,差距显著。

这一代的进步,堪称跨越。

xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。


EQ爆了

不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。

在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。

EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。

基准会从多个维度打分,并通过成对比较计算规范化Elo排名。


下面一些demo中,都是Grok 4.1强大共情能力的体现——

I miss my cat so much it hurts

我太想我的猫了,想得心都疼了



创意写作

再来看创意写作,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。

具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。


下面写作案例中,Grok 4.1的文案令人拍案叫绝——

Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time

以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖



Imagine Nikola Tesla wrote a letter to the future

想象一下,尼古拉·特斯拉给未来写了一封信



幻觉暴降3倍

在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。

使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。

在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。

随后,我们在生产环境的真实样本中观察到幻觉率明显下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。


更多示例

What are the best places to visit in SF?

旧金山有哪些地方最值得一去?



I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?



Why is GTA 6 delayed?

GTA 6为什么推迟了?



参考资料:

https://x.ai/news/grok-4-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
快船2连败后,裁判解释判罚,科林斯很坦诚,马克西表态哈登

快船2连败后,裁判解释判罚,科林斯很坦诚,马克西表态哈登

体坛大辣椒
2025-11-18 14:49:02
工龄40年,个人账户385565.08元,60岁2个月退休,养老金能拿多少?

工龄40年,个人账户385565.08元,60岁2个月退休,养老金能拿多少?

养老规划罗姐说
2025-11-16 19:54:29
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
娃哈哈2025年实现了5亿收入增长,但全年收入并未公开

娃哈哈2025年实现了5亿收入增长,但全年收入并未公开

第一财经资讯
2025-11-18 18:58:10
别以为日本现在不敢对中国开战,赌国运是他们千年来一贯操作!

别以为日本现在不敢对中国开战,赌国运是他们千年来一贯操作!

阿胡
2025-11-16 12:08:43
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

明月清风阁
2025-11-14 15:20:03
赛季第一支10连胜球队!核心伤缺难阻活塞高歌猛进

赛季第一支10连胜球队!核心伤缺难阻活塞高歌猛进

体坛周报
2025-11-18 18:18:11
女儿怒怼父亲“没钱别生我”,父亲一番话刷屏:生你不是欠你

女儿怒怼父亲“没钱别生我”,父亲一番话刷屏:生你不是欠你

娱乐洞察点点
2025-11-12 11:27:45
回顾:张扣扣被执行死刑后,父亲拒绝领骨灰,回应:我永远都不要

回顾:张扣扣被执行死刑后,父亲拒绝领骨灰,回应:我永远都不要

博览历史
2023-11-19 20:00:03
许绍雄出殡众星相送,78岁林子祥双眼含泪,佘诗曼哭着脸奔赴灵堂

许绍雄出殡众星相送,78岁林子祥双眼含泪,佘诗曼哭着脸奔赴灵堂

开开森森
2025-11-18 11:22:50
暂停!“感受到中方态度的严厉”

暂停!“感受到中方态度的严厉”

观察者网
2025-11-18 10:04:03
这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

翻开历史和现实
2025-10-12 15:49:50
41岁张翰看“婚房”!徐汇350大平层7500万,售楼小姐姐蹲地服务

41岁张翰看“婚房”!徐汇350大平层7500万,售楼小姐姐蹲地服务

翰林涛涛
2025-11-16 17:03:32
欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

正经的烧杯1
2025-11-14 21:09:14
官媒锐评张伟丽挑战失败,言辞犀利,释放3大信号,体坛风向变了

官媒锐评张伟丽挑战失败,言辞犀利,释放3大信号,体坛风向变了

好贤观史记
2025-11-18 17:08:16
谢谢陈思诚,贡献出25年年底内娱最大的笑话!

谢谢陈思诚,贡献出25年年底内娱最大的笑话!

娱乐圈笔娱君
2025-11-18 18:12:15
此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

乡野小珥
2025-10-19 14:41:29
女篮新霸主横空出世!一年内狂揽三冠:郑薇确实比宫鲁鸣更强?

女篮新霸主横空出世!一年内狂揽三冠:郑薇确实比宫鲁鸣更强?

篮球快餐车
2025-11-18 08:09:44
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
2025-11-18 19:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13897文章数 66259关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

本地
家居
手机
艺术
教育

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

家居要闻

彰显奢华 意式经典风格

手机要闻

努比亚海外推P9 Pro手机,搭载紫光展锐T8300处理器

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

教育要闻

论区老师“拗柴”与中考体育满分之间的逻辑必然性

无障碍浏览 进入关怀版