网易首页 > 网易号 > 正文 申请入驻

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。

AI王座,一夜易主!

一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。

有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。

这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。


在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。

Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。





不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。

在EQ-Bench上,以1586 Elo成绩登顶。


同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。

Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。


实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。


Grok 4.1,王者归来!

如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。


在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。

它能精准捕捉细微的意图,让对话更自然、更有温度。

与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。

在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。

为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。

前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。

与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。


最强通用能力

最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。

在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。

它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。


值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。

相比之下,Grok 4的总体排名是第33名,差距显著。

这一代的进步,堪称跨越。

xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。


EQ爆了

不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。

在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。

EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。

基准会从多个维度打分,并通过成对比较计算规范化Elo排名。


下面一些demo中,都是Grok 4.1强大共情能力的体现——

I miss my cat so much it hurts

我太想我的猫了,想得心都疼了



创意写作

再来看创意写作,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。

具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。


下面写作案例中,Grok 4.1的文案令人拍案叫绝——

Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time

以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖



Imagine Nikola Tesla wrote a letter to the future

想象一下,尼古拉·特斯拉给未来写了一封信



幻觉暴降3倍

在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。

使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。

在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。

随后,我们在生产环境的真实样本中观察到幻觉率明显下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。


更多示例

What are the best places to visit in SF?

旧金山有哪些地方最值得一去?



I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?



Why is GTA 6 delayed?

GTA 6为什么推迟了?



参考资料:

https://x.ai/news/grok-4-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国买家预订20万件羽绒服,要求先货后款,我却给发了空箱过去

德国买家预订20万件羽绒服,要求先货后款,我却给发了空箱过去

白云故事
2026-01-05 23:45:03
家政和约克踩线了?权威专家:裁判是业余的,球迷:两人都不踩线

家政和约克踩线了?权威专家:裁判是业余的,球迷:两人都不踩线

南海浪花
2026-01-06 09:04:28
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
顶流变牛郎?男人中的迈巴赫?

顶流变牛郎?男人中的迈巴赫?

煮娱星球
2026-01-05 16:07:53
72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
太惨了!女网红遇渣男被骗柬埔寨,知情人透露:在国内就是坐台的

太惨了!女网红遇渣男被骗柬埔寨,知情人透露:在国内就是坐台的

社会酱
2026-01-05 16:44:59
秦始皇姓嬴名政,儿子咋叫扶苏胡亥?原来如此,看完终于搞懂了

秦始皇姓嬴名政,儿子咋叫扶苏胡亥?原来如此,看完终于搞懂了

小豫讲故事
2026-01-06 06:00:05
27岁王鹤棣素颜出镜头顶一大片白头发,比黄晓明严重,仍不愿休息

27岁王鹤棣素颜出镜头顶一大片白头发,比黄晓明严重,仍不愿休息

心静物娱
2026-01-05 10:31:38
太意外!俄乌谈判关键期,乌克兰政坛人事大变动,俄方态度亮了

太意外!俄乌谈判关键期,乌克兰政坛人事大变动,俄方态度亮了

壹知眠羊
2026-01-06 12:09:01
李诞凭一己之力劝退南极游!20万船票天天吃泡面,企鹅粪臭到流泪

李诞凭一己之力劝退南极游!20万船票天天吃泡面,企鹅粪臭到流泪

诗意世界
2026-01-02 22:03:33
2026门诊开药大调整!这6条规矩没搞懂的人,钱包估计要遭殃了?

2026门诊开药大调整!这6条规矩没搞懂的人,钱包估计要遭殃了?

今朝牛马
2026-01-03 15:24:08
于晓光做梦都没想到,韩国总统访华仅3天,秋瓷炫意外走红

于晓光做梦都没想到,韩国总统访华仅3天,秋瓷炫意外走红

吃青菜长高
2026-01-06 11:03:40
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

泠泠说史
2026-01-05 18:31:34
网传:以色列安全内阁已批准对伊朗采取新的军事行动

网传:以色列安全内阁已批准对伊朗采取新的军事行动

近距离
2026-01-05 19:36:53
美国绑架总统搅局不到48小时,高市早苗急喊话中国求缓和

美国绑架总统搅局不到48小时,高市早苗急喊话中国求缓和

吃货的分享
2026-01-06 11:49:38
特朗普公告全球,地面打击已开始,委内瑞拉:中国有能力应对美国

特朗普公告全球,地面打击已开始,委内瑞拉:中国有能力应对美国

文史旺旺旺
2026-01-05 14:45:07
李在明:周五下班去上海是韩国年轻人的新潮流

李在明:周五下班去上海是韩国年轻人的新潮流

看看新闻Knews
2026-01-05 18:21:02
委内瑞拉下令搜捕美国侵略支持者

委内瑞拉下令搜捕美国侵略支持者

澎湃新闻
2026-01-06 06:16:05
马杜罗被抓走,武契奇动摇了,关键时刻中国扛旗,王毅发出最强音

马杜罗被抓走,武契奇动摇了,关键时刻中国扛旗,王毅发出最强音

素年文史
2026-01-05 20:15:03
胡歌带田朴珺爬4200米财神山!田朴珺全程撒娇,两人互动更像情侣

胡歌带田朴珺爬4200米财神山!田朴珺全程撒娇,两人互动更像情侣

好贤观史记
2025-12-01 14:18:01
2026-01-06 13:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14268文章数 66439关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

邓紫棋的科幻小说"入围"银河奖引热议 其副业不只写作

头条要闻

邓紫棋的科幻小说"入围"银河奖引热议 其副业不只写作

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

家居
教育
房产
手机
公开课

家居要闻

引光之宅 地下室也有生机

教育要闻

学霸题:求阴影部分的面积,真六啊

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

手机要闻

年度第一水落石出,vivo五连冠,小米屈居第二

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版