网易首页 > 网易号 > 正文 申请入驻

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。

AI王座,一夜易主!

一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。

有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。

这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。


在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。

Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。





不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。

在EQ-Bench上,以1586 Elo成绩登顶。


同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。

Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。


实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。


Grok 4.1,王者归来!

如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。


在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。

它能精准捕捉细微的意图,让对话更自然、更有温度。

与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。

在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。

为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。

前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。

与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。


最强通用能力

最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。

在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。

它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。


值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。

相比之下,Grok 4的总体排名是第33名,差距显著。

这一代的进步,堪称跨越。

xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。


EQ爆了

不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。

在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。

EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。

基准会从多个维度打分,并通过成对比较计算规范化Elo排名。


下面一些demo中,都是Grok 4.1强大共情能力的体现——

I miss my cat so much it hurts

我太想我的猫了,想得心都疼了



创意写作

再来看创意写作,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。

具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。


下面写作案例中,Grok 4.1的文案令人拍案叫绝——

Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time

以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖



Imagine Nikola Tesla wrote a letter to the future

想象一下,尼古拉·特斯拉给未来写了一封信



幻觉暴降3倍

在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。

使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。

在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。

随后,我们在生产环境的真实样本中观察到幻觉率明显下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。


更多示例

What are the best places to visit in SF?

旧金山有哪些地方最值得一去?



I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?



Why is GTA 6 delayed?

GTA 6为什么推迟了?



参考资料:

https://x.ai/news/grok-4-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血迹太空可见,苏丹这场大屠杀何以发生?

血迹太空可见,苏丹这场大屠杀何以发生?

新京报
2025-11-17 13:13:52
3-2大逆转!樊振东又赢了,连赢7分打懵梁靖崑,谁注意许昕的表现

3-2大逆转!樊振东又赢了,连赢7分打懵梁靖崑,谁注意许昕的表现

大秦壁虎白话体育
2025-11-18 11:39:05
徐波生了300个孩子?揭露了人类社会的本质问题

徐波生了300个孩子?揭露了人类社会的本质问题

历史总在押韵
2025-11-17 00:05:07
10连胜联盟首队!活塞大胜步行者列东部第一 杜伦31+15西卡29分

10连胜联盟首队!活塞大胜步行者列东部第一 杜伦31+15西卡29分

醉卧浮生
2025-11-18 10:44:50
樊振东3比2逆转梁靖崑,上海3比0战胜河北,晋级乒乓球男团半决赛!

樊振东3比2逆转梁靖崑,上海3比0战胜河北,晋级乒乓球男团半决赛!

鲁中晨报
2025-11-18 13:29:08
江苏科技大学一教授被指学术造假、侵占科研经费,学校回应:已离职

江苏科技大学一教授被指学术造假、侵占科研经费,学校回应:已离职

现代快报
2025-11-17 19:18:05
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
长公主也老了,腰也变圆润了

长公主也老了,腰也变圆润了

陈意小可爱
2025-11-18 12:06:06
郑丽文果然高明:美日德都找到她,她马上就派人给大陆带了一句话

郑丽文果然高明:美日德都找到她,她马上就派人给大陆带了一句话

现代小青青慕慕
2025-11-17 10:39:45
小天才手表,背刺中国家长

小天才手表,背刺中国家长

金角财经
2025-11-17 16:19:49
“往年非常热门”,今年退订量飙升!有商家:退订超六成,官方重要提醒

“往年非常热门”,今年退订量飙升!有商家:退订超六成,官方重要提醒

极目新闻
2025-11-18 07:53:21
释永信的珍藏是越扒越有!他的“顶级珍藏”:砗磲达摩像价值连城

释永信的珍藏是越扒越有!他的“顶级珍藏”:砗磲达摩像价值连城

双色球的方向舵
2025-11-18 00:09:55
智能时代,李冰用SSD修筑“AI都江堰”?

智能时代,李冰用SSD修筑“AI都江堰”?

白洞计划
2025-11-14 19:08:04
泰王访华实属无奈?开口就是三大需求,中国不会轻易松口

泰王访华实属无奈?开口就是三大需求,中国不会轻易松口

古事寻踪记
2025-11-17 07:28:16
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

影孖看世界
2025-11-16 20:05:08
又走了一家外企

又走了一家外企

曹多鱼的财经世界
2025-11-17 15:03:31
超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

大风新闻
2025-11-18 11:34:09
独取2分晋级四强!王楚钦男团6连胜显统治力 半决赛或再战林高远

独取2分晋级四强!王楚钦男团6连胜显统治力 半决赛或再战林高远

颜小白的篮球梦
2025-11-18 12:09:12
全网求救:女大学生疑因举报社区书记被关精神病8年!

全网求救:女大学生疑因举报社区书记被关精神病8年!

兵叔评说
2025-11-17 12:03:30
假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

潇湘晨报
2025-11-18 12:30:17
2025-11-18 14:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13895文章数 66259关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

小伙和31岁女网友发生关系 婚礼上发现女方父母是演员

头条要闻

小伙和31岁女网友发生关系 婚礼上发现女方父母是演员

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

家居
艺术
亲子
教育
公开课

家居要闻

彰显奢华 意式经典风格

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

亲子要闻

“你知道孩子心中最害怕的是什么吗”,小孩哥分享五件最害怕父母做的事

教育要闻

超市打折背后的秘密:方程求进价很轻松!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版