网易首页 > 网易号 > 正文 申请入驻

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。

AI王座,一夜易主!

一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。

有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。

这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。


在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。

Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。





不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。

在EQ-Bench上,以1586 Elo成绩登顶。


同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。

Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。


实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。


Grok 4.1,王者归来!

如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。


在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。

它能精准捕捉细微的意图,让对话更自然、更有温度。

与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。

在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。

为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。

前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。

与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。


最强通用能力

最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。

在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。

它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。


值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。

相比之下,Grok 4的总体排名是第33名,差距显著。

这一代的进步,堪称跨越。

xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。


EQ爆了

不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。

在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。

EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。

基准会从多个维度打分,并通过成对比较计算规范化Elo排名。


下面一些demo中,都是Grok 4.1强大共情能力的体现——

I miss my cat so much it hurts

我太想我的猫了,想得心都疼了



创意写作

再来看创意写作,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。

具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。


下面写作案例中,Grok 4.1的文案令人拍案叫绝——

Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time

以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖



Imagine Nikola Tesla wrote a letter to the future

想象一下,尼古拉·特斯拉给未来写了一封信



幻觉暴降3倍

在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。

使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。

在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。

随后,我们在生产环境的真实样本中观察到幻觉率明显下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。


更多示例

What are the best places to visit in SF?

旧金山有哪些地方最值得一去?



I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?



Why is GTA 6 delayed?

GTA 6为什么推迟了?



参考资料:

https://x.ai/news/grok-4-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:尾盘加速跳水,释放了两个信号,明天或将这样走!

A股:尾盘加速跳水,释放了两个信号,明天或将这样走!

明心
2026-02-02 16:32:01
现在的失业潮,和30年前的下岗潮比,其实根本就不是一回事

现在的失业潮,和30年前的下岗潮比,其实根本就不是一回事

前沿天地
2026-02-02 00:09:55
拥有3000情人的猫王:从来不碰生了孩子的女人,哪怕她是我的妻子

拥有3000情人的猫王:从来不碰生了孩子的女人,哪怕她是我的妻子

老范谈史
2026-01-28 14:51:25
离婚5年,高调出席儿子生日宴的陈思诚,给谢霆锋好好上了一课!

离婚5年,高调出席儿子生日宴的陈思诚,给谢霆锋好好上了一课!

孤城落日
2026-02-01 23:55:50
江苏杨某军,没批文让老板垫1个亿,硬是把52个老小区给翻新了。

江苏杨某军,没批文让老板垫1个亿,硬是把52个老小区给翻新了。

林子说事
2026-02-01 09:40:29
日韩股市集体收跌 韩国综指跌超5%触发熔断

日韩股市集体收跌 韩国综指跌超5%触发熔断

中国财富网
2026-02-02 15:42:20
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
元宝刚被挤崩,阿里千问砸30亿春节请客

元宝刚被挤崩,阿里千问砸30亿春节请客

AppSo
2026-02-02 11:17:23
中俄谈完,绍伊古离开人民大会堂,临走前一锤定音,日本听清楚了

中俄谈完,绍伊古离开人民大会堂,临走前一锤定音,日本听清楚了

影孖看世界
2026-02-02 16:38:53
花费1亿请赵本山代言,成本2毛骗农户200亿,创始人被判无期徒刑

花费1亿请赵本山代言,成本2毛骗农户200亿,创始人被判无期徒刑

法老不说教
2025-12-17 20:08:06
中俄谈妥了,绍伊古连夜回国,临走前喊话高市:对日本的称呼变了

中俄谈妥了,绍伊古连夜回国,临走前喊话高市:对日本的称呼变了

知法而形
2026-02-02 09:33:30
走私犯梁耀华,如何用美女拿下原公安部副部长李纪周?过程精彩

走私犯梁耀华,如何用美女拿下原公安部副部长李纪周?过程精彩

扬平说史
2026-01-29 21:29:24
日本演员吃23年中国饭,娶中国妻子却发出辱华言论,如今怎么样了

日本演员吃23年中国饭,娶中国妻子却发出辱华言论,如今怎么样了

不写散文诗
2026-01-14 11:52:15
那个陪马斯克去俄罗斯买火箭的人,后来成了他的"保护伞"?

那个陪马斯克去俄罗斯买火箭的人,后来成了他的"保护伞"?

NASA爱好者
2026-02-01 00:43:06
以媒:美方愿同伊朗展开谈判

以媒:美方愿同伊朗展开谈判

上观新闻
2026-02-02 06:53:04
女子用去世儿子书包给丈夫装骨灰,殡葬工作人员替她付了所有费用

女子用去世儿子书包给丈夫装骨灰,殡葬工作人员替她付了所有费用

六目先生
2026-02-02 07:15:03
日本高官叫嚣,只要高市早苗赢得本次大选,中国将不得不放她一马

日本高官叫嚣,只要高市早苗赢得本次大选,中国将不得不放她一马

井普椿的独白
2026-02-02 12:33:52
上身效果如何?斯坦丘在官宣视频中穿英博新赛季主场球衣亮相

上身效果如何?斯坦丘在官宣视频中穿英博新赛季主场球衣亮相

懂球帝
2026-02-02 12:31:07
戴安娜的弟弟才是狠角色,因为前妻的缘故,缺席3个女儿的婚礼

戴安娜的弟弟才是狠角色,因为前妻的缘故,缺席3个女儿的婚礼

小书生吃瓜
2026-02-01 17:30:29
左派叙事持续崩塌:爱泼斯坦文件公开,左派精英集体塌方

左派叙事持续崩塌:爱泼斯坦文件公开,左派精英集体塌方

斌闻天下
2026-02-01 06:15:03
2026-02-02 17:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14459文章数 66563关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

媒体:美用一次军事打击摧毁伊朗政权可能性已大幅降低

头条要闻

媒体:美用一次军事打击摧毁伊朗政权可能性已大幅降低

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

数码
艺术
手机
公开课
军事航空

数码要闻

联想拯救者Y700 2026款小平板配置曝光:骁龙8E5处理器配8.8英寸3K LCD屏

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

手机要闻

2026年首款万元Ultra!三星Galaxy S26 Ultra海报偷跑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版