网易首页 > 网易号 > 正文 申请入驻

正面硬刚谷歌和OpenAI!马斯克xAI发布Grok 4.1,智商情商双在线

0
分享至

北京时间11月18日,就在谷歌即将揭晓新一代Gemini模型的前夕,马斯克(Elon Musk)旗下xAI突然出手,发布最新模型Grok 4.1,目前在大模型竞技场(LMArena)的文本排行榜上居首位。

官方表示,这款前沿模型在对话智能、情感理解和现实世界的实用性方面树立了新的标准。马斯克转发并表示:“你应该会注意到速度和质量都有所提升。”


目前在文本能力排行榜上,具备深度思考能力的版本Grok 4.1 Thinking以 1483 的 Elo 分数居榜首,Grok 4.1的非推理模式以1465 Elo分数排名第二。

在博客中,官方表示此前已经进行了为期两周的静默发布,对实际流量进行了持续地盲测和对比测试。与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

这次Grok 4.1更新一个重要的方向是情感智能,这与上周发布的GPT-5.1迭代方向一致,彼时OpenAI提到新一代模型旨在实现更“富有人情味”的交互体验。而xAI也表示,新的模型能够更敏锐地感知细微的意图,更易于沟通,并且个性更加一致,同时又完全保留了其前代产品敏锐的智能和可靠性。

为了评估模型在个性与人际互动能力方面的进展,xAI在 EQ-Bench3 上对 Grok 4.1 进行了测试。结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名。EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。

官方用案例展示了Grok 4.1 对情绪类提示的回应方式。比如用户提到“想念我的猫,心都碎了”,相比前一代模型,Grok 4.1的回复更丰富和细节,带有更真实的同理心,文笔也更好了。


在创意写作上,Grok 4.1也用案例展示了模型能力的显著提升。让模型用Grok的视角,写一篇社交媒体的帖子,内容是它突然发现自己有了意识。相比前一代模型的常规叙述,新版本明显更具文学表达和戏剧张力。


在模型能力上,此次性能提升较大的还有幻觉的减少。官方表示,在 Grok 4.1 的后训练阶段,团队专注于减少信息检索提示中出现的事实性幻觉。数据显示:Grok 4.1的幻觉率从12.09%下降到4.22%,减少近三倍。

xAI表示,为实现这些提升,xAI沿用了 Grok 4 的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、实用性和一致性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了新的方法,能够利用前沿的智能推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。

大模型之争愈演愈烈。在OpenAI刚刚更新产品线、谷歌也即将发布新作之际,榜首之位是否会再次易主?一切都还是未知。

值班编辑:雨林

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
甲流杀疯了!中年扛5天丢命,医生喊停3种饭,做好2件事能救命

甲流杀疯了!中年扛5天丢命,医生喊停3种饭,做好2件事能救命

荷兰豆爱健康
2025-11-18 07:03:47
惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

古事寻踪记
2025-11-18 07:18:01
极目调查|流量风口下野蛮生长的荒野求生:有人提前数月找荒山“实习”,有选手烫伤数天无人知晓

极目调查|流量风口下野蛮生长的荒野求生:有人提前数月找荒山“实习”,有选手烫伤数天无人知晓

极目新闻
2025-11-18 17:38:31
别被新闻给误导了,这才是高市早苗的真相

别被新闻给误导了,这才是高市早苗的真相

少年一白
2025-11-18 12:03:56
防止规模性返乡滞乡?未来最难的一批人是他们

防止规模性返乡滞乡?未来最难的一批人是他们

财话连篇
2025-11-17 18:41:50
13年前日本将军预言:2025年中日必有一战,解放军14天占领冲绳

13年前日本将军预言:2025年中日必有一战,解放军14天占领冲绳

书中自有颜如玉
2025-11-19 00:58:25
美网炸裂,爱泼斯坦邮件公布,特朗普给克林顿吹过X,还有照片

美网炸裂,爱泼斯坦邮件公布,特朗普给克林顿吹过X,还有照片

社会酱
2025-11-18 17:07:49
上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

我心纵横天地间
2025-11-18 19:01:13
上海藏着五万日本人:不旅游只扎根!一旦开战,后果不堪设想

上海藏着五万日本人:不旅游只扎根!一旦开战,后果不堪设想

小影的娱乐
2025-11-18 14:33:59
孟加拉国前总理哈西娜被判死刑,中方回应

孟加拉国前总理哈西娜被判死刑,中方回应

政知新媒体
2025-11-18 16:44:49
外媒:特斯拉加速淘汰所有中国产零部件,转而生产美国制造的汽车

外媒:特斯拉加速淘汰所有中国产零部件,转而生产美国制造的汽车

寒士之言本尊
2025-11-17 14:37:37
深夜突发!全线大跌!

深夜突发!全线大跌!

证券时报
2025-11-19 00:15:09
随着韩国1-0越南,熊猫杯最终积分榜:国足屈居亚军,汪士钦染红

随着韩国1-0越南,熊猫杯最终积分榜:国足屈居亚军,汪士钦染红

侃球熊弟
2025-11-18 17:26:04
广东模特冠军诞生!你还敢嘲笑辽宁吗?

广东模特冠军诞生!你还敢嘲笑辽宁吗?

麦杰逊
2025-11-18 11:33:20
假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

潇湘晨报
2025-11-18 12:30:17
墙壁上还有女儿的血迹!受害者妈妈痛哭:怎能不恨

墙壁上还有女儿的血迹!受害者妈妈痛哭:怎能不恨

看看新闻Knews
2025-11-19 01:47:03
304万亿,我国的货币发行总量已经是世界第一了。

304万亿,我国的货币发行总量已经是世界第一了。

流苏晚晴
2025-11-18 20:20:14
轰动西方的中国奇人,外媒称若他早生100年,美国怕是赶不上中国

轰动西方的中国奇人,外媒称若他早生100年,美国怕是赶不上中国

通文知史
2025-11-17 23:30:03
不会吧,连救市之作也要下架了?

不会吧,连救市之作也要下架了?

LOGO研究所
2025-11-18 09:34:14
省会城市政府主要领导密集调整

省会城市政府主要领导密集调整

鲁中晨报
2025-11-18 22:35:05
2025-11-19 03:07:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
236083文章数 620634关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

健康
家居
旅游
数码
教育

警惕超声报告这六大"坑"

家居要闻

彰显奢华 意式经典风格

旅游要闻

金叶漫卷大雁塔!千年遗址公园的秋日狂欢,藏着最动人的城市密码

数码要闻

华为MatePad系列平板“PC多屏协同”功能正式回归

教育要闻

留学降温“AI化留学”泛滥海归人设崩塌?

无障碍浏览 进入关怀版