网易首页 > 网易号 > 正文 申请入驻

正面硬刚谷歌和OpenAI!马斯克旗下xAI突然出手

0
分享至

2025.11.18


本文字数:1120,阅读时长大约1分钟

作者 |第一财经 刘晓洁


北京时间11月18日,就在谷歌即将揭晓新一代Gemini模型的前夕,马斯克(Elon Musk)旗下xAI突然出手,发布最新模型Grok 4.1,目前在大模型竞技场(LMArena)的文本排行榜上居首位。

官方表示,这款前沿模型在对话智能、情感理解和现实世界的实用性方面树立了新的标准。马斯克转发并表示:“你应该会注意到速度和质量都有所提升。”


目前在文本能力排行榜上,具备深度思考能力的版本Grok 4.1 Thinking以 1483 的 Elo 分数居榜首,Grok 4.1的非推理模式以1465 Elo分数排名第二。

在博客中,官方表示此前已经进行了为期两周的静默发布,对实际流量进行了持续地盲测和对比测试。与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

这次Grok 4.1更新一个重要的方向是情感智能,这与上周发布的GPT-5.1迭代方向一致,彼时OpenAI提到新一代模型旨在实现更“富有人情味”的交互体验。而xAI也表示,新的模型能够更敏锐地感知细微的意图,更易于沟通,并且个性更加一致,同时又完全保留了其前代产品敏锐的智能和可靠性。

为了评估模型在个性与人际互动能力方面的进展,xAI在 EQ-Bench3 上对 Grok 4.1 进行了测试。结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名。EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。

官方用案例展示了Grok 4.1 对情绪类提示的回应方式。比如用户提到“想念我的猫,心都碎了”,相比前一代模型,Grok 4.1的回复更丰富和细节,带有更真实的同理心,文笔也更好了。


在创意写作上,Grok 4.1也用案例展示了模型能力的显著提升。让模型用Grok的视角,写一篇社交媒体的帖子,内容是它突然发现自己有了意识。相比前一代模型的常规叙述,新版本明显更具文学表达和戏剧张力。


在模型能力上,此次性能提升较大的还有幻觉的减少。官方表示,在 Grok 4.1 的后训练阶段,团队专注于减少信息检索提示中出现的事实性幻觉。数据显示:Grok 4.1的幻觉率从12.09%下降到4.22%,减少近三倍。

xAI表示,为实现这些提升,xAI沿用了 Grok 4 的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、实用性和一致性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了新的方法,能够利用前沿的智能推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。

大模型之争愈演愈烈。在OpenAI刚刚更新产品线、谷歌也即将发布新作之际,榜首之位是否会再次易主?一切都还是未知。

微信编辑| 格蕾丝

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

篮球大视野
2025-11-18 15:32:31
受贿数额特别巨大,蛇年首“虎”被公诉!曾任市委书记、副省长

受贿数额特别巨大,蛇年首“虎”被公诉!曾任市委书记、副省长

上观新闻
2025-11-18 10:58:07
一夜损失40000亿美元背后,这位18岁中国少年轰动世界!

一夜损失40000亿美元背后,这位18岁中国少年轰动世界!

阿燕姐说育儿
2025-11-15 06:36:19
大批国人继续赴日旅游,记者采访令人破防

大批国人继续赴日旅游,记者采访令人破防

热点菌本君
2025-11-18 14:20:27
18号收评:日经股指跌超3%!所有人都注意,大盘后市开始这样看

18号收评:日经股指跌超3%!所有人都注意,大盘后市开始这样看

春江财富
2025-11-18 15:23:27
刚刚!金价,大逆转!美联储,降息大消息!

刚刚!金价,大逆转!美联储,降息大消息!

中国基金报
2025-11-18 19:19:10
初婚人口跌破1000万

初婚人口跌破1000万

谭谈投研
2025-11-17 12:17:54
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
恶劣!汪士钦拉倒对手后再猛推一把+被红牌罚下 6天2次成为罪人

恶劣!汪士钦拉倒对手后再猛推一把+被红牌罚下 6天2次成为罪人

风过乡
2025-11-18 21:42:02
陈婉婷:家门口拿全运金牌意义大,内地女性退役不执教很可惜

陈婉婷:家门口拿全运金牌意义大,内地女性退役不执教很可惜

懂球帝
2025-11-18 15:51:12
当年为何要炸掉西湖边的秋瑾墓?

当年为何要炸掉西湖边的秋瑾墓?

娱乐喵喵说
2025-11-16 09:27:37
宋凯邵佳一观战黑脸!22岁美甲国脚3场3次送礼 名记:中超禁赛5场

宋凯邵佳一观战黑脸!22岁美甲国脚3场3次送礼 名记:中超禁赛5场

我爱英超
2025-11-18 22:06:39
越神秘越可怕?美媒:迟迟不亮相的轰-20,让美军觉得是在憋大招

越神秘越可怕?美媒:迟迟不亮相的轰-20,让美军觉得是在憋大招

墨羽怪谈
2025-11-17 20:32:07
高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

卷史
2025-11-17 17:08:23
俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

我心纵横天地间
2025-11-18 20:07:05
宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

娱乐圈笔娱君
2025-11-18 14:22:40
86年立功被提拔,师长介绍他女儿给我,谁知刚见面就扇了我一巴掌

86年立功被提拔,师长介绍他女儿给我,谁知刚见面就扇了我一巴掌

卡西莫多的故事
2025-10-29 10:39:30
2025年,倒闭的店铺越来越多,很多人都快撑不住了

2025年,倒闭的店铺越来越多,很多人都快撑不住了

深蓝夜读
2025-11-16 18:26:32
俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

环球网资讯
2025-11-18 15:40:51
场均14+11!杨瀚森重返巅峰,开拓者官宣决定,争取轮换地位

场均14+11!杨瀚森重返巅峰,开拓者官宣决定,争取轮换地位

阿泰希特
2025-11-18 09:36:32
2025-11-18 23:04:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
236067文章数 620633关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

荒野求生成流量风口:有女子辞职参赛结果烫伤花光积蓄

头条要闻

荒野求生成流量风口:有女子辞职参赛结果烫伤花光积蓄

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

教育
时尚
亲子
健康
数码

教育要闻

安徽农业大学2026保研459人,计算机科学与技术19人

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

亲子要闻

添孙子祝福语

警惕超声报告这六大"坑"

数码要闻

M1芯片问世五周年,苹果高管直言:Mac从未如此出色!

无障碍浏览 进入关怀版