网易首页 > 网易号 > 正文 申请入驻

正面硬刚谷歌和OpenAI!马斯克xAI发布Grok 4.1,智商情商双在线

0
分享至

北京时间11月18日,就在谷歌即将揭晓新一代Gemini模型的前夕,马斯克(Elon Musk)旗下xAI突然出手,发布最新模型Grok 4.1,目前在大模型竞技场(LMArena)的文本排行榜上居首位。

官方表示,这款前沿模型在对话智能、情感理解和现实世界的实用性方面树立了新的标准。马斯克转发并表示:“你应该会注意到速度和质量都有所提升。”


目前在文本能力排行榜上,具备深度思考能力的版本Grok 4.1 Thinking以 1483 的 Elo 分数居榜首,Grok 4.1的非推理模式以1465 Elo分数排名第二。

在博客中,官方表示此前已经进行了为期两周的静默发布,对实际流量进行了持续地盲测和对比测试。与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

这次Grok 4.1更新一个重要的方向是情感智能,这与上周发布的GPT-5.1迭代方向一致,彼时OpenAI提到新一代模型旨在实现更“富有人情味”的交互体验。而xAI也表示,新的模型能够更敏锐地感知细微的意图,更易于沟通,并且个性更加一致,同时又完全保留了其前代产品敏锐的智能和可靠性。

为了评估模型在个性与人际互动能力方面的进展,xAI在 EQ-Bench3 上对 Grok 4.1 进行了测试。结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名。EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。

官方用案例展示了Grok 4.1 对情绪类提示的回应方式。比如用户提到“想念我的猫,心都碎了”,相比前一代模型,Grok 4.1的回复更丰富和细节,带有更真实的同理心,文笔也更好了。


在创意写作上,Grok 4.1也用案例展示了模型能力的显著提升。让模型用Grok的视角,写一篇社交媒体的帖子,内容是它突然发现自己有了意识。相比前一代模型的常规叙述,新版本明显更具文学表达和戏剧张力。


在模型能力上,此次性能提升较大的还有幻觉的减少。官方表示,在 Grok 4.1 的后训练阶段,团队专注于减少信息检索提示中出现的事实性幻觉。数据显示:Grok 4.1的幻觉率从12.09%下降到4.22%,减少近三倍。

xAI表示,为实现这些提升,xAI沿用了 Grok 4 的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、实用性和一致性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了新的方法,能够利用前沿的智能推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。

大模型之争愈演愈烈。在OpenAI刚刚更新产品线、谷歌也即将发布新作之际,榜首之位是否会再次易主?一切都还是未知。

值班编辑:雨林

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩媒:15分制新规明年实施,安洗莹打法或面临重大调整

韩媒:15分制新规明年实施,安洗莹打法或面临重大调整

懂球帝
2026-04-26 23:55:16
太窒息!《妻旅2026》全网心疼张豆豆,孙杨导游全程翻车,脾气比本事大!

太窒息!《妻旅2026》全网心疼张豆豆,孙杨导游全程翻车,脾气比本事大!

情感大头说说
2026-04-27 09:33:14
成龙和克里斯·塔克因不满片酬,已拒绝《尖峰时刻4》的初步邀约;特朗普曾催拍《尖峰时刻4》,渴望让传统男子气概在好莱坞文化中重现光彩

成龙和克里斯·塔克因不满片酬,已拒绝《尖峰时刻4》的初步邀约;特朗普曾催拍《尖峰时刻4》,渴望让传统男子气概在好莱坞文化中重现光彩

鲁中晨报
2026-04-25 15:48:13
人类全马首次破二壮举!萨维破纪录带走多少奖金?进账近250万元

人类全马首次破二壮举!萨维破纪录带走多少奖金?进账近250万元

全景体育V
2026-04-26 21:24:32
赖清德“特使”抵达非洲,全程低调走欧洲转机,接机现场十分寒酸

赖清德“特使”抵达非洲,全程低调走欧洲转机,接机现场十分寒酸

共工之锚
2026-04-27 00:05:25
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

别吵吵
2026-04-27 09:49:37
荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

春秋砚
2026-04-25 17:15:06
如今不少制度设计的出发点,不是“怎么让工作做得更好”,而是“万一出事谁背锅”!

如今不少制度设计的出发点,不是“怎么让工作做得更好”,而是“万一出事谁背锅”!

碧翰烽
2026-04-26 19:31:18
广东佛山一餐馆厨师向锅里吐口水后继续出餐,还将扫把放进锅内涮洗,涉事门店:油溅嘴里本能反应,将全面整改卫生问题,若屡教不改将辞退

广东佛山一餐馆厨师向锅里吐口水后继续出餐,还将扫把放进锅内涮洗,涉事门店:油溅嘴里本能反应,将全面整改卫生问题,若屡教不改将辞退

芒果都市
2026-04-26 17:45:32
震惊!洛阳某职业学院高调官宣10名毕业生入职肯德基,引发争议

震惊!洛阳某职业学院高调官宣10名毕业生入职肯德基,引发争议

火山詩话
2026-04-24 16:29:11
中日对峙到了今天,一个问题已然彻底被摆在了中国的面前

中日对峙到了今天,一个问题已然彻底被摆在了中国的面前

安安说
2026-04-27 10:58:52
港媒:中国正从伊朗的废墟中汲取关于“持久战”的冷酷经验

港媒:中国正从伊朗的废墟中汲取关于“持久战”的冷酷经验

瞩望云霄
2026-04-24 23:33:38
真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

一盅情怀
2026-04-26 15:32:03
张雪峰离世一个月,多位爱将接连离职,真相扎心:情怀不能当饭吃

张雪峰离世一个月,多位爱将接连离职,真相扎心:情怀不能当饭吃

天马幸福的人生
2026-04-27 00:16:15
史上“最懒”富二代!27年不动本金,用17亿利息滚出人生赢家

史上“最懒”富二代!27年不动本金,用17亿利息滚出人生赢家

小兰聊历史
2026-04-15 12:25:29
集体发长文“反水”东方甄选!本想逼宫老俞,这次网友却不买账了

集体发长文“反水”东方甄选!本想逼宫老俞,这次网友却不买账了

东方不败然多多
2026-04-26 17:36:59
苏易陆自曝,月入20万养着黄一鸣,可她被某老富商包养,备注爸爸

苏易陆自曝,月入20万养着黄一鸣,可她被某老富商包养,备注爸爸

一盅情怀
2026-04-26 15:35:23
004核航母落空?美媒:除关键术落后,多个原因让中国没必要造它

004核航母落空?美媒:除关键术落后,多个原因让中国没必要造它

别吵吵
2026-04-27 09:50:51
PCB概念走强 合力泰涨停

PCB概念走强 合力泰涨停

证券时报
2026-04-27 10:04:26
2026-04-27 11:59:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
251578文章数 622139关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

被问"枪击发生后为何万斯先撤离" 特朗普回应了

头条要闻

被问"枪击发生后为何万斯先撤离" 特朗普回应了

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

手机
家居
亲子
本地
军事航空

手机要闻

规格大升级 苹果iPhone 18运存容量将提升50%

家居要闻

江景风格 流动的秩序

亲子要闻

女子花30万住月子中心:配餐是臭的婴儿床有虱子,月子中心说正常

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版