网易首页 > 网易号 > 正文 申请入驻

马斯克再出AI王牌:Grok 4.1霸榜LMArena排行榜

0
分享至

IT之家 11 月 18 日消息,埃隆・马斯克(Elon Musk)旗下的人工智能公司 xAI 昨日(11 月 17 日)发布公告,宣布推出最新大语言模型 Grok 4.1,并已面向 grok.com、 平台及移动应用(iOS 和安卓)所有用户全面推送。


本次更新旨在全面提升 Grok 在真实世界场景下的可用性。官方表示,Grok 4.1 不仅继承了前代模型敏锐的智能与高可靠性,更在创造性、情感理解和协作互动方面实现了重大改进,让其能够更精准地感知用户细微意图,提供更具吸引力和人格连贯性的对话体验。


Grok 4.1 的性能实现了业界顶尖水平。在大型语言模型竞技场(LMArena)的文本能力排行榜上,其具备深度思考能力的版本(代号:quasarflux)以 1483 的 Elo 分数高居榜首,领先第二名达 31 分。IT之家附上相关截图如下:


更引人注目的是,其无需深度思考的“即时响应”版本也以 1465 的 Elo 分数位列第二,性能甚至超越了其他所有模型的“全推理”模式。这一成绩相较于前代 Grok 4(排名第 33 位)实现了巨大飞跃,也印证了其在底层能力上的绝对优势。


除了在通用能力基准测试中表现出色,Grok 4.1 还在“软实力”方面取得了显著进步。在衡量模型情商的 EQ-Bench3 基准测试和评估创意能力的 Creative Writing v3 测试中,新模型均表现优异。


在评估情感理解、洞察力和人际交往能力的 EQ-Bench3 基准测试中,Grok 4.1 的推理与非推理模式包揽了榜单前两名。


在创意写作领域,根据 Creative Writing v3 基准测试结果,Grok 4.1 的两种模式分别位列第二和第三,仅次于早期的 GPT-5.1 模型。


这意味着 Grok 4.1 不仅能处理复杂的逻辑推理,还能更好地理解并回应带有人类情感的提示,进行富有想象力的内容创作,让其在人机交互中更具“人情味”。

另一项关键改进在于大幅降低了模型的“幻觉”率。对于配备搜索工具的快速响应模型而言,由于推理深度和工具调用预算有限,容易出现事实性错误。


x.ai 在 Grok 4.1 的训练后期,特别针对优化信息查询类提示,专注于减少事实性幻觉。根据对真实世界查询样本的评估,新模型的幻觉率已显著降低,从而为用户提供更可靠、更准确的信息。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
81年我提干当了排长,回家探亲去看望公社书记,他把女儿许配给我

81年我提干当了排长,回家探亲去看望公社书记,他把女儿许配给我

人间百态大全
2025-12-06 06:40:03
1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

唠叨说历史
2026-01-30 14:29:18
蒂格:没人能防住41岁詹姆斯!约翰逊:詹姆斯统治NBA二十年!

蒂格:没人能防住41岁詹姆斯!约翰逊:詹姆斯统治NBA二十年!

氧气是个地铁
2026-02-03 18:34:47
仅6分钟19个导弹连全军覆没,82架战机被击落给我们敲响警钟

仅6分钟19个导弹连全军覆没,82架战机被击落给我们敲响警钟

阿光的技巧课堂
2026-02-02 23:59:53
随着比分定格1-0,沙特联榜首易主:C罗的主队豪取5连胜升至第一

随着比分定格1-0,沙特联榜首易主:C罗的主队豪取5连胜升至第一

侧身凌空斩
2026-02-03 01:39:51
7岁女孩吃完自助餐,衣兜撑满,店员怀疑偷拿!翻开衣兜后,在场所有人哭了…

7岁女孩吃完自助餐,衣兜撑满,店员怀疑偷拿!翻开衣兜后,在场所有人哭了…

品读时刻
2026-02-03 09:08:37
舒畅举报了两人:除了郝伟,另一人吴志东在20年前就被举报黑哨

舒畅举报了两人:除了郝伟,另一人吴志东在20年前就被举报黑哨

姜大叔侃球
2026-02-02 23:06:50
章泽天带宝贝女儿参加伦敦音乐节,母女俩秀发靓丽漂亮得体太可爱

章泽天带宝贝女儿参加伦敦音乐节,母女俩秀发靓丽漂亮得体太可爱

草莓解说体育
2026-02-03 16:55:36
炸场!iPhone18系列终极确认:全系不涨价+发布时间敲定

炸场!iPhone18系列终极确认:全系不涨价+发布时间敲定

小柱解说游戏
2026-02-02 00:14:37
结束!一球前锋险成标王,曼联三进三出零收获,曼城两新援冲四冠

结束!一球前锋险成标王,曼联三进三出零收获,曼城两新援冲四冠

嗨皮看球
2026-02-03 18:38:12
Siegel:国王在谈判中提出蒙克&德罗赞,但对勇士毫无吸引力

Siegel:国王在谈判中提出蒙克&德罗赞,但对勇士毫无吸引力

林子说事
2026-02-03 13:13:07
1996年张万年冒大雪到五台山,问一小和尚:你原来哪部队,咋来这

1996年张万年冒大雪到五台山,问一小和尚:你原来哪部队,咋来这

云霄纪史观
2026-02-02 05:34:41
国共智库论坛,探索“一国两制”中的“一国一制”

国共智库论坛,探索“一国两制”中的“一国一制”

观察者网
2026-02-02 11:39:05
中国女篮公布热身赛14人名单:张子宇王思雨加入 李月汝韩旭缺席

中国女篮公布热身赛14人名单:张子宇王思雨加入 李月汝韩旭缺席

醉卧浮生
2026-02-03 11:53:17
大S事件重演?73岁赵雅芝突传去世噩耗,晒照报平安却被扒是库存照

大S事件重演?73岁赵雅芝突传去世噩耗,晒照报平安却被扒是库存照

八星人
2026-02-01 23:25:21
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
上观:莱昂纳多膝盖受伤,海港可能找一个救火外援

上观:莱昂纳多膝盖受伤,海港可能找一个救火外援

懂球帝
2026-02-03 13:25:10
国投白银LOF今日复牌再度跌停

国投白银LOF今日复牌再度跌停

财联社
2026-02-03 10:34:28
OpenClaw+Kimi K2.5+Moltbook保姆级部署指南,确实可以封神了!

OpenClaw+Kimi K2.5+Moltbook保姆级部署指南,确实可以封神了!

苍何
2026-02-02 19:16:14
新疆发布谈赵睿言论:粉丝撑起你,别伤了他们的心

新疆发布谈赵睿言论:粉丝撑起你,别伤了他们的心

懂球帝
2026-02-03 15:11:05
2026-02-03 20:19:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
327955文章数 606968关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

浙江一对夫妻"网购娃娃菜中毒":合谋意图骗赔

头条要闻

浙江一对夫妻"网购娃娃菜中毒":合谋意图骗赔

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

时尚
艺术
亲子
公开课
军事航空

冬天还是“羽绒服”最保暖!看看这些穿搭,简单舒适又不老气

艺术要闻

2026年,中国最值得期待的20个新建筑

亲子要闻

当娃会开门后,天天上厕所来凑热闹,网友:给娃熏的脸通红!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版