网易首页 > 网易号 > 正文 申请入驻

马斯克Grok 4逆天跑分泄露,「人类最后考试」豪取45%全场第一!

0
分享至


新智元报道

编辑:定慧 好困

【新智元导读】Grok 4跑分提前泄露,在「人类最后考试」中高达45%的得分,远超Gemini与Claude,成为当前测试中最强模型之一。马斯克表示Grok 4以「第一性原理」构建推理机制,Grok 4有望改写LLM格局。

Grok 4马上就来,马斯克说的!


甚至,现在部署的Grok,已经在能力上有了显著的提升。


与此同时,网友LEGIT的一张截图,更是直接泄露了Grok 4和Grok 4 Code在多个关键基准评测上的跑分。

目前,这一消息已经得到了AI圈知名大佬Tibor Blaho的确认。



根据泄露的数据,Grok 4在GPQA、AIME 25和SWE-bench评测中可谓是「遥遥领先」,全面碾压谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

  • GPQA(研究生级物理和天文学问题):Grok 4得分87-88%,略优于Gemini 2.5 Pro的86.4%,明显超过Claude 4 Opus的79.6%。

  • AIME 25(2025美国数学邀请赛):Grok 4得分95%,大幅超越Claude 4 Opus的75.5%,并优于OpenAI o3的88.9%。

  • SWE-bench(真实软件工程问题):Grok 4 Code得分72-75%,略优于Claude Opus 4的72.5%,略高于OpenAI o3的71.7%。

不仅如此,Grok 4还在覆盖范围最广、难度最高的终极闭卷学术基准「人类最后的考试」(Human Last Exam,HLE)上取得了默认35%、最高45%的惊人高分。

这也意味着,最强状态下的Grok 4,得分是现任老大Gemini 2.5 Pro的2倍——高出了整整24个百分点。

相比正确率只有10.7%的Claude 4 Opus,成绩直接翻了4倍还多。



HLF这门考试堪称残酷,是专为挫败LLM的锐气而设计:

  • 横跨100多个学科的2,500道专家级试题

  • 14%为多模态题型(文本+图像)

  • 24%的问题为多项选择题

  • 设有防记忆陷阱和隐藏测试集,用于阻止「作弊式训练」

下图是所含知识的高层次可视化图表,其中的每个类别还包含有很多具体学科。


项目主页:https://lastexam.ai/

要知道,大多数前沿模型在这一分数面前都望尘莫及。

如果此次泄露属实,那么Grok 4就算闯过了AI基准测试领域最难的关卡之一。

由于在HLF的得分异常地高,Grok 4的发布再度引起了社区的广泛讨论。

是的,如果属实,这意味着该模型具有极其强大的世界知识。


看到如此之强的Grok 4,网友们已经迫不及待了,纷纷在线催更:


Grok 4源代码泄露

马斯克此前的采访中,曾经透露说。

Grok 3.5 正在尝试从第一性原理出发进行推理,也就是将物理学的方法应用到思维过程中。

Grok-3.5正是如今的Grok 4,老马决定一步到位,从Grok-3直接到Grok 4,不再挤牙膏了。

这似乎预示着Grok 4的能力会非常大的突破!

几天前,X上就有人发现在xAI控制台源代码中发现的2个Grok 4模型:Grok 4和Grok 4 Code

Grok 4:

  • 最新、最卓越的旗舰模型,在自然语言、数学及推理领域展现出无与伦比的性能,堪称万能的完美之选

Grok 4 Code:

  • 专为编程伴侣量身打造的模型。可以向它咨询代码相关的问题,或直接将其嵌入到代码编辑器中


也有人持怀疑态度

当然也有人似乎是被之前Grok 3的炒作「伤透了心」。

HLE的创建者Dan Hendrycks是xAI的亲密顾问(相比其他实验室而言)。

网友们想知道Dan Hendrycks是否只提供了安全方面的建议,还是以某种方式给出了增强科学知识细节的具体研发建议。

这不禁让人们联想到此前Llama 4的翻车闹剧,也是因为提前进行了「针对性的训练」。


马斯克亲自带货

马斯克曾在6月27日发帖称,正和团队加班加点的研发Grok。

将在7月4日后发布Grok 4,按照美东时间,今天开始,任何时候都有可能见证Grok 4的发布。


马斯克特地强调了,需要一次大型训练来开发了「特殊」的编码模型。

在5月20日的微软Build 2025大会上,马斯克现场讲述了Grok 3.5(Grok 4)将从第一性原理出发进行构建。


马斯克:

尤其是在即将发布的Grok 3.5中,我们的目标是让模型从第一性原理出发进行推理。

也就是说,像物理学家那样思考,借用物理的工具来分析问题。

如果你想要探寻事物的本质真相,就必须把问题分解到最基本、最可能正确的公理层面,然后再从这些基础出发向上推理。

接着,你可以将最终结论与这些基本原理进行校验。 在物理学中,如果你得出的结果违反了能量守恒或动量守恒,那你要么发现了诺奖级别的新理论,要么——更可能的是——你搞错了。

所以我们打造Grok 3.5的核心目标,就是以物理的基本原理为指导,应用这些方法来推理各种问题,力求以最小的误差,接近真实。

当然,出错是难免的,但我们的目标是持续减少这些错误。这个方向对于 AI 安全 至关重要。

我长久以来都在思考AI安全问题,而我最终得出的结论,其实可以用一句老话来概括:诚实是最好的策略

这不仅是道德要求,更是安全保障。 当然我们也会犯错,但我们承诺会尽快修正这些错误。

我们也非常期待来自开发者社区的反馈——你们需要什么?我们哪里做错了?又该如何改进?

我们希望Grok成为一个令开发者充满期待的工具,一个他们的声音能真正被听到的平台。

Grok将不断进化,努力满足开发者的需求。

编码能力成为必争之地

根据Grok API此前的模型推测,这次Grok 4 Code将是发布的重头戏,也许还会有Grok 4 mini。


马斯克特地提到Grok 4的编码能力,也是受到如今各家的影响,编码能力称为了衡量新模型的试金石。

谷歌

  • Gemini2.5包括改进的代码生成、复杂代码重构/转换、上下文管理、更好的PR评审能力,以及可定制命令等。

  • Gemini CLI是近期推出的命令行AI助手,基于Gemini2.5 Pro,可处理长达百万token的上下文,支持包括代码编写、调试、内容生成和任务管理于一体的多功能开发体验。

Anthropic

  • Claude 4(包含Opus与Sonnet)是Anthropic迄今最强大的模型系列,显著提升编码与AI agent能力。

  • Claude Code专注于终端环境使用,提供从代码编辑、问题修复、架构理解,到运行测试、lint、git操作、PR创建的一站式工具。

OpenAI

  • 新版Codex是基于OpenAI o3微调而来的,用于自然语言翻译代码,延续迄今生成工具(如GitHubCopilot)的核心能力。

DeepSeek

  • DeepSeek‑R1‑0528是DeepSeek推出的R1最新版本,定位为全能推理与编码能力提升模型。

既然老马着重提到了编码能力,那么也许这次是值得期待的。

参考资料:

https://x.com/WesRothMoney/status/1941227129875857869

https://x.com/legit_api/status/1941165728708874514


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果宣布 iOS 26.2 正式版发布时间,重要功能开放!

苹果宣布 iOS 26.2 正式版发布时间,重要功能开放!

XCiOS俱乐部
2025-11-12 10:06:17
高市祸闯大了,普京也出手了,美国拒绝兜底,特朗普补上致命一刀

高市祸闯大了,普京也出手了,美国拒绝兜底,特朗普补上致命一刀

小鱼爱鱼乐
2025-11-12 22:43:45
台湾18岁女生考上浙大,瞒着家人去杭州上学,刚下飞机便泪流雨下

台湾18岁女生考上浙大,瞒着家人去杭州上学,刚下飞机便泪流雨下

卡西莫多的故事
2025-11-12 11:31:33
紫牛热点∣老人“组团”开电动轮椅上高速!交警回应:批评教育,安全带离

紫牛热点∣老人“组团”开电动轮椅上高速!交警回应:批评教育,安全带离

扬子晚报
2025-11-12 21:18:57
李泽楷做梦也想不到!为他连生3个儿子的梁洛施,会跟马浴柯恋爱

李泽楷做梦也想不到!为他连生3个儿子的梁洛施,会跟马浴柯恋爱

张发林
2025-11-12 22:55:13
中国人集体戒酒

中国人集体戒酒

马蹄烫嘴说美食
2025-11-12 11:33:45
雷军坚称小米SU7无抄袭被打脸!网友:不是抄,是全部搬运

雷军坚称小米SU7无抄袭被打脸!网友:不是抄,是全部搬运

麦大人
2025-11-11 20:43:26
德约科维奇再谈辛纳禁药争议:他必须负责!

德约科维奇再谈辛纳禁药争议:他必须负责!

体育妞世界
2025-11-12 16:45:56
小鹏天塌了,机器人“胸部造型”冲上热搜!

小鹏天塌了,机器人“胸部造型”冲上热搜!

互联网品牌官
2025-11-10 18:16:35
张雪峰直播怒怼网友!演唱会女子身份曝光,脏话太多被指没素质

张雪峰直播怒怼网友!演唱会女子身份曝光,脏话太多被指没素质

不八卦掌门人
2025-11-12 17:07:36
它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

阿龙美食记
2025-11-10 14:34:38
岳云鹏演唱会“精致妆容”亮相,网友误认成欧豪,对比照亮了

岳云鹏演唱会“精致妆容”亮相,网友误认成欧豪,对比照亮了

鲁中晨报
2025-11-10 19:11:04
记者:米兰将与莱万经纪人会面讨论转会,伊布支持这一交易

记者:米兰将与莱万经纪人会面讨论转会,伊布支持这一交易

懂球帝
2025-11-12 17:41:06
北京楼市:就是个大坑…

北京楼市:就是个大坑…

北京房姐
2025-11-12 15:58:12
广汽丰田全新威兰达11月20日上市:RAV4姊妹车型,内外全面换代

广汽丰田全新威兰达11月20日上市:RAV4姊妹车型,内外全面换代

IT之家
2025-11-12 10:02:16
女性“高潮”的秘密:别再假装了,教你的伴侣如何带你到达巅峰

女性“高潮”的秘密:别再假装了,教你的伴侣如何带你到达巅峰

精彩分享快乐
2025-11-12 00:05:03
局势已恶化,马科斯被要求下台,菲国61个市镇大断电,还忙着反华

局势已恶化,马科斯被要求下台,菲国61个市镇大断电,还忙着反华

boss外传
2025-11-11 17:30:03
全运会“大湾鸡”爆火,里面皮套演员是武校小孩哥,老师:孩子自由发挥,能出圈很惊喜

全运会“大湾鸡”爆火,里面皮套演员是武校小孩哥,老师:孩子自由发挥,能出圈很惊喜

潇湘晨报
2025-11-12 16:32:13
谁懂啊,曾医生冲上热搜后, 一条“松弛感”睡裙也带火了

谁懂啊,曾医生冲上热搜后, 一条“松弛感”睡裙也带火了

尚不红小舒呀
2025-11-10 00:07:07
男子溺亡被运回家摆成睡姿,发现时都烂了,同伴赔8万,警方定性

男子溺亡被运回家摆成睡姿,发现时都烂了,同伴赔8万,警方定性

鋭娱之乐
2025-11-12 22:38:31
2025-11-12 23:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13852文章数 66245关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

家居
时尚
亲子
游戏
军事航空

家居要闻

情感之所 生活教会设计

女人年纪大了也不必慌,掌握这3个穿衣技巧,优雅体面极了

亲子要闻

孩子出现抽动以后会影响智力吗

《明日方舟:终末地》制作人访谈:面面俱到"/> 主站 商城 论坛 自运营 登录 注册 《明日方舟:终末地》制作人访谈:面面俱到 旌影 2025-11-1...

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版