网易首页 > 网易号 > 正文 申请入驻

测试「天下最聪明」的 Grok3:它真的是模型边际效应的终点吗?

0
分享至

消耗了 DeepSeek V3 的 263 倍的算力的 Grok3,就这?

作者 | 张勇毅


北京时间 2 月 18 日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。

早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人 24/7 不间断的预热炒作,让全球对 Grok3 的期待值被拉到了空前的程度。在一周前,马斯克在直播中评论 DeepSeek R1 时,还信心满满地表示「xAI 即将推出更优秀的 AI 模型」。

从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算,并预测「三年内将实现诺贝尔奖级别突破」。

但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:「9.11 与 9.9 哪个大?」

遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。

Grok3 并没准确识别出这个问题的含义 | 图片来源:极客公园

在这个测试发出之后,很短的时间内迅速引发了不少朋友的关注,无独有偶,在海外也有很多类似问题的测试,例如「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应对。因此被戏称为「天才不愿意回答简单问题」。

Grok3 在实际测试中的许多常识问题上出现「翻车」 | 图片来源:X

除了网友自发测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他号称经常玩的 Path of Exile 2 (流放之路 2) 对应的职业与升华效果,但实际上 Grok3 给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。

Grok3 在直播中也出现给出数据大量错误的情况 | 图片来源:X

因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏「找代练」的实锤证据,同时也为 Grok3 在实际应用中的可靠性,再次打上了一个大大的问号。

对于这样的「天才」,无论实际能力几何,未来被用于火星探索任务这样的极度复杂的应用场景,其可靠性都要打上一个大大的问号。

目前,众多在几周前获得 Grok3 测试资格、以及昨天刚刚用上几个小时的模型能力测试者,对于 Grok3 当前的表现,都指向了一个相同的结论:

「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」

「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」 | 图片来源:X

Grok3 在发布中官方的 PPT 中,在大模型竞技场 Chatbot Arena 中实现「遥遥领先」,但这其实也应用了一些小小的作图技巧:榜单的纵轴仅列出了 1400-1300 分段的排名,让原本 1% 的测试结果差距,在这个 PPT 展示中都变得异常明显。

官方发布 PPT 中的「遥遥领先」效果 | 图片来源:X

而实际的模型跑分结果,Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 实现了不到 1-2% 的差距:这对应了不少用户在实际测试中「并无明显差别」的体感效果。

实际上的 Grok3,只比后来者高了 1%-2% | 图片来源:X

此外虽然在分数上,Grok3 超过了目前公开测试的所有模型,但这一点并不被很多人买账:毕竟 xAI 在 Grok2 时代就有在这个榜单中「刷分」,随着榜单对回答长度风格做降权处理而大幅降低分数的情况,因此经常被业内人士诟病「高分低能」。

无论是榜单「刷分」,还是配图设计上的「小技巧」,都展示出的是 xAI 以及马斯克本人对于模型能力「遥遥领先」这件事的执念。

而为了这些差距,马斯克所付出的代价堪称高昂:在发布会中,马斯克用近乎炫耀的口吻表示,用了 20 万张 H100(马斯克直播中表示使用「超过 10 万」张) 训练 Grok3,总训练小时数达到两亿小时。这让一部分人觉得这是对 GPU 行业的又一个重大利好,并认为 DeepSeek 给行业带来的震动是「愚蠢」的。

不少人认为堆砌算力将会是模型训练的未来 | 图片来源:X

但实际上,有网友对比了使用 2000 张 H800 训练两个月得出的 DeepSeek V3,计算出 Grok3 其实际的训练算力消耗是 V3 的 263 倍。而 DeeSeek V3 在大模型竞技场榜单上与得分 1402 分的 Grok3 的差距,甚至还不到 100 分而已。

从这些数据出炉之后,就有不少人快速意识到,在 Grok3 登顶「世界最强」的背后,其实是模型越大,性能越强的逻辑,已经出现了明显的边际效应。

即使是「高分低能」的 Grok2,其背后也有着 X(Twitter)平台内海量的高质量第一方数据作为支撑来使用。而到了 Grok3 的训练中,xAI 自然也会遇到 OpenAI 当前同样遇到的「天花板」——优质训练数据的不足,让模型能力的边际效应迅速曝光。

对于这些事实,最早意识到并且也是最深刻理解的人,肯定是 Grok3 的开发团队与马斯克,因此马斯克也在社交媒体上不断表示当前用户体验到的版本「还仅仅只是测试版」「完整版将在未来几个月推出」。马斯克本人更是化身 Grok3 产品经理,建议用户直接在评论区反馈使用时所遇到的各种问题。

他大概是地球上粉丝数量最多的产品经理 | 图片来源:X

但不到一天之内,Grok3 的表现,无疑给寄希望依靠「大力飞砖」训练出能力更强的大模型的后来者敲响了警钟:根据微软公开的信息推测,OpenAI GPT4 参数体积为 1.8 万亿参数,相比 GPT3 已经提升了超过 10 倍,而传闻中的 GPT4.5 的参数体积甚至还会更大。

模型参数体积飞涨的同时训练成本也在飙升 | 图片来源:X

有 Grok3 在前,GPT4.5 以及更多想要继续「烧钱」,以参数体积来获得更好模型性能的选手,都不得不考虑到已经近在眼前的天花板,应该怎样突破。

此时此刻,OpenAI 的前首席科学家 Ilya Sutskever 在去年 12 月曾表示「我们所熟悉的预训练将会结束」,又被人重新记起来,并试图从中找到大模型训练的真正出路。

Ilya 的观点,已经为行业敲响了警钟 | 图片来源:X

彼时, Ilya 准确预见到了可用的新数据接近枯竭,模型难以再继续通过获取数据来提升性能的情况,并这种情况形容为化石燃料的消耗,表示「正如石油是有限资源一样,互联网中由人类生成的内容也是有限的」。

在 Sutskever 预测中,预训练模型之后的下一代模型将会有「真正的自主性」。同时将具备「类似人脑」的推理能力。

与如今预训练模型主要依赖的内容匹配(基于模型此前学习的内容)不同,未来的 AI 系统将能够以类似于人脑「思维」的方式,来逐步学习并建立起解决问题的方法论。

人类对某一个学科做到基本的精通,只需要基本专业书籍即可实现,但 AI 大模型却需要学习数以百万计的数据才能实现最基础的入门效果,甚至当你换了个问法之后,这些基础的问题也无法正确理解,模型在真正的智能上并没有得到提升:文章开头提到的那些基础但 Grok3 仍然无法正确回答的问题,就是这种现象的直观体现。

但在「力大飞砖」之外,Grok3 如果真的能向行业揭示「预训练模型即将走到尽头」这个事实,那它对行业仍然称得上有着重要的启发意义。

或许,在 Grok3 的狂潮逐渐褪去之后,我们也能看到,更多类似李飞飞「在特定数据集的基础上 50 美元微调出高性能模型」的案例出现。并在这些探索中,最终找到真正通向 AGI 的道路。

*头图来源:极客公园

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得 Grok3 会是预训练模型的「终点」吗?

马斯克:Grok3 聪明得令人害怕,它提出的方案你都没想过。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耻辱!阿莱格里赛前弃用三大巨星!米兰 1-2 输保级队无缘欧冠

耻辱!阿莱格里赛前弃用三大巨星!米兰 1-2 输保级队无缘欧冠

澜归序
2026-05-25 05:27:07
女选手游泳隐私照被泄露,近万人围观,有人提醒反被责怪

女选手游泳隐私照被泄露,近万人围观,有人提醒反被责怪

映射生活的身影
2026-05-25 08:46:19
冲上热榜!郑钦文惨败产生连锁反应:排名跌出百大+或沦为中国6姐

冲上热榜!郑钦文惨败产生连锁反应:排名跌出百大+或沦为中国6姐

大秦壁虎白话体育
2026-05-25 19:49:55
行贿犯罪嫌疑人薛国泉被遣返回国

行贿犯罪嫌疑人薛国泉被遣返回国

界面新闻
2026-05-25 16:02:05
德甲半决赛对手不惧樊振东:我们赢过他一次,已做好准备再赢一次

德甲半决赛对手不惧樊振东:我们赢过他一次,已做好准备再赢一次

杨华评论
2026-05-25 23:22:03
34岁女教师出轨12岁学生,生下2孩子判7年,出狱当天学生娶了她

34岁女教师出轨12岁学生,生下2孩子判7年,出狱当天学生娶了她

莫地方
2026-05-26 01:35:03
马斯克最铁哥们将靠SpaceX IPO狂赚千亿,但SpaceX欠他200亿

马斯克最铁哥们将靠SpaceX IPO狂赚千亿,但SpaceX欠他200亿

字节漫游指南
2026-05-26 01:23:46
“打输住院,打赢拘留”!宁夏一地警方查处5起殴打他人案件!

“打输住院,打赢拘留”!宁夏一地警方查处5起殴打他人案件!

环球网资讯
2026-05-25 17:27:09
汽车大局已定?明后年,拥有两辆以上燃油车的车主,坚持4不做!

汽车大局已定?明后年,拥有两辆以上燃油车的车主,坚持4不做!

阿芒娱乐说
2026-05-25 09:58:47
华为突破半导体规则引爆中国芯片产业链:中芯、华虹等公司创历史新高

华为突破半导体规则引爆中国芯片产业链:中芯、华虹等公司创历史新高

快科技
2026-05-25 16:02:05
这家加拿大公司把36台相机装进篮球场,要挑战NBA

这家加拿大公司把36台相机装进篮球场,要挑战NBA

硬核玩家2哈
2026-05-26 02:38:38
养老院老太太被水饺噎死,工作人员收拾遗物惊呼:她竟如此尊贵

养老院老太太被水饺噎死,工作人员收拾遗物惊呼:她竟如此尊贵

深度报
2026-04-26 23:11:40
上海28岁天才股神直言:A股如果迎来牛市,建议死啃6大抄底形态!

上海28岁天才股神直言:A股如果迎来牛市,建议死啃6大抄底形态!

股经纵横谈
2026-05-25 21:06:40
医生发现,凡是老年斑多的人,大多都有这4个共性,注意观察!

医生发现,凡是老年斑多的人,大多都有这4个共性,注意观察!

华庭讲美食
2026-05-25 15:38:07
2384亿小贷帝国崩塌!重庆教父落马,八部门铁拳砸下

2384亿小贷帝国崩塌!重庆教父落马,八部门铁拳砸下

呼呼历史论
2026-05-23 13:12:42
乌克兰复仇反攻莫斯科!摧毁俄罗斯关键的弗托罗沃能源枢纽

乌克兰复仇反攻莫斯科!摧毁俄罗斯关键的弗托罗沃能源枢纽

项鹏飞
2026-05-25 19:55:49
武汉这家酒店把饭店做成超市,现炒热菜随便挑,街坊:“不想做饭就来这”

武汉这家酒店把饭店做成超市,现炒热菜随便挑,街坊:“不想做饭就来这”

极目新闻
2026-05-23 10:04:26
人形机器人第一股“临门一脚”:宇树科技6月1日上会 Q1扣非净利润下滑超五成

人形机器人第一股“临门一脚”:宇树科技6月1日上会 Q1扣非净利润下滑超五成

财联社
2026-05-25 23:04:20
郑钦文法网首轮出局!扣420分世界排名跌至第117 已成中国四姐

郑钦文法网首轮出局!扣420分世界排名跌至第117 已成中国四姐

念洲
2026-05-25 18:45:55
西汉姆联濒临崩溃:6万球迷控诉,俱乐部深陷危机

西汉姆联濒临崩溃:6万球迷控诉,俱乐部深陷危机

坠入温柔晚风
2026-05-26 01:43:56
2026-05-26 02:56:49
极客公园
极客公园
让最棒的创新成为头条
12082文章数 78882关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

家居
教育
本地
健康
艺术

家居要闻

生与命相依 旧公寓改造

教育要闻

罚抄10遍被投诉,一个电话让全班没了作业,孩子就毁这类家长手里

本地新闻

用云锦的方式,打开江苏南京

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

艺术要闻

于东来计划建小区,建筑设计用材都公开,地产界震动?

无障碍浏览 进入关怀版