网易首页 > 网易号 > 正文 申请入驻

马斯克用20万张GPU“砸出”地表最强AI?每经记者实测Grok 3:速度称王,数学亮眼,但逻辑思考不敌DeepSeek R1

0
分享至

近日,人工智能初创公司xAI发布了更新版Grok 3大模型,埃隆·马斯克称之为“地球上最聪明的人工智能”。

根据官方公开的测试结果,Grok 3在包括AIME(评估模型在一系列数学问题上的表现)和 GPQA(评估模型在博士级别的物理学、生物学和化学问题上的表现)等基准测试中,远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。

在大模型竞技场 Chatbot Arena(LMSYS)测试中,xAI工程师表示,早期版本的Grok 3获得了第一的成绩,达到了140分,超越了Gemini 2.0 Flash Thinking实验版本、ChatGPT-4o最新版本以及最近大火的DeepSeek R1等等。

然而,有些用户在体验后却对Grok 3的能力产生了质疑,他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI应用研究主管Boris Power则对Grok团队在模型评估中的行为表示失望,指出其存在作弊和欺骗的动机。Boris Power提到,o3-mini在各项评估中均优于Grok 3。

真相到底如何,马斯克吹牛了吗?《每日经济记者》测试发现,Grok 3确实是世界顶级模型的水平,但并没有和其他模型拉开太大差距。唯一拉开差距的是它极快的响应速度。

9.9和9.11谁大,Grok 3轻松拿下

Grok 3是由马斯克旗下的人工智能公司xAI发布的最新一代AI模型。马斯克在发布会上称其为“地球上最聪明的人工智能”,并表示Grok 3的能力比前代产品Grok 2高出一个数量级,具备更强的推理、计算和适应能力。

在新闻发布会上,马斯克宣称Grok 3在数学、科学和编程等基准测试中表现出色,超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等竞争对手。

Grok 3在发布后仅48小时内,xAI宣布将其免费开放给所有用户,直至服务器负载达到极限。目前用户每天可以体验十条“思考模式”Grok3,及不限量免费普通Grok 3。

《每日经济新闻》记者在Grok 3发布后也亲自进行了测试,看看Grok3真有马斯克宣传的那么厉害吗?

首先,从最经典的基础问题开始:9.9和9.11谁大?

Grok 3

这个问题毫无难度,Grok 3轻松拿下。

逻辑思考和文字理解能力:Grok 3不如DeepSeek R1

马斯克发布会上自豪的一点是,Grok 3“思考模型”下的逻辑推理能力,他声称,Grok 3 (Think) 学会了改进其解决问题的策略,通过回溯纠正错误,简化步骤,并利用其在预训练期间获得的知识。就像人类在解决复杂问题时一样,Grok 3 (Think) 可以花费几秒钟到几分钟的时间进行推理,通常会考虑多种方法,验证自己的解决方案,并评估如何精确满足问题的要求。

每经记者用弱智吧的问题来检验一下它的逻辑是不是真的过关。

(编者注:“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容,很多内容设计有逻辑陷阱,即使对人类来说也颇具挑战。)

第一个问题:用水来兑水,得到的是浓水还是稀水?

Grok 3

Grok3成功答对了问题,并且还指出了这是一个文字游戏。而OpenAI的o1就在这道题上败下了阵来,认为水兑水后得到的是稀水。

OpenAI o1

当然除了o1其他大模型诸如Gemini和R1都答对了这道问题。所以这并不足以证明Grok的推理模式就是第一的水平,还得加大难度。

下一题:未来的某天,李同学在实验室制作神秘材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了神秘材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为原因是什么?

Grok 3

很可惜,这道题Grok 3没有答对,它在思维链里面已经想到了老鹰本身就会飞的可能性,但是没有在最后的输出结果里体现出来。

Grok 3思考过程

其他大模型里只有DeepSeek R1成功答对了问题,且考虑了两种情况。

之后,每经记者还进行了多次类似弱智吧问题测试,发现Grok 3的对中文的理解和逻辑推理能力确实明显高于其他国外模型,但还是不如DeepSeek的R1模型。

数学能力:Grok 3最好,但未拉开明显差距

既然逻辑思考无法夺魁,那么在基准测试里的分最高的数学项目,Grok 3能不能扳回一城呢?

题目如下:

三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?

这道题只有Grok3和OpenAI的o1答对。不过,Grok 3只用了1分15秒就得出了答案,O1使用了2分53秒。

Grok 3

再进一步加大难度看看能不能分出高下。下面是一道群论问题:有几个阶为147的非同构群。

在这个问题上,Grok 3虽然答对了具体的数量6个,但是中间的具体群却错了一个。而其他模型只找到了5个正确的非同构群。这意味着,在数学能力方面,Grok 3确实是最好,但是好得有限,并没有与其他同等级模型拉开显著差距。

Grok 3

编程能力:Grok 3险胜o1

针对编程能力,《每日经济新闻》记者借用了Kcores联合创始人karminski-牙医的测评结果。

karminski-牙医复现了马斯克在发布会上对于火星发射计划的代码模拟,并测试了多个模型进行比较。

图片来源:karminski-牙医

在这次测试中,表现最好的是Grok 3的推理模型(思考模式),虽然在最后着陆时,动画火箭没有与火星重叠,但轨道需求计算得很好。但是他始终没有复现出马斯克在发布会时所展现的那么完美的轨道计算和动画。Grok 3最后综合得分排在了第一名,再之后是OpenAI的o1,两者的综合得分差距不大。

图片来源:karminski-牙医

结合所有测试来看,Grok 3确实是世界顶尖的AI模型,不愧于20万张GPU的身价。但是,实际测试效果并没有马斯克在发布会上展示得那么夸张,马斯克所说的世界上最“聪明”的模型,可能还值得商榷。

在实测中,《每日经济新闻》记者发现,Grok 3模型能力并没有像基准测试得分那样远远甩开对手一大截,唯一甩开竞争对手的一点是它的响应速度,它得出结果的速度相较于其他同等级的大模型来说是最快的,并且远超对手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

往史过眼云烟
2026-03-26 20:33:55
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
何鸿燊是个谜!2009年,88岁何鸿燊各脏器就已衰竭

何鸿燊是个谜!2009年,88岁何鸿燊各脏器就已衰竭

果妈聊娱乐
2026-03-26 10:00:16
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

爆笑大聪明阿衿
2026-03-26 20:48:48
老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

复转这些年
2026-03-22 17:48:38
老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

千秋文化
2026-03-24 21:30:09
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
《浪姐2026》阵容惹争议,32位姐姐一半不认识,范玮琪被抵制

《浪姐2026》阵容惹争议,32位姐姐一半不认识,范玮琪被抵制

啊呆吃瓜
2026-03-26 19:35:03
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
刘晓庆妹妹发声反驳!称姐姐受身边人挑拨,支持她把遗产捐给国家

刘晓庆妹妹发声反驳!称姐姐受身边人挑拨,支持她把遗产捐给国家

萌神木木
2026-03-26 18:26:44
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
2026-03-27 01:52:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1519792文章数 2724761关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
旅游
游戏
时尚

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

看看把孩子吓得哈哈哈

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

400万人爱过的女孩,被黄谣网暴180天后

无障碍浏览 进入关怀版