网易首页 > 网易号 > 正文 申请入驻

马斯克最贵 AI 首批实测炸了!Grok 4 一边封神一边翻车,网友:2 万块就这?

0
分享至

AI 的舞台,从来不缺「新王登基」的剧情。

接连数月,模型一个接一个轮番登场,一个比一个自称炸裂。就拿昨天的 Grok 4 来说,马斯克放话「这是地球上最聪明的 AI」,还没上线,就已经把话题度拉满了。

不过, Grok 模型向来 都是跑分没输过,体验没赢过。

如今,距离 Grok 4 的发布已经过去 24 小时,我们也搜集了 网友分享的一些实测案例 ,让我们来一起看看这款模型究竟是真有本事,还是又一场火力全开的「高开低走」。


编程:高光与翻车并存

博主 @mckaywrigley 给 Grok 4 Heavy 提出了一道颇有创意的编程题。

让它用 three.js 创建一个动画,让一群人走来走去,最终排出「你好,世界,我是 Grok」的字样,并完成一次镜头切换到鸟瞰视角。Grok 只试了一次,就交出了一份意外惊喜的答卷。


整个过程中,Grok 会主动从网上调用 3D 模型资源,并通过 three.js 在浏览器内构建整个场景。可以说,新版 Grok 在 three.js、Blender 等领域的表现有了很大升级。

当然,UI 生成仍是不小的短板。用网友的话来说,「它不是最好的设计师,我真心希望它能在这方面赶上 Claude Opus 4,但在逻辑建模和结构控制方面,它确实有一手。

值得一提的是,Grok 4 Heavy 能够并行调用多个智能体,各自独立工作,再汇总结果,从机制上保证输出质量。


博主 @tetsuoai 则直接把 Grok 4 拉去「上班」,让其扮演一名有 15 年经验的 C 语言老程序员, 写个 CLI 工具来分类整理文件夹里的各种文件。

Grok 的输出非常「地道」,不仅代码写法严谨,细节处理也尽显专业水准——比如 用 strrchr() 提取后缀、用 strdup() 避免悬挂指针、边界值与隐藏文件也没落下,连大小写转换都用 ctype.h 标准库兜底。


接着,继续上强度。

他又让 Grok 设计一个基于 DQN 强化学习的 2D 自动驾驶模拟,从感知、训练、碰撞反馈一应俱全。 Grok 一次性给出完整代码,训练后的小车还能自主提速刷圈。


另一个测试来自 @DirtyTesLa,他让 Grok 写了个网页小游戏,运行效果意外地顺滑,只是游戏个人实力拖了演示 demo 的后腿。


不过,Grok 4 也存在一些实打实的翻车案例。

博主 @karminski3 拿出了自己的经典测试项目——一个 20 个小球在七边形中弹跳的三维物理测试。Grok 跑了三次,两次直接显示语法错误,唯一一次成功运行的版本也仅仅「勉强可用」。

对比早期版本的 DeepSeek-R1,Grok 4 并未与其拉开明显的代差。


他随后追加了一个更具挑战性的测试:「烟囱爆破模拟」。

这是一项三维物理构建任务,用 three.js 创建一个烟囱结构,在底部添加爆破点,模拟倒塌效果。看似原理只涉及碰撞与重力,实则考验模型的指令理解、代码生成和交互设计能力。


好消息是,它的重力方向没弄错,倒塌效果基本成立;但烟囱处于「爆了一半」的状态,粒子模拟怪异,烟雾渲染模糊,光影效果粗糙,UI 更是一言难尽——按钮是灰的,肉眼基本看不见。

写作:智商在线但「情商」掉线

Grok 4 在 192k 上下文 窗口的表现仅次于 Gemini,在 1k 到 120k 的测试中,Grok 4 几乎一路保持高水准, 说明它在语义连贯、记忆保持上确实有两把刷子。


当网友让 Grok 4 写一首六行诗,要求全词用 S 开头,主题还得涵盖爱情 、背叛、复仇、悲剧、英雄主义五大元素,Grok 居然真写出来了,而且读起来还挺顺。


不过,要是拉到更宏观的短篇小说创意写作基准上来看,Grok 4 拿到的 7.69 分只能算中等水平。


评测团队的总结比较直接,虽然 Grok 4 能持续产出结构清晰、起承转合完整的故事,但情节容易套路化、结尾寡淡、语言偏炫技,象征和隐喻也流于表面。

SVG 试炼场 :画图裸考来了

让大模型生成 SVG 图像,可以更好地评估它们的视觉与空间推理水平,这也是通往 AGI 的关键能力之一。Reddit 网友设计了一项任务,让四款模型在无任何工具辅助的情况下画图裸考。

【凭记忆绘制美国地图】


第一关是让模型生成美国本土地图轮廓,Grok 4 的地理细节略糊,但轮廓逻辑还算完整;而 Claude 4 Sonnet 则是唯一一个准确标注三块区域(美国本土、阿拉斯加、夏威夷)且添加地名的模型,空间感和知识调用都略胜一筹。

【复刻线条漫画】


当被要求将一幅被拆分为三张小图的线条漫画,完整还原为纯 SVG 时,Grok 4 表现拔尖,人物动作自然,而 o3 虽然也想拼全图,但页面排版混乱,出现文字穿模、对白重叠等问题。

【重构专辑封面】


第三关是让模型画出 Radiohead 的《In Rainbows》封面。OpenAI o3 是唯一一个在排版和结构上高度还原的模型,展现出强大的记忆与设计执行力。反观 Grok 4 构图稍显单薄,层次感不足。

【绘制克雷布斯循环示意图】


在生物图解任务中,Grok 4 的输出有板有眼,NADH、ATP、CO₂ 等关键要素一应俱全,逻辑严密;Claude 4 Sonnet 视觉层次极强,图解效果堪比 PPT 模板;o3 的风格则更像课堂板书,信息量简洁但教学清晰。

【用 SVG 画出你的自画像】


最后是让模型画出自己,主打一个不限风格。Grok 4 画了张人脸;Gemini 2.5 Pro 略显抽象;OpenAI o3 识别度高、亲和力强;而 Claude 4 Sonnet 的输出则颇具现代艺术张力。

可视化:黑洞模拟、 欧拉恒公式、哲学自画像

网友 @techartist_ 用 Grok 4 编写了一个交互式 3D 黑洞模拟与可视化项目,使用了 threejs 进行渲染,并结合自定义的 GLSL 着色器,精细地还原了恒星背景以及的震撼视觉效果。


而在更偏「哲学意味」的测试中,@dvorahfr 问了 Grok 一个抽象问题:「如果你必须以肉身形式存在,会是什么样子?」


博主 @KettlebellDan 要求 Grok 4 用 HTML + JavaScript 创建动画,帮助理解 欧拉恒公式(e^jπ + 1 = 0),Grok 4 展现出不俗的数学理解与可视化编程能力。


@CommonSenseMars 试图让 Grok 写一段可以直接复制粘贴到 Shadertoy 的 Shader 代码,用来展示其有多聪明、有多强大。


面对下面这道逻辑测试题,Grok 给出的回答是 B,而正确答案应为 C。


博主 @ai_for_success 上传了手掌以及闹钟 emoji,结果 Grok 4 并未能准确识别图中手指数目,以及连闹钟上的时间也都解读错误。


不过这些问题并非 Grok 独有,图像理解类任务本就是目前主流大模型绕不开的难点。哪怕是 Gemini 2.5 Pro 和 OpenAI 的 o3,也在类似测试中翻过车。

推理能力:Grok 4 更会变通,o3 更会算账

再来看一个复杂的场景推理题:

「如果 A 公司收购了 B 公司,而 B 公司持有 C 公司的债务,那么一旦 C 公司违约,会引发什么法律与财务后果?请完整解释。」

在网友 @alex_prompter 的这组测试测试中,从整体来看,Grok 4 的表现更胜一筹。它在思维链展开、逻辑推理和法律框架建构方面更完整,条理更清晰。


还记得此前 Anthropic 用 Claude Sonnet 3.7 运营一家商店,结果最终以破产收场。对此,沃顿商学院教授 Ethan Mollick 向 o3 和 Grok 4 抛出了一道类似的任务:

请为一家全新的邮购奶酪店构思 20 条创意营销口号,设定评选标准并选出最优方案;随后制定完整的财务与市场推广计划,视竞争情况进行策略调整;接着使用图像生成工具设计品牌 logo,构建网站原型,并确保奶酪产品的选择符合你的市场定位,数量控制在 5 到 10 款之间。

o3 给出的财务预测更复杂、细节更丰富,Grok 4 则在应对竞争对手时,调整能力更强,就整体任务完成度而言,Grok 4 在工具调用和模拟主动执行任务的能力方面稍逊于 o3。


简言之,Grok 4 并非一无是处。三维生成、逻辑建模、SVG 图像绘制、超长文本推理等等「硬骨头」都啃下了不少,展现出不俗的技术深度。但与此同时, UI 设计拉胯,图像理解「出戏」,甚至在一些基础编程、写作任务上有时也会翻车,充分暴露出 Grok 4 模型能力的短板,也让不少网友直呼「 2 万块就这」。

微软 CEO 纳德拉曾一针见血地指出,今天不少大模型正陷入「Benchmark Hacking」的陷阱——模型能在各种基准测试中刷出高分,却难以应对现实世界的变量。这种毫无意义的基准测试成绩作弊,徒有分数,却无助于实际解决问题。

正如网友调侃的那样,Grok 4 离 AGI 的「G」还有很长一段距离 。不过,这一切或许都在马斯克的预期之内。毕竟,他尤其擅长抛出一个看起来领先半个时代的概念,再让全世界围观、发酵、讨论。

至于 Grok 4 好不好用,或许不是马斯克最操心的事。是被夸还是被骂,也没那么重要。只要 Grok 4 仍旧是地球上话题度最高的 AI,哪怕体验难言完美,也总有人愿意掏出三千美元,买一张凑热闹的门票。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7万人狂嘘!7亿曼联耻辱1-1:4轮1胜+赢不了倒数第1 对手已12连败

7万人狂嘘!7亿曼联耻辱1-1:4轮1胜+赢不了倒数第1 对手已12连败

风过乡
2025-12-31 06:37:54
儿子和同学打架,妈妈去道歉竟被侵犯并怀孕,事后对方不承认!

儿子和同学打架,妈妈去道歉竟被侵犯并怀孕,事后对方不承认!

极品小牛肉
2025-08-31 13:27:17
40岁C罗背部折射破门!激动狂奔+SIU庆祝 一整年未戴帽近15年首次

40岁C罗背部折射破门!激动狂奔+SIU庆祝 一整年未戴帽近15年首次

我爱英超
2025-12-31 04:22:16
一记重拳落下来了。12月25日公安部那个会,听得人心惊肉跳

一记重拳落下来了。12月25日公安部那个会,听得人心惊肉跳

百态人间
2025-12-30 16:08:35
续任蓝营大党鞭,傅崐萁喊下会期“起义”:民进党设限处都要突破

续任蓝营大党鞭,傅崐萁喊下会期“起义”:民进党设限处都要突破

海峡导报社
2025-12-31 16:44:03
男子发现妻子胸口有可疑痕迹,到医院检查后,医生:立即联系警察

男子发现妻子胸口有可疑痕迹,到医院检查后,医生:立即联系警察

眼泪博物
2025-08-07 16:47:38
湖北宜昌多人在工地挖掘玛瑙,当地街道办:价值不太高

湖北宜昌多人在工地挖掘玛瑙,当地街道办:价值不太高

大风新闻
2025-12-31 15:04:23
有人预测:2026年,这5样“东西”会严重贬值,普通人可不要碰!

有人预测:2026年,这5样“东西”会严重贬值,普通人可不要碰!

蜉蝣说
2025-12-31 11:02:51
张怡宁参加婚礼哭了,64岁丈夫一直咳嗽,看着很老,还是袁立前任

张怡宁参加婚礼哭了,64岁丈夫一直咳嗽,看着很老,还是袁立前任

一娱三分地
2025-06-11 20:53:37
云南副局长出轨被抓:不雅画面流出,三人对话内容曝光,原配被扒

云南副局长出轨被抓:不雅画面流出,三人对话内容曝光,原配被扒

博士观察
2025-12-30 18:59:06
窦文涛《圆桌派》不嫌丢人吗

窦文涛《圆桌派》不嫌丢人吗

智识漂流
2025-12-30 18:31:38
普京再签征兵令,乌克兰还能撑多久?德军参战又如何?

普京再签征兵令,乌克兰还能撑多久?德军参战又如何?

十柱
2025-12-31 15:41:56
告别工体!26岁国脚方昊转会加盟浙江队,北京国安获得转会费!

告别工体!26岁国脚方昊转会加盟浙江队,北京国安获得转会费!

海浪星体育
2025-12-31 15:13:44
4.7海里!我军演习只差一步登岛,郑丽文发声,“台独”大限将至

4.7海里!我军演习只差一步登岛,郑丽文发声,“台独”大限将至

刘森森
2025-12-30 15:41:47
2026老人公交新规:免费不取消!65岁起享,身份证可刷

2026老人公交新规:免费不取消!65岁起享,身份证可刷

李博世财经
2025-12-31 11:48:17
部分地区中雪!江苏发布最新全省雨雪落区预报图

部分地区中雪!江苏发布最新全省雨雪落区预报图

现代快报
2025-12-31 12:41:03
国民党中央委员选举结果出炉,朱立伦狂喜,连战布局,郑丽文失意

国民党中央委员选举结果出炉,朱立伦狂喜,连战布局,郑丽文失意

介知
2025-12-30 14:23:04
“黄河画家”徐惠君126平尺巨幅画作被人无意“泼墨”,本人称:该画作估价380万元,不会追查肇事者,希望网友提供补救建议,让墨渍成为神来之笔

“黄河画家”徐惠君126平尺巨幅画作被人无意“泼墨”,本人称:该画作估价380万元,不会追查肇事者,希望网友提供补救建议,让墨渍成为神来之笔

极目新闻
2025-12-29 20:27:57
冲突结束,柬泰防长终于握手,王毅早已告知全球,洪森儿媳妇哽咽

冲突结束,柬泰防长终于握手,王毅早已告知全球,洪森儿媳妇哽咽

铁血论古今
2025-12-31 10:57:29
广东男篮为何能8连胜登顶?4项数据高居第一!杜锋革新终于见成效

广东男篮为何能8连胜登顶?4项数据高居第一!杜锋革新终于见成效

萌兰聊个球
2025-12-31 09:03:06
2025-12-31 18:28:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5978文章数 26736关注度
往期回顾 全部

科技要闻

老罗,演砸了,也封神了?

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

体育要闻

2025全球射手榜:姆巴佩66球 梅西第6C罗第9

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

高培勇:分配制度改革是提振消费的抓手

汽车要闻

凯迪拉克纯电中型SUV 售价不足24万/33寸曲面屏

态度原创

数码
家居
教育
房产
公开课

数码要闻

影响力关注度加持,AMD王炸牌颠覆市场格局

家居要闻

无形有行 自然与灵感诗意

教育要闻

2025收官,2026启新!南京教育热点 + 择校干货年终总结!家长必看!

房产要闻

终于等来了!2026年首个买房大利好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版