网易首页 > 网易号 > 正文 申请入驻

GPT-5真的拉胯吗?一手实测,网友:还我4o、还我4.5

0
分享至



一觉醒来,朋友圈被 GPT-5 刷了屏。

在昨晚长达一个多小时的发布直播中,OpenAI 介绍了 GPT-5 的性能,演示了诸多实用案例,在此不赘述,感兴趣的朋友可以移步:刚刚,奥特曼发布 GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽。

奥特曼发推表示,GPT-5 是我们迄今为止最智能的模型。



LMArena 基准测评结果也已出炉,GPT-5 在文本、网页开发、视觉领域、难题、编程、数学、创意、长查询等各个领域都排名第一。



不过,网上对 GPT-5 的评价褒贬不一。

有人表示,提前体验 GPT-5 将近两周,发现它展现了巨大的进步,超越了之前的版本,并且在科学推理、事实准确性和创意表达方面达到了新的高度。



网友 @emollick 则认为 GPT-5 非常聪明,并且能完成各种任务,是一个非常重大的突破。

比如让它制作一个程序化的野兽派建筑生成器,可以以酷炫的方式拖拽和编辑建筑、并不断改进它。

也有人表示,GPT-5在前端体验、减少幻觉和提升写作质量方面有显著改进,免费用户和企业用户将感受到明显的提升。



但也有不少人给出了差评。

网友 @petergyang 让 GPT-5 制作一个《Flappy Bird》小游戏,GPT-5 生成的游戏网页根本点不进去:

同时,他还贴脸开大,拉来 Claude Sonnet4 与之对比,输入同样的提示词,Claude Sonnet4 生成效果相当不错,画风可爱、真实可玩。

还有网友使用 GPT-5 重构代码库,尽管代码看起来非常漂亮、整洁,但最终并没有成功运行。



明明都是 GPT-5,为什么大家的体验结果大相径庭?

宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 认为,由于 GPT-5 是个集成模型,其中一些模型表现优异,而另一些则较为平庸。 OpenAI 并未公开底层模型选择的细节,这种不透明性可能导致用户对 GPT-5 的表现感到困惑。



接下来,我们就奉上一手实测,来看看 GPT-5 是个什么水平。

一手实测

目前,GPT-5 已向 20% 的付费用户推出,机器之心编辑部也被幸运抽中。



升级后的页面长得相当简洁,之前像 GPT-4.5、GPT-4o 等模型图标都消失,取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。



接下来就是实测环节。

先来看看它的写作能力。

我们让它模仿林黛玉的风格,写一篇吐槽工作的段子。

GPT-5 生成的字里行间确实一股子班味,但少了些林妹妹阴阳怪气的调调,比喻句用的倒挺多,但「老板已如寒霜扑面而来」是个什么鬼。



接下来让 GPT-5 讲三个能让人笑抽风的笑话,完全 get 不到它的笑点在哪里:



再来试试它的中文理解能力。

我们出了一道像绕口令的题目:大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元。请问谁才是小偷?

虽然涉及一系列亲戚,但 GPT-5 并没被绕晕,找到偷窃的直接行为人四舅。



而对于那道经典的「木棍过城门」的推理题,GPT-5 依然搞不定。



最后,我们着重测评了它的编码能力。

输入提示「Generate an SVG of a pelican riding a bicycle」(生成鹈鹕骑自行车的 SVG 图像),GPT-5 仅思考 6 秒并很快生成完毕,结果生成的鹈鹕相当潦草,自行车的轮子也和主体分离。



我们又让它使用 p5.js 创建一个精彩的动画,GPT-5 直接罢工了,输出一个黑屏界面。



本以为是提示词太简单导致 GPT-5 难以理解,但相同的内容给到 Gemini,Gemini 给出了结果。



这一波测下来,感觉不像是 GPT-5 的实力,于是我们又让它创建一个动画天气卡片,提示词:「创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。」

看起来,输入详细的提示,GPT-5 表现会好一些。



接着我们复现了一遍奥特曼给出的提示「use beatbot to make a sick beat to celebrate gpt-5(使用 beatbot 制作精彩节拍来庆祝 GPT-5 的发布)」,并且要求更激昂一些。

只见 GPT-5 思考了 13 秒,就把一首节奏激昂的曲子做出来了。

听起来整体效果还不错,要知道,我们只是给了一句提示就达到这样的效果。而且,整体界面布局也很美观,左边栏音轨部分,可以选择性删除,删除后,节奏也会随之改变。



还是考验编程能力 「太阳系 8 大行星运行轨迹图,动态的。 」我们提出要求,GPT-5 嗖嗖的就把代码写好了。你可以下载代码,也可以在画布中直接运行。



运行结果是这样的,我们还可以调节行星的运行速度。



我们注意到,GPT-5 在这个项目完成之后会继续追问要不要在优化,然后,我们按照给出的优化方向「 做成更真实的椭圆轨道和轨道倾角。」结果如下:



GPT-5 开发小游戏如何呢?我们给出提示:帮我做一个俄罗斯方块的游戏 。

接到指令后,GPT-5 开始写代码,一串长长的代码:



运行结果如下:



再来一个物理测试:「一个球在旋转的六边形内弹跳。 小球应受到重力和摩擦力的影响,而且必须真实地从旋转的墙壁上弹起。」



可视化结果如下,拖动不同按钮,小球轨迹也随之改变。



接下来我们提出要求「创建一个高度逼真的物理布料模拟,模拟不同材质(棉、丝绸、皮革、橡胶等)在风力、重力和碰撞作用下的动态行为。 」不知为何,一开始 GPT-5 生成的程序不能运行,然后 GPT-5 自行检查了一遍,程序可以运行了,但是结果……



「做一个功德箱,每次敲一下,功德加一,满分 100 分 」。功能是实现了,但操作界面着实有些简单糊弄。



我们继续输入提示词:Code simulation of water in a bucket that is rocking back and forth.(编写模拟水桶中的水来回摇晃的代码),GPT-5 又罢工了。



但相同的提示词发给 Gemini 2.5 Pro,虽然生成的效果也一般,但起码能呈现出一个可视化效果。



我们还试了下 GPT-5 生成图片功能,让它生成一幅桃树的工笔画,效果还是不错的。



我们测评了一圈,实话实说,GPT-5 的表现着实不稳定。

在写作能力方面,它表现出一定的文学性,但在细节和情感捕捉上稍显生硬,幽默感也不足;经典的「木棍过城门」的题目,它仍然做不对,这也表明其推理能力仍有提升空间。

在编码能力方面,GPT-5 的表现不一,虽然在一些简单任务中(如生成天气卡片的 HTML 代码)有所进展,但在更复杂的任务(如使用 p5.js 生成动画时)表现出明显的不足,尤其是生成的结果未能正确呈现出预期效果,甚至直接罢工。

这也难怪网友吐槽:还我 GPT-4.5!



https://x.com/vasumanmoza/status/1953531950137815374

https://x.com/apples_jimmy/status/1953517411862282330

https://x.com/emollick/status/1953502029126549597

https://x.com/petergyang/status/1953633559387984179

https://x.com/lmarena_ai/status/1953504958378356941

责任编辑:郜雪丹_NT5097

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
探访景德镇一家三口被撞案受害者家:摆有4张全家福,3张是AI照仅1张是真的

探访景德镇一家三口被撞案受害者家:摆有4张全家福,3张是AI照仅1张是真的

上游新闻
2026-01-09 11:36:11
随着山东压哨绝杀北京,广厦大胜,辽宁3连胜,CBA最新积分榜如下

随着山东压哨绝杀北京,广厦大胜,辽宁3连胜,CBA最新积分榜如下

侃球熊弟
2026-01-09 20:58:35
央视首曝歼20越肩发射霹雳-10, F22和F35不可能把歼20逼到这地步

央视首曝歼20越肩发射霹雳-10, F22和F35不可能把歼20逼到这地步

啸鹰评
2026-01-08 23:56:49
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
南京博物院事件升级,退休员工再曝大瓜,信息量太大,果然不简单

南京博物院事件升级,退休员工再曝大瓜,信息量太大,果然不简单

法老不说教
2025-12-23 16:48:26
中国下达“逐客令”后,欧美光刻机集体停工:2550亿芯片还能卖给谁?

中国下达“逐客令”后,欧美光刻机集体停工:2550亿芯片还能卖给谁?

芯火相承
2026-01-09 20:37:09
剑指英超冠军!维拉瞄准阿根廷瑰宝,埃梅里钦点

剑指英超冠军!维拉瞄准阿根廷瑰宝,埃梅里钦点

澜归序
2026-01-10 03:55:27
哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

观察鉴娱
2026-01-09 09:49:31
恭喜詹姆斯!goat之争悬念再起!75大巨星力挺,乔丹确实有一短板

恭喜詹姆斯!goat之争悬念再起!75大巨星力挺,乔丹确实有一短板

阿泰希特
2026-01-09 15:08:44
冠军赛爆大冷!男单8强赛对阵,雨果出局,梁靖崑爆发,张本零封

冠军赛爆大冷!男单8强赛对阵,雨果出局,梁靖崑爆发,张本零封

篮球看比赛
2026-01-09 12:06:04
昔日超市变身“明朝街市”,南京长乐坊欲把历史“玩”进生活

昔日超市变身“明朝街市”,南京长乐坊欲把历史“玩”进生活

扬子晚报
2026-01-08 22:23:39
周琦:合作过最舒服后卫只有两个,翟晓川:教我打球的不是马布里

周琦:合作过最舒服后卫只有两个,翟晓川:教我打球的不是马布里

篮球看比赛
2026-01-09 12:51:38
CBA排名大变天!上海逆袭冲上第一,首钢再遭打击,黑马杀出重围

CBA排名大变天!上海逆袭冲上第一,首钢再遭打击,黑马杀出重围

老叶评球
2026-01-09 22:27:27
张水华对辞职仍难释怀,那些抱怨过她的同事,工作真变轻松了吗?

张水华对辞职仍难释怀,那些抱怨过她的同事,工作真变轻松了吗?

杨华评论
2026-01-08 23:55:17
全职太太能有多心酸?网友:全职妈妈3000包含生活费学费够吗

全职太太能有多心酸?网友:全职妈妈3000包含生活费学费够吗

带你感受人间冷暖
2025-12-22 00:20:08
香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

朝子亥
2026-01-06 11:35:03
北美夺冠的大片,海外破7.5亿,中国观众不买账,首日票房仅138万

北美夺冠的大片,海外破7.5亿,中国观众不买账,首日票房仅138万

靠谱电影君
2026-01-09 20:36:53
国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

阅微札记
2025-12-22 14:28:33
美国绝密档案曝光!毛泽东哪是在治国?他是在重塑一个文明!

美国绝密档案曝光!毛泽东哪是在治国?他是在重塑一个文明!

鹤羽说个事
2026-01-03 11:08:12
英国夫妇卖房追梦海边露营,结果被嘲笑:这块地“只能放羊”!

英国夫妇卖房追梦海边露营,结果被嘲笑:这块地“只能放羊”!

英国那些事儿
2026-01-08 23:35:13
2026-01-10 05:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142533关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

丹麦专家:美军“拿下”格陵兰岛只要45分钟

头条要闻

丹麦专家:美军“拿下”格陵兰岛只要45分钟

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

数码
游戏
教育
健康
手机

数码要闻

铭凡CES 2026新闻稿提及英特尔酷睿Ultra 9 290HX Plus处理器

怎么会有游戏上来就说自己的新服活不过10天啊?"/> 主站 商城 论坛 自运营 登录 注册 怎么会有游戏上来就说自己的新服活不过10天啊? 廉颇 202...

教育要闻

教育爱打人的学生,老师不能惹祸上身啊!

这些新疗法,让化疗不再那么痛苦

手机要闻

vivo X200T详细参数曝光,X300 Ultra待发布

无障碍浏览 进入关怀版