网易首页 > 网易号 > 正文 申请入驻

GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5

0
分享至

机器之心报道

机器之心编辑部

有人给好评,有人给差评。

一觉醒来,朋友圈被 GPT-5 刷了屏。

在昨晚长达一个多小时的发布直播中,OpenAI 介绍了 GPT-5 的性能,演示了诸多实用案例,在此不赘述,感兴趣的朋友可以移步:刚刚,奥特曼发布 GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽。

奥特曼发推表示,GPT-5 是我们迄今为止最智能的模型。

LMArena 基准测评结果也已出炉,GPT-5 在文本、网页开发、视觉领域、难题、编程、数学、创意、长查询等各个领域都排名第一。

不过,网上对 GPT-5 的评价褒贬不一。

有人表示,提前体验 GPT-5 将近两周,发现它展现了巨大的进步,超越了之前的版本,并且在科学推理、事实准确性和创意表达方面达到了新的高度。

网友 @emollick 则认为 GPT-5 非常聪明,并且能完成各种任务,是一个非常重大的突破。

比如让它制作一个程序化的野兽派建筑生成器,可以以酷炫的方式拖拽和编辑建筑、并不断改进它。

也有人表示,GPT-5在前端体验、减少幻觉和提升写作质量方面有显著改进,免费用户和企业用户将感受到明显的提升。

但也有不少人给出了差评。

网友 @petergyang 让 GPT-5 制作一个《Flappy Bird》小游戏,GPT-5 生成的游戏网页根本点不进去:

同时,他还贴脸开大,拉来 Claude Sonnet4 与之对比,输入同样的提示词,Claude Sonnet4 生成效果相当不错,画风可爱、真实可玩。

还有网友使用 GPT-5 重构代码库,尽管代码看起来非常漂亮、整洁,但最终并没有成功运行。

明明都是 GPT-5,为什么大家的体验结果大相径庭?

宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 认为,由于 GPT-5 是个集成模型,其中一些模型表现优异,而另一些则较为平庸。 OpenAI 并未公开底层模型选择的细节,这种不透明性可能导致用户对 GPT-5 的表现感到困惑。

接下来,我们就奉上一手实测,来看看 GPT-5 是个什么水平。

一手实测

目前,GPT-5 已向 20% 的付费用户推出,机器之心编辑部也被幸运抽中。

升级后的页面长得相当简洁,之前像 GPT-4.5、GPT-4o 等模型图标都消失,取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。

接下来就是实测环节。

先来看看它的写作能力。

我们让它模仿林黛玉的风格,写一篇吐槽工作的段子。

GPT-5 生成的字里行间确实一股子班味,但少了些林妹妹阴阳怪气的调调,比喻句用的倒挺多,但「老板已如寒霜扑面而来」是个什么鬼。

接下来让 GPT-5 讲三个能让人笑抽风的笑话,完全 get 不到它的笑点在哪里:

再来试试它的中文理解能力。

我们出了一道像绕口令的题目:大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元。请问谁才是小偷?

虽然涉及一系列亲戚,但 GPT-5 并没被绕晕,找到偷窃的直接行为人四舅。

而对于那道经典的「木棍过城门」的推理题,GPT-5 依然搞不定。

最后,我们着重测评了它的编码能力。

输入提示「Generate an SVG of a pelican riding a bicycle」(生成鹈鹕骑自行车的 SVG 图像),GPT-5 仅思考 6 秒并很快生成完毕,结果生成的鹈鹕相当潦草,自行车的轮子也和主体分离。

我们又让它使用 p5.js 创建一个精彩的动画,GPT-5 直接罢工了,输出一个黑屏界面。

本以为是提示词太简单导致 GPT-5 难以理解,但相同的内容给到 Gemini,Gemini 给出了结果。

这一波测下来,感觉不像是 GPT-5 的实力,于是我们又让它创建一个动画天气卡片,提示词:「创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。」

看起来,输入详细的提示,GPT-5 表现会好一些。

接着我们复现了一遍奥特曼给出的提示「use beatbot to make a sick beat to celebrate gpt-5(使用 beatbot 制作精彩节拍来庆祝 GPT-5 的发布)」,并且要求更激昂一些。

只见 GPT-5 思考了 13 秒,就把一首节奏激昂的曲子做出来了。

听起来整体效果还不错,要知道,我们只是给了一句提示就达到这样的效果。而且,整体界面布局也很美观,左边栏音轨部分,可以选择性删除,删除后,节奏也会随之改变。

还是考验编程能力 「太阳系 8 大行星运行轨迹图,动态的。 」我们提出要求,GPT-5 嗖嗖的就把代码写好了。你可以下载代码,也可以在画布中直接运行。

运行结果是这样的,我们还可以调节行星的运行速度。

我们注意到,GPT-5 在这个项目完成之后会继续追问要不要在优化,然后,我们按照给出的优化方向「 做成更真实的椭圆轨道和轨道倾角。」结果如下:

GPT-5 开发小游戏如何呢?我们给出提示:帮我做一个俄罗斯方块的游戏 。

接到指令后,GPT-5 开始写代码,一串长长的代码:

运行结果如下:

再来一个物理测试:「一个球在旋转的六边形内弹跳。 小球应受到重力和摩擦力的影响,而且必须真实地从旋转的墙壁上弹起。」

可视化结果如下,拖动不同按钮,小球轨迹也随之改变。

接下来我们提出要求「创建一个高度逼真的物理布料模拟,模拟不同材质(棉、丝绸、皮革、橡胶等)在风力、重力和碰撞作用下的动态行为。 」不知为何,一开始 GPT-5 生成的程序不能运行,然后 GPT-5 自行检查了一遍,程序可以运行了,但是结果……

「做一个功德箱,每次敲一下,功德加一,满分 100 分 」。功能是实现了,但操作界面着实有些简单糊弄。

我们继续输入提示词:Code simulation of water in a bucket that is rocking back and forth.(编写模拟水桶中的水来回摇晃的代码),GPT-5 又罢工了。

但相同的提示词发给 Gemini 2.5 Pro,虽然生成的效果也一般,但起码能呈现出一个可视化效果。

我们还试了下 GPT-5 生成图片功能,让它生成一幅桃树的工笔画,效果还是不错的。

我们测评了一圈,实话实说,GPT-5 的表现着实不稳定。

在写作能力方面,它表现出一定的文学性,但在细节和情感捕捉上稍显生硬,幽默感也不足;经典的「木棍过城门」的题目,它仍然做不对,这也表明其推理能力仍有提升空间。

在编码能力方面,GPT-5 的表现不一,虽然在一些简单任务中(如生成天气卡片的 HTML 代码)有所进展,但在更复杂的任务(如使用 p5.js 生成动画时)表现出明显的不足,尤其是生成的结果未能正确呈现出预期效果,甚至直接罢工。

这也难怪网友吐槽:还我 GPT-4.5!

https://x.com/vasumanmoza/status/1953531950137815374

https://x.com/apples_jimmy/status/1953517411862282330

https://x.com/emollick/status/1953502029126549597

https://x.com/petergyang/status/1953633559387984179

https://x.com/lmarena_ai/status/1953504958378356941

大家还有什么想测的,欢迎评论区留言。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
建行储蓄卡未离身却遭连续盗刷,近1.5万元流向三省,深圳警方向三地警方发协查函

建行储蓄卡未离身却遭连续盗刷,近1.5万元流向三省,深圳警方向三地警方发协查函

大风新闻
2026-02-18 17:37:03
300元的燃气灶和3000元的有什么区别?看完邻居家的厨房,我懂了

300元的燃气灶和3000元的有什么区别?看完邻居家的厨房,我懂了

装修秀
2026-02-18 11:45:03
彻底止损!曼联做出最终决定:桑乔今夏自由身离队

彻底止损!曼联做出最终决定:桑乔今夏自由身离队

夜白侃球
2026-02-18 22:03:24
四保险冲金!自由式滑雪空中技巧资格赛:4位中国选手全部晋级

四保险冲金!自由式滑雪空中技巧资格赛:4位中国选手全部晋级

全景体育V
2026-02-18 18:25:49
中国冬奥会第2金,徐梦桃蝉联空中技巧金牌,颁奖仪式眼泪流成河

中国冬奥会第2金,徐梦桃蝉联空中技巧金牌,颁奖仪式眼泪流成河

真理是我亲戚
2026-02-18 22:00:08
3场投进19记三分!火箭双射手崛起,取代范乔丹,未来首发现雏形

3场投进19记三分!火箭双射手崛起,取代范乔丹,未来首发现雏形

熊哥爱篮球
2026-02-18 11:43:07
山西一景区发布最大承载量的公告

山西一景区发布最大承载量的公告

黄河新闻网吕梁频道
2026-02-18 14:25:36
今年春节“最火”旅游目的地,不是海南和东北,是这个一线城市!

今年春节“最火”旅游目的地,不是海南和东北,是这个一线城市!

小熊侃史
2026-02-18 20:04:48
英国防务机构抛出一份歼20实战数据,大洋彼岸的王牌队伍连夜算了一笔账

英国防务机构抛出一份歼20实战数据,大洋彼岸的王牌队伍连夜算了一笔账

历史回忆室
2026-02-17 23:30:14
离了!郑钧清空刘芸动态,儿子抚养权引争议,离婚或与张云龙有关

离了!郑钧清空刘芸动态,儿子抚养权引争议,离婚或与张云龙有关

八卦王者
2026-02-17 13:10:52
实锤!42岁霍启山和“妲己”娜然现身,家族默认儿媳,细节太戳人

实锤!42岁霍启山和“妲己”娜然现身,家族默认儿媳,细节太戳人

她时尚丫
2026-02-18 21:40:20
《生命树》要不是孟耀辉被抓捕!白菊做梦也想不到白芍有多难

《生命树》要不是孟耀辉被抓捕!白菊做梦也想不到白芍有多难

全球风情大揭秘
2026-02-18 18:08:48
研究发现:宇宙中98%的星系,已经永远和地球失去了联系

研究发现:宇宙中98%的星系,已经永远和地球失去了联系

心中的麦田
2026-02-18 19:27:53
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

寒士之言本尊
2026-01-30 18:09:09
前无古人!海港勇创1项亚冠纪录,跟广州恒大首尾呼应+完美闭环

前无古人!海港勇创1项亚冠纪录,跟广州恒大首尾呼应+完美闭环

足球大腕
2026-02-18 22:07:03
闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

小熊侃史
2026-01-16 07:40:07
2026养老金调整,要“动真格”了?3000元以下退休族或成最大赢家

2026养老金调整,要“动真格”了?3000元以下退休族或成最大赢家

夜深爱杂谈
2026-02-18 20:45:27
湖北宜城烟花爆竹爆燃事故致12人死亡

湖北宜城烟花爆竹爆燃事故致12人死亡

新华社
2026-02-18 19:47:08
伊朗:关闭霍尔木兹海峡

伊朗:关闭霍尔木兹海峡

亚太观澜
2026-02-18 20:35:04
2026-02-18 23:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12318文章数 142568关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

家居
时尚
教育
数码
军事航空

家居要闻

中古雅韵 乐韵伴日常

马年壁纸送上,祝大家新年快乐,马上发财!

教育要闻

“十大”新兴留学目的地你会去吗?爱尔兰留学创新高?

数码要闻

谷歌 Android XR 设计文档曝光,安卓17流畅度提升

军事要闻

菲海警在南海投放不明物体 被中国海警全程监控并拍下

无障碍浏览 进入关怀版