网易首页 > 网易号 > 正文 申请入驻

实测GPT-5:界面更简洁回答更高效,但“不够惊艳”

0
分享至

北京时间8月8日,“跳票”多次的GPT-5终于“千呼万唤始出来”,OpenAI首席执行官山姆·奥特曼以一个77分钟的发布视频揭开了这个继两年前GPT-4发布震撼业界后,就被不断寄予厚望的大模型。

新京报AI研究院第一时间对GPT-5进行了实测,发现接入GPT-5的能力后,ChatGPT的对话界面更加简洁,完全践行了此前奥特曼曾表示的将多模态、深度思考、联网搜索等集成化的思路,在对话中,该款大模型也确实可以做到依据问题,丝滑切换不同的回答方式,让用户的使用体验“更上一层楼”。但对一些较为复杂问题的回复,依然有错误出现,总体来看其模型能力并未与市面上其他模型拉开显著差距。


ChatGPT最新界面截图

事实上,由于OpenAI在近几年发布的GPT-4,甚至o1模型的表现都做到了大幅领先同行,GPT-5也被不少业界人士期待能够再度复制此前的辉煌,甚至成为实现AGI(通用人工智能)的标志。此次发布后,GPT-5的能力依然在各项跑分测试中做到了领先,但其所带来的“惊艳程度”显然不及GPT-4和o1。

在AI大模型行业“以月为单位”的迭代速度,以及国产优秀AI大模型不断涌现的背景下,山姆·奥特曼要想继续谱写OpenAI一枝独秀的叙事,GPT-5现在的表现仍然不够。不过这也不能否认GPT-5在工程化和商业化层面的优秀之处。下面,新京报AI研究院将主要结合GPT-5在创意写作、编程这两个奥特曼在发布会中特别强调的优秀能力进行实测,观察其C端产品表现。

创意写作:中文能力中规中矩,提示词和跨界作图切换“丝滑”

本次发布,GPT-5在关于编程、数学、长文本等多个维度的测评中夺得榜首,但在当前此类榜单时刻“攻守易形”的前提下,新京报AI研究院更加关注其在实操中的表现。

对于具体的亮点能力,OpenAI官网特意放出了创意写作、编程设计和药物研究三个视频切片。其中,创意写作是普通人最容易理解的大模型能力。奥特曼也表示“GPT-5的写作能力比GPT-4o要好得多。”此外,他还表示,“GPT-5采用集成模型,这意味着不再需要模型切换器,它将自己决定何时需要深度思考,它非常智能、直观且快速,适用于所有人,包括免费用户。”

对此,新京报AI研究院以最近网上讨论较为热烈的《明末:渊虚之羽》中涉及的历史问题为背景,对GPT-5输入提示词“你是一个明末,1647年住在四川的农民,请在这个历史背景下,写出这个农民在一年里可能的遭遇,要求写实。”

面对该提示词,在不使用GPT-5模型时,ChatGPT主要描述了该农民在“春夏秋冬”四季的遭遇,描写了农民身处乱世的情景。而GPT-5的回答则不止描述出了该农民的名字、住址,还具体撰写了他从1月到12月的生活情景,背景则包括了明军、大西军、清军,这和当时的历史史实相符。

回答完毕后,GPT-5还提示是否“在这个基础上帮你补充更多当时四川的社会背景细节,比如‘湖广填四川’的人口损失数据、兵乱的路线、南明与清军的攻防形势,让这个农民的故事更真实可考。”当我们选择让其继续回答后,GPT-5生成了一份包含农民故事与旁注史料的完整回答,其回复质量显然比前代模型提高了不少。



GPT-5的部分回答截图

不过,当我们以同样的提示词让DeepSeek以及Kimi生成回答时,这两个国产大模型也给出了不错的回复,其中DeepSeek的文采更好,Kimi则展示出了更多细节,与ChatGPT使用GPT-5生成的回复相比,三者的差距并没有特别明显。

但ChatGPT在引导用户继续提问上更胜一筹,在两次回答我们提出的问题后,ChatGPT表示,“我还可以帮你把这个农民的一年经历,配上一张1647年四川兵乱形势图,标出清军、南明军、白号军(注:白号军历史上在清代咸丰及同治年间出现,此处应为大模型幻觉导致生成了错误内容)的活动路线,这样读起来会更直观。你要我帮你画出来吗?”这一回复显示搭载GPT-5的ChatGPT不仅已经做到了多模态能力在对话中的随时调用,还能依据上下文主动提供这一能力,可以更大幅度地提升用户体验。

不过,GPT-5随后生成出来的图片较为粗陋且与图片说明存在矛盾,并不能直观表述“四川兵乱形势图”,显示其能力依然有局限。


GPT-5生成的图片,虽然文字回复优秀但图片与图片说明文字存在矛盾

编程能力:速度提升明显,错误依然存在

OpenAI在本次发布会中花费最多时间介绍的能力是编程,整个围绕AI编程的介绍几乎占到了发布会时间的一半。AI编程也是当前各个大模型在落地上最为成熟的能力,最受企业欢迎,商业化上也已经走通。

在发布会的演示中,OpenAI展示了GPT-5的种种神奇能力,如使用SVG动图解释伯努利效应、制作学习法语的web程序、制作老鼠吃奶酪的游戏等等。但相比发布会中的演示,现实情况如何呢?

对此,新京报AI研究院也进行了实测。当输入“请你做一个学英语的web应用程序,要生动有趣”时,GPT-5仅花费了约10秒钟就生成出了一个名为“趣味英语学习”的程序,当输入英文单词,其会生成出关于该单词的“一个趣味事实”,例如当输入“apple(苹果)”,其回复该单词来自古英语“æppel”。


GPT-5生成的英语学习游戏

当要求升级,输入“以二战主题制作一款华容道游戏”时,GPT-5的思考时间显著变长,但最后还是生成了一款以“盟军俘虏德军将领”为主题的华容道游戏,并以隆美尔代替了曹操的位置。


GPT-5生成的二战背景华容道游戏

值得注意的是,虽然GPT-5的编程速度很快,生成的结果往往也可以实现初步交互,但一旦深入体验其生成的程序,就会发现很多错误。如英语学习游戏虽然以极快速度生成,但其只能对较为简单的单词有反应,稍微复杂一点的单词就会报错。华容道游戏也是一样,虽然可以通过点击鼠标移动方块,但最为关键的“隆美尔”方块出现了无法移动的BUG。

总体而言,新京报AI研究院发现,GPT-5确实做到了奥特曼提及的“智能、直观且快速”,在产品水平和用户体验上都有进步,但其依然没有摆脱大模型固有的幻觉问题,并且该问题在面对复杂问题时更为明显。

不过,相比市面上的其他模型,GPT-5虽然没有做到断崖式领先,但其能力也优于同类模型,如GPT-5编程能力较o3和GPT-4o模型显著提升,在SWE-bench Verified测试得分74.9%(o3为69.1%,GPT-4o为30.8%),略超Anthropic本周发布的新模型Claude Opus4.1的74.5%。

值得注意的是,GPT-5虽然免费向所有用户开放,但依然维持了使用次数限制。本次实测,新京报AI研究院一共进行了9轮对话,就触及了次数限制的天花板,要想真正在工作生活中使用GPT-5的能力,还需要“充值”。

API价格方面,GPT-5每百万token输入1.25美元,输出10美元。该价格低于GPT-4o和Gemini 2.5 Pro,仅为Claude Opus 4.1的1/15。开源证券发布的研报认为,此次价格下探展现了头部厂商抢占市场份额的决心,有望加速应用端落地。

新京报AI研究院 罗亦丹

编辑 岳彩周

校对 付春愔

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
探访景德镇一家三口被撞案受害者家:摆有4张全家福,3张是AI照仅1张是真的

探访景德镇一家三口被撞案受害者家:摆有4张全家福,3张是AI照仅1张是真的

上游新闻
2026-01-09 11:36:11
随着山东压哨绝杀北京,广厦大胜,辽宁3连胜,CBA最新积分榜如下

随着山东压哨绝杀北京,广厦大胜,辽宁3连胜,CBA最新积分榜如下

侃球熊弟
2026-01-09 20:58:35
央视首曝歼20越肩发射霹雳-10, F22和F35不可能把歼20逼到这地步

央视首曝歼20越肩发射霹雳-10, F22和F35不可能把歼20逼到这地步

啸鹰评
2026-01-08 23:56:49
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
南京博物院事件升级,退休员工再曝大瓜,信息量太大,果然不简单

南京博物院事件升级,退休员工再曝大瓜,信息量太大,果然不简单

法老不说教
2025-12-23 16:48:26
中国下达“逐客令”后,欧美光刻机集体停工:2550亿芯片还能卖给谁?

中国下达“逐客令”后,欧美光刻机集体停工:2550亿芯片还能卖给谁?

芯火相承
2026-01-09 20:37:09
剑指英超冠军!维拉瞄准阿根廷瑰宝,埃梅里钦点

剑指英超冠军!维拉瞄准阿根廷瑰宝,埃梅里钦点

澜归序
2026-01-10 03:55:27
哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

观察鉴娱
2026-01-09 09:49:31
恭喜詹姆斯!goat之争悬念再起!75大巨星力挺,乔丹确实有一短板

恭喜詹姆斯!goat之争悬念再起!75大巨星力挺,乔丹确实有一短板

阿泰希特
2026-01-09 15:08:44
冠军赛爆大冷!男单8强赛对阵,雨果出局,梁靖崑爆发,张本零封

冠军赛爆大冷!男单8强赛对阵,雨果出局,梁靖崑爆发,张本零封

篮球看比赛
2026-01-09 12:06:04
昔日超市变身“明朝街市”,南京长乐坊欲把历史“玩”进生活

昔日超市变身“明朝街市”,南京长乐坊欲把历史“玩”进生活

扬子晚报
2026-01-08 22:23:39
周琦:合作过最舒服后卫只有两个,翟晓川:教我打球的不是马布里

周琦:合作过最舒服后卫只有两个,翟晓川:教我打球的不是马布里

篮球看比赛
2026-01-09 12:51:38
CBA排名大变天!上海逆袭冲上第一,首钢再遭打击,黑马杀出重围

CBA排名大变天!上海逆袭冲上第一,首钢再遭打击,黑马杀出重围

老叶评球
2026-01-09 22:27:27
张水华对辞职仍难释怀,那些抱怨过她的同事,工作真变轻松了吗?

张水华对辞职仍难释怀,那些抱怨过她的同事,工作真变轻松了吗?

杨华评论
2026-01-08 23:55:17
全职太太能有多心酸?网友:全职妈妈3000包含生活费学费够吗

全职太太能有多心酸?网友:全职妈妈3000包含生活费学费够吗

带你感受人间冷暖
2025-12-22 00:20:08
香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

朝子亥
2026-01-06 11:35:03
北美夺冠的大片,海外破7.5亿,中国观众不买账,首日票房仅138万

北美夺冠的大片,海外破7.5亿,中国观众不买账,首日票房仅138万

靠谱电影君
2026-01-09 20:36:53
国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

阅微札记
2025-12-22 14:28:33
美国绝密档案曝光!毛泽东哪是在治国?他是在重塑一个文明!

美国绝密档案曝光!毛泽东哪是在治国?他是在重塑一个文明!

鹤羽说个事
2026-01-03 11:08:12
英国夫妇卖房追梦海边露营,结果被嘲笑:这块地“只能放羊”!

英国夫妇卖房追梦海边露营,结果被嘲笑:这块地“只能放羊”!

英国那些事儿
2026-01-08 23:35:13
2026-01-10 05:12:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
59513文章数 13935关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

丹麦专家:美军“拿下”格陵兰岛只要45分钟

头条要闻

丹麦专家:美军“拿下”格陵兰岛只要45分钟

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

教育
时尚
房产
手机
艺术

教育要闻

教育爱打人的学生,老师不能惹祸上身啊!

推广中奖名单-更新至2025年12月19日推广

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

手机要闻

vivo X200T详细参数曝光,X300 Ultra待发布

艺术要闻

扑面而来的激情:俄罗斯画家斯拉因斯基 大笔触绘画作品!

无障碍浏览 进入关怀版