网易首页 > 网易号 > 正文 申请入驻

实测GPT-5:界面更简洁回答更高效,但“不够惊艳”

0
分享至

北京时间8月8日,“跳票”多次的GPT-5终于“千呼万唤始出来”,OpenAI首席执行官山姆·奥特曼以一个77分钟的发布视频揭开了这个继两年前GPT-4发布震撼业界后,就被不断寄予厚望的大模型。

新京报AI研究院第一时间对GPT-5进行了实测,发现接入GPT-5的能力后,ChatGPT的对话界面更加简洁,完全践行了此前奥特曼曾表示的将多模态、深度思考、联网搜索等集成化的思路,在对话中,该款大模型也确实可以做到依据问题,丝滑切换不同的回答方式,让用户的使用体验“更上一层楼”。但对一些较为复杂问题的回复,依然有错误出现,总体来看其模型能力并未与市面上其他模型拉开显著差距。

ChatGPT最新界面截图

事实上,由于OpenAI在近几年发布的GPT-4,甚至o1模型的表现都做到了大幅领先同行,GPT-5也被不少业界人士期待能够再度复制此前的辉煌,甚至成为实现AGI(通用人工智能)的标志。此次发布后,GPT-5的能力依然在各项跑分测试中做到了领先,但其所带来的“惊艳程度”显然不及GPT-4和o1。

在AI大模型行业“以月为单位”的迭代速度,以及国产优秀AI大模型不断涌现的背景下,山姆·奥特曼要想继续谱写OpenAI一枝独秀的叙事,GPT-5现在的表现仍然不够。不过这也不能否认GPT-5在工程化和商业化层面的优秀之处。下面,新京报AI研究院将主要结合GPT-5在创意写作、编程这两个奥特曼在发布会中特别强调的优秀能力进行实测,观察其C端产品表现。

创意写作:中文能力中规中矩,提示词和跨界作图切换“丝滑”

本次发布,GPT-5在关于编程、数学、长文本等多个维度的测评中夺得榜首,但在当前此类榜单时刻“攻守易形”的前提下,新京报AI研究院更加关注其在实操中的表现。

对于具体的亮点能力,OpenAI官网特意放出了创意写作、编程设计和药物研究三个视频切片。其中,创意写作是普通人最容易理解的大模型能力。奥特曼也表示“GPT-5的写作能力比GPT-4o要好得多。”此外,他还表示,“GPT-5采用集成模型,这意味着不再需要模型切换器,它将自己决定何时需要深度思考,它非常智能、直观且快速,适用于所有人,包括免费用户。”

对此,新京报AI研究院以最近网上讨论较为热烈的《明末:渊虚之羽》中涉及的历史问题为背景,对GPT-5输入提示词“你是一个明末,1647年住在四川的农民,请在这个历史背景下,写出这个农民在一年里可能的遭遇,要求写实。”

面对该提示词,在不使用GPT-5模型时,ChatGPT主要描述了该农民在“春夏秋冬”四季的遭遇,描写了农民身处乱世的情景。而GPT-5的回答则不止描述出了该农民的名字、住址,还具体撰写了他从1月到12月的生活情景,背景则包括了明军、大西军、清军,这和当时的历史史实相符。

回答完毕后,GPT-5还提示是否“在这个基础上帮你补充更多当时四川的社会背景细节,比如‘湖广填四川’的人口损失数据、兵乱的路线、南明与清军的攻防形势,让这个农民的故事更真实可考。”当我们选择让其继续回答后,GPT-5生成了一份包含农民故事与旁注史料的完整回答,其回复质量显然比前代模型提高了不少。

GPT-5的部分回答截图

不过,当我们以同样的提示词让DeepSeek以及Kimi生成回答时,这两个国产大模型也给出了不错的回复,其中DeepSeek的文采更好,Kimi则展示出了更多细节,与ChatGPT使用GPT-5生成的回复相比,三者的差距并没有特别明显。

但ChatGPT在引导用户继续提问上更胜一筹,在两次回答我们提出的问题后,ChatGPT表示,“我还可以帮你把这个农民的一年经历,配上一张1647年四川兵乱形势图,标出清军、南明军、白号军(注:白号军历史上在清代咸丰及同治年间出现,此处应为大模型幻觉导致生成了错误内容)的活动路线,这样读起来会更直观。你要我帮你画出来吗?”这一回复显示搭载GPT-5的ChatGPT不仅已经做到了多模态能力在对话中的随时调用,还能依据上下文主动提供这一能力,可以更大幅度地提升用户体验。

不过,GPT-5随后生成出来的图片较为粗陋且与图片说明存在矛盾,并不能直观表述“四川兵乱形势图”,显示其能力依然有局限。

GPT-5生成的图片,虽然文字回复优秀但图片与图片说明文字存在矛盾

编程能力:速度提升明显,错误依然存在

OpenAI在本次发布会中花费最多时间介绍的能力是编程,整个围绕AI编程的介绍几乎占到了发布会时间的一半。AI编程也是当前各个大模型在落地上最为成熟的能力,最受企业欢迎,商业化上也已经走通。

在发布会的演示中,OpenAI展示了GPT-5的种种神奇能力,如使用SVG动图解释伯努利效应、制作学习法语的web程序、制作老鼠吃奶酪的游戏等等。但相比发布会中的演示,现实情况如何呢?

对此,新京报AI研究院也进行了实测。当输入“请你做一个学英语的web应用程序,要生动有趣”时,GPT-5仅花费了约10秒钟就生成出了一个名为“趣味英语学习”的程序,当输入英文单词,其会生成出关于该单词的“一个趣味事实”,例如当输入“apple(苹果)”,其回复该单词来自古英语“æppel”。

GPT-5生成的英语学习游戏

当要求升级,输入“以二战主题制作一款华容道游戏”时,GPT-5的思考时间显著变长,但最后还是生成了一款以“盟军俘虏德军将领”为主题的华容道游戏,并以隆美尔代替了曹操的位置。

GPT-5生成的二战背景华容道游戏

值得注意的是,虽然GPT-5的编程速度很快,生成的结果往往也可以实现初步交互,但一旦深入体验其生成的程序,就会发现很多错误。如英语学习游戏虽然以极快速度生成,但其只能对较为简单的单词有反应,稍微复杂一点的单词就会报错。华容道游戏也是一样,虽然可以通过点击鼠标移动方块,但最为关键的“隆美尔”方块出现了无法移动的BUG。

总体而言,新京报AI研究院发现,GPT-5确实做到了奥特曼提及的“智能、直观且快速”,在产品水平和用户体验上都有进步,但其依然没有摆脱大模型固有的幻觉问题,并且该问题在面对复杂问题时更为明显。

不过,相比市面上的其他模型,GPT-5虽然没有做到断崖式领先,但其能力也优于同类模型,如GPT-5编程能力较o3和GPT-4o模型显著提升,在SWE-bench Verified测试得分74.9%(o3为69.1%,GPT-4o为30.8%),略超Anthropic本周发布的新模型Claude Opus4.1的74.5%。

值得注意的是,GPT-5虽然免费向所有用户开放,但依然维持了使用次数限制。本次实测,新京报AI研究院一共进行了9轮对话,就触及了次数限制的天花板,要想真正在工作生活中使用GPT-5的能力,还需要“充值”。

API价格方面,GPT-5每百万token输入1.25美元,输出10美元。该价格低于GPT-4o和Gemini 2.5 Pro,仅为Claude Opus 4.1的1/15。开源证券发布的研报认为,此次价格下探展现了头部厂商抢占市场份额的决心,有望加速应用端落地。

新京报AI研究院 罗亦丹

编辑 岳彩周

校对 付春愔

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南房企老板谭小朋去世!年仅38岁,楼盘销冠,妻子悲痛发声

河南房企老板谭小朋去世!年仅38岁,楼盘销冠,妻子悲痛发声

小鋭有话说
2026-06-03 12:11:54
90岁父亲的哭诉:儿子的退休金有上万块,但我却希望他能早点走。

90岁父亲的哭诉:儿子的退休金有上万块,但我却希望他能早点走。

烙任情感
2026-06-02 14:49:44
中东,突传大消息!特朗普,最新发声!美伊谈判,新变数!

中东,突传大消息!特朗普,最新发声!美伊谈判,新变数!

证券时报e公司
2026-06-03 19:39:36
国足官宣三位王牌无缘踢新加坡,两位国脚直接退队,只有他在坚守

国足官宣三位王牌无缘踢新加坡,两位国脚直接退队,只有他在坚守

懂个球
2026-06-04 00:31:26
新闻联播刚刚报道了A股,背后发人深思!

新闻联播刚刚报道了A股,背后发人深思!

财经要参
2026-06-03 23:09:32
中方驱逐美记者后,美吊销新华社记者许可

中方驱逐美记者后,美吊销新华社记者许可

风雨与阳光
2026-06-03 13:17:23
斯科特·福斯特执法NBA总决赛第一场,令马刺和尼克斯球迷担忧

斯科特·福斯特执法NBA总决赛第一场,令马刺和尼克斯球迷担忧

好火子
2026-06-04 01:29:04
香港“演艺界教父”钟景辉今晨在睡梦中安详离世……他是周润发等巨星的恩师,曾参演《赌神3》《算死草》《使徒行者》

香港“演艺界教父”钟景辉今晨在睡梦中安详离世……他是周润发等巨星的恩师,曾参演《赌神3》《算死草》《使徒行者》

都市快报橙柿互动
2026-06-03 14:08:56
记者:莫德里奇倾向离开米兰,并回归皇马担任管理层

记者:莫德里奇倾向离开米兰,并回归皇马担任管理层

懂球帝
2026-06-03 21:58:16
太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

火山詩话
2026-06-03 11:47:35
梅德韦杰夫向欧洲和乌克兰发出升级战争的威胁,包括核威胁

梅德韦杰夫向欧洲和乌克兰发出升级战争的威胁,包括核威胁

山河路口
2026-05-31 23:39:57
徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

庭小娱
2026-06-01 15:20:06
瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

一网打尽全球焦点
2026-06-03 02:53:45
120年无冠魔咒终结!格拉斯纳缔造三冠神迹,成队史最伟大主帅!

120年无冠魔咒终结!格拉斯纳缔造三冠神迹,成队史最伟大主帅!

田先生篮球
2026-05-28 09:11:46
疑打井纠纷,小学教师杀害33岁邻居,涉嫌故意伤害罪被立案,死者留下两未成年儿子;教体局:警方正侦办

疑打井纠纷,小学教师杀害33岁邻居,涉嫌故意伤害罪被立案,死者留下两未成年儿子;教体局:警方正侦办

大风新闻
2026-06-02 17:38:34
贵州女子16岁被家人送到湖南嫁给大18岁男子,逃离后与他人生子被判重婚

贵州女子16岁被家人送到湖南嫁给大18岁男子,逃离后与他人生子被判重婚

封面新闻
2026-06-03 11:14:33
不要忙着打日本,中国应该去全国各地的武器仓库突击大检查

不要忙着打日本,中国应该去全国各地的武器仓库突击大检查

阿七说史
2026-05-21 15:45:10
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
今年山茶油为啥卖不动?曾经的“油中黄金”,如今没人买单了?

今年山茶油为啥卖不动?曾经的“油中黄金”,如今没人买单了?

农夫也疯狂
2026-05-09 17:41:51
2026-06-04 02:03:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
65434文章数 14024关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

本地
教育
游戏
亲子
公开课

本地新闻

用杨柳青年画的方式,打开天津

教育要闻

重磅教育部官宣2026年高考报名人数!清华北大扩招不用留学了?

曝《塞尔达》传奇重制版将亮相!任天堂发布会下周见

亲子要闻

9岁孩童竟患上冠心病!医生说明原因,父母后悔不已……

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版