网易首页 > 网易号 > 正文 申请入驻

实测GPT-5:界面更简洁回答更高效,但“不够惊艳”

0
分享至

北京时间8月8日,“跳票”多次的GPT-5终于“千呼万唤始出来”,OpenAI首席执行官山姆·奥特曼以一个77分钟的发布视频揭开了这个继两年前GPT-4发布震撼业界后,就被不断寄予厚望的大模型。

新京报AI研究院第一时间对GPT-5进行了实测,发现接入GPT-5的能力后,ChatGPT的对话界面更加简洁,完全践行了此前奥特曼曾表示的将多模态、深度思考、联网搜索等集成化的思路,在对话中,该款大模型也确实可以做到依据问题,丝滑切换不同的回答方式,让用户的使用体验“更上一层楼”。但对一些较为复杂问题的回复,依然有错误出现,总体来看其模型能力并未与市面上其他模型拉开显著差距。

ChatGPT最新界面截图

事实上,由于OpenAI在近几年发布的GPT-4,甚至o1模型的表现都做到了大幅领先同行,GPT-5也被不少业界人士期待能够再度复制此前的辉煌,甚至成为实现AGI(通用人工智能)的标志。此次发布后,GPT-5的能力依然在各项跑分测试中做到了领先,但其所带来的“惊艳程度”显然不及GPT-4和o1。

在AI大模型行业“以月为单位”的迭代速度,以及国产优秀AI大模型不断涌现的背景下,山姆·奥特曼要想继续谱写OpenAI一枝独秀的叙事,GPT-5现在的表现仍然不够。不过这也不能否认GPT-5在工程化和商业化层面的优秀之处。下面,新京报AI研究院将主要结合GPT-5在创意写作、编程这两个奥特曼在发布会中特别强调的优秀能力进行实测,观察其C端产品表现。

创意写作:中文能力中规中矩,提示词和跨界作图切换“丝滑”

本次发布,GPT-5在关于编程、数学、长文本等多个维度的测评中夺得榜首,但在当前此类榜单时刻“攻守易形”的前提下,新京报AI研究院更加关注其在实操中的表现。

对于具体的亮点能力,OpenAI官网特意放出了创意写作、编程设计和药物研究三个视频切片。其中,创意写作是普通人最容易理解的大模型能力。奥特曼也表示“GPT-5的写作能力比GPT-4o要好得多。”此外,他还表示,“GPT-5采用集成模型,这意味着不再需要模型切换器,它将自己决定何时需要深度思考,它非常智能、直观且快速,适用于所有人,包括免费用户。”

对此,新京报AI研究院以最近网上讨论较为热烈的《明末:渊虚之羽》中涉及的历史问题为背景,对GPT-5输入提示词“你是一个明末,1647年住在四川的农民,请在这个历史背景下,写出这个农民在一年里可能的遭遇,要求写实。”

面对该提示词,在不使用GPT-5模型时,ChatGPT主要描述了该农民在“春夏秋冬”四季的遭遇,描写了农民身处乱世的情景。而GPT-5的回答则不止描述出了该农民的名字、住址,还具体撰写了他从1月到12月的生活情景,背景则包括了明军、大西军、清军,这和当时的历史史实相符。

回答完毕后,GPT-5还提示是否“在这个基础上帮你补充更多当时四川的社会背景细节,比如‘湖广填四川’的人口损失数据、兵乱的路线、南明与清军的攻防形势,让这个农民的故事更真实可考。”当我们选择让其继续回答后,GPT-5生成了一份包含农民故事与旁注史料的完整回答,其回复质量显然比前代模型提高了不少。

GPT-5的部分回答截图

不过,当我们以同样的提示词让DeepSeek以及Kimi生成回答时,这两个国产大模型也给出了不错的回复,其中DeepSeek的文采更好,Kimi则展示出了更多细节,与ChatGPT使用GPT-5生成的回复相比,三者的差距并没有特别明显。

但ChatGPT在引导用户继续提问上更胜一筹,在两次回答我们提出的问题后,ChatGPT表示,“我还可以帮你把这个农民的一年经历,配上一张1647年四川兵乱形势图,标出清军、南明军、白号军(注:白号军历史上在清代咸丰及同治年间出现,此处应为大模型幻觉导致生成了错误内容)的活动路线,这样读起来会更直观。你要我帮你画出来吗?”这一回复显示搭载GPT-5的ChatGPT不仅已经做到了多模态能力在对话中的随时调用,还能依据上下文主动提供这一能力,可以更大幅度地提升用户体验。

不过,GPT-5随后生成出来的图片较为粗陋且与图片说明存在矛盾,并不能直观表述“四川兵乱形势图”,显示其能力依然有局限。

GPT-5生成的图片,虽然文字回复优秀但图片与图片说明文字存在矛盾

编程能力:速度提升明显,错误依然存在

OpenAI在本次发布会中花费最多时间介绍的能力是编程,整个围绕AI编程的介绍几乎占到了发布会时间的一半。AI编程也是当前各个大模型在落地上最为成熟的能力,最受企业欢迎,商业化上也已经走通。

在发布会的演示中,OpenAI展示了GPT-5的种种神奇能力,如使用SVG动图解释伯努利效应、制作学习法语的web程序、制作老鼠吃奶酪的游戏等等。但相比发布会中的演示,现实情况如何呢?

对此,新京报AI研究院也进行了实测。当输入“请你做一个学英语的web应用程序,要生动有趣”时,GPT-5仅花费了约10秒钟就生成出了一个名为“趣味英语学习”的程序,当输入英文单词,其会生成出关于该单词的“一个趣味事实”,例如当输入“apple(苹果)”,其回复该单词来自古英语“æppel”。

GPT-5生成的英语学习游戏

当要求升级,输入“以二战主题制作一款华容道游戏”时,GPT-5的思考时间显著变长,但最后还是生成了一款以“盟军俘虏德军将领”为主题的华容道游戏,并以隆美尔代替了曹操的位置。

GPT-5生成的二战背景华容道游戏

值得注意的是,虽然GPT-5的编程速度很快,生成的结果往往也可以实现初步交互,但一旦深入体验其生成的程序,就会发现很多错误。如英语学习游戏虽然以极快速度生成,但其只能对较为简单的单词有反应,稍微复杂一点的单词就会报错。华容道游戏也是一样,虽然可以通过点击鼠标移动方块,但最为关键的“隆美尔”方块出现了无法移动的BUG。

总体而言,新京报AI研究院发现,GPT-5确实做到了奥特曼提及的“智能、直观且快速”,在产品水平和用户体验上都有进步,但其依然没有摆脱大模型固有的幻觉问题,并且该问题在面对复杂问题时更为明显。

不过,相比市面上的其他模型,GPT-5虽然没有做到断崖式领先,但其能力也优于同类模型,如GPT-5编程能力较o3和GPT-4o模型显著提升,在SWE-bench Verified测试得分74.9%(o3为69.1%,GPT-4o为30.8%),略超Anthropic本周发布的新模型Claude Opus4.1的74.5%。

值得注意的是,GPT-5虽然免费向所有用户开放,但依然维持了使用次数限制。本次实测,新京报AI研究院一共进行了9轮对话,就触及了次数限制的天花板,要想真正在工作生活中使用GPT-5的能力,还需要“充值”。

API价格方面,GPT-5每百万token输入1.25美元,输出10美元。该价格低于GPT-4o和Gemini 2.5 Pro,仅为Claude Opus 4.1的1/15。开源证券发布的研报认为,此次价格下探展现了头部厂商抢占市场份额的决心,有望加速应用端落地。

新京报AI研究院 罗亦丹

编辑 岳彩周

校对 付春愔

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2010年,泰国将军儿子酒吧被打,对方称是大明星男友,结局如何?

2010年,泰国将军儿子酒吧被打,对方称是大明星男友,结局如何?

极品小牛肉
2024-10-24 16:11:10
27吨冻牛头牛蹄跨省运输后部分发霉,冻库、冷链车送检样品均超标,多部门介入

27吨冻牛头牛蹄跨省运输后部分发霉,冻库、冷链车送检样品均超标,多部门介入

红星新闻
2026-03-28 19:53:39
张爱玲:人生最大的悲哀不是选错伴侣,也不是没挣到钱,而是人到中年才发现,从未真正为自己活过

张爱玲:人生最大的悲哀不是选错伴侣,也不是没挣到钱,而是人到中年才发现,从未真正为自己活过

四行书
2026-03-27 12:33:32
巴伦德拉宣誓就任尼泊尔总理,印媒关注:标志着尼泊尔政治格局重大转变

巴伦德拉宣誓就任尼泊尔总理,印媒关注:标志着尼泊尔政治格局重大转变

环球网资讯
2026-03-28 07:00:38
云南省发展和改革委员会享受一级调研员待遇退休干部许建平接受审查调查

云南省发展和改革委员会享受一级调研员待遇退休干部许建平接受审查调查

界面新闻
2026-03-28 15:06:35
宝妈委屈,请儿子全班参加他10岁生日宴却无人到!网友:你的问题

宝妈委屈,请儿子全班参加他10岁生日宴却无人到!网友:你的问题

素十三儿
2026-03-21 11:07:58
广东1男子卖猪肉35年,一贫如洗,却被网友称为“最富有的人”

广东1男子卖猪肉35年,一贫如洗,却被网友称为“最富有的人”

小怪吃美食
2026-03-28 10:31:51
心如死灰!一乳腺癌患者哭诉抗癌1年,在丈夫外套翻出他达拉非…

心如死灰!一乳腺癌患者哭诉抗癌1年,在丈夫外套翻出他达拉非…

火山詩话
2026-03-27 06:26:22
特朗普宣布访华新日期,不到48个小时,中方不留情面,连续反制

特朗普宣布访华新日期,不到48个小时,中方不留情面,连续反制

小舟谈历史
2026-03-29 06:28:30
全国中小学严查开始!这些事一律不许做,发现就处理

全国中小学严查开始!这些事一律不许做,发现就处理

马蹄烫嘴说美食
2026-03-28 03:55:27
大涨价第一周,国内市场变天,利好苹果、小米等

大涨价第一周,国内市场变天,利好苹果、小米等

科技锋说
2026-03-28 05:44:57
知名乐评人批周杰伦新歌:嗓子粗糙、歌词幼稚,还在那“我最强我最屌”

知名乐评人批周杰伦新歌:嗓子粗糙、歌词幼稚,还在那“我最强我最屌”

老吴教育课堂
2026-03-27 12:48:19
大S灵魂缠着具俊晔!翻白眼女星玩剧组夫妻!

大S灵魂缠着具俊晔!翻白眼女星玩剧组夫妻!

八卦疯叔
2026-03-27 16:16:34
张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

拳击时空
2026-03-29 04:58:33
曾精准预判金价狂飙的人,再发末日危言

曾精准预判金价狂飙的人,再发末日危言

亿通电子游戏
2026-03-28 17:13:02
米利唐前女友卡罗琳社媒:受罗纳尔多团队邀请报道世界杯幕后

米利唐前女友卡罗琳社媒:受罗纳尔多团队邀请报道世界杯幕后

懂球帝
2026-03-28 10:53:06
巴基斯坦也没有想到,跟着中国混来混去,结果自己也混了一个霸主

巴基斯坦也没有想到,跟着中国混来混去,结果自己也混了一个霸主

忠于法纪
2026-02-12 09:56:59
哈勃与韦布为土星拍下绝美写真

哈勃与韦布为土星拍下绝美写真

NASA爱好者
2026-03-28 00:30:09
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
美军集结地遭袭击伤亡惨重!美媒:美国军力遭受二战后最严重削弱

美军集结地遭袭击伤亡惨重!美媒:美国军力遭受二战后最严重削弱

乡野小珥
2026-03-29 02:21:42
2026-03-29 07:55:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
62600文章数 13980关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

本地
艺术
亲子
公开课
军事航空

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

艺术要闻

毛泽东手笺惊现美国拍卖会,满纸峥嵘往事......

亲子要闻

笑麻了!新手爸爸们的离谱行为,老婆要生了,结果人还在家

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版