网易首页 > 网易号 > 正文 申请入驻

“GPT-5对人类的阿谀奉承减少了”

0
分享至

2025.08.08

本文字数:2056,阅读时长大约3分钟

作者 |第一财经 郑栩彤

当地时间8月7日,OpenAI终于推出了基础大模型更新,GPT-5面世了。

“这是我们迄今为止最智能、最快、最有用的模型,有内置思维能力,可以将专家及智能交到每个人手中。”OpenAI表示,这款模型在编程、数学、写作、健康、视觉智能等领域有最先进的性能,且知道何时应该快速响应、何时应该思考更长时间。目前GPT-5可供所有用户使用,但免费用户还需要等待几天时间才能使用完整的推理功能,Plus订阅用户则能访问GPT-5 pro。

“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,让这(GPT-5推出)成为可能。”OpenAI CEO山姆·奥尔特曼(Sam Altman)表示。

在编码方面,用户只需要提示,GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中,要求创建一个滚球小游戏,在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等,就能生成一个简单的小游戏。

在写作方面,GPT-5可以用于起草和编辑报告、电子邮件、备忘录等。根据OpenAI的演示,输入相同的提示词,要求GPT-4o和GPT-5一首能体现感情的短诗,描述京都的一名寡妇不断在各种地方发现已故丈夫的袜子。记者将同样的提示词输入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短诗更具有画面感和意象,情感表达更加细腻,语句也更加通顺。

从基准测试的表现可以看出GPT-5的实力。GPT-5(无工具、进行思考)和GPT-5 pro(用python)在AIME2025(竞赛数学)基准测试中的得分分别为94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3级(专家级数学)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为13.5%、32.1%,o4-mini(用python)得分为19.3%。在GPQA Diamond(博士级科学问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为85.7%、89.4%,超过o3(无工具)的83.3%。在Humanity‘s Last Exam(跨学科专家级问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python和搜索)得分分别为24.8%、42%,超过o3(用python和搜索)的24.3%。

此外,GPT-5(进行思考)在SWE-bench(软件工程)、Alder Polyglot(多语言代码编辑)基准测试中的得分分别为74.9%、88%,超过o3在这两项测试中的得分69.1%、79.6%,显示GPT-5有更强的编码能力。在MMMU(学院水平视觉问题)和VideoMMMU(基于视频的多模态推理)基准测试中,GPT-5(进行思考)得分分别为84.2%和84.6%,超过o3的82.9%和83.3%,显示GPT-5有更强的多模态能力。据OpenAI介绍,GPT-5在遵循指令、使用代理工具方面的能力也超过了o3,在使用GPT-5进行推理时,GPT-5在大约一半的情况下能表现得比专家更好。

此外,GPT-5不仅表现优于o3,在视觉推理、代理编码和研究生水平科学问题解决场景下,GPT-5输出的token(词元)数量还减少了50%~80%。GPT-5出现幻觉的概率也低于以往的模型,在使用网络搜索时出现错误事实的概率比o4低45%,思考时出现错误事实的概率比o3低80%,在无法回答问题时GPT-5不会太过“自信”,而是会向用户承认自身局限性。OpenAI称,GPT-5的幻觉率只有o3的六分之一,这标志着大模型生成准确且长篇的内容已取得明显进步。

OpenAI还表示,GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型,发现该模型对人类太过“阿谀奉承”,研发团队通过改进训练等方式,使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下,让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。

定价方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元,GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。

从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世,则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓,但在GPT-4和GPT-5之间,OpenAI还推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI还透露,ChatGPT在全球已有超7亿用户。

不过,GPT-5在部分基准测试中的得分,与OpenAI前代模型的差距并没有很大。在直播演示时,GPT-5出现过一个图表错误,随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。

GPT-5发布后,大模型公司xAI一名联合创始人在社交媒体上表示,看到GPT-5发布,他感到非常自豪,因为xAI团队规模小很多,但在很多方面都领先,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好(Great Work)”,并表示Grok 4在ARC-AGI中击败了GPT-5。

微信编辑| 七三

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
迟重瑞妻子陈丽华去世,温馨全家福曝光,4个儿女都很优秀

迟重瑞妻子陈丽华去世,温馨全家福曝光,4个儿女都很优秀

180视角
2026-04-07 14:19:49
1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

磊子讲史
2025-12-23 20:04:20
特朗普:营救行动出动155架飞机 被迫炸毁两架运输机

特朗普:营救行动出动155架飞机 被迫炸毁两架运输机

环球网资讯
2026-04-07 06:13:05
应届毕业生摩友在海南向张雪当面求职,大方介绍个人能力,当场获得录用,网友:这才是真正的“boss直聘”

应届毕业生摩友在海南向张雪当面求职,大方介绍个人能力,当场获得录用,网友:这才是真正的“boss直聘”

观威海
2026-04-07 14:11:04
黑龙江畜生公公周永福被判死刑,法庭上嚣张大笑:这辈子值了

黑龙江畜生公公周永福被判死刑,法庭上嚣张大笑:这辈子值了

纸鸢奇谭
2025-02-06 14:31:24
安徽女童遇害案通报后现恶心一幕,父亲辟谣:作案不止一人

安徽女童遇害案通报后现恶心一幕,父亲辟谣:作案不止一人

吴蒂旅行ing
2026-04-07 03:20:56
没时间了,80岁特朗普病危住院?美国政界地震,内阁恐大规模改组

没时间了,80岁特朗普病危住院?美国政界地震,内阁恐大规模改组

潋滟晴方DAY
2026-04-07 03:31:09
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

健康科普365
2026-04-07 09:16:10
控制体重最佳的时间是晚上,晚上坚持“5个不”,隔天体重轻松掉

控制体重最佳的时间是晚上,晚上坚持“5个不”,隔天体重轻松掉

运动健身号
2026-04-06 10:00:11
明天傍晚北京将迎雨水,后天气温大降

明天傍晚北京将迎雨水,后天气温大降

北青网-北京青年报
2026-04-07 12:41:12
特朗普再发威胁:若伊朗不在7日20时前“投降” 将打击其民用设施

特朗普再发威胁:若伊朗不在7日20时前“投降” 将打击其民用设施

财联社
2026-04-07 03:04:07
当年为什么查办褚时健?

当年为什么查办褚时健?

百晓生谈历史
2025-08-20 21:55:53
SOHO中国创始人潘石屹回国

SOHO中国创始人潘石屹回国

地产微资讯
2026-04-07 12:19:09
广东人有被外省人惊到吗?网友:出了广东,才知道坐高铁那么便宜

广东人有被外省人惊到吗?网友:出了广东,才知道坐高铁那么便宜

带你感受人间冷暖
2026-04-07 00:05:08
升级版的仙人跳,比戴绿帽子还憋屈

升级版的仙人跳,比戴绿帽子还憋屈

霹雳炮
2026-02-24 22:53:34
第一次和男友同居,我直接震惊:原来男生私下这么可爱到犯规

第一次和男友同居,我直接震惊:原来男生私下这么可爱到犯规

艺鉴在线
2026-04-07 13:19:48
仅4年时间!从落选秀到联盟顶级“3D”,波波维奇还是太有眼光了

仅4年时间!从落选秀到联盟顶级“3D”,波波维奇还是太有眼光了

大卫的篮球故事
2026-04-07 15:16:22
冒死救回大兵,特朗普放地狱狠话

冒死救回大兵,特朗普放地狱狠话

南风窗
2026-04-07 15:06:45
年轻时的何鸿燊领着二房看望父母时的合照,那时候穿搭都好时尚

年轻时的何鸿燊领着二房看望父母时的合照,那时候穿搭都好时尚

小椰的奶奶
2026-04-07 07:05:06
2026-04-07 15:39:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
249425文章数 621993关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

国家继续实施调控 成品油价格适当调整

头条要闻

国家继续实施调控 成品油价格适当调整

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

Color Walk、赏味游……这个假期你更爱哪种?

本地新闻

跟着歌声游安徽,听古村回响

杨超越之后,全网头像锦鲤的C位被她抢走了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版