网易首页 > 网易号 > 正文 申请入驻

“GPT-5对人类的阿谀奉承减少了”

0
分享至

2025.08.08

本文字数:2056,阅读时长大约3分钟

作者 |第一财经 郑栩彤

当地时间8月7日,OpenAI终于推出了基础大模型更新,GPT-5面世了。

“这是我们迄今为止最智能、最快、最有用的模型,有内置思维能力,可以将专家及智能交到每个人手中。”OpenAI表示,这款模型在编程、数学、写作、健康、视觉智能等领域有最先进的性能,且知道何时应该快速响应、何时应该思考更长时间。目前GPT-5可供所有用户使用,但免费用户还需要等待几天时间才能使用完整的推理功能,Plus订阅用户则能访问GPT-5 pro。

“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,让这(GPT-5推出)成为可能。”OpenAI CEO山姆·奥尔特曼(Sam Altman)表示。

在编码方面,用户只需要提示,GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中,要求创建一个滚球小游戏,在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等,就能生成一个简单的小游戏。

在写作方面,GPT-5可以用于起草和编辑报告、电子邮件、备忘录等。根据OpenAI的演示,输入相同的提示词,要求GPT-4o和GPT-5一首能体现感情的短诗,描述京都的一名寡妇不断在各种地方发现已故丈夫的袜子。记者将同样的提示词输入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短诗更具有画面感和意象,情感表达更加细腻,语句也更加通顺。

从基准测试的表现可以看出GPT-5的实力。GPT-5(无工具、进行思考)和GPT-5 pro(用python)在AIME2025(竞赛数学)基准测试中的得分分别为94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3级(专家级数学)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为13.5%、32.1%,o4-mini(用python)得分为19.3%。在GPQA Diamond(博士级科学问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为85.7%、89.4%,超过o3(无工具)的83.3%。在Humanity‘s Last Exam(跨学科专家级问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python和搜索)得分分别为24.8%、42%,超过o3(用python和搜索)的24.3%。

此外,GPT-5(进行思考)在SWE-bench(软件工程)、Alder Polyglot(多语言代码编辑)基准测试中的得分分别为74.9%、88%,超过o3在这两项测试中的得分69.1%、79.6%,显示GPT-5有更强的编码能力。在MMMU(学院水平视觉问题)和VideoMMMU(基于视频的多模态推理)基准测试中,GPT-5(进行思考)得分分别为84.2%和84.6%,超过o3的82.9%和83.3%,显示GPT-5有更强的多模态能力。据OpenAI介绍,GPT-5在遵循指令、使用代理工具方面的能力也超过了o3,在使用GPT-5进行推理时,GPT-5在大约一半的情况下能表现得比专家更好。

此外,GPT-5不仅表现优于o3,在视觉推理、代理编码和研究生水平科学问题解决场景下,GPT-5输出的token(词元)数量还减少了50%~80%。GPT-5出现幻觉的概率也低于以往的模型,在使用网络搜索时出现错误事实的概率比o4低45%,思考时出现错误事实的概率比o3低80%,在无法回答问题时GPT-5不会太过“自信”,而是会向用户承认自身局限性。OpenAI称,GPT-5的幻觉率只有o3的六分之一,这标志着大模型生成准确且长篇的内容已取得明显进步。

OpenAI还表示,GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型,发现该模型对人类太过“阿谀奉承”,研发团队通过改进训练等方式,使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下,让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。

定价方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元,GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。

从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世,则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓,但在GPT-4和GPT-5之间,OpenAI还推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI还透露,ChatGPT在全球已有超7亿用户。

不过,GPT-5在部分基准测试中的得分,与OpenAI前代模型的差距并没有很大。在直播演示时,GPT-5出现过一个图表错误,随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。

GPT-5发布后,大模型公司xAI一名联合创始人在社交媒体上表示,看到GPT-5发布,他感到非常自豪,因为xAI团队规模小很多,但在很多方面都领先,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好(Great Work)”,并表示Grok 4在ARC-AGI中击败了GPT-5。

微信编辑| 七三

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
百年品牌底蕴加持:别克至境E7如何填平中国家庭的新能源真空区

百年品牌底蕴加持:别克至境E7如何填平中国家庭的新能源真空区

大众侃车
2026-04-25 18:32:13
男子戒烟3个月省下的烟钱铺满一床,当事人:成就感拉满,坚决不再抽烟,会继续攒钱,想要去西藏旅游

男子戒烟3个月省下的烟钱铺满一床,当事人:成就感拉满,坚决不再抽烟,会继续攒钱,想要去西藏旅游

观威海
2026-04-26 19:16:12
国产第一渣女,逆袭成《浪姐》最大黑马?网友:人美心狠!

国产第一渣女,逆袭成《浪姐》最大黑马?网友:人美心狠!

橙星文娱
2026-04-27 08:59:28
大度 丁俊晖:我知道你们都希望赵心童赢我 我一直都支持中国选手

大度 丁俊晖:我知道你们都希望赵心童赢我 我一直都支持中国选手

风过乡
2026-04-27 07:39:09
114-93!文班亚马复出27+11+7封盖,马刺19分逆转大胜开拓者

114-93!文班亚马复出27+11+7封盖,马刺19分逆转大胜开拓者

全景体育V
2026-04-27 06:21:57
中国长安汽车“海纳百川”计划2.0:把体系建起来,把根扎下去

中国长安汽车“海纳百川”计划2.0:把体系建起来,把根扎下去

大众侃车
2026-04-26 20:13:21
结束了!杜兰特退出G4!曝火箭已经内部动荡

结束了!杜兰特退出G4!曝火箭已经内部动荡

篮球实战宝典
2026-04-27 05:37:34
被卖缅甸女大学生后续:园区同意放人,黑幕曝光,父亲觉得不对劲

被卖缅甸女大学生后续:园区同意放人,黑幕曝光,父亲觉得不对劲

云舟史策
2026-04-26 17:10:28
李春平“世纪骗局”:没有百亿遗产,“承德文物盗卖案”与他有关

李春平“世纪骗局”:没有百亿遗产,“承德文物盗卖案”与他有关

百晓生谈历史
2026-04-26 10:13:06
北京紧急通报!柬埔寨国王在华手术,全程不回本国,原因不简单

北京紧急通报!柬埔寨国王在华手术,全程不回本国,原因不简单

叮当当科技
2026-04-26 20:53:11
代县推土埋人后续:火到央媒,任某平多重身份曝光,村民病情加重

代县推土埋人后续:火到央媒,任某平多重身份曝光,村民病情加重

天天热点见闻
2026-04-27 06:10:34
央视曝光儿童化妆品市场乱象:商户为降低成本获取高利润,用成人彩妆假冒儿童专用卖高价,产品实际备案的适用人群只是“普通人群”

央视曝光儿童化妆品市场乱象:商户为降低成本获取高利润,用成人彩妆假冒儿童专用卖高价,产品实际备案的适用人群只是“普通人群”

极目新闻
2026-04-26 21:06:58
重磅!爱德华兹报销!膝盖+跟腱!结束了…

重磅!爱德华兹报销!膝盖+跟腱!结束了…

左右为篮
2026-04-27 09:57:24
遭逆转不敌世界第2!郑钦文惜败莱巴金娜,遗憾无缘马德里站16强

遭逆转不敌世界第2!郑钦文惜败莱巴金娜,遗憾无缘马德里站16强

全景体育V
2026-04-27 05:18:32
蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

小武侃风云
2026-04-26 18:52:45
从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

地理三体说
2026-04-25 22:06:06
法院出手,崔丽丽事件升级!背后还有推手,各个势力大,舆论反扑

法院出手,崔丽丽事件升级!背后还有推手,各个势力大,舆论反扑

奇思妙想草叶君
2026-04-26 01:32:19
配钥匙2元起、雨伞和拉链3元起……为了楼下一个摊子,杭州女孩不愿搬离老小区

配钥匙2元起、雨伞和拉链3元起……为了楼下一个摊子,杭州女孩不愿搬离老小区

都市快报橙柿互动
2026-04-26 13:09:15
舟山小李买了107箱茅台,全是假的!

舟山小李买了107箱茅台,全是假的!

都市快报橙柿互动
2026-04-26 22:25:35
难以置信!洛阳某三甲医院给孩子脱臼复位花1分钟,收费100元举报

难以置信!洛阳某三甲医院给孩子脱臼复位花1分钟,收费100元举报

火山詩话
2026-04-26 07:23:48
2026-04-27 10:23:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
251578文章数 622136关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

四位人气主播宣布离职 大批用户申请退出东方甄选会员

头条要闻

四位人气主播宣布离职 大批用户申请退出东方甄选会员

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

游戏
时尚
房产
亲子
公开课

AI能让《原神》和“塞尔达”联动后,还能相信“有图有真相”吗?

比起买大件,这些“小装备”更派得上用场!

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

亲子要闻

全球生殖遗传大会在沪举办,生殖专家解读第三代试管婴儿技术

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版