网易首页 > 网易号 > 正文 申请入驻

基准测试得分与前代模型差距不大,GPT-5幻觉率有所下降

0
分享至

当地时间8月7日,OpenAI终于推出了基础大模型更新,GPT-5面世了。

“这是我们迄今为止最智能、最快、最有用的模型,有内置思维能力,可以将专家及智能交到每个人手中。”OpenAI表示,这款模型在编程、数学、写作、健康、视觉智能等领域有最先进的性能,且知道何时应该快速响应、何时应该思考更长时间。目前GPT-5可供所有用户使用,但免费用户还需要等待几天时间才能使用完整的推理功能,Plus订阅用户则能访问GPT-5 pro。

“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,让这(GPT-5推出)成为可能。”OpenAI CEO山姆·奥尔特曼(Sam Altman)表示。

在编码方面,用户只需要提示,GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中,要求创建一个滚球小游戏,在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等,就能生成一个简单的小游戏。

在写作方面,GPT-5可以用于起草和编辑报告、电子邮件、备忘录等。根据OpenAI的演示,输入相同的提示词,要求GPT-4o和GPT-5一首能体现感情的短诗,描述京都的一名寡妇不断在各种地方发现已故丈夫的袜子。记者将同样的提示词输入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短诗更具有画面感和意象,情感表达更加细腻,语句也更加通顺。


从基准测试的表现可以看出GPT-5的实力。GPT-5(无工具、进行思考)和GPT-5 pro(用python)在AIME2025(竞赛数学)基准测试中的得分分别为94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3级(专家级数学)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为13.5%、32.1%,o4-mini(用python)得分为19.3%。在GPQA Diamond(博士级科学问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为85.7%、89.4%,超过o3(无工具)的83.3%。在Humanity‘s Last Exam(跨学科专家级问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python和搜索)得分分别为24.8%、42%,超过o3(用python和搜索)的24.3%。

此外,GPT-5(进行思考)在SWE-bench(软件工程)、Alder Polyglot(多语言代码编辑)基准测试中的得分分别为74.9%、88%,超过o3在这两项测试中的得分69.1%、79.6%,显示GPT-5有更强的编码能力。在MMMU(学院水平视觉问题)和VideoMMMU(基于视频的多模态推理)基准测试中,GPT-5(进行思考)得分分别为84.2%和84.6%,超过o3的82.9%和83.3%,显示GPT-5有更强的多模态能力。据OpenAI介绍,GPT-5在遵循指令、使用代理工具方面的能力也超过了o3,在使用GPT-5进行推理时,GPT-5在大约一半的情况下能表现得比专家更好。

此外,GPT-5不仅表现优于o3,在视觉推理、代理编码和研究生水平科学问题解决场景下,GPT-5输出的token(词元)数量还减少了50%~80%。GPT-5出现幻觉的概率也低于以往的模型,在使用网络搜索时出现错误事实的概率比o4低45%,思考时出现错误事实的概率比o3低80%,在无法回答问题时GPT-5不会太过“自信”,而是会向用户承认自身局限性。OpenAI称,GPT-5的幻觉率只有o3的六分之一,这标志着大模型生成准确且长篇的内容已取得明显进步。

OpenAI还表示,GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型,发现该模型对人类太过“阿谀奉承”,研发团队通过改进训练等方式,使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下,让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。

定价方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元,GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。

从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世,则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓,但在GPT-4和GPT-5之间,OpenAI还推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI还透露,ChatGPT在全球已有超7亿用户。

不过,GPT-5在部分基准测试中的得分,与OpenAI前代模型的差距并没有很大。在直播演示时,GPT-5出现过一个图表错误,随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。

GPT-5发布后,大模型公司xAI一名联合创始人在社交媒体上表示,看到GPT-5发布,他感到非常自豪,因为xAI团队规模小很多,但在很多方面都领先,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好(Great Work)”,并表示Grok 4在ARC-AGI中击败了GPT-5。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1975年,叶选宁为处于劳改中的母亲曾宪植奔走求情,毛主席收到相关情况后批示:把她接回北京

1975年,叶选宁为处于劳改中的母亲曾宪植奔走求情,毛主席收到相关情况后批示:把她接回北京

史海残云
2025-12-25 12:05:16
六大跨年名场面!假唱露馅,破音跑调,拒绝牵手,一个比一个荒唐

六大跨年名场面!假唱露馅,破音跑调,拒绝牵手,一个比一个荒唐

艺能八卦局
2026-01-04 06:44:15
西芒杜铁矿生变数!2026年1月3日确认,几内亚要抢30%海运权!

西芒杜铁矿生变数!2026年1月3日确认,几内亚要抢30%海运权!

达文西看世界
2026-01-04 14:14:52
就在刚刚,24家A股上市公司发布重大利好消息,看看都有哪些?

就在刚刚,24家A股上市公司发布重大利好消息,看看都有哪些?

股市皆大事
2026-01-04 19:18:20
特斯拉又打脸国内车企了,开除鼓吹加班的人,消费者拍手称快!

特斯拉又打脸国内车企了,开除鼓吹加班的人,消费者拍手称快!

柏铭锐谈
2026-01-04 23:47:39
吉利全新MPV来袭!激光雷达+增程混动+智能四驱,纯电续航里程却有些说不过去

吉利全新MPV来袭!激光雷达+增程混动+智能四驱,纯电续航里程却有些说不过去

车矩阵更懂车
2026-01-04 23:43:51
多哈冠军赛的关注焦点不是王曼昱,而是令人期待的林诗栋

多哈冠军赛的关注焦点不是王曼昱,而是令人期待的林诗栋

鸿印百合
2026-01-04 23:42:34
朝鲜管控有多严:突击检查手机,禁止外来应用,看韩剧或面临拘禁

朝鲜管控有多严:突击检查手机,禁止外来应用,看韩剧或面临拘禁

番茄说史聊
2025-12-28 14:04:59
前AOA女团成员自杀获救后大爆被欺凌细节,遭强奸及围殴到失禁。

前AOA女团成员自杀获救后大爆被欺凌细节,遭强奸及围殴到失禁。

环球趣闻分享
2026-01-03 13:40:06
硬扛50天,日本终于等来这一刻,高市早苗吐槽,日本越来越穷了?

硬扛50天,日本终于等来这一刻,高市早苗吐槽,日本越来越穷了?

次元君情感
2026-01-04 11:09:34
公开道歉,官宣二胎,骤然离世,1月刚开始,娱乐圈又有新“瓜”

公开道歉,官宣二胎,骤然离世,1月刚开始,娱乐圈又有新“瓜”

白面书誏
2026-01-04 13:14:30
2340万人创出5.65万亿GDP,台湾人均GDP远超京沪,凭啥这么能打?

2340万人创出5.65万亿GDP,台湾人均GDP远超京沪,凭啥这么能打?

墨兰史书
2026-01-04 17:40:03
英国国王能“借走”大英博物馆的藏品吗?

英国国王能“借走”大英博物馆的藏品吗?

山间听雨
2026-01-03 14:47:39
林俊杰们用行动证明:男人的终极审美,真的很一致

林俊杰们用行动证明:男人的终极审美,真的很一致

橙星文娱
2026-01-03 21:41:06
航迹图实录:美军空袭委内瑞拉当晚,几乎所有航班飞机绕开委空域

航迹图实录:美军空袭委内瑞拉当晚,几乎所有航班飞机绕开委空域

扬子晚报
2026-01-04 17:37:52
就在今天,库里复出爆发,改写79年NBA排名第一的纪录

就在今天,库里复出爆发,改写79年NBA排名第一的纪录

大西体育
2026-01-04 15:08:54
无需用死刑来震慑!未来将无人敢贪?贪官可能真的要消失了?

无需用死刑来震慑!未来将无人敢贪?贪官可能真的要消失了?

今朝牛马
2026-01-04 21:30:55
37个姑娘放弃高薪回大山,张桂梅的“造血”奇迹,打了谁的脸?

37个姑娘放弃高薪回大山,张桂梅的“造血”奇迹,打了谁的脸?

不写散文诗
2026-01-04 13:31:31
北京没有穿搭只有秩序,网友:穿搭的精髓是素且贵

北京没有穿搭只有秩序,网友:穿搭的精髓是素且贵

夜深爱杂谈
2026-01-04 23:08:45
深圳新鹏城官宣!连签8强援,阿代米奥乌苏领衔,戴伟浚降薪回归

深圳新鹏城官宣!连签8强援,阿代米奥乌苏领衔,戴伟浚降薪回归

奥拜尔
2026-01-04 16:12:29
2026-01-05 00:35:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
240510文章数 621114关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

教育
手机
时尚
本地
军事航空

教育要闻

用时间堆学习,堆不出好成绩

手机要闻

iQOO 15 Ultra官宣春节前发,月中还有Z11 Turbo

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版