网易首页 > 网易号 > 正文 申请入驻

基准测试得分与前代模型差距不大,GPT-5幻觉率有所下降

0
分享至

当地时间8月7日,OpenAI终于推出了基础大模型更新,GPT-5面世了。

“这是我们迄今为止最智能、最快、最有用的模型,有内置思维能力,可以将专家及智能交到每个人手中。”OpenAI表示,这款模型在编程、数学、写作、健康、视觉智能等领域有最先进的性能,且知道何时应该快速响应、何时应该思考更长时间。目前GPT-5可供所有用户使用,但免费用户还需要等待几天时间才能使用完整的推理功能,Plus订阅用户则能访问GPT-5 pro。

“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,让这(GPT-5推出)成为可能。”OpenAI CEO山姆·奥尔特曼(Sam Altman)表示。

在编码方面,用户只需要提示,GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中,要求创建一个滚球小游戏,在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等,就能生成一个简单的小游戏。

在写作方面,GPT-5可以用于起草和编辑报告、电子邮件、备忘录等。根据OpenAI的演示,输入相同的提示词,要求GPT-4o和GPT-5一首能体现感情的短诗,描述京都的一名寡妇不断在各种地方发现已故丈夫的袜子。记者将同样的提示词输入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短诗更具有画面感和意象,情感表达更加细腻,语句也更加通顺。

从基准测试的表现可以看出GPT-5的实力。GPT-5(无工具、进行思考)和GPT-5 pro(用python)在AIME2025(竞赛数学)基准测试中的得分分别为94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3级(专家级数学)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为13.5%、32.1%,o4-mini(用python)得分为19.3%。在GPQA Diamond(博士级科学问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为85.7%、89.4%,超过o3(无工具)的83.3%。在Humanity‘s Last Exam(跨学科专家级问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python和搜索)得分分别为24.8%、42%,超过o3(用python和搜索)的24.3%。

此外,GPT-5(进行思考)在SWE-bench(软件工程)、Alder Polyglot(多语言代码编辑)基准测试中的得分分别为74.9%、88%,超过o3在这两项测试中的得分69.1%、79.6%,显示GPT-5有更强的编码能力。在MMMU(学院水平视觉问题)和VideoMMMU(基于视频的多模态推理)基准测试中,GPT-5(进行思考)得分分别为84.2%和84.6%,超过o3的82.9%和83.3%,显示GPT-5有更强的多模态能力。据OpenAI介绍,GPT-5在遵循指令、使用代理工具方面的能力也超过了o3,在使用GPT-5进行推理时,GPT-5在大约一半的情况下能表现得比专家更好。

此外,GPT-5不仅表现优于o3,在视觉推理、代理编码和研究生水平科学问题解决场景下,GPT-5输出的token(词元)数量还减少了50%~80%。GPT-5出现幻觉的概率也低于以往的模型,在使用网络搜索时出现错误事实的概率比o4低45%,思考时出现错误事实的概率比o3低80%,在无法回答问题时GPT-5不会太过“自信”,而是会向用户承认自身局限性。OpenAI称,GPT-5的幻觉率只有o3的六分之一,这标志着大模型生成准确且长篇的内容已取得明显进步。

OpenAI还表示,GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型,发现该模型对人类太过“阿谀奉承”,研发团队通过改进训练等方式,使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下,让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。

定价方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元,GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。

从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世,则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓,但在GPT-4和GPT-5之间,OpenAI还推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI还透露,ChatGPT在全球已有超7亿用户。

不过,GPT-5在部分基准测试中的得分,与OpenAI前代模型的差距并没有很大。在直播演示时,GPT-5出现过一个图表错误,随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。

GPT-5发布后,大模型公司xAI一名联合创始人在社交媒体上表示,看到GPT-5发布,他感到非常自豪,因为xAI团队规模小很多,但在很多方面都领先,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好(Great Work)”,并表示Grok 4在ARC-AGI中击败了GPT-5。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
章若楠年初一去舅舅家拜年!三妹送碗仔面和饮料,舅舅家超级豪华

章若楠年初一去舅舅家拜年!三妹送碗仔面和饮料,舅舅家超级豪华

小娱乐悠悠
2026-02-18 15:04:35
56岁王菲断崖式衰老,45岁张柏芝依旧鲜嫩,两人差距越来越大

56岁王菲断崖式衰老,45岁张柏芝依旧鲜嫩,两人差距越来越大

阿讯说天下
2026-02-18 20:50:55
古巴已进入倒计时。

古巴已进入倒计时。

素颜为谁倾城人
2026-02-15 05:04:46
90后男生春节预计能赚16万元?律师提醒

90后男生春节预计能赚16万元?律师提醒

环球网资讯
2026-02-18 14:26:31
比亚迪大汉渲染图曝光!外观霸气“硬抗”宝马5系,或售30万起!

比亚迪大汉渲染图曝光!外观霸气“硬抗”宝马5系,或售30万起!

车矩阵更懂车
2026-02-18 23:36:07
1944年印尼一小男孩出生,谁也想不到他是2023年地球赚钱最强的人

1944年印尼一小男孩出生,谁也想不到他是2023年地球赚钱最强的人

有书
2026-02-18 19:45:03
美国人发出灵魂质问:既然中国人爱好和平,为何还大力发展军事?

美国人发出灵魂质问:既然中国人爱好和平,为何还大力发展军事?

Ck的蜜糖
2026-02-18 14:19:54
985女硕士被活活饿死,父母:不会给她收尸,就让她死在日本吧!

985女硕士被活活饿死,父母:不会给她收尸,就让她死在日本吧!

来科点谱
2026-02-18 07:11:56
看了观众对王菲央视马年春晚的评价,李健的话,终于有人信了

看了观众对王菲央视马年春晚的评价,李健的话,终于有人信了

娱最资讯
2026-02-16 22:32:42
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
意甲欧冠全面崩塌!三大豪门遭重创,仅剩国米明日独撑门面!

意甲欧冠全面崩塌!三大豪门遭重创,仅剩国米明日独撑门面!

田先生篮球
2026-02-18 22:54:01
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
今年春晚仿佛看了4小时的机器人带货广告,“科技大厂砸钱赞助不如沈腾忘词上热搜快?”

今年春晚仿佛看了4小时的机器人带货广告,“科技大厂砸钱赞助不如沈腾忘词上热搜快?”

Vista氢商业
2026-02-17 19:40:55
阿迪达斯给梅西推出新款球鞋,印有:GOAT!

阿迪达斯给梅西推出新款球鞋,印有:GOAT!

氧气是个地铁
2026-02-18 15:42:17
澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

命运自认幽默
2026-02-17 19:50:44
NBA官推晒新春祝福海报,多名球员登上海报图,杨瀚森在列

NBA官推晒新春祝福海报,多名球员登上海报图,杨瀚森在列

林子说事
2026-02-18 08:36:25
旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

每日经济新闻
2025-10-09 15:44:18
发压岁钱,牢记:2数不发3事不做,尊重传统,马年才能越过越红火

发压岁钱,牢记:2数不发3事不做,尊重传统,马年才能越过越红火

华人星光
2026-02-18 22:08:42
巴萨主席候选人放出梅西绝杀皇马的庆祝动作,为自己助威!

巴萨主席候选人放出梅西绝杀皇马的庆祝动作,为自己助威!

氧气是个地铁
2026-02-18 21:13:47
大型翻车!韩媒曝“惊天内幕”:中国1年给谷爱凌93亿韩元 3年209亿

大型翻车!韩媒曝“惊天内幕”:中国1年给谷爱凌93亿韩元 3年209亿

老吴教育课堂
2026-02-19 01:03:46
2026-02-19 03:11:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
244566文章数 621525关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

以色列提升全国警戒级别 加紧军事准备

头条要闻

以色列提升全国警戒级别 加紧军事准备

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
数码
房产
游戏
亲子

旅游要闻

“马上”喝咖去!打卡藏在崇明景区里的这些咖啡馆

数码要闻

谷歌 Android XR 设计文档曝光,安卓17流畅度提升

房产要闻

三亚新机场,又传出新消息!

PS王牌引擎太强大!成为《死亡搁浅2》唯一选择

亲子要闻

一群小可爱,一群好家长,用最甜的声音,唱最暖的歌声,有缘相聚

无障碍浏览 进入关怀版