网易首页 > 网易号 > 正文 申请入驻

GPT-5几个预测:用户翻倍,编程登顶,屠杀一众模型

0
分享至

在GPT-4横空出世后,始终不见新一代大模型。暌违2年半,大家的心情如下,终于在今晚等到了GPT-5。

毫无意外,GPT-5登顶了大模型各种测评榜单。OpenAI发布的GPT-5四个模型,在Artificial Analysis Intelligence Index v2.2中排名如下:

GPT-5 (high)– 得分 69

GPT-5 (medium)– 得分 68

GPT-5 (low)– 得分 63

GPT-5 (minimal)– 得分 44

解释下,在这个综合指数排名中,官方说明里列出了 8 个子基准——MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、IFBench 以及 AA-LCR。每个模型的得分是在这 8 组测试中表现的汇总(通常是加权平均或标准化后的平均值)。

但其实GPT-5最大的跨越,是统一智能架构

现在,用户不用费力区分什么时候用4o,什么时候用o3等众多模型,ChatGPT将统一用GPT-5提供服务,它整合了高效响应模型和深度推理模型(GPT-5 thinking),通过实时智能路由自动判断何时快速响应,减少不必要的算力浪费;自主判断何时深度思考,给用户最深刻的回答。

而在LLM Arena 更新的榜单中,GPT-5拿到几乎所有类别的第一名,包括数学、指令遵循、多轮对话、编码、WebDev等等,仅仅创意性写作这个类别上稍弱于 Gemini 2.5pro。

具体看,GPT-5在多个权威基准测试中取得了突破性成绩:

1)数学推理:AIME 2025 无工具辅助达到 94.6%;

2)多模态理解:MMMU 基准测试达到 84.2%;

3)科学推理:GPT-5 Pro 在 GPQA 测试中无工具辅助达到 88.4%;

4)代码编程: 在 SWE-bench Verified(软件工程任务)中:GPT-5直接回答准确率为 52.8%,加入思考链后提升至 74.9%,相比之下GPT-4o 表现为 30.8%,OpenAI o3 为 69.1%。

在 Aider Polyglot(多语言代码编辑任务)中:GPT-5加入思考链后准确率达 88.0%,无思考仅 26.7%,而 GPT-4o 为 25.8%,OpenAI o3 为 79.6%。

所以,GPT-5依托思考链技术,在复杂任务中表现得更得心应手。

多说一句,GPT-5 在编程方面击败了 Claude Opus 4.1,成为全球最佳编程模型!连Cursor和微软Copilot都第一时间接入了GPT-5 ,以后AI Coding市场要更热闹了。

抛开GPT-5的能力升级,更为重要的意图改进,可能是在以下三点:

1、

相比上一代模型大幅减少幻觉和废话,让AI更可信。

与 GPT-4o 相比:GPT-5事实性错误减少 45%;开放事实上的幻觉减少 6 倍;缺失数据上的欺骗性回答减少 80%。

直播中举例,没有数据的问题,不会像以前直接遣词造句,装模做样地编造回答。现在会直接告诉无法回答,还会给一个解决方案。这也意味着GPT-5 更准确,更诚实。

虽然宣称GPT-5的幻觉率大幅减少,但是OpenAI的工作人员幻觉率可挺高,直播中出现了大乌龙。

这张翻车的直播PPT图中,柱状图显示 数值52.8 比 69.1 高,而 69.1 又被显示为与 30.8 相同量级。

或许是因为AI,人类数学能力已经出现了大幅衰退,笑Cry。

2、

GPT-5 更具有多维的人类情感,而不是单纯的讨好人类。

GPT-5这次新增 4 个聊天个性:愤世嫉俗者、机器人、倾听者、书呆子。可在设置中的 Customize ChatGPT 里自主选择。而且GPT-5 将谄媚(AI 过度奉承)减少了>60%。当你犯错时,会减少“你是对的”。

3、在健康领域的回答更实用。

GPT-5在 HealthBench 基准测试中得分创历史新高,达到 46.2%。直播中,一位患上癌症的女性将诊断书输入 ChatGPT,ChatGPT 将GPT-5将难懂的语言整理得易于理解。

当然,还有这点不得不提,就是OpenAI竟然玩起了性价比。将GPT-5 与 Claude Opus 4.1 进行比较,可见GPT-5 要便宜得多。

便宜到底好不好用,以下这些海外生成的案例可参考:

1、音乐节拍器生成测试

现实世界的信息是多模态的——文字、图像、音频、视频等多种形式共同构成了人类的认知输入。我们测试Chat GPT5 对音乐领域规则的理解,也考验其将抽象需求转化为,可执行逻辑的工程化能力。

生成的音乐很带感,网友直呼:“我的耳朵要怀孕了”,“也许它会彻底改变音乐产业“

@sama

2、建筑生成器

GPT-5也能协助建筑行业进行工作,全程没碰过一行代码,却非常智能的生成了3D楼房。

“做一个程序化的粗野主义建筑生成器,能让我通过拖拽以各种酷炫方式编辑建筑”,然后又让它 “再改进一下

3、简笔画对比

GPT-5 在自行车测试中的表现比 4o 好得多。

GPT-5 在和Claude Sonnet 4测试绘制游戏手柄中也好很多

4、指示GPT-5创建一个音乐可视化工具 + 迷你作曲家

5、编码能力测试

在发布会上,主讲人宣称对安全系统进行了一系列的升级,国外网友(@PranavJoshi28)对 AI 能否设计并实现一个 “安全、规范、可维护” 的后端身份认证与权限系统进行了的综合测试,这一项测试既涉及具体技术的落地,也考验对安全最佳实践和工程化思想的理解。

提示词:创建基础的 RBAC(基于角色的访问控制) 使用 JWT(JSON Web Token) 密码存储应使用 bcrypt,但首先要将密码与 pepper(一种额外的加密盐)结合,并用 SHA-256(生成 32 字节)进行哈希处理,之后再用 bcrypt 加密,以避免 72 字节的截断问题 需维护迁移文件(不使用 ORM 或查询构建器),并设有单独的 up(升级)和 down(降级)文件夹 使用 Zod 进行类型检查和 schema 验证 生成访问令牌和刷新令牌(支持令牌轮换) 使用刷新令牌数据库来实现令牌的黑名单管理、撤销或过期处理

国外网友评价:大部分准确,需要较少的调整。

但网友测试GPT-5,检测出9.9-9.11=-0.21,这种难以想象的错误。

在GPT-5发布后,鲸哥预测:

➤因为GPT-5 人人可免费使用,以及回答效率更高,OpenAI的全球用户在今天周月活数7亿基础上将翻倍。

➤AI编程将走出小众,程序员大面积失业。因为GPT-5编程能力出众,一直拒绝OpenAI收购的Cursor,都第一时间接入了GPT-5,你就知道未来大部分AI编程软件,会齐刷刷都接入GPT-5,AI编程效率进一步提高。

➤GPT-5的多模态,以及多尺寸,将帮助其占领大多数AI场景, 很多大模型将因为竞争性不足,而被GPT-5踢了场子。

尽管马斯克还不服气,认为Grok 4 Heavy还占据着最智能的大模型宝座,但是GPT-5这次务实地推进,将改变除了桂冠外的一切。

一位国外网友站在长远的角度评价,GPT-5 只是点火器:

➤ GPT-5.5 Copilot+(内部测试阶段)

➤ GPT-6 → AGI 认知层

➤ Sora + Sky + Whisper = 完全感官认知

➤ AutoCode + Memory API = 世界操作系

你认可吗?



https://x.com/godofprompt/status/1953529048971588015

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡西三粒爆米花引爆伯纳乌:13年后,穆帅铁腕再临皇马更衣室?

卡西三粒爆米花引爆伯纳乌:13年后,穆帅铁腕再临皇马更衣室?

落夜足球
2026-04-29 21:49:36
八段锦这场“骗局”,到底忽悠了多少中国女人

八段锦这场“骗局”,到底忽悠了多少中国女人

智识漂流
2026-04-29 14:23:59
印度人:如果中国真比印度发达,为何中国城市大街看不到突突车?

印度人:如果中国真比印度发达,为何中国城市大街看不到突突车?

云舟史策
2026-04-29 07:23:51
泰王夫妇出发参加瑞典国王80寿辰,苏提达亲自开车,王后太全面了

泰王夫妇出发参加瑞典国王80寿辰,苏提达亲自开车,王后太全面了

娱乐圈见解说
2026-04-29 15:20:24
曼联猝不及防!巴萨全面更改拉什福德买断条款,3000万欧买断作废

曼联猝不及防!巴萨全面更改拉什福德买断条款,3000万欧买断作废

夜白侃球
2026-04-29 09:18:53
重磅!中国科学院院士、厦门大学教授,出任地方大学校长

重磅!中国科学院院士、厦门大学教授,出任地方大学校长

TOP大学来了
2026-04-29 18:07:04
不靠母亲靠自己!10岁笑笑夺冠,主教练王楠自豪上台给女儿挂金牌

不靠母亲靠自己!10岁笑笑夺冠,主教练王楠自豪上台给女儿挂金牌

揽星河的笔记
2026-04-29 16:20:47
U17国足亚洲杯名单公布,邝兆镭帅惟浩领衔,粤超小将在列

U17国足亚洲杯名单公布,邝兆镭帅惟浩领衔,粤超小将在列

南方都市报
2026-04-29 21:52:09
最古怪的四野兵团:总兵力第一,番号撤销速度第一,还没有参谋长

最古怪的四野兵团:总兵力第一,番号撤销速度第一,还没有参谋长

云霄纪史观
2026-04-29 20:19:15
北京一小孩用打火机点柳絮玩,短短几秒火势蔓延,邻居251棵树被烧,家长被判赔11万余元

北京一小孩用打火机点柳絮玩,短短几秒火势蔓延,邻居251棵树被烧,家长被判赔11万余元

环球网资讯
2026-04-29 19:54:07
3.2亿退休人真相:能拿5500元退休金的,仅8%!别再被网络误导了

3.2亿退休人真相:能拿5500元退休金的,仅8%!别再被网络误导了

吃货的分享
2026-04-29 01:53:54
重大让步!伊朗直接交出海峡控制权,就换美国解封停战!

重大让步!伊朗直接交出海峡控制权,就换美国解封停战!

爱史纪
2026-04-29 17:05:08
活塞被逼到绝境,史上60胜球队首轮淘汰有先例

活塞被逼到绝境,史上60胜球队首轮淘汰有先例

体育妞世界
2026-04-29 00:40:03
鄭欣宜激瘦正式復工,《歌手2026》首張名單出爐莫文蔚有名

鄭欣宜激瘦正式復工,《歌手2026》首張名單出爐莫文蔚有名

粤睇先生
2026-04-28 20:50:27
劳务派遣在央国企杀疯了!

劳务派遣在央国企杀疯了!

灯锦年
2026-04-21 17:56:52
窝心!17分惨败,还被喊下课!发布会杜锋怒批广东球员不执行战术

窝心!17分惨败,还被喊下课!发布会杜锋怒批广东球员不执行战术

体坛野秀才
2026-04-28 22:52:12
意外!浙江队首次回应罗斯会不会提前下课,同时提了一个要求

意外!浙江队首次回应罗斯会不会提前下课,同时提了一个要求

张丽说足球
2026-04-29 14:23:28
“评估无法自理的老人”竟多次外出旅游,护理机构负责人与评估中心合谋诈骗“长护险”300余万元,上海警方披露案情

“评估无法自理的老人”竟多次外出旅游,护理机构负责人与评估中心合谋诈骗“长护险”300余万元,上海警方披露案情

极目新闻
2026-04-29 13:35:06
景美人更美

景美人更美

蓝色海洋009
2026-04-26 18:07:20
6月新规来了!3类常见病三甲不再接诊,今后看病别再跑错地方

6月新规来了!3类常见病三甲不再接诊,今后看病别再跑错地方

复转这些年
2026-04-26 18:48:03
2026-04-29 22:56:49
鲸选AI incentive-icons
鲸选AI
最新AI产品化与商业化案例速递
152文章数 38关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

家居
房产
游戏
数码
健康

家居要闻

寂然无界 简洁风格

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

《黎明行者之血》开发商还计划打造第二个原创IP

数码要闻

追觅推出空气炸锅F20:6L容量、1700W上下双热源,299元

干细胞治烧烫伤能用了么?

无障碍浏览 进入关怀版