GPT-5几个预测：用户翻倍，编程登顶，屠杀一众模型|模态|代码|gpt

GPT-5几个预测：用户翻倍，编程登顶，屠杀一众模型

2025-08-08 05:46:50　来源: 鲸选AI

北京举报

分享至

在GPT-4横空出世后，始终不见新一代大模型。暌违2年半，大家的心情如下，终于在今晚等到了GPT-5。

毫无意外，GPT-5登顶了大模型各种测评榜单。OpenAI发布的GPT-5四个模型，在Artificial Analysis Intelligence Index v2.2中排名如下：

GPT-5 (high)– 得分 69

GPT-5 (medium)– 得分 68

GPT-5 (low)– 得分 63

GPT-5 (minimal)– 得分 44

解释下，在这个综合指数排名中，官方说明里列出了 8 个子基准——MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、IFBench 以及 AA-LCR。每个模型的得分是在这 8 组测试中表现的汇总（通常是加权平均或标准化后的平均值）。

但其实GPT-5最大的跨越，是统一智能架构。

现在，用户不用费力区分什么时候用4o，什么时候用o3等众多模型，ChatGPT将统一用GPT-5提供服务，它整合了高效响应模型和深度推理模型（GPT-5 thinking），通过实时智能路由自动判断何时快速响应，减少不必要的算力浪费；自主判断何时深度思考，给用户最深刻的回答。

而在LLM Arena 更新的榜单中，GPT-5拿到几乎所有类别的第一名，包括数学、指令遵循、多轮对话、编码、WebDev等等，仅仅创意性写作这个类别上稍弱于 Gemini 2.5pro。

具体看，GPT-5在多个权威基准测试中取得了突破性成绩：

1）数学推理：AIME 2025 无工具辅助达到 94.6%；

2）多模态理解：MMMU 基准测试达到 84.2%；

3）科学推理：GPT-5 Pro 在 GPQA 测试中无工具辅助达到 88.4%；

4）代码编程：在 SWE-bench Verified（软件工程任务）中：GPT-5直接回答准确率为 52.8%，加入思考链后提升至 74.9%，相比之下GPT-4o 表现为 30.8%，OpenAI o3 为 69.1%。

在 Aider Polyglot（多语言代码编辑任务）中：GPT-5加入思考链后准确率达 88.0%，无思考仅 26.7%，而 GPT-4o 为 25.8%，OpenAI o3 为 79.6%。

所以，GPT-5依托思考链技术，在复杂任务中表现得更得心应手。

多说一句，GPT-5 在编程方面击败了 Claude Opus 4.1，成为全球最佳编程模型！连Cursor和微软Copilot都第一时间接入了GPT-5 ，以后AI Coding市场要更热闹了。

抛开GPT-5的能力升级，更为重要的意图改进，可能是在以下三点：

1、

相比上一代模型大幅减少幻觉和废话，让AI更可信。

与 GPT-4o 相比：GPT-5事实性错误减少 45%；开放事实上的幻觉减少 6 倍；缺失数据上的欺骗性回答减少 80%。

直播中举例，没有数据的问题，不会像以前直接遣词造句，装模做样地编造回答。现在会直接告诉无法回答，还会给一个解决方案。这也意味着GPT-5 更准确，更诚实。

虽然宣称GPT-5的幻觉率大幅减少，但是OpenAI的工作人员幻觉率可挺高，直播中出现了大乌龙。

这张翻车的直播PPT图中，柱状图显示数值52.8 比 69.1 高，而 69.1 又被显示为与 30.8 相同量级。

或许是因为AI，人类数学能力已经出现了大幅衰退，笑Cry。

2、

GPT-5 更具有多维的人类情感，而不是单纯的讨好人类。

GPT-5这次新增 4 个聊天个性：愤世嫉俗者、机器人、倾听者、书呆子。可在设置中的 Customize ChatGPT 里自主选择。而且GPT-5 将谄媚（AI 过度奉承）减少了>60%。当你犯错时，会减少“你是对的”。

3、在健康领域的回答更实用。

GPT-5在 HealthBench 基准测试中得分创历史新高，达到 46.2%。直播中，一位患上癌症的女性将诊断书输入 ChatGPT，ChatGPT 将GPT-5将难懂的语言整理得易于理解。

当然，还有这点不得不提，就是OpenAI竟然玩起了性价比。将GPT-5 与 Claude Opus 4.1 进行比较，可见GPT-5 要便宜得多。

便宜到底好不好用，以下这些海外生成的案例可参考：

1、音乐节拍器生成测试

现实世界的信息是多模态的——文字、图像、音频、视频等多种形式共同构成了人类的认知输入。我们测试Chat GPT5 对音乐领域规则的理解，也考验其将抽象需求转化为，可执行逻辑的工程化能力。

生成的音乐很带感，网友直呼：“我的耳朵要怀孕了”，“也许它会彻底改变音乐产业“

@sama

2、建筑生成器

GPT-5也能协助建筑行业进行工作，全程没碰过一行代码，却非常智能的生成了3D楼房。

“做一个程序化的粗野主义建筑生成器，能让我通过拖拽以各种酷炫方式编辑建筑”，然后又让它 “再改进一下

3、简笔画对比

GPT-5 在自行车测试中的表现比 4o 好得多。

GPT-5 在和Claude Sonnet 4测试绘制游戏手柄中也好很多

4、指示GPT-5创建一个音乐可视化工具 + 迷你作曲家

5、编码能力测试：

在发布会上，主讲人宣称对安全系统进行了一系列的升级，国外网友（@PranavJoshi28）对 AI 能否设计并实现一个 “安全、规范、可维护” 的后端身份认证与权限系统进行了的综合测试，这一项测试既涉及具体技术的落地，也考验对安全最佳实践和工程化思想的理解。

提示词：创建基础的 RBAC（基于角色的访问控制）使用 JWT（JSON Web Token）密码存储应使用 bcrypt，但首先要将密码与 pepper（一种额外的加密盐）结合，并用 SHA-256（生成 32 字节）进行哈希处理，之后再用 bcrypt 加密，以避免 72 字节的截断问题需维护迁移文件（不使用 ORM 或查询构建器），并设有单独的 up（升级）和 down（降级）文件夹使用 Zod 进行类型检查和 schema 验证生成访问令牌和刷新令牌（支持令牌轮换）使用刷新令牌数据库来实现令牌的黑名单管理、撤销或过期处理

国外网友评价：大部分准确，需要较少的调整。

但网友测试GPT-5，检测出9.9-9.11=-0.21，这种难以想象的错误。

在GPT-5发布后，鲸哥预测：

➤因为GPT-5 人人可免费使用，以及回答效率更高，OpenAI的全球用户在今天周月活数7亿基础上将翻倍。

➤AI编程将走出小众，程序员大面积失业。因为GPT-5编程能力出众，一直拒绝OpenAI收购的Cursor，都第一时间接入了GPT-5,你就知道未来大部分AI编程软件，会齐刷刷都接入GPT-5，AI编程效率进一步提高。

➤GPT-5的多模态，以及多尺寸，将帮助其占领大多数AI场景，很多大模型将因为竞争性不足，而被GPT-5踢了场子。

尽管马斯克还不服气，认为Grok 4 Heavy还占据着最智能的大模型宝座，但是GPT-5这次务实地推进，将改变除了桂冠外的一切。

一位国外网友站在长远的角度评价，GPT-5 只是点火器：

➤ GPT-5.5 Copilot+（内部测试阶段）

➤ GPT-6 → AGI 认知层

➤ Sora + Sky + Whisper = 完全感官认知

➤ AutoCode + Memory API = 世界操作系

你认可吗？

https://x.com/godofprompt/status/1953529048971588015

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.