GPT-5快抢走打工人饭碗了|代码|编程|程序员|gpt|错误率|agent

GPT-5快抢走打工人饭碗了

2025-08-08 16:42:58　来源: 虎嗅APP

北京举报

分享至

出品｜虎嗅科技组

作者｜宋思杭

编辑｜苗正卿

头图｜视觉中国

昨晚，注定难眠。GPT-5，终于来了。

北京时间8月8日凌晨1点，OpenAI CEO Sam Altman没有爽约。在发布会前一天，他在X（原Twitter）上写道：“明天上午10点（太平洋时间）发布GPT-5，发布会会比以往更长，一个小时左右。”

结果，这场被全网盯紧的发布整整持续了1小时18分钟，堪称“最重头戏”。

Altman的造势从来不是空喊。这位硅谷最有话语权的“AI布道者”在会前甚至自曝：“测试完GPT5，我感觉自己一无是处。”看似夸张的说法，却意外地成为这场发布的真实注脚。

在开场介绍GPT-5时，奥特曼简单回顾了下从GPT-3到4，再到5的历程。他自己比喻说，“GPT-3像个高中生，GPT-4像个大学生，而GPT-5则已经变成了一名专家，一名各个领域的专家。”

GPT-5并没有让人失望，它甚至可能让打工人们开始焦虑，首当其冲的就是程序员。

这次发布会最大的信息量，不是语言理解能力有多强、创作能力有多丰富，而是它在代码编写、调试、部署上的全新维度：GPT-5不再是“会写代码的语言模型”，它是一个工程级开发助手。

这场发布会上，OpenAI花了将近一半时间在“现场写代码”。它两分钟就可以搭建出一个完整网站，五分钟做出一款语言学习App，并能精准识别并修复Bug。它不仅听懂复杂需求，还能结构清晰地拆解任务、实现功能、给出部署建议——这种能力，已不是“辅助编程”，而是直接抢活干了。

对于熟悉AI编程工具的人来说，这意味着什么？意味着Copilot要退休了，意味着Replit要被重塑，意味着Cursor等“AI IDE”要被全面整合。Altman在现场甚至直接说：“这是我们有史以来最强的编程模型。”

而背后支撑这一切的，是GPT-5在推理能力、上下文管理、多模态理解等多个维度上的飞跃。OpenAI此次还发布了面向不同用户的模型矩阵，包括：GPT-5 Standard、GPT-5 Mini（轻量版）、GPT-5 Nano（嵌入式和移动端使用）。

这三个版本面向API和企业客户开放，按百万tokens计费。输入价格分别是1.25/0.25/0.05美元，输出价格为10/2/0.4美元——极具市场穿透力。对于开发者而言，这是“从业门槛”被再一次降维打击。

值得一提的是，Altman虽并未过多谈AGI，但业内都清楚：GPT-5已经不局限于在AI大模型的世界里内卷，而是不断突破上限，在AGI的道路上完成大跃进。

这不是一次“模型升级”，而是一次生产力结构的重构。

GPT-5登场的这一刻，AI世界的天花板，再次被抬高。而我们，是否准备好面对它带来的新范式，还很难说。

接下来，笔者将还原出这场发布会最精彩的部分：

在现场演示之前，OpenAI先是一如既往地展示了GPT-5的一连串标杆成绩。

首先，GPT-5最惊艳的就是，在编码能力方面实现全面碾压。

SWE‑Bench Verified：作为检测模型修复真实软件工程问题能力的标准，GPT‑5在这一评测中取得惊人的74.9%，领先于o3的69.1%，展现了更高效、更精准的代码理解与生成能力。

Aider Polyglot：这是一个跨语言代码编辑测试，GPT‑5成绩飙升至88%，错误率相比之前整整降低了三分之一。

其次，GPT-5还极大降低了大模型所产生的幻觉问题，并实现在可靠性和事实准确性方面双双提升。

在回答事实类问题时，GPT‑5的“幻觉”错误率，相对GPT‑4o减少约45%，而相对o3则减少约80%。

在GPT-5发布会上，除了代码能力，奥特曼特别重点强调的就是GPT-5在健康医疗领域的表现。在医疗场景测试（如HealthBench Hard Hallucinations），它的生成错误率仅为1.6%，远低于GPT‑4o的12.9%和o3的15.8%。

程序员马上要失业了？

GPT-5最为炸裂的部分，就是代码能力。

这一次，GPT‑5真的在发布会上秀疯了。几乎从开始演示到结束，一共有四个“全场景、真交互”的代码能力展示，让在场开发者和远程观众都忍不住感慨：“程序员，真的要慌了。”

1、两分钟生成SVG动画

Prompt：让我迅速了解什么是伯努利效应（Bernouli effect）

在这个prompt下，GPT-5迅速给出了关于伯努利效应的详细解释。而当用户再要求用SVG动画演示时，GPT-5则直接开始进入深度思考模式，两分钟生成了420行代码，最终我们看到了这个可交互的动画。

值得注意的是，用户可以自由调整飞行速度和角度，气流线条也跟着实时变动。这不仅是可视化的知识输出，更是个性化、具备教学辅助价值的模拟系统。

2、五分钟搭建APP

Prompt：“我是英语母语者，为正在学法语的搭档做一个互动式学习App，要有卡片、猜词、游戏，最好做成一只老鼠吃芝士学单词。”

GPT‑5不仅“听懂”了需求，还在五分钟内把需求全量落地：卡片式界面、互动功能、学习进度追踪全都上线。

而那个“老鼠吃芝士”的小游戏，更是让人拍案叫绝——每当老鼠吃掉一块芝士，就会自动播放一个法语单词语音，学习与娱乐真正无缝融合。

你甚至能看到这个AI在用户没有明确要求的细节上主动优化交互逻辑，足以说明其理解层级已经跃升。

3、修复代码bug

这一幕的设定就像现实工作场景：一名工程师把一个看似正常、实则问题百出的项目代码交给GPT‑5，希望它能发现潜在问题。

过去，AI模型写代码已经够勉强，找bug更是无从谈起。而这次，GPT‑5不仅找出了关键问题，还提出了解决方案，并在模拟运行中无误通过。

要知道，这是第一次，有开发者把真实工程任务直接交给AI独立完成且成功运行。这不仅意味着自动化写代码，它的下一步，可能是参与整个软件生命周期管理。

4、五分钟创建可视化财务看板

Prompt：请为我的AI智能体公司创建一个财务仪表盘，公司已完成D轮融资。

用户将企业的各类数据一股脑抛给GPT‑5，模型在五分钟内交出了一份堪比创业公司CFO级别的动态财务看板。所有数据项都自动映射，支持调整、更新、筛选，UI也堪称“即用级别”。

GPT-5发布会的一个多小时里，奥特曼还多次强调，“GPT-5是我们做过最强的代码模型”。

而为了进一步实锤这个判断，OpenAI甚至还请来了Cursor的CEO Michael Truell站台。他在发布会上宣布，GPT‑5将在未来几天内正式登陆Cursor编辑器。

GPT-5让AI去“模板化”

如果说前两个部分还让人觉得GPT‑5是个优秀的“工具人”，那么第三部分，它则彻底展现出AI向“智能伴侣”进化的潜力。

GPT‑5这次发布的最大突破之一，就是它极具深度的个性化能力。

而这种个性化，不再是表面地更换“主题色”那么简单，而是——能参与到你的人生决策中来。

GPT-5现已支持更换聊天框颜色

在现场展示中，GPT‑5首先展示了一个“超级个人助理”的身份：

它可以接入用户的日历、邮件，自动检查你漏掉的事务，比如一封未处理的会议邀请，甚至你平时的健身频率；并基于这些信息，为你自动生成个性化的日程规划。你再也不需要手动设置提醒、记会议、安排生活了——GPT‑5会根据你自己过去的行为模式，像一个了解你的生活教练一样来管理一切。

这就好像拆掉了 Chatbot与 Agent之间的最后一道墙。

过去半年，海内外AI公司纷纷入局Agent，微软、谷歌、Anthropic接连发布自己的Agent系统；就连OpenAI自己也在上个月小范围推出首个原生Agent。但这一切，在GPT‑5面前，显得更像是“预演”。

不过，GPT-5的Agent化，是基于它本身认知能力提升之上的自然进化。

它不靠预设流程，而是基于理解你、记住你、联动外部信息，来动态调整策略、生成建议，真正做到了“定制级智能体”。

而 GPT‑5最让人动容的演示，也是奥特曼刻意强调的一个“终极话题”——GPT-5在健康医疗领域的应用。

来到GPT-5发布会现场的这位女士是身患三种癌症的患者。面对医生发来的复杂医学报告，她一头雾水，而最终治疗方案的选择又完全压在她自己身上。

GPT‑5于是登场：它不仅将难懂的医学术语翻译成日常语言，还就每种治疗方案的利弊做出清晰对比，甚至帮助她从心理与生活角度评估哪种路径更适合她的状态。

在这场AI竞技场上，海外已经开始卷起来。

一个晚上，奥特曼连发12条X；

而就在GPT-5发布会期间，在X上刷屏的不止奥特曼，还有马斯克——他说“Grok在一般推理任务上已经超过GPT-5。”

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4667977.html?f=wyxwapp

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

GPT-5快抢走打工人饭碗了

程序员马上要失业了？

GPT-5让AI去“模板化”

DeepSeek融资，改写所有人的估值

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

那个曾让詹姆斯抱头的兄弟，40岁从大学毕业了

赵露思老实人豁出去了 没舞蹈天赋硬跳

白酒大逃杀

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

宝妈就儿子割包皮跟宝爸吵了八百回，网友说：割了能更持久？

你昂贵的DDR5内存可能是假货：穿着三星的马甲 心里却是SK海力士

用苏绣的方式，打开江西婺源

真爱大牌|| 用了4年都不舍得换，终于把小贵的价格也磨下来了

赵露思老实人豁出去了没舞蹈天赋硬跳

轴距加长/智驾拉满阿维塔07L定位大五座SUV

你昂贵的DDR5内存可能是假货：穿着三星的马甲心里却是SK海力士