网易首页 > 网易号 > 正文 申请入驻

GPT-5 来了,还免费,牛马真有救了

0
分享至

这是 OpenAI 模型发布时间线。今天凌晨,我们终于等到了 GPT-5,这款从去年就被反复“预告”,不断“剧透”的模型。


发布会用“普通人能看懂的方式,展示了最强 AI 的能力”,从写发布会文案,到现场生成网站、做游戏、学语言,再到 AI 协助问诊和“传统艺能”比拼 benchmark。

如果说 GPT-3 是“能自主说话”的语言模型,GPT-4 是“听懂人话”的多模态大脑,GPT-5 更像是一个全能的个人助手。

用 Sam Altman 一句话总结:“GPT-5 将让你第一次真正感觉到,仿佛与任何领域的博士级专家交谈的感觉。”

那么,这个被冠以“地表最强”title 的大模型,表现如何?

程序员又又又危险了

编程,是 GPT-5 发布会的一大亮点,也是最能直观感受到 GPT-5 进化之处。

OpenAI 团队在现场写出了好几个网页,比如“给伴侣做一个能让英语使用者学法语的网页,功能要有进度跟随、单词卡、单词小游戏等”。

300 词左右的 Prompt,3 分钟不到,GPT-5 就拿出了一个极其完整的可用网页,并“擅自”命名为《午夜巴黎》(还致敬了伍迪·艾伦的电影),网页即创即用,单词卡、进度跟踪、快捷键、记忆曲线、开发者要求的贪吃蛇小游戏,这些功能全部满足且运行正常。


关键是网页设计的还很有美学,网页间距、排版、配色、视觉感都被考虑进去,甚至做出了黑暗/白天的双主题。

OpenAI 又让 GPT-5 写了一个“动态 SVG 可视化可以模拟翼型的行为”,几分钟内,GPT-5 搓出了几百行代码后,交付出一个完全符合需求,美观且可交互的网页,并且所有的参数变化都会根据物理规律实时调整,整个网页达到了教学演示级别的专业水准。

根据 OpenAI 自己的内部测试,70% 的情况下,GPT-5 在前端网络开发方面击败了今年 4 月才上线,号称“OpenAI 最强大的推理模型”的 OpenAI o3。

而后 GPT-5 又展示了它作为编程 Agent 的强大,同样在几分钟内,就做出了一个带有 3D 场景、可控角色与多重视角的网页游戏,从物理引擎调用到角色对话系统构建,全程几乎无需人类干预。


几大 AI 编程软件也给了 GPT-5 编程能力极大好评,Cursor 创始人称 GPT‑5 是“我们用过最聪明的模型”,代码调试能力尤为突出;Windsurf 优评其工具调用错误率甩前代几条街;Vercel 则说它不仅写对,还“写得像专业网页设计师”。

和 Cursor IDE 集成后,GPT-5 还能在几分钟内理解上百万行代码,可以自己“debug”输出结果并回溯方案,不再陷入“提示死循环”。在 SWE-bench 这个真实软件工程任务测试里,GPT-5 不仅能理解 bug 报告,还能精准修改代码,准确率最高接近 75%,远超 GPT-4 的 30%。

所以“编程”是整场发布会里,GPT-5 最具说服力的展示场景之一。

GPT-5 不再只是“能写代码”,而是具备了程序员的开发路径:理解需求、设计结构、撰写代码、优化交互、美化界面,甚至还会在需求之外“适度创作”

又当程序员,又做设计师,还会搞交互,各类编程语言也都拿手,GPT-5 已经接近一名合格的全栈工程师了。

写作、沟通、打工、就诊

写作堪称 GPT 的“基本功”,在 GPT-5 上,写作变得更有人味儿、也更专业。

比如一位用喜剧传递科普内容的博主,她用 GPT-5 写剧本、写段子、测试角色逻辑和情绪动机、出分镜,甚至用语音和 GPT-5“对戏”。


在发布会上的写作演示中,同样的 Prompt 下,GPT-5 也明显比 GPT-4o 生成的文案更有“人味儿”,用词精炼且有节奏感。

在正经的科研场景中,GPT-5 表现得也如 Sam Altman 所言像一位“跨学科博士后”。免疫学教授用 GPT-5 解读实验数据,模型不仅能解释结果,还会预测未来实验趋势,并主动提出下一步实验方案,大大压缩了科研迭代周期。在专业能力上,据 OpenAI 披露的数据,GPT-5 在大约一半的案例中和行业专家水平相当或更好。

对于每天在工位上与琐碎信息搏斗的打工人来说,GPT-5 这次真能做你的助手,OpenAI 都自封为“打工人最好用的模型(Our best model for work)”

你只需要把领导给你的资料往 GPT-5 那一拖,它就能做出了 Excel 表格,再根据表格做出数据可视化的看板,还给你写好资料要点和总结。

同时,GPT-5 还能帮你理清一整套方案,给出落地页结构和转化建议,精准而不敷衍。夸张点儿说,老板开口说“我有个想法”,几分钟后,GPT-5 项目企划书已经做好了。


OpenAI 还展示了这样一个真实且感人的案例:一位名为 Carolina 的用户在短短一周内被诊断出三种不同形式的癌症,但她一直在排队等候报告解读,于是她将医院报告截图上传给 GPT‑5,模型迅速将复杂的医学术语转化为易于理解的语言。

在后续治疗过程中,GPT‑5 不仅持续帮助她解读术语,还协助她评估治疗选项、准备就诊问题,甚至在是否接受放射治疗的决策上给予 Carolina 情感支持。

尽管 Sam Altman 也强调了,OpenAI 并不把 GPT‑5 定位为医疗设备,它也不能替代专业医疗角色,但他们想做的是让 AI 成为“健康素养支持工具”(health literacy support tool)能让患者在慌乱和未知里,不再完全仰赖医生,而是成为有准备、有信息支持、能了解身体情况的患者。


GPT-5 的语音模式也有了明显提升,增加了冷嘲型、理性型、倾听型、学霸型四种不同的语音预设,除了语气更自然外,情感感知能力也有提升,用户还可以自选语音风格和语速。在发布会的演示中,OpenAI 还特意展示了 GPT-5 的语音可以作为“学外语的口语利器”。

根据此前 GPT-4o“过度奉承”的问题,GPT‑5 在回答用户时会更克制、理性,较少出现过度附和,也不会再乱用 emoji 了。

从刷榜到实战

这次 GPT-5 没有再堆长篇 benchmark 榜单,而是挑了一些更贴近实战的场景:写代码、跟指令、多轮任务推理,尤其在“推理模式”下,GPT-5 相较旧模型“幻觉”更少,回答更谨慎。

据 OpenAI 的安全研究负责人 Alex Beutel 表示“GPT-5 的欺骗率大大降低。”比 GPT-4o 模型的幻觉率低 45%,与 o3 相比,降低了 80%。

而在 AIME 2025 数学竞赛数据集上,GPT-5 在启用“thinking”模式后达到了近乎满分的表现(100%)。这意味着它不再只是靠模板和记忆去“做题”,而是真的能按步骤推理、演算,再下判断。在多语言代码编辑任务 Aider Polyglot 中,GPT-5 也达到了 88% 的准确率。


还有一大进步在 Prompt 执行能力上,无论是写作、复杂多轮指令,还是内部 API 使用任务,GPT-5 的表现都比前代高出 10 到 30 个百分点。这意味着它能更稳地执行任务、延续上下文。

而且 GPT-5 引入了一个名为“Safe Completions”的机制,面对敏感问题,不再像旧模型一样拒绝回答或者打哈哈,而是会尝试引导用户,帮助你权衡利弊,解释限制,并在边界内给出可操作的建议,让用户在复杂议题中做出更清晰理性的判断。

具体到模型使用上,GPT-5 同样也做了型号分类:GPT-5、GPT-5 Pro、GPT-5-mini 和 GPT-5-nano,主打一个“按需选择、分级定价”:

GPT-5 Pro:是目前 GPT-5 系列中表现最强的版本,在 GPQA 等高难度科学评测中表现出色,人类专家也更赞同它的回答,准确率更高,尤其在健康、数学、科学和编程领域。下周起,Pro 用户还可以将 ChatGPT 接入 Gmail、Google 日历和联系人。

GPT-5 mini:轻量但强大,适合高频、低推理任务。

GPT-5 nano:极致压缩版,成本低,可与 Gemini Flash-Lite 对标,仅通过 API 提供。

免费用户默认使用 GPT-5 和 GPT-5 mini(访问频率有限);Plus 用户拥有更高额度;Pro 用户(月费 200 美元)可解锁 GPT-5 Pro 和 Thinking 模式。

用户也不需要自己选模型,系统会根据任务复杂度自动调用合适的版本。简单提问就用 mini 或 nano,复杂对话自动上 Pro。

综合来看,GPT-5 并不是一次技术节点的大跨越,更像是一次面面俱到的全面升级。


在这场刚结束的 GPT-5 发布会里,OpenAI 没有把重点放在 GPT-5 参数有多大、跑分有多高、竞技场成绩如何,也很少强调 Agent 与多模态,PPT 也没几张,OpenAI 选择用更多的篇幅去呈现用户如何使用 GPT-5。

不论是专业人士、有创意但没技术的创作者,还是面临困境的患者、渴望成长的求知者……我们看到 GPT-5 被嵌入到了一个个具体而真实的场景中,实现了“能用,快用,好用”。

这种克制与务实,或许才是 OpenAI 最大的野心:让 AI 大模型成为数字世界的基础设施,就像我们曾经使用 Office 365、Google 和百度等那些产品。

作者:糕级冻雾

编辑:沈知涵

配图全部来自 OpenAI


Guokr


8月12日晚19点,果壳x独特艾琳 香氛洗护专场来啦!

夏日香氛专场福利拉满!香氛沐浴露、美白防晒素颜霜、香体露、洗发水、护手霜等全场低至9.9元!还有满赠、秒杀、福袋发不停!

一定一定要预约!!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026第一部下饭美剧,终于来了

2026第一部下饭美剧,终于来了

来看美剧
2026-01-13 21:51:51
百度某员工:37岁,房贷1万7。全职媳妇买榴莲200多,网购1万多

百度某员工:37岁,房贷1万7。全职媳妇买榴莲200多,网购1万多

蚂蚁大喇叭
2026-01-12 11:23:28
合川刨猪宴后续:捣乱女子恶行曝光,全网社死,文旅酒厂双封杀

合川刨猪宴后续:捣乱女子恶行曝光,全网社死,文旅酒厂双封杀

观察鉴娱
2026-01-13 10:47:17
这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

DrX说
2025-12-16 14:36:14
波兰外长终于承认了,如果中国真的在帮俄罗斯,俄乌战争早结束了

波兰外长终于承认了,如果中国真的在帮俄罗斯,俄乌战争早结束了

达文西看世界
2026-01-13 18:44:08
伊朗外长:伊朗做好了应对一切可能的准备

伊朗外长:伊朗做好了应对一切可能的准备

环球网资讯
2026-01-13 06:08:07
1月13日俄乌最新:普京面临艰难的选择

1月13日俄乌最新:普京面临艰难的选择

西楼饮月
2026-01-13 19:35:53
伊朗已经认怂了!美国总统特朗普表示,伊朗呼吁展开核计划谈判

伊朗已经认怂了!美国总统特朗普表示,伊朗呼吁展开核计划谈判

止戈军是我
2026-01-12 11:12:41
成龙砸4000万认回女儿,房祖名悄悄帮忙,女儿吴卓林的话最清醒

成龙砸4000万认回女儿,房祖名悄悄帮忙,女儿吴卓林的话最清醒

广西阿妹香香
2026-01-13 18:53:48
Netflix这部北欧新剧,看完后劲很大

Netflix这部北欧新剧,看完后劲很大

来看美剧
2026-01-12 19:05:03
退休10年后被查的“老虎”:8万元入股张家界大峡谷,退居“二线”后获利数千万元

退休10年后被查的“老虎”:8万元入股张家界大峡谷,退居“二线”后获利数千万元

上观新闻
2026-01-13 13:04:18
美军首次打击,猛料曝光!

美军首次打击,猛料曝光!

环球时报国际
2026-01-14 00:18:41
麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

你食不食油饼
2026-01-11 08:41:12
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-01-12 13:00:07
广东两将复苏太重要!杜润旺可激活焦泊乔,胡明轩终结力量回归!

广东两将复苏太重要!杜润旺可激活焦泊乔,胡明轩终结力量回归!

篮球资讯达人
2026-01-13 23:35:12
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
山东一区长任职“空天信息大学”(筹)

山东一区长任职“空天信息大学”(筹)

山东教育
2026-01-13 17:22:24
官方披露!马杜罗瑞士个人账户坐拥127吨黄金

官方披露!马杜罗瑞士个人账户坐拥127吨黄金

霹雳炮
2026-01-13 22:37:09
美以联军将突袭伊朗

美以联军将突袭伊朗

星火聊天下
2026-01-11 09:06:49
16GB+1TB!新机曝光:搭载骁龙8 Elite Gen 5+2亿像素镜头!

16GB+1TB!新机曝光:搭载骁龙8 Elite Gen 5+2亿像素镜头!

科技堡垒
2026-01-11 11:47:30
2026-01-14 03:31:00
果壳 incentive-icons
果壳
科技有意思
27088文章数 4149144关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

游戏
艺术
教育
手机
时尚

《生化危机 安魂曲》新发布会官宣 / Steam 推理游戏节开幕

艺术要闻

461米!14亿美元!越南第一高楼,形如“竹捆”

教育要闻

江苏模特艺术学校在哪?精准地址揭秘!

手机要闻

三星S26+、Ultra量产,S26+升级或受限?

今年春天,外套长一点会更美!

无障碍浏览 进入关怀版