网易首页 > 网易号 > 正文 申请入驻

OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步

0
分享至

AI新浪潮观察

7min read

OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步

张勇毅 2025/08/08


摘要

OpenAI 第一次 SOTA,但他们说这只是构建「超级智能」的第一步。

作者:张勇毅


经历过无数次「跳票」之后,GPT-5 终于来了。

北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕,

与此前 OpenAI 速通式的发布会明显不同,这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 GPT-5 的强悍性能。


先说重点:GPT-5 在多个领域的表现都迎来了全面提升,在文本、WebDev 和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方面排名第一 GPT-5,在代号为「峰会」的测试下,目前保持着截至目前最高的 Arena 分数,可以说是字面意义上的「屠榜」了。


Sam Altman 表示,GPT-4o 就像中学生,而 GPT-5 就像大学生,甚至形容 GPT-5 是第一部配备视网膜显示屏的 iPhone——「你问它一个问题,也许能得到正确答案,也许会得到一些疯狂的东西。GPT-4 则感觉像在和一名大学生对话。而GPT-5,是第一次让我真正感觉像在与一位博士级别的专家交谈。」Sam Altman 这样介绍 GPT-5 的能力提升。

尽管 ChatGPT 的周活跃用户已接近 7 亿,但 OpenAI 过去一段时间实际上并未拥有行业领先的前沿模型。现在,OpenAI 相信 GPT-5 将使其稳稳地重回排行榜榜首。

Altman 甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型

同时 OpenAI 也在发布会上宣称,除了代码能力爆表,GPT-5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 GPT-5 不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。

告别「幻觉」,AI更可靠了

首先是本次更新的模型阵容,GPT-5 系列一共有 GPT-5, mini, nano, chat 四个版本,其中 Chat 版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。


另外,现在当你打开 ChatGPT 网页之后,首先会注意到 GPT-5 被呈现为一个单一模型,而不是一个常规模型外加一个独立的推理模型。

这背后其实是 OpenAI 开发的一个路由系统(router),它会自动为更复杂的查询切换到推理能力更强的版本,或者在你告诉它努力思考时也会这样做。(Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。)

「AI 幻觉」一直是大家吐槽的重灾区。好消息是,GPT-5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显著降低」。具体来说:

  • 在联网搜索时,GPT-5 的回答出现事实错误的概率比 GPT-4o低了 45%


  • 在独立思考时,其回答出错的概率更是比 OpenAI o3低了 80%


GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4(思考)外,它的表现优于所有主要模型。


此外,GPT-5 还成了一个「老实人」。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。

这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是:

  • 犬儒 (Cynic)

  • 机器人 (Robot)

  • 倾听者 (Listener)

  • 学霸 (Nerd)

这些模式是可选的,你可以根据自己的喜好,设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐心的朋友一样倾听?现在都可以由你说了算。

「这个模型给人的『感觉』真的很好,」ChatGPT 的负责人 Nick Turley 说,「我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。」

此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。


「软件按需生成」时代来临?代码能力逆天

随着代码能力的进一步提升,Altman 预测,GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。

在 OpenAI 的测试中,GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩,在 SWE 基准测试中取得 75% 的成绩。


一个小插曲是,发布会上的这张图的坐标轴明显有不少槽点,不仅有 52.8 > 69.1 这样的弱智错误,也实际上夸大了 GPT-5 的能力提升,在社交媒体上被网友群嘲「你这 PPT 怕最好别是 GPT-5 做的」。

在发布会上,OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,GPT-5 就编写了数百行代码,并直接展示了网站的前端界面。他在 Zoom 上分享屏幕并进行了简单的点击操作,一切看起来都完美运行。


发布会现场,OpenAI 还直接展示了一款仅靠一段提示词就由 GPT-5 创作的 3D 游戏。其创作的 3D 场景不仅画面精致,其中的物理效果也非常准确的还原出了对应的效果。


更安全,也更「诚实」

据模型安全研究负责人 Alex Beutel 介绍,为了解其安全风险,OpenAI 对 GPT-5 进行了「超过五千小时」的测试。其中一个重点是「确保模型不会对用户撒谎」。

虽然 GPT-5 的幻觉(hallucination)比 OpenAI 的 o3 推理模型要少,但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体(agent)一样完成任务时,这个问题会变得更加复杂。不过 OpenAI 表示,GPT-5 在更可靠地处理多步骤任务方面表现更好。「过去,我们看到过模型声称完成了某项任务,但实际上并没有完成的情况,」Beutel 说,「这是个问题。」

对于以前会直接拒绝回答的提示,GPT-5 将提供 OpenAI 所谓的「安全补全」机制(safe completions)。Beutel 解释说:「比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」


通过「安全补全」,GPT-5「试图在保持安全的约束下,给出尽可能有帮助的答案」。模型通常只会部分遵从,并提供一些无法被实际用于造成伤害的、更宏观层面的信息。

如何用上 GPT-5

那么,大家最关心的问题来了:怎么才能用上 GPT-5 呢?

好消息是,所有ChatGPT用户都可以现在立即免费体验到 GPT-5。这也是 OpenAI 第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同:

  • Plus 订阅用户在达到使用上限前,可以有更多的使用次数。

  • Pro 订阅用户则可以访问具备更强推理能力的GPT-5 Pro版本。

当用户达到使用上限后,ChatGPT 会自动切换到一个「迷你版」的 GPT-5 来处理后续的请求。同时,随着 GPT-5 的上线,它将正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列旧模型。

此外 Token 定价部分,标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元。mini 版 与 Nano 版定价都便宜不少。


详细定价可参考下图截取自官网的信息。


此外,OpenAI 还在 API 中发布了一个名为「Minimal」的新参数,这样你就可以在所有用例中使用 GPT-5,只需改变推理的力度。


除了 OpenAI 的第一方平台,微软 CEO 纳德拉同时也宣布,GPT-5 已在微软全系平台上线,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。同时所有这些改进均在 Azure 上进行训练。


最后,Altman 表示,OpenAI 的使命是开发通用人工智能(AGI)。GPT-5 使他们更接近这一目标,尽管整个行业已经开始转向构建所谓的「超级智能」。

「我有点讨厌 AGI 这个词,因为现在每个人对它的定义都略有不同,」Altman 说,「但这是朝着真正强大的模型迈出的重要一步。这显然是一个具备通用智能的模型。

然而,他也承认 GPT-5 仍然「缺少一些非常重要的东西」。

这个模型并不会在部署后,从它遇到的新事物中持续学习。但对我来说,这感觉就像是 AGI 应该具备的特征。

GPT-5 GPT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧冠惨案诞生!英超豪强踢疯了,狂轰4球,超级后卫长途奔袭破门

欧冠惨案诞生!英超豪强踢疯了,狂轰4球,超级后卫长途奔袭破门

足球狗说
2025-11-05 06:08:44
户晨风近期成立文化传媒公司

户晨风近期成立文化传媒公司

雷达财经
2025-11-05 19:20:00
中荷谈崩后,荷兰第2波反击开始,东南亚新厂扩建中,一年后供货

中荷谈崩后,荷兰第2波反击开始,东南亚新厂扩建中,一年后供货

八斗小先生
2025-11-05 10:50:12
泽连斯基为何再次亲赴一线?俄罗斯“战神”敲响警钟

泽连斯基为何再次亲赴一线?俄罗斯“战神”敲响警钟

史政先锋
2025-11-05 15:43:21
宁夏内蒙多地夜空现不明飞行物,目击者称发绿光且速度极快,专家:可能是一颗流星体

宁夏内蒙多地夜空现不明飞行物,目击者称发绿光且速度极快,专家:可能是一颗流星体

极目新闻
2025-11-05 15:06:20
2-0巴西!亚洲之光疯狂6连胜,第5次进女足世界杯决赛,历史首队

2-0巴西!亚洲之光疯狂6连胜,第5次进女足世界杯决赛,历史首队

侃球熊弟
2025-11-06 03:50:35
年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

金融八卦女
2025-11-05 13:57:48
普京动真格了?下令不惜一切代价,降低对中国的依赖,事情不简单

普京动真格了?下令不惜一切代价,降低对中国的依赖,事情不简单

今墨缘
2025-11-06 01:22:12
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
4年1.1亿!从雷霆废太子到芝加哥登基,这笔1换1交易收获4大赢家

4年1.1亿!从雷霆废太子到芝加哥登基,这笔1换1交易收获4大赢家

毒舌NBA
2025-11-05 12:48:51
为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

小椰的奶奶
2025-10-27 02:51:34
日本民众举行千人大游行呼吁打到高市早苗、阻止对华侵略

日本民众举行千人大游行呼吁打到高市早苗、阻止对华侵略

随波荡漾的漂流瓶
2025-11-05 11:31:12
山姆被骂上热搜!800万会员抵制阿里高管,集体喊退卡

山姆被骂上热搜!800万会员抵制阿里高管,集体喊退卡

吃瓜局
2025-11-05 15:22:55
江西纪委:62岁柏林被查

江西纪委:62岁柏林被查

鲁中晨报
2025-11-05 13:07:01
足协官宣!邵佳一出任国足主帅,力压三位洋帅,首位80后主帅

足协官宣!邵佳一出任国足主帅,力压三位洋帅,首位80后主帅

奥拜尔
2025-11-05 17:47:07
吴京《镖人》官宣,谢霆锋李连杰甘愿作配,票房能否破50亿?

吴京《镖人》官宣,谢霆锋李连杰甘愿作配,票房能否破50亿?

娱乐圈笔娱君
2025-11-05 14:27:27
湖南前主持田源,直播间哭诉:维嘉能回去,求求前东家也让我回去

湖南前主持田源,直播间哭诉:维嘉能回去,求求前东家也让我回去

乐悠悠娱乐
2025-11-05 10:38:51
3:0!中国女排晋级四强,大胜对手47分,双喜临门,接应新星5发

3:0!中国女排晋级四强,大胜对手47分,双喜临门,接应新星5发

跑者排球视角
2025-11-05 23:54:00
白发越多,患癌越少?Nature子刊:压力下的头发变白,能预防癌症,是身体启动的“自我保卫战”

白发越多,患癌越少?Nature子刊:压力下的头发变白,能预防癌症,是身体启动的“自我保卫战”

梅斯医学
2025-11-05 07:52:50
特朗普最新发声,美股集体翻红,中国资产深夜拉升,黄金爆发!事关关税合法性,美最高法院展开辩论

特朗普最新发声,美股集体翻红,中国资产深夜拉升,黄金爆发!事关关税合法性,美最高法院展开辩论

每日经济新闻
2025-11-06 00:32:05
2025-11-06 04:36:49
极客公园
极客公园
让最棒的创新成为头条
11593文章数 78717关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

教育
艺术
旅游
家居
公开课

教育要闻

最新:2026年南京中考体育考试内容及评分标准曝光!

艺术要闻

一眼摄魂的魔术手:泰国画师 Razaras 的作品唯美圣洁!自带发光特效!

旅游要闻

坝河15公里游船航线开始试航

家居要闻

别样府院 畅享诗意生活

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版