网易首页 > 网易号 > 正文 申请入驻

OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」第一步

0
分享至

OpenAI 的第一次 SOTA,但他们说这只是构建「超级智能」的第一步。


作者|张勇毅

经历过无数次「跳票」之后,GPT-5 终于来了。

北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕。

与此前 OpenAI 速通式的发布会明显不同,这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 GPT-5 的强悍性能。

先说重点:GPT-5 在多个领域的表现都迎来了全面提升,在文本、WebDev 和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方面排名第一 GPT-5,在代号为「峰会」的测试下,目前保持着截至目前最高的 Arena 分数,可以说是字面意义上的「屠榜」了。

Sam Altman 表示,GPT-4o 就像中学生,而 GPT-5 就像大学生,甚至形容 GPT-5 是第一部配备视网膜显示屏的 iPhone——「你问它一个问题,也许能得到正确答案,也许会得到一些疯狂的东西。GPT-4 则感觉像在和一名大学生对话。而GPT-5,是第一次让我真正感觉像在与一位博士级别的专家交谈。」Sam Altman 这样介绍 GPT-5 的能力提升。

尽管 ChatGPT 的周活跃用户已接近 7 亿,但 OpenAI 过去一段时间实际上并未拥有行业领先的前沿模型。现在,OpenAI 相信 GPT-5 将使其稳稳地重回排行榜榜首。

Altman 甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型

同时 OpenAI 也在发布会上宣称,除了代码能力爆表,GPT-5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 GPT-5 不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。

01


告别「幻觉」,AI 更可靠了


首先是本次更新的模型阵容,GPT-5 系列一共有 GPT-5, mini, nano, chat 四个版本,其中 Chat 版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。

另外,现在当你打开 ChatGPT 网页之后,首先会注意到 GPT-5 被呈现为一个单一模型,而不是一个常规模型外加一个独立的推理模型。

这背后其实是 OpenAI 开发的一个路由系统(router),它会自动为更复杂的查询切换到推理能力更强的版本,或者在你告诉它努力思考时也会这样做。(Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。)

「AI 幻觉」一直是大家吐槽的重灾区。好消息是,GPT-5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显著降低」。具体来说:

  • 在联网搜索时,GPT-5 的回答出现事实错误的概率比 GPT-4o低了 45%

  • 在独立思考时,其回答出错的概率更是比 OpenAI o3低了 80%

GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4(思考)外,它的表现优于所有主要模型。

此外,GPT-5 还成了一个「老实人」。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。

这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是:

  • 犬儒 (Cynic)

  • 机器人 (Robot)

  • 倾听者 (Listener)

  • 学霸 (Nerd)

这些模式是可选的,你可以根据自己的喜好,设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐心的朋友一样倾听?现在都可以由你说了算。

「这个模型给人的『感觉』真的很好,」ChatGPT 的负责人 Nick Turley 说,「我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。」

此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。

02

「软件按需生成」时代来临?代码能力逆天

随着代码能力的进一步提升,Altman 预测,GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。

在 OpenAI 的测试中,GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩,在 SWE 基准测试中取得 75% 的成绩。

一个小插曲是,发布会上的这张图的坐标轴明显有不少槽点,不仅有 52.8 > 69.1 这样的弱智错误,也实际上夸大了 GPT-5 的能力提升,在社交媒体上被网友群嘲「你这 PPT 怕最好别是 GPT-5 做的」。

在发布会上,OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,GPT-5 就编写了数百行代码,并直接展示了网站的前端界面。他在 Zoom 上分享屏幕并进行了简单的点击操作,一切看起来都完美运行。

发布会现场,OpenAI 还直接展示了一款仅靠一段提示词就由 GPT-5 创作的 3D 游戏。其创作的 3D 场景不仅画面精致,其中的物理效果也非常准确的还原出了对应的效果。

03

更安全,更「诚实」

据模型安全研究负责人 Alex Beutel 介绍,为了解其安全风险,OpenAI 对 GPT-5 进行了「超过五千小时」的测试。其中一个重点是「确保模型不会对用户撒谎」。

虽然 GPT-5 的幻觉(hallucination)比 OpenAI 的 o3 推理模型要少,但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体(agent)一样完成任务时,这个问题会变得更加复杂。不过 OpenAI 表示,GPT-5 在更可靠地处理多步骤任务方面表现更好。「过去,我们看到过模型声称完成了某项任务,但实际上并没有完成的情况,」Beutel 说,「这是个问题。」

对于以前会直接拒绝回答的提示,GPT-5 将提供 OpenAI 所谓的「安全补全」机制(safe completions)。Beutel 解释说:「比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」

通过「安全补全」,GPT-5「试图在保持安全的约束下,给出尽可能有帮助的答案」。模型通常只会部分遵从,并提供一些无法被实际用于造成伤害的、更宏观层面的信息。

04

如何用上 GPT-5

那么,大家最关心的问题来了:怎么才能用上 GPT-5 呢?

好消息是,所有ChatGPT用户都可以现在立即免费体验到 GPT-5。这也是 OpenAI 第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同:

  • Plus 订阅用户在达到使用上限前,可以有更多的使用次数。

  • Pro 订阅用户则可以访问具备更强推理能力的GPT-5 Pro版本。

当用户达到使用上限后,ChatGPT 会自动切换到一个「迷你版」的 GPT-5 来处理后续的请求。同时,随着 GPT-5 的上线,它将正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列旧模型。

此外 Token 定价部分,标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元。mini 版 与 Nano 版定价都便宜不少。

详细定价可参考下图截取自官网的信息。

此外,OpenAI 还在 API 中发布了一个名为「Minimal」的新参数,这样你就可以在所有用例中使用 GPT-5,只需改变推理的力度。

除了 OpenAI 的第一方平台,微软 CEO 纳德拉同时也宣布,GPT-5 已在微软全系平台上线,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。同时所有这些改进均在 Azure 上进行训练。

最后,Altman 表示,OpenAI 的使命是开发通用人工智能(AGI)。GPT-5 使他们更接近这一目标,尽管整个行业已经开始转向构建所谓的「超级智能」。

「我有点讨厌 AGI 这个词,因为现在每个人对它的定义都略有不同,」Altman 说,「但这是朝着真正强大的模型迈出的重要一步。这显然是需要一个具备通用智能的模型才能做到。

然而,他也承认相比起真正的 AGI, GPT-5 仍然「缺少一些非常重要的东西」。

「这不是一个模型,它是从它所发现的新事物中所生长出来的原生事物,对我来说,这正是它为什么能成为 AGI 「种子」的原因」Sam Altman 这样介绍道。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待···?

马斯克早期演讲:如果你坚信你做的是对的,那你就永远别放弃。

点赞关注 极客公园视频号 ,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

我就是一个说球的
2026-07-04 15:31:45
“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

泽泽先生
2026-07-04 21:35:57
奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

懂球帝
2026-07-04 18:28:46
法国1:0淘汰巴拉圭!不是法国攻不破铁桶阵,而是巴拉圭防守太脏

法国1:0淘汰巴拉圭!不是法国攻不破铁桶阵,而是巴拉圭防守太脏

金风说
2026-07-05 07:26:26
你们有何颜面作出好的示范?

你们有何颜面作出好的示范?

胖胖说他不胖
2026-07-04 10:00:12
哈梅内伊葬礼:主角最高精神领袖穆杰塔巴以纸板人身份出席

哈梅内伊葬礼:主角最高精神领袖穆杰塔巴以纸板人身份出席

微评社
2026-07-04 15:21:06
赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

贴小君
2026-07-04 13:12:59
小泽玛利亚上节目自曝:曾在中国夜店跳舞30分钟进账100万,没想到从AV界引退后的她竟然改行当了老板...

小泽玛利亚上节目自曝:曾在中国夜店跳舞30分钟进账100万,没想到从AV界引退后的她竟然改行当了老板...

日本物语
2026-07-03 23:48:56
国足天塌了!又一夜封神后,佛得角喊话中国足协,理由竟无法拒绝

国足天塌了!又一夜封神后,佛得角喊话中国足协,理由竟无法拒绝

笑一个吧
2026-07-04 21:03:31
亚洲名哨遭炮轰!一战五大争议判罚,巴拉圭13犯0黄,28年首次

亚洲名哨遭炮轰!一战五大争议判罚,巴拉圭13犯0黄,28年首次

奥拜尔
2026-07-05 07:24:35
一周举报20个用空调的邻居,欧洲“环保卫士”开始全民监控!

一周举报20个用空调的邻居,欧洲“环保卫士”开始全民监控!

新欧洲
2026-07-03 21:18:21
2020年佛得角废除了体育总局,然后……

2020年佛得角废除了体育总局,然后……

熊太行
2026-07-04 11:01:14
南美第2蹊跷出局,英格兰或轰然倒下,球迷:冠军提前预定了?

南美第2蹊跷出局,英格兰或轰然倒下,球迷:冠军提前预定了?

我就是一个说球的
2026-07-04 16:53:46
马未都回应“海口失窃26年佛像疑现身观复博物馆”:2005年底斥巨资购买,卖家保证来路合法;多处细节有差异,正在等鉴定结果

马未都回应“海口失窃26年佛像疑现身观复博物馆”:2005年底斥巨资购买,卖家保证来路合法;多处细节有差异,正在等鉴定结果

每日经济新闻
2026-07-05 00:12:04
美国大满贯:国乒首冠!蒯曼/王曼昱3-1日本王牌,大丫头冲双冠王

美国大满贯:国乒首冠!蒯曼/王曼昱3-1日本王牌,大丫头冲双冠王

钉钉陌上花开
2026-07-05 07:09:03
巴黎新生儿70%是黑人,法国正在“换种”

巴黎新生儿70%是黑人,法国正在“换种”

李荣茂
2026-07-03 19:05:58
曝詹姆斯最可能重返骑士!球队预留阵容名额:有意同时引进布朗尼

曝詹姆斯最可能重返骑士!球队预留阵容名额:有意同时引进布朗尼

罗说NBA
2026-07-05 06:18:07
沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

懂球帝
2026-07-05 03:08:12
浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

都市快报橙柿互动
2026-07-04 22:02:53
崩了!欧美订单取消!关闭4座工厂!10万人失业!

崩了!欧美订单取消!关闭4座工厂!10万人失业!

财经要参
2026-07-04 17:09:25
2026-07-05 09:04:49
极客公园
极客公园
让最棒的创新成为头条
12229文章数 78911关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
游戏
时尚
手机
公开课

本地新闻

国内足球之旅?这座小城给你高分答案

韩版“全境封锁”PC配置降低 内存改为32GB起步

伊姐周六热推:电视剧《画梦录》;电视剧《灿如繁星》......

手机要闻

一加16参数提前揭晓:骁龙8E6 Pro+2亿主摄 一加最强旗舰

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版