网易首页 > 网易号 > 正文 申请入驻

GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?

0
分享至

(文/观察者网 张广凯 编辑/吕栋)

北京时间8月8日凌晨,备受期待的OpenAI最新大模型ChatGPT-5终于正式发布,就在同时,谷歌举办的首届大模型国际象棋对抗赛中,o3也以4-0完胜Grok 4夺冠。这本该是对OpenAI双喜临门的一天,但作为一款关注度如此之高的产品,网友也很快发现了GPT-5的一些小小的瑕疵。

尽管大模型的能力仍然在快速进步,但其进步幅度越来越难以给人带了惊艳感了。这不是OpenAI自己的问题,甚至某种意义上,这也不是一件坏事,因为是之前人们的预期已经被拉到过高。但无论如何,在现有的算法范式下,AI大模型或许也离瓶颈越来越近了。

GPT-5水平如何?

作为OpenAI今年最受期待又屡屡跳票的重磅产品,ChatGPT-5今天的确给出了一些颇具说服力的测评数据,证明其推理能力有着显著进步。

例如,在数学能力测试AIME 2025上,GPT-5 Pro在开启推理模式并调用工具(Python)的情况下,拿下满分成绩。即使不调用工具,GPT-5 Pro仍能拿下96.7的高分,GPT-5标准版也能拿到94.65分,显著高于o3的88.9分。


编程方面,GPT-5在SWE-bench Verified上得到74.9分,高于o3的69.1和4o的30.8分。


博士水平的科学知识测试GPQA Diamond中,不调用工具的GPT-5 Pro推理模式拿到88.4分,创造新纪录。


多模态方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。


高难度的Humanity's Last Exam(人性终极测试)上,GPT-5 Pro和GPT-5在不调用工具时分别得到30.7和24.8分,较o3的14.7分大幅提升。


大模型竞技场LM Arena的评分也已经出炉,GPT-5横扫所有单项的第一名。


此外,GPT-5推理模式的幻觉数量比o3少了六倍,成本方面则可以减少50-80%的token输出量。

这些数据都证明,GPT-5算得上是一次成功的大版本升级。

但另人尴尬的是,在发布会后,网友迅速发现GPT-5在解一道极其简单的方程时又犯了计算错误:


看起来,GPT-5还是没能解决小数比大小的问题。

而OpenAI发布会PPT里的小瑕疵,也引起了网友热议。大家发现在这张图表里,柱状图的高度出现了明显错误,但并不知道这是人为错误还是由AI生成。


有网友指出,在关于机翼升力原理的回答中,GPT-5也引用了一个广为流传的错误观点。当然,这样的问题归咎于AI未免过于苛刻。

马斯克则“嘴硬”称,Grok 4在ARC-AGI测试中仍然打败了GPT-5。


做题好是不是真的好?

那么,如何评价GPT-5的真实水平,或许日前的大模型国际象棋对抗赛恰好给我们提供了一个很好的参考。


同样在今天凌晨结束的对抗赛上,OpenAI旗下的o3以4-0完胜Grok 4,夺得最终冠军。尽管Grok 4在此前两轮中都表现出色,但在决赛中,随着对局长度增加,Grok 4也开始表现出棋力下降。

例如在第一局中,Grok 4莫名其妙地放弃了自己的象,并且没有获得任何明显的回报,而Grok 4也并未在推理中说明理由。


o3尽管表现相对出色,在昨天的半决赛中还下出过正确率评分100%的棋局,但纵观整个比赛过程,也不乏低级失误。


或许有人会质疑,让AI下棋究竟能证明什么?AI对抗赛的胜负,是不是仅仅取决于它们使用了多大规模的训练数据?DeepSeek下棋不好,但是作诗是不是更好?

事实上,如果只纠结于下棋或者作诗的技能水平,说明并未理解谷歌采用这种比赛形式的逻辑。

此次国际象棋比赛的意义,并非考验大模型的算力,而是考验其推理能力。

如果大模型在接受了大量棋谱训练之后,体现出高超棋力,这只能证明AI的记忆力或者算力强大,而这件事在2017年就已经被AlphaGo证明过了。

但是由于这些通用大模型都没有接受过专门的棋谱训练,因此往往只能在开局阶段凭借记忆下出经典开局。在几个回合之后,大模型已经无法找到人类棋谱作为参考,它们的思维结构也并非像AlphaGo那样专为下棋设计。因此,这时候的AI推理,是跟人类相同的推理方式,通过语言逻辑来推演棋盘变化。

上述无工具的数学测试,起到的也是类似作用:考验AI用人类逻辑进行计算的能力,而不是使用专门的机器算法。

因为无论是AlphaGo也好,还是计算工具也好,这样的AI在特定任务中无比强大,但是却毫无泛化性,不能解决任何其它问题。只有使用人类逻辑推理的模型,才能在人类世界中拥有最好的泛化性。

而在这个维度上,我们可以看到,无论是o3、Grok 4,还是最新升级的GPT-5,哪怕他们大部分时间都能够解决复杂问题,但也还会犯下对人类来说的低级错误。这是现有的Next Token Predicting范式下仍然难以完全克服的问题,也说明它们或许离AGI的最终形态还有遥远距离。

OpenAI显然也不再希望把外界的胃口掉得过高。在本次发布会上,我们可以看到OpenAI花了更多时间介绍GPT-5在垂直场景应用的能力,例如生成小游戏、回答健康问题的能力,这都是为了让AI与人类更好地共存与协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗在美帝还没吃上早饭呢,赢学已经写出新篇章了

马杜罗在美帝还没吃上早饭呢,赢学已经写出新篇章了

熊倌儿
2026-01-04 10:18:58
仅差24个!仅差78分!杜兰特迎来双里程碑,乔丹的纪录也保不住了

仅差24个!仅差78分!杜兰特迎来双里程碑,乔丹的纪录也保不住了

世界体育圈
2026-01-04 18:19:35
俄外交部:委内瑞拉副总统在俄境内是假新闻

俄外交部:委内瑞拉副总统在俄境内是假新闻

新华社
2026-01-04 10:44:25
这是和珅送给乾隆的80大寿贺礼,彻底把皇帝迷住,如今已成故宫一级文物!

这是和珅送给乾隆的80大寿贺礼,彻底把皇帝迷住,如今已成故宫一级文物!

中国艺术家
2026-01-04 05:23:25
西芒杜铁矿生变数!2026年1月3日确认,几内亚要抢30%海运权!

西芒杜铁矿生变数!2026年1月3日确认,几内亚要抢30%海运权!

达文西看世界
2026-01-04 14:14:52
300658,重大资产重组!明日停牌

300658,重大资产重组!明日停牌

中国基金报
2026-01-04 17:48:57
委内瑞拉致函联合国 提出4项要求

委内瑞拉致函联合国 提出4项要求

北青网-北京青年报
2026-01-04 08:30:13
异军突起!南方新贵官宣7人,唯一外资中超队,戴伟浚+姚均晟领衔

异军突起!南方新贵官宣7人,唯一外资中超队,戴伟浚+姚均晟领衔

小金体坛大视野
2026-01-04 16:51:34
-5℃!小到中雪、雨夹雪又来了

-5℃!小到中雪、雨夹雪又来了

极目新闻
2026-01-04 13:50:58
盯上3000亿桶石油储量,特朗普:美国将“接管”委内瑞拉

盯上3000亿桶石油储量,特朗普:美国将“接管”委内瑞拉

时代周报
2026-01-04 08:49:26
马德兴:王钰栋在U23国足与吉尔吉斯的比赛中打进65米外吊射

马德兴:王钰栋在U23国足与吉尔吉斯的比赛中打进65米外吊射

懂球帝
2026-01-04 11:53:14
直播西天取经爆火,最复古的形式,最先进的基建

直播西天取经爆火,最复古的形式,最先进的基建

酷玩实验室
2026-01-04 14:29:06
美国打击委内瑞拉,中国投资何去何从?

美国打击委内瑞拉,中国投资何去何从?

天光破云来
2026-01-04 08:05:57
A股:无需等周一开盘了,种种迹象表明,明天股市很可能这样走

A股:无需等周一开盘了,种种迹象表明,明天股市很可能这样走

财经大拿
2026-01-04 10:27:04
震惊!浙江月均收入16500元小伙相亲,被失业女嫌收入低,引热议

震惊!浙江月均收入16500元小伙相亲,被失业女嫌收入低,引热议

火山詩话
2026-01-04 08:58:04
关中最低-16℃!小雪、雨夹雪、局地中雪!陕西最新预警:关好门窗!

关中最低-16℃!小雪、雨夹雪、局地中雪!陕西最新预警:关好门窗!

环球网资讯
2026-01-04 15:01:09
“史上最寒酸”凯里动物园迎来建园以来第一个旅行团,园长:这是新的开端,明天还会有130多名游客的团队过来

“史上最寒酸”凯里动物园迎来建园以来第一个旅行团,园长:这是新的开端,明天还会有130多名游客的团队过来

极目新闻
2026-01-03 21:46:05
6000万主力客群“消失”:困在商场里的餐饮店,正迎来一场大“清洗”

6000万主力客群“消失”:困在商场里的餐饮店,正迎来一场大“清洗”

职业餐饮网
2025-12-18 21:06:32
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
1935年红军拿下腊子口后,战士们打开鲁大昌的仓库,里面有什么?

1935年红军拿下腊子口后,战士们打开鲁大昌的仓库,里面有什么?

古书记史
2026-01-03 01:06:30
2026-01-04 19:27:00
观察者网 incentive-icons
观察者网
全球视野,中国关怀
131548文章数 1849627关注度
往期回顾 全部

科技要闻

独家|宇树科技上市绿色通道被叫停

头条要闻

神秘账户精准押注"马杜罗被抓" 一天狂赚超1200%

头条要闻

神秘账户精准押注"马杜罗被抓" 一天狂赚超1200%

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

委内瑞拉变局对原油美元黄金的连锁冲击

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

旅游
手机
房产
亲子
家居

旅游要闻

元旦旅游迎来开门红,广东清远、陕西铜川等“黑马”增速领跑

手机要闻

苹果首款折叠屏iPhone渲染图曝光,或2026年秋季发布

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

亲子要闻

林心如曾在采访里坦言,自己迟迟不敢生二胎

家居要闻

黑白碰撞 个性多元冷冽风

无障碍浏览 进入关怀版