网易首页 > 网易号 > 正文 申请入驻

GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?

0
分享至

(文/观察者网 张广凯 编辑/吕栋)

北京时间8月8日凌晨,备受期待的OpenAI最新大模型ChatGPT-5终于正式发布,就在同时,谷歌举办的首届大模型国际象棋对抗赛中,o3也以4-0完胜Grok 4夺冠。这本该是对OpenAI双喜临门的一天,但作为一款关注度如此之高的产品,网友也很快发现了GPT-5的一些小小的瑕疵。

尽管大模型的能力仍然在快速进步,但其进步幅度越来越难以给人带了惊艳感了。这不是OpenAI自己的问题,甚至某种意义上,这也不是一件坏事,因为是之前人们的预期已经被拉到过高。但无论如何,在现有的算法范式下,AI大模型或许也离瓶颈越来越近了。

GPT-5水平如何?

作为OpenAI今年最受期待又屡屡跳票的重磅产品,ChatGPT-5今天的确给出了一些颇具说服力的测评数据,证明其推理能力有着显著进步。

例如,在数学能力测试AIME 2025上,GPT-5 Pro在开启推理模式并调用工具(Python)的情况下,拿下满分成绩。即使不调用工具,GPT-5 Pro仍能拿下96.7的高分,GPT-5标准版也能拿到94.65分,显著高于o3的88.9分。

编程方面,GPT-5在SWE-bench Verified上得到74.9分,高于o3的69.1和4o的30.8分。

博士水平的科学知识测试GPQA Diamond中,不调用工具的GPT-5 Pro推理模式拿到88.4分,创造新纪录。

多模态方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。

高难度的Humanity's Last Exam(人性终极测试)上,GPT-5 Pro和GPT-5在不调用工具时分别得到30.7和24.8分,较o3的14.7分大幅提升。

大模型竞技场LM Arena的评分也已经出炉,GPT-5横扫所有单项的第一名。

此外,GPT-5推理模式的幻觉数量比o3少了六倍,成本方面则可以减少50-80%的token输出量。

这些数据都证明,GPT-5算得上是一次成功的大版本升级。

但另人尴尬的是,在发布会后,网友迅速发现GPT-5在解一道极其简单的方程时又犯了计算错误:

看起来,GPT-5还是没能解决小数比大小的问题。

而OpenAI发布会PPT里的小瑕疵,也引起了网友热议。大家发现在这张图表里,柱状图的高度出现了明显错误,但并不知道这是人为错误还是由AI生成。

有网友指出,在关于机翼升力原理的回答中,GPT-5也引用了一个广为流传的错误观点。当然,这样的问题归咎于AI未免过于苛刻。

马斯克则“嘴硬”称,Grok 4在ARC-AGI测试中仍然打败了GPT-5。

做题好是不是真的好?

那么,如何评价GPT-5的真实水平,或许日前的大模型国际象棋对抗赛恰好给我们提供了一个很好的参考。

同样在今天凌晨结束的对抗赛上,OpenAI旗下的o3以4-0完胜Grok 4,夺得最终冠军。尽管Grok 4在此前两轮中都表现出色,但在决赛中,随着对局长度增加,Grok 4也开始表现出棋力下降。

例如在第一局中,Grok 4莫名其妙地放弃了自己的象,并且没有获得任何明显的回报,而Grok 4也并未在推理中说明理由。

o3尽管表现相对出色,在昨天的半决赛中还下出过正确率评分100%的棋局,但纵观整个比赛过程,也不乏低级失误。

或许有人会质疑,让AI下棋究竟能证明什么?AI对抗赛的胜负,是不是仅仅取决于它们使用了多大规模的训练数据?DeepSeek下棋不好,但是作诗是不是更好?

事实上,如果只纠结于下棋或者作诗的技能水平,说明并未理解谷歌采用这种比赛形式的逻辑。

此次国际象棋比赛的意义,并非考验大模型的算力,而是考验其推理能力。

如果大模型在接受了大量棋谱训练之后,体现出高超棋力,这只能证明AI的记忆力或者算力强大,而这件事在2017年就已经被AlphaGo证明过了。

但是由于这些通用大模型都没有接受过专门的棋谱训练,因此往往只能在开局阶段凭借记忆下出经典开局。在几个回合之后,大模型已经无法找到人类棋谱作为参考,它们的思维结构也并非像AlphaGo那样专为下棋设计。因此,这时候的AI推理,是跟人类相同的推理方式,通过语言逻辑来推演棋盘变化。

上述无工具的数学测试,起到的也是类似作用:考验AI用人类逻辑进行计算的能力,而不是使用专门的机器算法。

因为无论是AlphaGo也好,还是计算工具也好,这样的AI在特定任务中无比强大,但是却毫无泛化性,不能解决任何其它问题。只有使用人类逻辑推理的模型,才能在人类世界中拥有最好的泛化性。

而在这个维度上,我们可以看到,无论是o3、Grok 4,还是最新升级的GPT-5,哪怕他们大部分时间都能够解决复杂问题,但也还会犯下对人类来说的低级错误。这是现有的Next Token Predicting范式下仍然难以完全克服的问题,也说明它们或许离AGI的最终形态还有遥远距离。

OpenAI显然也不再希望把外界的胃口掉得过高。在本次发布会上,我们可以看到OpenAI花了更多时间介绍GPT-5在垂直场景应用的能力,例如生成小游戏、回答健康问题的能力,这都是为了让AI与人类更好地共存与协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股三大指数高开,美光、阿斯麦、博通大涨;重要锂矿供应国停止出口,锂矿股也大涨!加密货币大幅反弹|美股开盘

美股三大指数高开,美光、阿斯麦、博通大涨;重要锂矿供应国停止出口,锂矿股也大涨!加密货币大幅反弹|美股开盘

每日经济新闻
2026-02-25 23:22:05
晒晒从挪威房东身上学到的“装修妙招”,这几处装修,真该普及!

晒晒从挪威房东身上学到的“装修妙招”,这几处装修,真该普及!

装修秀
2026-02-25 11:40:05
1972年,何香凝临终恳求不火化遗体,周恩来含泪答应:不烧,不烧

1972年,何香凝临终恳求不火化遗体,周恩来含泪答应:不烧,不烧

大运河时空
2026-02-25 09:05:03
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
0-3惨败止步八强!陈熠/黄友政单局一度落后8分 于子洋首败来了

0-3惨败止步八强!陈熠/黄友政单局一度落后8分 于子洋首败来了

颜小白的篮球梦
2026-02-25 18:41:22
被对手贴脸挑衅,伊万-托尼:我这辈子都没闻过这么臭的口气

被对手贴脸挑衅,伊万-托尼:我这辈子都没闻过这么臭的口气

懂球帝
2026-02-25 12:49:05
你啥时候意识到钱的重要性?网友:钱能解决85%以上的鸡毛蒜皮事

你啥时候意识到钱的重要性?网友:钱能解决85%以上的鸡毛蒜皮事

带你感受人间冷暖
2026-02-23 01:22:30
万斯称美国已掌握证据表明伊朗试图重建核计划

万斯称美国已掌握证据表明伊朗试图重建核计划

每日经济新闻
2026-02-26 08:48:05
平顶山事件二次通报!真相竟是先打其他3人再暴打15岁女生!

平顶山事件二次通报!真相竟是先打其他3人再暴打15岁女生!

魔都囡
2026-02-25 10:57:52
8岁高考760分,智商230超过爱因斯坦,神童陶哲轩如今怎么样了?

8岁高考760分,智商230超过爱因斯坦,神童陶哲轩如今怎么样了?

户外阿毽
2026-02-26 06:16:12
看一次心动一次!大幂幂,永远的神

看一次心动一次!大幂幂,永远的神

阿废冷眼观察所
2026-02-25 11:49:20
潘春春:从陕北放羊娃到“中国波霸”的逆袭人生

潘春春:从陕北放羊娃到“中国波霸”的逆袭人生

小熊侃史
2026-02-15 07:30:14
贺子珍抱着外孙孔继宁的合影,照片中贺子珍笑得合不拢嘴

贺子珍抱着外孙孔继宁的合影,照片中贺子珍笑得合不拢嘴

大运河时空
2026-02-25 07:25:03
畸形审美?这4位男演员长相平平,却总当主角演帅哥,实在不理解

畸形审美?这4位男演员长相平平,却总当主角演帅哥,实在不理解

泪满过眼
2026-02-25 05:03:57
碰瓷!某企拿专利5天向宇树科技索赔8000万,最高法怒批;刘强东拟花50亿进入游艇行业,要让普通人也能买得起;小米起诉自媒体获赔500万元

碰瓷!某企拿专利5天向宇树科技索赔8000万,最高法怒批;刘强东拟花50亿进入游艇行业,要让普通人也能买得起;小米起诉自媒体获赔500万元

雷峰网
2026-02-25 10:54:12
孩子走丢到小卖铺求助,老板好心给其父母打电话,却被5人按倒

孩子走丢到小卖铺求助,老板好心给其父母打电话,却被5人按倒

另子维爱读史
2026-02-25 23:35:20
瓜子被点名!医生提醒:高血脂还常吃瓜子,很快或迎来3个后果

瓜子被点名!医生提醒:高血脂还常吃瓜子,很快或迎来3个后果

荆医生科普
2026-02-25 18:25:49
史上最乱伦成语“上蒸下报”

史上最乱伦成语“上蒸下报”

华人星光
2026-02-21 11:24:05
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
党主席干不过地头蛇,郑丽文干不过“南霸天”

党主席干不过地头蛇,郑丽文干不过“南霸天”

雪中风车
2026-02-25 20:54:12
2026-02-26 09:23:00
观察者网 incentive-icons
观察者网
全球视野,中国关怀
135085文章数 1849916关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

中方对日方出口管制措施落地后 高市早苗表态了

头条要闻

中方对日方出口管制措施落地后 高市早苗表态了

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

家居
时尚
艺术
数码
本地

家居要闻

艺居办公 温度与效率

伦敦时装周|2026秋冬流行趋势早知道

艺术要闻

一幅眼花缭乱草书:从书法创作到青少年书法教育的思考

数码要闻

Steam客户端获Beta测试版更新,改善硬件调查对多显卡系统识别

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版