GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。
今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录
1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。
2️⃣ GPT-5 得分 118,线下测试得分 70
这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。
♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。
如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。
不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。
想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。
真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。
但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。
在昨天 OpenAI 在社区的 AMA 中,奥特曼也承认 GPT-5的「智能路由」坏了,导致 GPT-5 变笨,并进行了修复和调整。
❓ 行业里还有一种猜测, GPT-5 一开始就不追求做「最强王者」,而是 OpenAI 降本增效的「秘密武器」。
目标是在现有现金储备下,搞一个 2025 年人人都能用的版本,顺便把钱给赚了。
今天 OpenAI 已经宣布 GPT-5 模型目前现已向所有 Plus、Pro、Team 和免费用户全面开放,后续的体验是否会变化,APPSO 也会持续使用并反馈给大家。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.