网易首页 > 网易号 > 正文 申请入驻

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

0
分享至

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

‍♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

在昨天 OpenAI 在社区的 AMA 中,奥特曼也承认 GPT-5的「智能路由」坏了,导致 GPT-5 变笨,并进行了修复和调整。

❓ 行业里还有一种猜测, GPT-5 一开始就不追求做「最强王者」,而是 OpenAI 降本增效的「秘密武器」。

目标是在现有现金储备下,搞一个 2025 年人人都能用的版本,顺便把钱给赚了。

今天 OpenAI 已经宣布 GPT-5 模型目前现已向所有 Plus、Pro、Team 和免费用户全面开放,后续的体验是否会变化,APPSO 也会持续使用并反馈给大家。













特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

墨兰史书
2026-01-03 05:45:03
2026年春节,要暖到离谱!大年初一撞上七九,老辈人:60年头回见,今年逛庙会不用穿棉袄了

2026年春节,要暖到离谱!大年初一撞上七九,老辈人:60年头回见,今年逛庙会不用穿棉袄了

美食格物
2026-01-19 16:01:15
东北大妈140亿“黑金”豪门,彻底覆灭了

东北大妈140亿“黑金”豪门,彻底覆灭了

大猫财经Pro
2026-01-19 18:31:06
以色列F-35战机空袭伊朗,特朗普放狠话48小时内德黑兰没还手机会

以色列F-35战机空袭伊朗,特朗普放狠话48小时内德黑兰没还手机会

世界探索者探索
2026-01-17 23:10:17
1换2,张帆或交易,曾凡博重伤,辽宁裁外援,CBA连夜开罚单

1换2,张帆或交易,曾凡博重伤,辽宁裁外援,CBA连夜开罚单

乐聊球
2026-01-19 09:14:44
普京按照传统浸入冰窟洗礼

普京按照传统浸入冰窟洗礼

参考消息
2026-01-19 21:19:03
这首词骗了我们60年?都看懂了“骄杨”,谁看懂了那杯“桂花酒”?

这首词骗了我们60年?都看懂了“骄杨”,谁看懂了那杯“桂花酒”?

历史回忆室
2026-01-19 13:53:13
只因惹到一神秘女子,杭州虞关荣就此覆灭,事后被判无期徒刑

只因惹到一神秘女子,杭州虞关荣就此覆灭,事后被判无期徒刑

纸鸢奇谭
2024-10-14 21:57:06
他是史书上贪图好色的享乐者,也是明朝中兴的关键角色

他是史书上贪图好色的享乐者,也是明朝中兴的关键角色

新京报
2026-01-18 16:36:10
一波未平一波又起!闫学晶的账还没有算清,49岁李湘又“塌”了

一波未平一波又起!闫学晶的账还没有算清,49岁李湘又“塌”了

真的八卦小学弟
2026-01-19 19:00:08
全明星首发出炉:字母哥&东契奇领衔东西部 詹姆斯首发纪录中断

全明星首发出炉:字母哥&东契奇领衔东西部 詹姆斯首发纪录中断

北青网-北京青年报
2026-01-20 07:30:04
日本绝密武器曝光!“桶滚导弹”入海,我军防线面临前所未有考验

日本绝密武器曝光!“桶滚导弹”入海,我军防线面临前所未有考验

井普椿的独白
2026-01-19 13:20:42
老詹全明星得票西部第9!无缘连续22年首发 教练和萧华选他参赛?

老詹全明星得票西部第9!无缘连续22年首发 教练和萧华选他参赛?

罗说NBA
2026-01-20 06:00:51
1965年陆小曼病世,翁瑞午的长女见四下无人,迅速解开她的衣扣

1965年陆小曼病世,翁瑞午的长女见四下无人,迅速解开她的衣扣

心言诉陌尘
2026-01-19 11:33:04
杨希:在中超联赛里防的是外援,防越南肯定没问题

杨希:在中超联赛里防的是外援,防越南肯定没问题

懂球帝
2026-01-20 02:04:29
被搅黄的试训,没有“身份”的国少球员!到底是谁害了邝兆镭?

被搅黄的试训,没有“身份”的国少球员!到底是谁害了邝兆镭?

中国足球的那些事儿
2026-01-19 08:00:20
AI可以被“买通”?收费“让产品更容易被AI推荐”是否涉嫌违法?

AI可以被“买通”?收费“让产品更容易被AI推荐”是否涉嫌违法?

澎湃新闻
2026-01-18 13:22:04
无缝衔接!WTT常规挑战赛1月19日开打:国乒27人参加冲击5项冠军

无缝衔接!WTT常规挑战赛1月19日开打:国乒27人参加冲击5项冠军

越岭寻踪
2026-01-19 07:21:01
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
田朴珺演不下去了

田朴珺演不下去了

蓝钻故事
2026-01-17 10:54:44
2026-01-20 07:48:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6020文章数 26743关注度
往期回顾 全部

科技要闻

OpenAI首款硬件设备有望于2026年下半年亮相

头条要闻

江西警方:在柬失联叶文斌被电诈园区送出 已被刑拘

头条要闻

江西警方:在柬失联叶文斌被电诈园区送出 已被刑拘

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

教育
游戏
艺术
家居
公开课

教育要闻

首都师大2025分数线公布!560分就能上?

重口恐怖游戏《ILL》愿望单破100万 准备踏入噩梦

艺术要闻

瑞典艺术大师,佐恩人物作品精选19幅

家居要闻

隽永之章 清雅无尘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版