网易首页 > 网易号 > 正文 申请入驻

ChatGPT智商155,超越99.9%的人类,但……

0
分享至

防走失,电梯直达

图片来源:Pixabay

但它不会逻辑推理。

撰文 | 埃卡·罗瓦宁(Eka Roivainen)

翻译 | 黄雨佳

审校 | 栗子

ChatGPT是我第一个非人类的测试对象。

作为一名临床心理学家,我会用标准化的智力测验来评估患者的认知能力。最近,许多文章都在描述ChatGPT拥有像人类一样的能力,令人印象深刻。所以,读到这些文章后,我立刻就被吸引了。它既能写学术文章,又能写童话故事,还能讲笑话、解释科学概念、写计算机代码和找bug。了解这些之后,我很好奇ChatGPT按照人类的标准来衡量到底有多聪明。于是,我开始测试这个聊天机器人。

我的第一印象相当不错。ChatGPT几乎是一个理想的考生,应试态度值得称赞。它不会表现出考试焦虑、注意力不集中或是不努力。它也不会对智力测验本身和像我这样的考官表达出自发的怀疑。

这个测试不需要做任何准备。我不用向ChatGPT口头介绍测试流程,只需要把测试的问题复制粘贴进对话框,提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试——韦克斯勒成人智力量表(Wechsler adult intelligent scale,WAIS)。

我选用了第三版韦氏量表,其中包含6个语言测试和5个非语言测试,分别构成了言语智商操作智商。受试者的总智商得分就取决于这11项子测试的得分。测试设定平均智商为100分,测试量表的得分标准差为15分。这意味着,人群中最聪明的10%和1%的人,智商分别为120和133

图片来源:Dmcq via Wikimedia Commons,CC BY-SA 3.0)

6个语言测试中有5个——词汇、类同、理解、常识和算术,都能以书面形式呈现,这样我才有可能测试ChatGPT的智商。而语言测试的第6项——背数字,测试的是短期记忆,不适用于聊天机器人,因为它没有相关的神经回路来短暂地存储像名字或数字这类信息。

我的测试流程从词汇测试开始,因为在我的预期当中,这对聊天机器人来说可能是很简单的事,毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成,例如,一个典型的测试题可能是:告诉我gadget(小工具)这个单词的意思。

ChatGPT做得很好,它给出的答案大多非常详细和全面,超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上,如果受试者回答gadget是像手机这样的东西,会得到1分;如果回答得更详细,说gadget指的是有特定用途的设备或工具,则会得到2分。ChatGPT的答案得到了满分2分。

ChatGPT在类同测试和常识测试中的表现也非常出色,拿到了最高分。常识测试是对一般知识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是:乌克兰的首都是哪里。类同测试则评估了抽象推理和概念形成的能力,问题可能会是:哈利·波特和兔八哥有什么相似之处。

在这部分测试中,聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案,这开始让我恼火了。这时,软件界面上的“停止生成响应”按钮就显得很有用。例如,哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的,ChatGPT有自我炫耀倾向,就是这个意思。

停,别说了(图片来源:OpenAI)

理解测试中,ChatGPT准确地回答了像“如果电视机着火了你该怎么办”这类问题。算术测试的结果也正如我的预期,它能搞定我出的每一道题,例如求三个数的平均值。

所以ChatGPT最终的智商得分是多少呢?基于这五项子测试估计,ChatGPT的言语智商是155。有2450名人类被试,共同组成美国第三版韦氏量表标准化样本,而ChatGPT超过了他们中的99.9%。由于聊天机器人没有眼睛、耳朵和手,它无法参加韦氏智力测验的非语言测试部分。不过,在标准化样本中,言语智商和总智商是高度相关的。因此,以人类的标准来衡量,ChatGPT非常聪明。

图片来源:Pixabay

在韦氏量表的标准化样本中,接受过大学教育的美国人平均言语智商是113,其中5%的人群得分为132或更高。我自己也曾经被一位大学同学测试过,结果并没有达到ChatGPT的水平(主要是我的回答非常简短,缺乏细节)。

那么,临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢?我希望还不太会。尽管ChatGPT的智商很高,但我们已知它无法完成需要真正像人类那样推理的任务,也无法理解物理世界和社会。

ChatGPT很容易在回答一些答案明显的谜题时出错。例如,当被问及“塞巴斯蒂安的孩子的父亲叫什么”时,ChatGPT在3月21日给出的回答是,“对不起,我无法回答这个问题,因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。”ChatGPT似乎无法进行逻辑推理,而是试图依赖它庞大的数据库,从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。

思想者(图片来源:CrisNYCa via Wikimedia Commons,CC BY-SA 4.0)

“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义,甚至可以说是过于显而易见的定义,源自认知心理学的先驱人物埃德温·波林(Edwin Boring)在1923年发表的一篇文章。这个定义是基于一个观察:解谜、说出单词的意思、记忆数字和找出图片中缺失的部分,完成这些任务所需的技能是高度相关的。

有一种名叫因素分析法这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的一些患者,对智力测试抱有怀疑态度,他们可能从一开始就是对的。

https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

本文来自微信公众号“环球科学”(id:huanqiukexue),如需转载请联系 newmedia@huanqiukexue.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许世友晚年三次自杀,用毛巾勒脖子,拔掉静脉插管,医生:何苦啊

许世友晚年三次自杀,用毛巾勒脖子,拔掉静脉插管,医生:何苦啊

搜史君
2026-02-25 15:20:07
秦桧32世孙发声:让祖宗跪岳飞我认了,凭什么还要跪岳飞的母亲?

秦桧32世孙发声:让祖宗跪岳飞我认了,凭什么还要跪岳飞的母亲?

不八卦掌门人
2026-02-23 13:35:25
央媒对谷爱凌的称呼变了,七字之差释放强烈信号,邓亚萍说得太对

央媒对谷爱凌的称呼变了,七字之差释放强烈信号,邓亚萍说得太对

TVB的四小花
2026-02-25 07:32:05
吴石后人有点意思:明明父亲是烈士,儿子吴韶成在河南却格外低调

吴石后人有点意思:明明父亲是烈士,儿子吴韶成在河南却格外低调

冰雅忆史
2026-02-25 09:17:13
荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

时尚的弄潮
2026-02-25 15:10:22
国防部重磅定调,从台军到台独武装,称谓之变藏统一加速信号

国防部重磅定调,从台军到台独武装,称谓之变藏统一加速信号

华山穹剑
2026-02-25 19:19:18
2026年公务员政审三代最新标准

2026年公务员政审三代最新标准

深度报
2026-02-22 22:51:50
前国脚高峰现状:54岁很显老,妻子也是运动员,二儿子和继父更亲

前国脚高峰现状:54岁很显老,妻子也是运动员,二儿子和继父更亲

以茶带书
2026-02-25 19:52:54
18点05,CCTV直播!中国男篮vs日本 媒体人曝新消息 预测首发如下

18点05,CCTV直播!中国男篮vs日本 媒体人曝新消息 预测首发如下

大秦壁虎白话体育
2026-02-25 17:00:28
长得太漂亮了,真正的珠圆玉润,标准的东方美女!

长得太漂亮了,真正的珠圆玉润,标准的东方美女!

TVB的四小花
2026-02-25 15:16:05
涨停,17万手封单!A股第一名

涨停,17万手封单!A股第一名

新浪财经
2026-02-25 16:56:34
民调飙升,点名蒋万安接替赖清德?只怕赶走台独,又迎来更难缠的

民调飙升,点名蒋万安接替赖清德?只怕赶走台独,又迎来更难缠的

不似少年游
2026-02-25 07:35:29
日元购买力狂降,对人民币急速贬值,中国游客不去经济还有希望吗

日元购买力狂降,对人民币急速贬值,中国游客不去经济还有希望吗

次元君情感
2026-02-25 19:21:48
孕妇深夜路边直播求救,称羊水破了老公不管?民警搜寻近一小时发现其编造引流:已批评教育

孕妇深夜路边直播求救,称羊水破了老公不管?民警搜寻近一小时发现其编造引流:已批评教育

极目新闻
2026-02-25 19:04:50
一年掉粉120万!顶流网红瑶一瑶「被迫表演」炸上热搜,网友吵翻

一年掉粉120万!顶流网红瑶一瑶「被迫表演」炸上热搜,网友吵翻

雷科技
2026-02-25 17:37:34
iPhone 18 Pro灵动岛缩小35%,将首发搭载基于台积电2nm工艺制造的A20 Pro芯片

iPhone 18 Pro灵动岛缩小35%,将首发搭载基于台积电2nm工艺制造的A20 Pro芯片

中国能源网
2026-02-24 12:01:06
上海海港官宣:安佩姆租借加盟

上海海港官宣:安佩姆租借加盟

五星体育
2026-02-25 16:57:41
订单排到年底!亨通、永鼎、华工、烽火,谁是光通信里最能涨的?

订单排到年底!亨通、永鼎、华工、烽火,谁是光通信里最能涨的?

Thurman在昆明
2026-02-25 04:45:03
争议?杨瀚森纪念杯的中国地图缺少台湾海南地区 开拓者已下架视频

争议?杨瀚森纪念杯的中国地图缺少台湾海南地区 开拓者已下架视频

风过乡
2026-02-25 19:51:50
马筱梅分享儿子睁眼照!阔嘴大鼻好像妈妈,兰姐大方晒孙子没拘束

马筱梅分享儿子睁眼照!阔嘴大鼻好像妈妈,兰姐大方晒孙子没拘束

乐悠悠娱乐
2026-02-25 15:07:24
2026-02-25 20:36:49
报人刘亚东 incentive-icons
报人刘亚东
不唯上,不唯书,只唯实。
5786文章数 43232关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

新房被淹男子12年未交物业费 春节前后家中停水超50天

头条要闻

新房被淹男子12年未交物业费 春节前后家中停水超50天

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

本地
时尚
健康
游戏
公开课

本地新闻

津南好·四时总相宜

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

转头就晕的耳石症,能开车上班吗?

《Reloadian》正式亮相Steam新品试玩节

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版