智商测试是伪科学吗？它可能只测量低智力人群能力和一般人的考试技巧|iq|量表

分享至

　　作者 | Nassim Nicholas Taleb

　　翻译 | 林宇豪

　　审校 |酷炫脑小草

　　编辑 | 能能

　　sanboni.edu

　　“智商”（Intelligence Quotient 或 IQ ）是一项被设计用来衡量心理能力的测试，但事实上，它只能测量低智力（学习困难）人群的能力和一般人的考试技巧。

　　智力测试起初是为学习障碍者而设计的，但因为低智力人群其实不那么需要这样的测试（详见下文的论证），导致实际上最后只有一些喜欢考试的人和一些想逃避现实生活的人热衷于 IQ 测试。

　　01.

　　从数学角度看，IQ 测试是不科学的

　　IQ 测试在数学上的性质非常糟糕（在长尾分布[1]下衡量相关性会带来严重缺陷，它没有正确处理维度，将本质是复杂系统的思维简单地看成一项测试分数）。

　　IQ 测试还可能被种族主义者/优生学家利用：他们可能会利用 IQ 测试来证明某些人种的智力比别的人种低下。

　　门萨俱乐部（Mensa, 世界顶级智商俱乐部）成员的典型高“智商“失败者装扮

　　IQ测试通常只能解释人群在某些任务表现上2%到13%的差异（参考下文关于0.5相关性的解读），然而这些任务往往本身就和IQ测试很相似。

　　某些所谓的心理测量学者们仍然向不明就里的军队和企业等机构推销着这一“心理学中最准确的量表”。

　　如果我们考虑心理学家们在做研究时对数据的操控的话，这一解释差异的百分比甚至还要再打折扣。智力测试甚至不满足两项量表应该满足的最基本性质：单调性和传递性[2]。

　　一项在百分之八十到九十五的情况下都不准确的测试不应该被认为是“科学”的。

　　图 1：本图在假设分布不为长尾的情况下说明了智力测试的第一个缺陷：相关性在分布不对称时没有意义。令 y 轴代表被试在某实际任务中的表现。我们在 x 轴上建立一个假想 IQ 测试的得分。

　　图1| Frey and Detterman, 2004

　　当被试在这一实际任务上得分为负值（也就是较低）时，假想 IQ 测试的得分和任务得分有 100% 的相关性；但当被试在这一实际任务上得分为正值（也就是较高）时，IQ 测试和任务得分间完全没有相关性。

　　然后我们逐渐对两者间的相关性加入均值为零的误差来模拟实际中的情况，于是我们可以看到在图上，任务取正值的部位出现了本不应存在的相关性。

　　这一问题在智力因子作为主成分而分析得出结论时尤其严重。

　　我们可以看到 IQ 和 SAT （美国大学入学考试）分数的相关性就表现出了类似的形式。实际上大部分任务和 IQ 测试之间的“相关性”都和这一缺陷有关。

　　IQ 与 SAT 分数的相关性 | Frey and Detterman, 2004

　　问答题：你在 10,000 个人中测量 IQ 测试和他们在某项任务上表现的相关性，在这 10,000 人中有 2,000 人是死人。死人在 IQ 测试上得分为 0，在任务表现上得分也为 0 。在其余活人中，IQ 测试和任务表现没有相关性。那么，IQ 和任务表现的伪相关会是多少？

　　答案：37.5%。

　　这一偏差的本质在于，如果一个人的脑子被车撞坏了的话，那他显然在所有事情上的表现都会很差，任何可以用来识别能力低下人群的测试在这里都可以测量出这一点。

　　但没有什么对等的因素可以让一个人在所有事情上的表现都变得很好。

　　因此，实际上所有的能力测试都会和 IQ 有一定的正相关，即使它们之间完全没有关系。实际上，如果某一能力测试和 IQ 之间的相关性很低的话，这说明两者间可能是负相关的。

　　02.

　　IQ 测试的是什么？

　　数学推导：假设最具有代表性的情形，X、Y属于均匀分布[0,1]。p 为活着的占比，1-p 为死亡的占比（代表临床上的智力极度低下）。这说明了 IQ 和任务表现间的相关只是因为这些指标在能力极度低的人群中必定存在相关性，但在能力较高的人群中并不一定。

　　IQ 和现实生活中（例如“财富”）的一些指标没有任何统计上显著的相关性。研究人员宣称的一些和 IQ 相关的“成就”往往也只是一种循环论证。

　　这些“成就”往往指的都是学业或者官僚系统中的成功。而这不过是因为这两者本身高度的结构性及规律性和 IQ 测试有很大的重合罢了。

　　财富可能不是成功的唯一代表，但它是唯一能被量化的现实生活中和成功较为有关的指标。还有人认为 IQ 测量的是心理能力，例如“智慧”、“耐心”、“决策”之类的等等特质。

　　实际上， IQ 测试的东西和心理能力也完全无关。

　　如果我们想测量一个人在某项任务上的表现怎么样，比如说他的网球打得多好、有多擅长线性代数，我们只需要让他打打网球、做做数学题目来看看就可以了。

　　uata.com

　　我们不需要一个理论上的测验来测量现实生活中的表现。

　　交易员们马上就能理解这点：“模拟”出来的交易策略在现实中往往不起作用。人们在面对一些古怪的图片测试题时的反应和他们在现实生活中的表现并没有什么关系。

　　图源网络

　　03.

　　IQ 测试只是为极端低收入者而设计的

　　除去分布极端值以后，IQ 和财富间的相关性为零，数据包含的几乎全是误差（噪音）。

　　IQ 和 45,000 以上的收入之间没有相关性。即使是在有相关性的情形、低 IQ 或者低收入的人群中，噪音也非常的大。这说明 IQ 只是为极端低收入者而设计的。

　　Zagorsky（2007）研究

　　如果 IQ 是被刻意设计成正态分布（几乎的确是这种情形），而现实生活中表现的分布实际上是长尾的话（的确是），那么 IQ 和表现间的相关要么不存在，要么并不具有意义。

　　在样本中我们也许可以发现之间的相关性，但在统计学上，这一相关实际上并不存在。因此 IQ 测试对表现的预测力被高估了。

　　04.

　　但同时，IQ 测试有严重缺陷的相关性

　　IQ 测试中得出的智力是由心理学家们用类似“模拟交易”的方法构造出来的。而这一测试的基础是我刚才解释的，有严重缺陷的相关性。

　　IQ 和极端低的表现确实有相关（实际上它一开始也是被设计为用来识别学习障碍人群的），但在表现极端低的人群中几乎所有测试都会相关。一项只在分布左端（较低一端）有预测力，但在分布右端（较高一端）没有预测力的测试显然有问题。

　　我们自从著名的 Terman 纵向研究[3]起就一直观察到这样的结果，即使之后研究的数据可能已经被操控过了。

　　美国心理学家 L.M.Terman | Stanford University

　　要说明这一点，我们可以考虑如下的情形：某人有严重的心理能力障碍，那么显然他的 IQ 分数和表现会有 100% 的相关，但这一相关性在没有心理能力障碍的人群中不会出现。

　　心理学家们忽略了这一非线性关系，而错误的认为这一相关性存在（我们可以说，一个 IQ 只有 70 的人没法证明数学定理，这说明了 IQ 在识别能力障碍人群上是有意义的，但研究结果并没有说明 IQ 得分 150 的人更有可能从事脑力工作）。

　　IQ 并不能测量大脑的“硬件”。它也许可以在实验室中测量某种可能有意义的心理能力。但如果我们想用 IQ 来了解一个人未来会如何发展的话，我们需要知道他在未来可以发挥作用的心理能力。

　　但缺乏预测力的 IQ 测试显然无法测出这一能力。

　　05.

　　在学术圈中，现实生活和学术圈的问题没有差别；但在现实生活中，两者显然不同

　　当某人在现实生活中问你一个问题的时候，你肯定首先会想：“为什么他要问我这个？”这会让你把部分的注意力从问题分散到问题的语境上。

　　istock.com

　　哲学家们早就发现了这一点。例如说，有一个数列 {1，2，3，4，x} ，问 x 应该是什么？只有完全不懂归纳法的人会认为 5 是唯一的答案（哲学中的 Goodman 问题对此有讨论）。

　　我们也可以应用维特根斯坦的“遵循规则”问题。这一问题称，对于任一有限的数列，有无限个函数可以拟合这一数列。这些认为只能是 5 的人不仅是不懂归纳法，他们还得循规蹈矩到只会用一种方式思考。

　　维特根斯坦 | zhihu.com

　　现实生活中不存在有确定回答的问题（大部分的现实问题都没有答案）。只有某些特定的人会把自己的脑子浪费在考试问题上。而有些人只会把自己的脑力专注在现实的，而不是教科书里的问题上。

　　智力测试无法判断哪些错误有代表性地说明了一个人的真实水平，哪些错误只是随机的偏差。这一点和机器学习中的“偏差-方差权衡”[4]类似——你需要犯很多无关紧要的小错误来避免有严重后果的大错误。

　　在现实生活中生存需要我们的一些心理偏差，而这些心理偏差会让我们犯一些小错误，但却对我们是有益的。

　　06.

　　IQ 测试的其他问题

　　被随机性误导：发现一些表面规律的能力并不是什么有用的东西。有些心理学家回复我的文章说：IQ 测量的是识别规律的能力，这在现代社会中非常重要。

　　完全不对，能够在规律明显的时候识别出规律，不明显时懂得忽略它们，才是有用的能力。

　　不考虑对数据的操纵以及相关性的缺陷。50% 的相关性意味着两者间的相关只比随机选择好了 13%。

　　工作能力与 IQ 的相关性 | 来自相当不严谨的 Intelligence: All That Matters by S. Ritchie

　　注意噪音的大小：得分最高的百分之 25 的门卫比得分最低的百分之 25 的大学教授得分还要高。即使我们考虑到 IQ 测试的循环逻辑：医生的 SAT 分数较高，而 SAT 的题目和智力测试又有重叠，然而医生群体的智力和门卫群体的智力测试得分仍有很大重合。

　　职业与 IQ 测试关系 |Robert M. Hauser, 2010

　　额外方差：不像对财富和身高的测量，许多人做同一 IQ 测试多次可以得到非常不同的结果，最高可以到两个标准差，这甚至比人群中的抽样误差还高！

　　这一巨大的误差说明了作为一个个体，你本身测试的不确定性甚至可能超过了人群中确定的多样性！

　　研究偏差：心理学研究发现医生和学术工作者的 IQ 更高（虽然其中的噪音占比很大），但这仅仅说明为了成为医生和学术工作者，他们需要擅长和 IQ 测试类似的学校考试。这会使得我们观测到的这两个群体的 IQ 均值偏大，方差却偏小。

　　rd.com

　　“员工”商：如果你把 IQ 命名为“员工商”，那么它测量的东西可能会更有价值一点。IQ 测量的不过是你有多擅长做一个只会执行简单任务的奴隶罢了。

　　备注：

　　[1] 长尾分布指的是，在人群中有许多极端值，使得分布图往一端或两端延长的情况。

　　[2]单调性指的是，如果 B 在 IQ 测试上得分比 A 高，那么 B 的实际智力一定比 A 高；传递性指的是，如果 B 在 IQ 测试上得分比 A 高，而 C 的得分又比 B 高，那么 C 的实际智力一定也比 A 高。

　　[3]20 世纪二十年代，美国心理学家特曼 L.M.Terman 进行了一项大规模的研究实验，他通过智力测试将智商大于等于 140 分的孩子划分为天才，并以此为标准筛选出了一千二百名“天才儿童”。随后，美国政府负责为这群孩子提供最前瞻的教育资源、最优质的师资，并对他们精心培养，人们期待着从这 1200 位孩子中产生牛顿、爱因斯坦、霍金一般的伟大科学家。五六十年后的今天，人们依旧可以追踪到的其中 800 多名“神童”的现状。经调查发现，他们中的大多数人也并没有成为科学家，而那些被世俗定义为“成功”的人，反而都是具有坚强的意志品质和良好人格特征的人。

　　[4] 参数估计偏差（系统性误差）小的预测模型方差（随机误差）较大；而偏差大的预测模型方差较小。

　　·END·

责任编辑：郭鹏_NO4657

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.