最近丹麦有个研究团队干了一件事:他们把全国妈妈们的职业和孩子的自闭症诊断记录拉出来,做了个大规模对比。结果发现,某些职业的妈妈似乎更容易生出被诊断为自闭症的孩子——比如司法系统、公共管理、军队。最吓人的数字是:司法 sector 的妈妈,孩子自闭症诊断率高了 59%。
但有意思的是,这篇论文发出来后,几位英国顶尖专家的反应不是"重大突破",而是集体翻白眼。用他们的话说,这研究"不是有用的知识增量",只是"又一个相关性游戏的例子"。
![]()
到底哪里出了问题?我们拆开看看。
一、研究是怎么做的
简单说,这是个观察性研究。研究团队用了丹麦的行政数据,追踪了 1702 名被诊断为自闭症谱系障碍(ASD)的个体,对比了他们妈妈的职业记录。职业被分成大约 100 个类别,然后看哪些类别和自闭症诊断"相关"。
研究方法听起来合理,但问题出在"怎么测"上。
伦敦国王学院的 Rosa Hoekstra 教授直接指出:这项研究没有预注册,分析是"纯粹探索性的"——也就是说,研究者事先没有明确假设要验证什么,而是把数据丢进去,看能捞出什么相关性。
更关键的是,他们做了大量的统计检验:100 个职业类别,再按孩子性别拆分,测试次数爆炸式增长。Hoekstra 说,这种"没有明确理论基础、先看到数据再找模式"的研究," notorious for the risk of reporting spurious findings"( notorious 的就是 notorious 的,翻译过来叫"臭名昭著地容易报告假阳性")。
二、那个"59%"有多不靠谱
媒体报道里最抓眼球的数字是"司法 sector 妈妈的孩子自闭症风险高 59%"。但 Hoekstra 扒了底细:这个结论基于的样本量,只有 29 个自闭症儿童。
29 个人,撑起一个"59% 增加"的 headline,统计学上叫"小样本噪声"。你可以理解为:抛硬币抛了 29 次,恰好正面多几次,你就宣布"这枚硬币有问题"——不是完全不可能,但远不到"发现规律"的程度。
研究者自己也承认,当把"检验次数太多"这个因素考虑进去后,很多相关性就不显著了。但他们还是在论文里保留了这些"可能虚假"的关联,并给出了事后解释——比如猜测"公共管理工作压力大",但 Hoekstra 吐槽:没有任何证据支持这个猜测。
三、专家为什么烦这类研究
伦敦大学学院的 Uta Frith 教授(认知发展领域的重量级学者)说得最直白:这篇论文"不是对自闭症成因知识的有用补充",只是展示了一件事——只要样本够大、类别够多,你总能找到显著的相关性。
这是统计学里的经典陷阱,叫"多重比较问题"。打个比方:如果你测 100 种职业,每种有 5% 的概率"凑巧"显著,那光凭运气你就能"发现" 5 个"有关联"的职业。这不是科学发现,这是数学必然。
剑桥大学的统计学家 Stephen Burgess 也参与了点评。他的语气相对温和,但核心判断一致:这类观察性研究只能提示"这里可能有东西值得看看",但离"因果结论"差得远。妈妈职业和孩子诊断之间的任何关联,都可能被无数混杂因素解释——比如某些职业的妈妈更可能带孩子去做诊断评估(认知偏差),或者某些职业集中在特定社会经济群体( confounding 变量)。
四、真正该关心的是什么
Hoekstra 在批评的最后,给了一段人话建议:
"For women who would like to become a mum: please choose a job you enjoy. Don't let this study put you off a career in public administration or in the judicial sector."
翻译过来:想当妈的女性,选份自己喜欢的工作就行。别让这项研究吓跑你,不让你去考公务员或当法官。
这句话背后有个重要的科普点:观察性研究的"发现",不等于"行动指南"。尤其是当研究设计本身有缺陷时,媒体渲染的风险数字,可能制造的是不必要的焦虑,而不是真正的健康收益。
自闭症的成因研究是个艰难领域。遗传因素占大头,环境因素也在被探索,但"环境因素"具体是什么、怎么作用,科学界还在摸索。在这种背景下,一篇"大数据 fishing expedition "(数据钓鱼 expedition )式的论文,配上吓人的百分比,很容易抢占注意力——但对真正理解问题帮助有限。
五、一个关于"相关性"的提醒
这件事给我们的日常阅读提个醒:看到"X 与 Y 相关"的研究,先问三个问题——
第一,是预注册研究还是事后探索?前者有明确假设,后者容易"数据驱动编故事"。
第二,检验了多少次?100 个职业测一遍,和 3 个职业测一遍,"显著结果"的可信度完全不同。
第三,样本量支撑得住结论吗?29 个人的 59% 增幅,和 2900 个人的 15% 增幅,后者可靠得多。
丹麦这项研究,三关都没过。
所以它的真正价值,可能不是"发现了什么",而是"展示了什么不该做"。Frith 和 Hoekstra 的批评,比论文本身更有教育意义——它们提醒读者,也提醒研究者:在复杂疾病的成因探索中,统计显著性不等于科学意义,相关性更不等于因果性。
至于想当妈的女性该做什么?答案和这项研究出现之前一样:选自己喜欢的工作,该体检体检,该放松放松。别让一个基于 29 个人的百分比,替你人生做决策。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.