妈妈做什么工作和孩子自闭症有关？丹麦这项研究被专家集体吐槽了|翻译|观察性|统计学|自闭症儿童

妈妈做什么工作和孩子自闭症有关？丹麦这项研究被专家集体吐槽了

2026-05-13 06:42:45　来源: 理性之光啊

北京举报

分享至

最近丹麦有个研究团队干了一件事：他们把全国妈妈们的职业和孩子的自闭症诊断记录拉出来，做了个大规模对比。结果发现，某些职业的妈妈似乎更容易生出被诊断为自闭症的孩子——比如司法系统、公共管理、军队。最吓人的数字是：司法 sector 的妈妈，孩子自闭症诊断率高了 59%。

但有意思的是，这篇论文发出来后，几位英国顶尖专家的反应不是"重大突破"，而是集体翻白眼。用他们的话说，这研究"不是有用的知识增量"，只是"又一个相关性游戏的例子"。

到底哪里出了问题？我们拆开看看。

一、研究是怎么做的

简单说，这是个观察性研究。研究团队用了丹麦的行政数据，追踪了 1702 名被诊断为自闭症谱系障碍（ASD）的个体，对比了他们妈妈的职业记录。职业被分成大约 100 个类别，然后看哪些类别和自闭症诊断"相关"。

研究方法听起来合理，但问题出在"怎么测"上。

伦敦国王学院的 Rosa Hoekstra 教授直接指出：这项研究没有预注册，分析是"纯粹探索性的"——也就是说，研究者事先没有明确假设要验证什么，而是把数据丢进去，看能捞出什么相关性。

更关键的是，他们做了大量的统计检验：100 个职业类别，再按孩子性别拆分，测试次数爆炸式增长。Hoekstra 说，这种"没有明确理论基础、先看到数据再找模式"的研究，" notorious for the risk of reporting spurious findings"（ notorious 的就是 notorious 的，翻译过来叫"臭名昭著地容易报告假阳性"）。

二、那个"59%"有多不靠谱

媒体报道里最抓眼球的数字是"司法 sector 妈妈的孩子自闭症风险高 59%"。但 Hoekstra 扒了底细：这个结论基于的样本量，只有 29 个自闭症儿童。

29 个人，撑起一个"59% 增加"的 headline，统计学上叫"小样本噪声"。你可以理解为：抛硬币抛了 29 次，恰好正面多几次，你就宣布"这枚硬币有问题"——不是完全不可能，但远不到"发现规律"的程度。

研究者自己也承认，当把"检验次数太多"这个因素考虑进去后，很多相关性就不显著了。但他们还是在论文里保留了这些"可能虚假"的关联，并给出了事后解释——比如猜测"公共管理工作压力大"，但 Hoekstra 吐槽：没有任何证据支持这个猜测。

三、专家为什么烦这类研究

伦敦大学学院的 Uta Frith 教授（认知发展领域的重量级学者）说得最直白：这篇论文"不是对自闭症成因知识的有用补充"，只是展示了一件事——只要样本够大、类别够多，你总能找到显著的相关性。

这是统计学里的经典陷阱，叫"多重比较问题"。打个比方：如果你测 100 种职业，每种有 5% 的概率"凑巧"显著，那光凭运气你就能"发现" 5 个"有关联"的职业。这不是科学发现，这是数学必然。

剑桥大学的统计学家 Stephen Burgess 也参与了点评。他的语气相对温和，但核心判断一致：这类观察性研究只能提示"这里可能有东西值得看看"，但离"因果结论"差得远。妈妈职业和孩子诊断之间的任何关联，都可能被无数混杂因素解释——比如某些职业的妈妈更可能带孩子去做诊断评估（认知偏差），或者某些职业集中在特定社会经济群体（ confounding 变量）。

四、真正该关心的是什么

Hoekstra 在批评的最后，给了一段人话建议：

"For women who would like to become a mum: please choose a job you enjoy. Don't let this study put you off a career in public administration or in the judicial sector."

翻译过来：想当妈的女性，选份自己喜欢的工作就行。别让这项研究吓跑你，不让你去考公务员或当法官。

这句话背后有个重要的科普点：观察性研究的"发现"，不等于"行动指南"。尤其是当研究设计本身有缺陷时，媒体渲染的风险数字，可能制造的是不必要的焦虑，而不是真正的健康收益。

自闭症的成因研究是个艰难领域。遗传因素占大头，环境因素也在被探索，但"环境因素"具体是什么、怎么作用，科学界还在摸索。在这种背景下，一篇"大数据 fishing expedition "（数据钓鱼 expedition ）式的论文，配上吓人的百分比，很容易抢占注意力——但对真正理解问题帮助有限。

五、一个关于"相关性"的提醒

这件事给我们的日常阅读提个醒：看到"X 与 Y 相关"的研究，先问三个问题——

第一，是预注册研究还是事后探索？前者有明确假设，后者容易"数据驱动编故事"。

第二，检验了多少次？100 个职业测一遍，和 3 个职业测一遍，"显著结果"的可信度完全不同。

第三，样本量支撑得住结论吗？29 个人的 59% 增幅，和 2900 个人的 15% 增幅，后者可靠得多。

丹麦这项研究，三关都没过。

所以它的真正价值，可能不是"发现了什么"，而是"展示了什么不该做"。Frith 和 Hoekstra 的批评，比论文本身更有教育意义——它们提醒读者，也提醒研究者：在复杂疾病的成因探索中，统计显著性不等于科学意义，相关性更不等于因果性。

至于想当妈的女性该做什么？答案和这项研究出现之前一样：选自己喜欢的工作，该体检体检，该放松放松。别让一个基于 29 个人的百分比，替你人生做决策。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.