经济学终于变得值得信赖了吗？|文章|论文|心理学|社会科学

经济学终于变得值得信赖了吗？

分享至

转载声明：除调整格式外，不得对原文做改写、改编。原创不易，谢谢！E-mail:yellow@aliyun.com

♥声明：本文为原创文本，非生成式，转载请注明出处！

商务咨询/顾问/请@yellowscholar♥作者：黄先生斜杠青年

#实用主义 #经济方法

“有两件事你最好别看正在发生的事：香肠和计量经济学的估计。这是我们所处的一种令人悲哀且明显不科学的状况。几乎没人认真对待数据分析。或者更准确地说，几乎没人认真对待别人的数据分析。”

这正是经济学家埃德·利默在他1983年著名文章《让我们从计量经济学中剔除骗局》中对实证研究提出的尖锐批评。当时，他的意思是研究人员知道不要太信任其他研究者的估计，因为他们对研究过程中的任意选择非常敏感。但自利默批评以来的几十年里，受过教育的公众往往认真对待同行评审的研究。

这种情况开始改变，是因为医生约翰·伊奥安尼迪斯2005年发表了热门文章《为什么大多数已发表的研究结果都是错误的》。2010年代的“复制危机”迅速引发关注，社交媒体的兴起也助长了这一担忧。心理学首先受到冲击，最严重，始于2011年发表的文章《假阳性心理学》。但经济学和其他社会科学也未能幸免。

科学的核心前提是研究应当是可复制的。如果一位科学家设计了一个测量物理常数（如光速）的实验，并且他们对实验的记录足够充分，其他科学家也应该能够进行同样的实验并得到相同的结果。如果一个实验室的结果无法在其他地方复制，那么就像冷聚变一样，它们很可能不是真实的。

除了物理等硬科学，我们不期望获得同样的精度。也许一项试验发现某种药物减少了17%的心脏病发作，而另一项则发现了14%。但要让研究有效地指导我们的行动，研究至少需要具备一定的可复制性。如果有一次试验发现某种药物有效，但后续的每一次试验都发现没有效果，那么人们大概就不应该服用该药物。

社会科学研究花了几十年时间产出相当于炒作一种最终证明无用或有害药物的研究。2015年，由布莱恩·诺塞克领导的团队尝试复制发表在顶级心理学期刊上的100项实验，结果不到一半的实验显示出统计学上显著的发现。同年发布的美联储讨论文件也发现，已发表的经济学论文表现同样糟糕。

如果顶级期刊发表的同行评审研究都不可信，那我们还能信任什么？自2015年以来，一些流行的答案是“什么都没有”，或者是常识和意识形态基础的先验信念的混合。但在复制危机之后进行的科学改革，或许终于开始以可复制、可信赖的研究形式结出成果。

漂亮国均方是众多依赖社会科学研究指导决策的机构之一。当复制危机引发对这项研究的质疑时，他们决定采取行动。以资助互联网和自动驾驶汽车等硬技术突破而闻名的国房高级项目研究局（ADA）为布莱恩·诺塞克和开放科学中心提供了资金，进行社会科学领域的大规模复制研究。其目的是测试这项研究的可靠性，以及在哪些研究类型中是否存在任何可信度的共性。

这项工作的结果刚刚发表在《自然》杂志的特刊上。来自社会科学领域的数百名研究者（其中之一）试图复制发表在顶级社会科学期刊上的数百项论文。总体来说，我们发现情况从糟糕的开始有所改善。例如，大多数论文并未分享据称产生结果的数据或代码，但它们比2009年研究期开始时更有可能分享。

我是斜杠青年，一个PE背景的杂食性学者！♥致力于剖析如何解决我们这个时代的重大问题！♥使用数据和研究来解真正有所作为的因素！

图1：按发布年份划分的数据和代码可用性

来源：自然

经济学和挣痣学在这方面表现相对不错，约有一半的文章共享数据或代码，而教育领域的文章不到十分之一。经济学同样具有相对较好的“可重复性”，大多数文章都达到了这一低门槛。可重复性指的是，如果其他研究者以完全相同的方式分析了一篇已发表文章所说使用的完全相同的数据集，他们是否得到了完全相同的结果。经济学论文中，他们有67%的比例得出完全相同的结果，这一比例高于其他所有研究领域。

图2：按场的可重复性

来源：自然

我称之为低门槛，是因为这仅仅意味着最初的研究人员记录得足够好，以至于其他人可以复制，而不是说他们发现的内容是正确的（反过来，如果他们没记录得足够好，也不一定意味着他们错了）。我们怎么知道他们是不是对的？

《自然》期刊的其他论文测试了结果对分析方法调整的敏感度。如果有几种合理的数据分析方法，最初的研究人员是否偶然（或选择性地）选择了唯一能带来统计显著结果的方法？还是大多数合理的方法会得出差不多相同的结论？

在这里，大多数论文都可以称为“方向正确”。在测试其鲁棒性的尝试中，74%的结果与原始结果方向一致，但只有34%发现效应量非常接近原样本。

当尝试在新数据集中复现主张时（而不仅仅是用现有数据使用新方法），只有一半人发现了与原始数据相同方向的统计学显著结果，且发现的效果不到原数据的一半。

总体而言，这表明已发表的社会科学研究通常夸大了效应的规模，并且常常声称那些可能不存在的效应。这远非理想，但依赖研究仍然比偶然好得多。例如，鲁棒性测试在与原论文相反方向的显著效应中仅有2%。

这对研究的消费者意味着什么？信任整篇文献而非单篇论文一直是个好主意。在经济学方面，《经济视角杂志》很好地以相对通俗易懂的方式总结了研究领域。

作为一个受《自然》论文启发的新经验法则，“将估计效应量减半”是最好的选择。如果一篇发表的论文说大学学位能提高工资100%，那么学位很可能确实提高了工资，但更像是40%到50%。2005年，约翰·约安尼迪斯曾表示“大多数已发表的研究结果都是错误的”。到了2026年，我们似乎已经改善到“大多数已发表的研究结果都被夸大了”。

了解更多时间深度剖析，尽在于此@黄先生斜杠青年

商业咨询和顾问业务，请@yellowscholar

关注我，带你先看到未来！♥

转载声明：除调整格式外，不得对原文做改写、改编。原创不易，谢谢！E-mail:yellow@aliyun.com

♥声明：本文为原创文本，非生成式，转载请注明出处！

商务咨询/顾问/请@yellowscholar♥作者：黄先生斜杠青年

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.