94%准确率模型翻车：这家医疗公司把相关性当成了因果|算法|新论文

94%准确率模型翻车：这家医疗公司把相关性当成了因果

2026-03-27 17:54:13　来源: 码上闲叙

北京举报

分享至

2024年初，一家医疗科技公司上线了一个患者再入院预测模型。测试集准确率94%，运营团队用它决定优先给谁打随访电话。他们以为再入院率会降。

结果没降。模型捕捉了所有相关性：高龄、特定邮编、特定出院诊断。测试指标漂亮，混淆矩阵标准。但团队按预测行动后，数据里的关系变了。被标记为高风险的患者接到额外电话后，情况没改善。真正反复住院的是另一群人：买不起药、没车去复诊、独居没人照顾。预测再入院的变量，和导致再入院的变量，根本不是一回事。

模型学会了"谁会回来"，没学会"为什么回来"或"该怎么办"。这就是混淆变量（confounding）的陷阱。2026年，解决它的工具终于成熟了。

用体温计调空调：关联推理的边界

机器学习（ML）只做一件事：在数据里找模式，预测结果。这叫关联推理（associational reasoning）。垃圾邮件过滤、图像分类、推荐系统，这套玩得转。模式进，模式出。

但业务方很少问"接下来会发生什么"。他们问"我们该做什么"。涨价吗？改治疗方案吗？给折扣吗？

这是因果问题。用关联模型回答因果问题，就像用体温计调空调。体温计告诉你现在几度，不告诉你拧旋钮后会发生什么。

2011年图灵奖得主Judea Pearl把这套框架理清楚了。他的因果图（causal diagrams）和do-演算（do-calculus）给"干预"和"反事实"提供了数学语言。问题是，这些工具长期停留在论文里。想用在真实业务场景，门槛太高。

2023到2026年，情况变了。Python库从0到成熟，企业开始招"因果推断工程师"，顶会论文里因果方法的比例三年翻倍。这不是学术圈的自嗨，是预测模型在决策场景里反复撞墙后的必然。

从"预测谁流失"到"挽留谁划算"

拿用户流失预测举例。传统模型告诉你"这用户90%概率下个月走"，运营问"那我给他发优惠券有用吗"，模型沉默。因为训练数据里，"收到优惠券"和"留下"高度相关——但那是因为过去只给高价值用户发券。模型把"高价值"和"收到券"的混杂效应，算成了券的效果。

因果推断的做法是：用工具变量（instrumental variables）、倾向得分匹配（propensity score matching）、或双重机器学习（double machine learning）分离出真正的因果效应。不是预测谁会留下，而是估计"对这个人，发券的边际收益是多少"。

Netflix 2019年公开过一个案例。他们用因果推断重新评估了缩略图A/B测试，发现传统关联分析高估了某些图片的点击增益——那些图片恰好被分给了本来就更活跃的用户群。修正后，推荐系统的长期留存指标提升了几个点。

医疗领域更敏感。再入院预测模型如果只看相关性，可能建议"给高龄患者更多关注"。但高龄只是伴随变量，真正可干预的是药物依从性、交通支持、居家护理。因果模型能定位这些杠杆点，关联模型只会让你在最显眼的相关性上浪费资源。

工具成熟：从论文到pip install

2026年的关键变化是工程化。DoWhy、EconML、CausalML这些库把识别策略（identification strategies）和估计方法打包成了sklearn风格的API。数据科学家不需要手写倾向得分权重，三行代码跑完双重稳健估计。

更深层的是工作流整合。Uber开源的CausalML直接对接Spark，微软的EconML支持任意scikit-learn模型作为基础学习器。因果推断不再是独立的研究项目，是特征工程之后的标准步骤。

但工具成熟不代表问题消失。因果推断需要假设：无未观测的混杂变量、SUTVA（稳定单位处理值假设）、正确的因果图结构。这些假设在真实业务里几乎永远不完全成立。2026年的进步是：工具让"检验假设的敏感性"变得可行，而不是假装假设成立。

比如，你可以跑一组边界分析（bounds analysis），看看"如果还有一个混杂变量，效应估计会偏移多少"。或者用地图方法（bounds method）在不假设因果图完全正确时，给出效应的上下界。这些在五年前需要手写推导，现在调包即可。

组织层面的摩擦比技术更难

技术问题解决了，人的问题还在。很多数据科学团队被KPI绑在预测准确率上。AUC提升0.01能写进周报，"估计因果效应的置信区间"不能。

更麻烦的是业务方的认知惯性。"模型说这批人风险高，我们先打电话"——这种决策逻辑太自然了，自然到没人追问"打电话这个动作本身会不会改变风险"。因果推断要求你在行动前就定义清楚：处理变量是什么，结果变量是什么，混淆变量怎么控制。这对习惯了"先上线再迭代"的团队是额外负担。

但也有反例。某头部电商平台2024年重组了算法团队，把"因果效应估计"写进需求文档的强制章节。不是每个项目都做，但涉及资源分配决策的必须做。一年后，他们的补贴ROI测算误差从±40%降到了±15%。

这个案例被写在内部复盘里，没对外发。但招聘市场上，"有因果推断项目经验"的溢价在涨。不是因为这个头衔好听，是真的能避免把94%准确率的模型做成决策灾难。

那家公司后来怎么办的？他们没放弃预测模型，加了一层因果分析：用观察数据估计"随访电话对再入院的因果效应"，发现对"药物依从性差"的亚组有效，对"交通困难"的亚组无效。运营策略从"按风险分数打电话"改成"按可干预因素匹配干预手段"。再入院率开始降了——比预期慢，但方向对了。

如果你的模型预测很准，决策却很糟，你缺的可能不是更多数据，是另一套问题框架。2026年，这套框架的门槛已经低到可以放进标准工具箱。问题是：你的团队愿意为此重写KPI吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

94%准确率模型翻车：这家医疗公司把相关性当成了因果

用体温计调空调：关联推理的边界

从"预测谁流失"到"挽留谁划算"

工具成熟：从论文到pip install

组织层面的摩擦比技术更难

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

女子被骗与"未婚"高管发生关系 得知对方年薪百万举报

女子被骗与"未婚"高管发生关系 得知对方年薪百万举报

一场九球狂欢，各路神仙批量下凡

马頔一句话，孙杨妈妈怒骂节目组2小时

苏州，率先进入牛市

技术天花板再摸高 全能型的奕境X9首秀

态度原创

中国高等教育学会语文教育专业委员会举办2026年中小学阅读教育研讨会

80亿投资！浙商总部基地+海口北站，金沙湾这是要起飞啊！

5年的备孕道路说清楚DHEA 正确服用方法

没人买了：NAND现货价格一个月暴跌40%！

女子被骗与"未婚"高管发生关系得知对方年薪百万举报

女子被骗与"未婚"高管发生关系得知对方年薪百万举报

技术天花板再摸高全能型的奕境X9首秀