![]()
2024年初,一家医疗科技公司上线了一个患者再入院预测模型。测试集准确率94%,运营团队用它决定优先给谁打随访电话。他们以为再入院率会降。
结果没降。模型捕捉了所有相关性:高龄、特定邮编、特定出院诊断。测试指标漂亮,混淆矩阵标准。但团队按预测行动后,数据里的关系变了。被标记为高风险的患者接到额外电话后,情况没改善。真正反复住院的是另一群人:买不起药、没车去复诊、独居没人照顾。预测再入院的变量,和导致再入院的变量,根本不是一回事。
模型学会了"谁会回来",没学会"为什么回来"或"该怎么办"。这就是混淆变量(confounding)的陷阱。2026年,解决它的工具终于成熟了。
用体温计调空调:关联推理的边界
机器学习(ML)只做一件事:在数据里找模式,预测结果。这叫关联推理(associational reasoning)。垃圾邮件过滤、图像分类、推荐系统,这套玩得转。模式进,模式出。
但业务方很少问"接下来会发生什么"。他们问"我们该做什么"。涨价吗?改治疗方案吗?给折扣吗?
这是因果问题。用关联模型回答因果问题,就像用体温计调空调。体温计告诉你现在几度,不告诉你拧旋钮后会发生什么。
2011年图灵奖得主Judea Pearl把这套框架理清楚了。他的因果图(causal diagrams)和do-演算(do-calculus)给"干预"和"反事实"提供了数学语言。问题是,这些工具长期停留在论文里。想用在真实业务场景,门槛太高。
![]()
2023到2026年,情况变了。Python库从0到成熟,企业开始招"因果推断工程师",顶会论文里因果方法的比例三年翻倍。这不是学术圈的自嗨,是预测模型在决策场景里反复撞墙后的必然。
从"预测谁流失"到"挽留谁划算"
拿用户流失预测举例。传统模型告诉你"这用户90%概率下个月走",运营问"那我给他发优惠券有用吗",模型沉默。因为训练数据里,"收到优惠券"和"留下"高度相关——但那是因为过去只给高价值用户发券。模型把"高价值"和"收到券"的混杂效应,算成了券的效果。
因果推断的做法是:用工具变量(instrumental variables)、倾向得分匹配(propensity score matching)、或双重机器学习(double machine learning)分离出真正的因果效应。不是预测谁会留下,而是估计"对这个人,发券的边际收益是多少"。
Netflix 2019年公开过一个案例。他们用因果推断重新评估了缩略图A/B测试,发现传统关联分析高估了某些图片的点击增益——那些图片恰好被分给了本来就更活跃的用户群。修正后,推荐系统的长期留存指标提升了几个点。
医疗领域更敏感。再入院预测模型如果只看相关性,可能建议"给高龄患者更多关注"。但高龄只是伴随变量,真正可干预的是药物依从性、交通支持、居家护理。因果模型能定位这些杠杆点,关联模型只会让你在最显眼的相关性上浪费资源。
工具成熟:从论文到pip install
2026年的关键变化是工程化。DoWhy、EconML、CausalML这些库把识别策略(identification strategies)和估计方法打包成了sklearn风格的API。数据科学家不需要手写倾向得分权重,三行代码跑完双重稳健估计。
![]()
更深层的是工作流整合。Uber开源的CausalML直接对接Spark,微软的EconML支持任意scikit-learn模型作为基础学习器。因果推断不再是独立的研究项目,是特征工程之后的标准步骤。
但工具成熟不代表问题消失。因果推断需要假设:无未观测的混杂变量、SUTVA(稳定单位处理值假设)、正确的因果图结构。这些假设在真实业务里几乎永远不完全成立。2026年的进步是:工具让"检验假设的敏感性"变得可行,而不是假装假设成立。
比如,你可以跑一组边界分析(bounds analysis),看看"如果还有一个混杂变量,效应估计会偏移多少"。或者用地图方法(bounds method)在不假设因果图完全正确时,给出效应的上下界。这些在五年前需要手写推导,现在调包即可。
组织层面的摩擦比技术更难
技术问题解决了,人的问题还在。很多数据科学团队被KPI绑在预测准确率上。AUC提升0.01能写进周报,"估计因果效应的置信区间"不能。
更麻烦的是业务方的认知惯性。"模型说这批人风险高,我们先打电话"——这种决策逻辑太自然了,自然到没人追问"打电话这个动作本身会不会改变风险"。因果推断要求你在行动前就定义清楚:处理变量是什么,结果变量是什么,混淆变量怎么控制。这对习惯了"先上线再迭代"的团队是额外负担。
但也有反例。某头部电商平台2024年重组了算法团队,把"因果效应估计"写进需求文档的强制章节。不是每个项目都做,但涉及资源分配决策的必须做。一年后,他们的补贴ROI测算误差从±40%降到了±15%。
这个案例被写在内部复盘里,没对外发。但招聘市场上,"有因果推断项目经验"的溢价在涨。不是因为这个头衔好听,是真的能避免把94%准确率的模型做成决策灾难。
那家公司后来怎么办的?他们没放弃预测模型,加了一层因果分析:用观察数据估计"随访电话对再入院的因果效应",发现对"药物依从性差"的亚组有效,对"交通困难"的亚组无效。运营策略从"按风险分数打电话"改成"按可干预因素匹配干预手段"。再入院率开始降了——比预期慢,但方向对了。
如果你的模型预测很准,决策却很糟,你缺的可能不是更多数据,是另一套问题框架。2026年,这套框架的门槛已经低到可以放进标准工具箱。问题是:你的团队愿意为此重写KPI吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.