网易首页 > 网易号 > 正文 申请入驻

Pearl算法7次验证6次碾压,药厂260亿打水漂的元凶找到了

0
分享至

医药研发平均烧掉26亿美元才能上市一款新药,其中超过半数死在靶点选错上。这不是技术瓶颈,是方法论的根本缺陷——我们用相关性找药,却期待因果性的疗效。

一位叫NeoRx的开发者做了个实验:把Pearl的因果推断(Causal Inference,一种从数据中识别因果关系而非相关性的统计方法)搬进药物发现,连测7种疾病。结果6次碾压传统相关性分析,唯一一次"翻车"反而暴露了行业最隐蔽的坑。

两套流水线,同一个知识图谱

实验设计很直接。对每种疾病,NeoRx跑两条完全独立的靶点筛选管道:

相关性管道:按原始关联分数排序,谁和疾病"看起来有关"就排前面

因果管道:Pearl因果推断 + 生物学智能 + ChEMBL病原体数据 + 疾病特异性评分

验证标准只有一个:和FDA已批准药物的靶点重合度。这是硬通货——能上市的药,靶点至少经过了临床验证。

HIV是因果管道最漂亮的胜仗。POL基因编码的蛋白酶、逆转录酶、整合酶,在NeoRx里排第1位,置信度0.990。这恰好是26种以上FDA批准抗逆转录药物的作用靶点,包括依非韦伦、多替拉韦、达芦那韦。

更细的是人类靶点排名。CCR5排在第11位,带着HOST_INVASION(宿主入侵)分类标签——这正是HIV进入细胞的门把手,Maraviroc等药物的核心靶点。

相关性管道?它可能把POL埋在几百个"统计学显著"的噪声里。

6:1的胜率,和那个"失败"的教训

7种疾病测完,因果管道6次显著优于相关性方法。但第7次"没赢"的那场,作者说"教会了我最重要的一课"。

原文没展开细节,但逻辑不难推:因果推断不是万能钥匙。当疾病机制本身模糊、知识图谱覆盖不足、或者因果链条过长时,算法会诚实地说"我不知道"——而相关性分析会继续给你一份看起来很漂亮的长名单。

这在药厂是灾难性的日常。临床前研究把某个蛋白敲除,小鼠症状改善,团队欢呼"找到靶点"。进了一期临床才发现,那个蛋白和疾病只是共表达,真正的因果节点藏在更上游。26亿美元里,相当一部分就是这样烧掉的。

Pearl的框架核心是做减法。不是"这些基因都和糖尿病相关",而是"如果干预这个基因,血糖会不会变"——中间隔着do-calculus(Pearl提出的因果演算,用于从观测数据推导干预效果)的严格推导。

为什么现在才有人做?

因果推断不是新东西。Pearl的《因果论》出版于2009年,图灵奖都拿了五年。但药物发现的知识图谱直到近年才成熟到能支撑大规模验证——ChEMBL的化合物-靶点-疾病数据、GTEx的表达谱、ClinVar的变异注释,这些基础设施是2015年后才串起来的。

另一个障碍是文化。生物信息学团队习惯了p值和富集分析,因果图(Causal DAG,有向无环图,用于显式建模变量间的因果关系)需要领域专家坐下来画节点和边。这很慢,很烦,而且不像深度学习那样能吹"AI发现新药"的PR稿。

NeoRx的做法是混合:算法跑因果结构,但注入人工整理的生物学规则。比如HOST_INVASION这类标签,不是从数据里统计出来的,是病毒学家几十年积累的常识。这种"人机回环"在纯ML派看来不够优雅,但在FDA面前更管用。

作者的身份也有意思——"Polymath engineer",后端和AI系统出身,现在做因果推理和分子生物工程。这种跨界在药物发现领域越来越常见。传统药企的化学家主导模式,正在被懂计算的人撕开口子。

从HIV到其他疾病的迁移

HIV的胜利有特殊性。病毒基因组小,生命周期清楚,靶点和表型的因果链短。POL编码的酶直接参与复制,干扰它病毒就死——这种"机械论清晰"是因果推断的舒适区。

但慢性病就麻烦多了。2型糖尿病涉及胰岛素抵抗、β细胞衰竭、炎症、肠道菌群,因果网络稠密得像蜘蛛网。阿尔茨海默更是重灾区,淀粉样蛋白假说折腾二十年,最近才承认可能找错了靶。

NeoRx的第七次"失败"大概率栽在这种复杂疾病上。这不是算法的失败,是暴露了我们知识边界的诚实信号。相关性方法的问题是会给你虚假信心,因果推断的问题是会直接告诉你"这题超纲"。

对药厂来说,后者其实更值钱。早死早超生,临床前砍掉一个假阳性靶点,比二期临床才发现省几个亿。

作者没透露另外5种胜利的疾病名单,但提到"6次显著优于"——这个比例本身就在挑战行业惯例。如果因果推断能在半数以上疾病类型里稳定胜出,它就不再是学术玩具,而是必须纳入标准流程的基础设施。

ChEMBL的整合也很关键。这个欧洲生物信息研究所维护的数据库,收录了超过200万种化合物和1.4万个靶点的实验数据。NeoRx把它接进病原体分析管道,意味着因果推断不只是看"这个基因变,疾病变",还要看"有没有分子能碰这个基因"。

这是药物发现和基础医学研究的根本区别。后者可以满足于"理解机制",前者必须回答"能不能成药"。

当"第二大脑"遇见分子设计

有意思的是,这位作者的另一篇文章被Medium推荐在旁边:《我用Karpathy的LLM Wiki建了套自维护知识库》。Andrej Karpathy去年鼓吹"氛围编程"(Vibe Coding,指完全依赖AI生成代码而不深入理解),今年却转向用AI整理研究笔记——不是写代码,是建第二大脑。

这两条线的交汇点可能是:药物发现的知识图谱本身,也需要类似的自维护机制。ChEMBL每月更新,文献每天爆炸,手工维护因果图的节点和边不现实。LLM提取关系、人类专家审核、因果算法验证——这个三角可能是下一代工具的形态。

Pearl本人一直在批评AI领域的"曲线拟合"狂热。他的观点是,没有因果模型的深度学习,只是在更高维度重复相关性错误。药物发现是这句话最昂贵的注脚。

NeoRx的实验规模还很小——7种疾病,对比两种方法。但方向是对的:用已批准药物做回测,建立可量化的验证标准。这比"我们预测了100个靶点,等十年后看有没有成药"的套路诚实得多。

作者说第七次失败"教会了最重要的一课"。我猜这课是:因果推断的边界条件,和它的成功案例同样值得产品化。知道什么时候不该信算法,是成熟工具的标志。

药厂的260亿美元学费,有多少付给了"统计学显著但因果错误"的靶点?NeoRx没给这个数字,但6:1的胜率已经够刺耳了。如果行业开始系统性采用因果筛选,最先被淘汰的可能是那些靠p值混饭吃的生物信息学供应商。

最后一个细节:POL在HIV里的置信度是0.990,不是1.0。算法留了0.01的谦逊,这0.01里藏着所有还没被发现的相互作用、脱靶效应、个体差异。绝对置信在科学里是红旗,0.990才是负责任的输出。

当因果推断开始学会说"我不知道",而相关性分析还在滔滔不绝时,你选择信哪个?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
将对决赵心童!39岁丁俊晖爆发:10-5淘汰世界第25 连续2年进16强

将对决赵心童!39岁丁俊晖爆发:10-5淘汰世界第25 连续2年进16强

风过乡
2026-04-20 19:41:28
美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

澎湃新闻
2026-04-20 15:42:26
你怕了?日舰闯台海48小时后,中国军舰开到家门口!日本网友崩了

你怕了?日舰闯台海48小时后,中国军舰开到家门口!日本网友崩了

史行途
2026-04-20 22:12:22
人心散了!34分惨败引发内讧,赵继伟发社媒表达不满,怒喷队友

人心散了!34分惨败引发内讧,赵继伟发社媒表达不满,怒喷队友

南海浪花
2026-04-20 23:37:05
绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

阿七说史
2026-04-20 15:10:26
争议!赵继伟惨败夜发“呵呵” 自责“想找地缝钻进去”引热议

争议!赵继伟惨败夜发“呵呵” 自责“想找地缝钻进去”引热议

醉卧浮生
2026-04-20 22:28:30
罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

社会日日鲜
2026-04-21 05:24:33
何润东亮相苏超仅3天,政治立场被扒底朝天,原来我们都被骗了

何润东亮相苏超仅3天,政治立场被扒底朝天,原来我们都被骗了

天马幸福的人生
2026-04-21 02:08:10
撤下主力放弃比赛,替补却反败为胜!哈登都看傻了

撤下主力放弃比赛,替补却反败为胜!哈登都看傻了

林子说事
2026-04-21 02:26:26
罚15亿!拼多多一员工故意关门,对抗调查,导致执法人员手指骨折

罚15亿!拼多多一员工故意关门,对抗调查,导致执法人员手指骨折

魔都姐姐杂谈
2026-04-19 08:03:27
全场哗然!29岁女子在相亲舞台称“娶我一定让你爽”,王婆也懵了

全场哗然!29岁女子在相亲舞台称“娶我一定让你爽”,王婆也懵了

火山詩话
2026-04-19 06:42:57
孕晚期女子征婚:接受腹中胎儿,不要彩礼,评论区一点面子都不给

孕晚期女子征婚:接受腹中胎儿,不要彩礼,评论区一点面子都不给

谭谈社会
2026-04-21 00:12:25
胡歌当年居然没有和左一这个美女在一起!太可惜了吧!

胡歌当年居然没有和左一这个美女在一起!太可惜了吧!

小椰的奶奶
2026-04-20 02:15:20
当年张柏芝抱着lucas后面居然是大s,到现在才发现,真美好

当年张柏芝抱着lucas后面居然是大s,到现在才发现,真美好

TVB的四小花
2026-04-21 00:03:30
美专家:美国在伊朗正面临四个大问题

美专家:美国在伊朗正面临四个大问题

环球时报国际
2026-04-21 00:16:12
台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

老范谈史
2026-04-20 22:13:51
被苹果、华为干倒的诺基亚,又杀回来了!

被苹果、华为干倒的诺基亚,又杀回来了!

大佬灼见
2026-04-19 10:28:53
日本将地震震级调整至7.5级

日本将地震震级调整至7.5级

界面新闻
2026-04-20 16:30:33
金像奖成功收官:四大尴尬,三大暖心,两个意外发现,谢霆锋赢麻

金像奖成功收官:四大尴尬,三大暖心,两个意外发现,谢霆锋赢麻

八斗小先生
2026-04-20 16:37:47
国际奥委会明确表态,对2036年奥运会的申办情况很是失望

国际奥委会明确表态,对2036年奥运会的申办情况很是失望

安安说
2026-04-20 11:09:20
2026-04-21 08:15:00
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
1587文章数 36关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

特朗普两天三次反转 伊朗学习特朗普玩起"极限施压"

头条要闻

特朗普两天三次反转 伊朗学习特朗普玩起"极限施压"

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
旅游
教育
亲子
健康

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

旅游要闻

阎锡山故居:一座都督府,半部民国史

教育要闻

加权费马点模型,一个视频学明白!

亲子要闻

大体重孩子家长要关注孩子运动足部压力是否正常

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版