做AI研究的都懂ablation study——砍掉某个模块看效果,像拆乐高看哪块是承重墙。但Towards AI团队发现,这堵墙可能是纸糊的。
他们复现了某顶会论文的实验,按作者描述的方法砍掉"关键模块",结果模型表现纹丝不动。换种方式砍?性能暴跌。问题出在"怎么砍"上:作者用了特定初始化种子,让被砍的模块恰好处于"休眠态"——相当于拆掉一个本来就没通电的灯泡,然后宣布黑暗不是它造成的。
团队用3行代码验证了漏洞:固定随机种子后重复ablation,同一模块的"重要性"波动高达40%。「你的结论可能只是随机数的函数。」
更麻烦的是审稿机制。 reviewers平均花4小时审一篇论文,ablation细节往往藏在附录第17页。Towards AI统计了NeurIPS 2023的50篇论文,31篇的ablation设置存在模糊空间——不是造假,是"恰好"选择了最有利的数据呈现方式。
团队开源了检测工具AblationGuard,能自动扫描可疑的种子依赖和参数耦合。上线一周,Hugging Face上已有12篇论文被标注"ablation结果存疑"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.