在生物学、医学诊断、金融建模乃至社会科学等领域,预测是指导决策的关键。然而,传统的预测方法,例如最常用的最小二乘法(least-squares method),其核心目标是最小化平均误差——也就是让预测值尽可能地接近实际值。这种方法在很多情况下表现良好,但往往忽略了一个更关键的质量指标:预测结果与实际结果的“一致性”(Agreement)。
![]()
最近,由里海大学统计学家 Taeho Kim 领导的一个国际数学团队,开发出了一种名为最大一致性线性预测器(Maximum Agreement Linear Predictor, MALP)的新预测方法。MALP 的目标不再是仅仅追求最小的平均误差,而是要最大限度地提高预测值和真实值之间的一致性。
为什么一致性比误差更重要?
最小二乘法可能会生成一个平均误差很小的模型,但其预测结果在细节上可能与实际值存在系统性的偏差。想象一下,在一张展示预测值与实际值的散点图上,如果数据点紧密地沿着一条45 度角斜线排列,那就意味着模型不仅是准确的(预测值接近真实值),而且是精确的(预测值和真实值之间的偏差一致),实现了高度的一致性。
然而,传统的皮尔逊相关系数(Pearson's correlation coefficient)虽然可以衡量线性关系的强度,但它并不能确保这种 45 度角的对齐。它可能会对斜率为 50 度甚至 75 度的关系给出高分。
MALP 算法正是为了解决这个问题而生。它不是最小化平均误差,而是通过优化一个名为一致性相关系数(Concordance Correlation Coefficient, CCC)的指标来工作。CCC 专门衡量数据点与 45 度角对齐线的契合程度,将预测的精确性(数据点的聚集程度)和准确性(数据点与参考线的接近程度)结合起来进行评估。
真实世界中的测试结果
研究团队通过计算机模拟和真实世界的数据集对 MALP 进行了测试,包括眼科扫描数据和体脂测量数据。
- 眼科扫描数据:在一个比较两种不同眼科光学相干断层扫描(OCT)设备的实验中,医生需要将旧设备的读数转换为新设备的读数,以确保跨设备和长时间测量的一致性
- 结果显示,MALP 产生的预测值与旧设备的实际测量结果更接近,实现了更高的一致性。而最小二乘法则在减少平均误差方面略胜一筹。
- 体脂测量数据:在预测人体脂肪含量(通常需要昂贵的水下测量)时,研究人员使用简单易得的体重和腹围等数据进行估计。
- 结果再次证实:MALP 提供的预测值与实际体脂百分比的一致性更高,而最小二乘法在平均误差上稍低。
总结与展望
这项研究提醒我们,在选择预测模型时,必须根据项目的具体目标来决定:
- 如果最小化平均误差是首要目标,那么传统的最小二乘法依然是有效的工具。
- 如果预测值与真实值的高度一致性(即预测值与真实值 1:1 对齐)是关键,那么 MALP 算法是更优的选择。
MALP 作为一个强大的新工具,将大大增强统计学家和数据科学家在处理需要高保真一致性的数据时的预测能力,为提升跨学科应用的准确性和可靠性奠定了新的数学基础。研究团队的下一步目标是将 MALP 从目前的线性预测范畴扩展到更一般的非线性预测领域,从而移除其线性限制,让“最大一致性预测器”能够适用于更广泛的复杂系统。
参考资料:DOI:10.48550/arXiv.2304.04221
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.