四大顶级期刊中BMJ于2025年7月发表了一篇题为“Dealing with continuous variables and modelling non-linear associations in healthcare data: practical guide.”文章,对在医学研究中如何更加合理处理连续性变量和非线性关联进行了详细的讨论。
在上一篇推文中,我们讨论了处理连续变量时简单分类和假设线性关系的弊端,并通过一个案例研究展示了这些方法的不足。详见:
在这篇文章中,我们将深入探讨两种主流的非线性建模方法:限制立方样条(RCS)和分数多项式(FP),并比较它们的优缺点。
限制立方样条(RCS)
限制立方样条是一种灵活的建模方法,通过将连续变量分成多个区间,并在每个区间内拟合多项式函数,从而捕捉非线性关系。
其主要特点包括:
局部拟合:在每个区间内拟合多项式函数,能够捕捉变量在不同区间内的变化。
连续性:通过在节点(knots)处平滑连接,确保整体函数的连续性。
稳健性:在数据点较少的尾端强制线性,减少异常值的影响。
灵活性:可以根据样本量和研究目标选择合适的节点数量,通常3-5个节点较为常见。
RCS 的主要缺点是模型复杂度较高,解释系数较为困难。不过,通过图形化展示,可以直观地理解变量之间的关系。
分数多项式(FP)
分数多项式通过在一组预定义的幂次中选择最佳拟合,允许变量的幂次不是整数。其主要特点包括:
全局拟合:在整个数据范围内拟合多项式函数,适合捕捉全局趋势。
简洁性:模型表达式简洁,系数易于解释,适合写入论文。
灵活性:通过选择不同的幂次,可以拟合多种非线性关系。
计算效率:通常比 RCS 更快,适合大规模数据集。
FP 的主要缺点是对尾端数据敏感,可能导致整体形状的扭曲。
两种方法的比较
拟合效果:在大多数情况下,RCS 和 FP 的拟合效果相似。RCS 在处理尾端数据时更为稳健,而 FP 在表达和解释上更为简洁。
适用场景:如果研究目标是预测,且样本量较大, RCS 是更好的选择;如果目标是解释,且需要简洁的表达式, FP 可能更适合。
软件支持与代码实现
R和 Stata 均提供了丰富的函数来实现非线性建模方法。以下是一些常用的包和函数:
R:
{rms}:提供 rcs() 和 lsp() 函数,支持限制立方样条和线性样条。
{mfp}:提供 fp() 函数,支持分数多项式。
{splines}:提供 bs() 和 ns() 函数,支持 B 样条和自然样条。
Stata:
mkspline:支持线性和限制立方样条。
fp :支持分数多项式。
实际应用中的注意事项
样本量:在样本量较小时,非线性建模可能会导致过拟合。建议在建模前进行样本量计算,确保有足够的数据支持复杂的模型。
变量选择:在多变量模型中,建议使用逐步回归或 LASSO 等方法选择重要的变量,避免过度拟合。
模型验证:使用交叉验证或自助法( bootstrapping )验证模型的稳定性和预测能力。
结果解释:通过图形化展示和表格形式呈现结果,确保研究结果的可解释性和可重复性。
总结
限制立方样条(RCS)和分数多项式(FP)都是强大的非线性建模工具。选择哪种方法取决于研究的具体目标、样本量和软件支持。在实际应用中,建议通过图形化展示来解释模型结果,确保研究的准确性和可靠性。无论选择哪种方法,都应避免简单分类和假设线性关系,以充分利用连续变量的信息。
参考文献:BMJ. 2025 Jul 16;390:e082440. doi: 10.1136/bmj-2024-082440.
医咖会9周年
惊喜第一弹来啦!
医咖会基础会员全面大升级,赶快去领取一年基础会员!
基础会员权益:28张基础课程券,基础课程均可兑换!医咖会SCI-AI工具,科研内容训练,回复更专业!
点击“阅读原文”/应用商店搜索/扫码下载医咖会APP,登录后,弹窗领取基础会员!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.