网易首页 > 网易号 > 正文 申请入驻

【专家视角】江西农业大学最新发文|基于多模型集成学习的大尺度流域水质预测——以中国鄱阳湖流域为例

0
分享至

来源:市场资讯

(来源:生态修复网)


SCI期刊:Journal of Contaminant Hydrology

英文题目:Water quality prediction based on multi-model ensemble learning in a large-scale basin: A case study of the Poyang Lake Basin, China

中文题目:基于多模型集成学习的大尺度流域水质预测——以中国鄱阳湖流域为例

发表时间:2026年3月27日

文章链接:https://doi.org/10.1016/j.jconhyd.2026.104933

研究背景

总磷(TP)是导致水体富营养化的关键指标,严重威胁河流与湖泊生态系统的健康。据《2024年中国生态环境状况公报》,我国评估的湖泊中77.1%水质劣于Ⅲ类,TP是主要超标指标。鄱阳湖作为我国最大淡水湖,其TP污染问题尤为突出——2024年全省18个监测断面中61.1%为Ⅳ类水质。流域是水质管理的基本单元,然而大尺度流域强烈的时空异质性给水质预测与精准管理带来巨大挑战。

研究意义

传统水质预测模型(如SWAT、HSPF)参数需求量大、计算复杂,在大尺度流域应用受限。机器学习(ML)模型虽具优势,但单一模型难以捕捉复杂的非线性关系,且易出现过拟合。本研究首次系统对比了13种单一ML模型与3种多模型集成学习方法在鄱阳湖流域TP预测中的表现,并采用SHAP算法揭示多尺度驱动机制,为大型流域水质预测与分区管理提供了科学范式。

研究目的

  1. 系统评估13种单一机器学习模型在大型流域TP预测中的性能,筛选最优基础模型;

  2. 对比Stacking集成(STK)、贝叶斯模型平均(BMA)和TOPSIS集成三种多模型集成方法的预测效果;

  3. 利用SHAP算法在全流域与子流域尺度揭示TP的驱动机制,为分区水质管理提供依据。

研究内容

  • 数据收集:收集2020–2023年鄱阳湖流域48个监测站点的月均TP浓度数据(经筛选得4512个有效样本),以及24个预测变量(气候、地形、土壤、土地利用、社会经济等);

  • 特征筛选:采用Spearman相关系数+VIF进行第一轮筛选,再用RFE-CV(递归特征消除交叉验证)结合RF、XGB、GBR进行第二轮筛选,最终保留15个预测变量;

  • 数据变换:对预测变量进行稳健标准化,对TP进行Box-Cox变换(λ=0.46)改善右偏分布;

  • 模型构建:

    • 13种单一ML模型(线性、树模型、神经网络、支持向量、邻域模型、广义加性模型);

    • 3种集成方法:STK(以弹性网为元模型)、BMA(基于LOO-CV的PSIS-LOO权重估计)、TOPSIS(熵权法确定评价指标权重);

  • 模型评估:采用KGE、CCC、R²、MAE、CRMSE、RMSE、r等指标,结合泰勒图、散点图、残差图进行三轮筛选;

  • 解释分析:基于最优单一模型(LGB)在全流域和8个子流域进行SHAP分析。

️ 研究区概况

鄱阳湖流域位于长江中游(24°29′–30°04′N,113°34′–118°28′E),总面积16.22万km²,涵盖8个子流域:饶河(RRB)、信江(XJRB)、修水(XSRB)、环鄱阳湖区(PLCA)、抚河(FRB)及赣江上、中、下游(GRBA、GRBB、GRBC)。流域属亚热带季风气候,降水集中于4–7月(占全年50%),地形地貌复杂,是大型流域水质研究的典型案例。


数据概况

  • TP数据:中国环境监测总站,2020–2023年逐4小时监测,经筛选计算月均值(4512个有效样本);

  • 气候数据:降水、气温、潜在蒸散发(1km)、日照时数(5km);

  • 地形数据:海拔(15弧秒)、坡度(1km);

  • 土壤数据:黏粒/粉粒/砂粒含量(90m)、土壤pH(1km);

  • 植被数据:NDVI(1km);

  • 土地利用数据:CLCD(30m),提取耕地、森林、草地、水域、裸地、不透水面占比;

  • 社会经济数据:县级统计年鉴(一产/二产GDP、城乡人口密度、粮食/经济作物播种面积)。

研究方法

  • 特征筛选:

    • 第一轮:Spearman相关系数(去除高度相关)+ VIF(>10剔除);

    • 第二轮:RFE-CV(递归特征消除+交叉验证),结合RF、XGB、GBR三种模型投票剔除弱相关变量;

  • 数据变换:

    • 预测变量:稳健标准化(RobustScaler);

    • 目标变量:Box-Cox变换(λ=0.46,最大似然估计);

  • 单一模型:13种(RR、BRR、EN、DT、RF、XGB、LGB、CB、GRNN、MLP、SVR、KNN、GAM);

  • 集成方法:

    • STK:以4个最优基础模型(LGB、CB、XGB、RF)为基学习器,弹性网(EN)为元模型;

    • BMA:基于PSIS-LOO计算后验概率权重;

    • TOPSIS:熵权法确定评价指标权重,计算综合得分归一化后加权;

  • 模型评估:三轮筛选(整体性能→局部拟合→泰勒图对比),10折交叉验证重复10次,贝叶斯优化超参数;

  • SHAP解释:基于最优单一模型(LGB),分析全流域与8个子流域的驱动因子重要性及影响方向。


研究结果

  1. 单一模型性能:

  • 集成树模型(LGB、CB、XGB、RF)整体预测性能最优,LGB最佳(训练集R²=0.7828,测试集R²=0.6506);

  • 线性模型(RR、EN、BR)严重欠拟合(R²<0.3),SVR与MLP受制于数据非线性,性能不佳;

  • 所有单一模型均存在明显泛化差距(测试集性能远低于训练集)。

集成模型性能:

  • STK表现最优:训练集R²=0.7882、MAE=0.0477、KGE=0.8413、CCC=0.8822;测试集R²=0.7832、MAE=0.0479、KGE=0.8380、CCC=0.8843;

  • BMA次之:训练集R²=0.7512,测试集R²=0.7487;

  • TOPSIS出现明显过拟合(测试集R²=0.6233);

  • STK较BMA的R²提升4.93%(训练)和4.61%(测试),MAE降低10.51%和10.13%。

SHAP全流域尺度:

  • 重要性排序:降水(Pr)> 耕地(Farm)> 黏粒含量(Clay%)> 不透水面(IS)> 海拔(Alt)> 城镇人口密度(UPD)> 农村人口密度(RPD)> 水域(Water)> 日照时长(SD)> 土壤pH;

  • 降水与TP正相关(冲刷非点源磷),农村人口密度、日照时数、经济作物播种面积、NDVI与TP负相关。

SHAP子流域尺度:

  • 修水(XSRB)、赣江下游(GRBC):耕地最重要;

  • 信江(XJRB):黏粒含量最重要;

  • 其余子流域及全流域:降水最重要。

  • 驱动因子重要性因流域而异:

  • 环境特征贡献始终高于人类活动,但人类活动(尤其耕地与农村人口密度)在TP高值区影响更强。

旱雨季TP差异:

  • 多数子流域雨季TP显著高于旱季(p<0.05–0.001),但饶河(RRB)呈相反趋势(雨季更低,p<0.05);

  • 赣江中游、环鄱阳湖区、信江、修水雨季最大TP值反而低于旱季,反映点源污染在旱季主导。






主要讨论

  • 集成树模型的优势:LGB、CB、XGB、RF能有效捕捉大型流域水质的强非线性关系,对数据噪声与异常值鲁棒,计算效率高;

  • STK的优越性:相比BMA(仅加权)和TOPSIS(评价指标加权),STK通过元模型学习基学习器输出的非线性组合,能更好平衡偏差与方差,显著缩小泛化差距;

  • 多尺度分析的必要性:全流域与子流域的驱动因子重要性差异显著(如修水耕地主导、信江黏粒主导),仅依赖全流域分析将导致管理策略“一刀切”;

  • 旱雨季规律的分异:饶河雨季TP更低,揭示点源污染主导;部分子流域雨季最大TP低于旱季,警示需关注旱季点源排放的“低稀释效应”;

  • 管理建议:

    • 全流域:加强雨季非点源污染拦截(生态缓冲带、雨水净化设施);

    • 修水、赣江下游:强化农田面源治理(优化耕地布局、控施化肥、推广生态农业);

    • 信江:保护土壤黏粒含量,减少土壤扰动;

    • 饶河:提升污水处理厂除磷效率、加强工业废水监管、完善农村生活污水收集处理。

✨ 创新点

  1. 系统模型对比:首次在大尺度流域TP预测中系统对比13种单一ML模型(覆盖线性、树模型、神经网络、SVR、KNN、GAM等)和3种集成方法,填补了模型选择依据的空白;

  2. 多模型集成优化:STK集成方法在TP预测中首次应用,验证了其优于BMA和TOPSIS的性能,且通过消融实验证明基学习器的互补性;

  3. 多尺度SHAP解释:在全流域和8个子流域分别进行SHAP分析,揭示驱动机制的空间分异,为分区管理提供直接依据;

  4. 旱雨季差异新发现:首次发现饶河雨季TP低于旱季,挑战了“雨季TP更高”的传统认知,揭示点源污染主导的区域特征;

  5. 严格的模型筛选流程:设计三轮筛选(整体性能→局部拟合→泰勒图),结合10折交叉验证重复10次,确保模型选择的稳健性。

⚠️ 不足与展望

  • 未纳入水温和pH等已在实验室尺度证实影响TP的关键因子(受限于监测数据可得性);

  • 土地利用缓冲区仅采用1km,未探索多尺度(如500m、2km)最优缓冲区;

  • 社会经济数据为县级尺度,与监测点空间匹配存在偏差;

  • 未来可结合遥感反演的水质参数、高分辨率土地利用数据、动态施肥数据等,提升模型精度;

  • 可引入SHAP交互作用分析,探索因子间的协同与拮抗效应。

✅ 总结

本研究以鄱阳湖流域为案例,系统对比了13种单一机器学习模型与3种多模型集成方法在总磷(TP)预测中的性能,并结合SHAP算法揭示了全流域与子流域尺度的驱动机制。主要结论如下:

  • 集成树模型(LGB、CB、XGB、RF)在单一模型中表现最优,但泛化差距明显;

  • Stacking集成(STK)显著优于贝叶斯模型平均(BMA)和TOPSIS集成,测试集R²达0.7832,较BMA提升4.61%,MAE降低10.13%;

  • 全流域尺度上降水是首要驱动因子,但子流域尺度驱动机制显著分异(修水、赣江下游为耕地主导,信江为黏粒含量主导);

  • 多数子流域雨季TP高于旱季,但饶河呈相反趋势,警示点源污染在旱季的重要性;

  • 提出“全流域非点源拦截+子流域靶向治理(农田面源/土壤保护/点源管控)”的分区管理策略。

    本研究为大型流域水质预测与分区管理提供了科学依据,凸显了多模型集成学习与多尺度分析在水环境研究中的关键价值。

(生态修复网)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“外交工作杰出贡献者”、中国驻美国原大使李道豫逝世

“外交工作杰出贡献者”、中国驻美国原大使李道豫逝世

澎湃新闻
2026-04-23 14:52:26
5月1日起全面严查!在职退休无一例外,这5类人好日子到头了

5月1日起全面严查!在职退休无一例外,这5类人好日子到头了

细说职场
2026-04-23 10:38:58
决战时刻:美军增兵一万即将抵达,伊朗公布海底光缆图!

决战时刻:美军增兵一万即将抵达,伊朗公布海底光缆图!

胜研集
2026-04-23 14:26:39
中美大国竞争的关键已经浮现?郑永年:国内陷入“土豆式”内卷无异于集体自杀

中美大国竞争的关键已经浮现?郑永年:国内陷入“土豆式”内卷无异于集体自杀

上观新闻
2026-04-22 10:18:06
交银国际信托党委书记、董事长张文被查

交银国际信托党委书记、董事长张文被查

新京报
2026-04-23 10:20:16
烂醉如泥的赵总!

烂醉如泥的赵总!

仕道
2026-04-23 08:37:01
大泽乡起义成功后,陈胜为何要杀掉吴广,司马迁说出了其中的原因

大泽乡起义成功后,陈胜为何要杀掉吴广,司马迁说出了其中的原因

芳芳历史烩
2026-04-23 02:45:51
调查丨光伏跨界者困境样本:泉为科技两大生产基地几近停摆,部分设备被拉走,“95后”董事长被立案

调查丨光伏跨界者困境样本:泉为科技两大生产基地几近停摆,部分设备被拉走,“95后”董事长被立案

每日经济新闻
2026-04-22 22:04:11
反转了,女子踹保安反被扇续:警方立案,保安丢工作,知情人爆料

反转了,女子踹保安反被扇续:警方立案,保安丢工作,知情人爆料

奇思妙想草叶君
2026-04-22 23:59:15
我知道那两名保安为啥不让退伍老兵上厕所的原因

我知道那两名保安为啥不让退伍老兵上厕所的原因

笔杆论道
2026-04-23 01:25:03
教育部新规落地!9月上学全变了,家长趁早看

教育部新规落地!9月上学全变了,家长趁早看

笑熬浆糊111
2026-04-23 00:05:18
金融圈突发!涉嫌严重违纪违法,张文被查

金融圈突发!涉嫌严重违纪违法,张文被查

中国基金报
2026-04-23 12:23:24
美女大学生被骗泰国卖园区被质疑!网友:要过5个关口,配合才行

美女大学生被骗泰国卖园区被质疑!网友:要过5个关口,配合才行

火山詩话
2026-04-23 09:28:14
震撼!马斯克600亿美元要收购Cursor!四个麻省理工的00后,逆袭成硅谷最年轻的亿万富翁凭什么?

震撼!马斯克600亿美元要收购Cursor!四个麻省理工的00后,逆袭成硅谷最年轻的亿万富翁凭什么?

新浪财经
2026-04-23 00:44:38
倒查13年,央国企开始慌了

倒查13年,央国企开始慌了

新浪财经
2026-04-23 02:44:17
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
雷霆再胜太阳总分2-0:亚历山大37+9杰伦伤退 狄龙30分

雷霆再胜太阳总分2-0:亚历山大37+9杰伦伤退 狄龙30分

醉卧浮生
2026-04-23 12:17:18
网传上海公司发氦气断供声明 霍尔木兹海峡封锁限制全球氦气供应链

网传上海公司发氦气断供声明 霍尔木兹海峡封锁限制全球氦气供应链

六子吃凉粉
2026-04-23 11:19:07
特朗普延长停火竟在“等他”?迟迟未露面的伊朗新最高领袖将对美方最新提议作出回应

特朗普延长停火竟在“等他”?迟迟未露面的伊朗新最高领袖将对美方最新提议作出回应

红星新闻
2026-04-23 12:38:15
美特使:已向特朗普提议意大利取代伊朗参加世界杯

美特使:已向特朗普提议意大利取代伊朗参加世界杯

体坛周报
2026-04-23 09:51:15
2026-04-23 15:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2978420文章数 6883关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

媒体:美国海军已至极限 特朗普对伊朗罕见放软身段

头条要闻

媒体:美国海军已至极限 特朗普对伊朗罕见放软身段

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

长安"1445"战略:一张走向"世界长安"的行军地图

态度原创

家居
时尚
游戏
手机
本地

家居要闻

浪漫协奏 法式风格

比白衬衫还火!入夏一定要拥有这条裙子,太时髦了

经典网游IP手游化,为何成了端游玩家的噩梦?

手机要闻

CounterPoint称2025印度制造手机同比增8%

本地新闻

SAGA GIRLS 2026女团选秀

无障碍浏览 进入关怀版