System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于地下水保护与污染防治领域,具体涉及一种基于随机森林及shap的地下水硬度影响因子分析方法。
技术介绍
1、地下水总硬度是指水中钙、镁离子浓度之和,主要来源于石灰岩、白云岩等地质构造。现有研究已经证实,高硬度地下水与儿童湿疹、慢性肾病等一系列健康问题存在关联。此外,高硬度地下水用于灌溉时,会加速土壤的盐碱化过程;用于工业领域时,则易于在管道和设备中形成结垢,不仅阻碍水流通畅,还会导致能源消耗量的增加;高硬度地下水已成为一个不容忽视的全球性问题。现有的观测数据揭示了一个现象:高硬度地下水的地往往分布在干旱或沿海地带;在干旱区域,由于地下水的过量开采,含水层的水动力学条件及水文地球化学特性发生了变化,促使更多的钙、镁离子溶入地下水体系;沿海地区的高硬度地下水则主要归因于含钙、镁量高的海水入侵,这一过程不仅直接提升了地下水的总硬度水平,还可能加速了钙、镁离子在含水层中的溶解过程,从而进一步加剧了地下水总硬度的升高趋势。
2、地下水总硬度由进入和离开地下水系统的水体总量与钙镁离子总量共同决定。上述过程将由地质土壤参数、气候条件、人类活动、植被覆盖情况共同决定,因此难以确定各驱动因素对上述过程的定量影响。例如,降水在补给地下水的同时将携带钙镁离子进入地下水系统。除降水总量与降水模式外,进入地下水系统的水体总量取决于当地的气候条件、地质与土壤性质。进入地下水系统的钙镁离子将取决于当地的岩性、土壤阳离子交换量等因素。对于上述复杂的过程,各因素对地下水总硬度的影响难以刻画。目前,有限的地下水总硬度观测数据集中于地下水总硬
技术实现思路
1、专利技术目的:为得到地下水总硬度时空演化规律与驱动机制,本专利技术提供了一种基于随机森林及shap的地下水硬度影响因子分析方法,为地下水高硬度风险预警,大尺度研究区地下水总硬度驱动机制解析提供科学的技术和方法。
2、
技术实现思路
:本专利技术所述的基于随机森林及shap的地下水硬度影响因子分析方法,包括以下步骤:
3、(1)获取待研究区域及研究时段内的地下水总硬度与采样地土地利用类型信息,构建目标分辨率下的地下水总硬度的数据集;
4、(2)获取与地下水总硬度相关的多个指标数据集,并选择与地下水总硬度最相关的指标作为预测变量,构建一个目标分辨率下的预测变量数据集;
5、(3)通过随机森林模型构造预测变量到地下水总硬度之间的映射关系,将预测变量作为随机森林模型输入,地下水总硬度作为模型输出,训练并优化随机森林模型;
6、(4)基于优化后的随机森林模型,对研究区域内所有点位的地下水总硬度进行预测;通过预测结果得到地下水总硬度在时间上的变化趋势以及在空间上的分布与变化特征;
7、(5)对训练好的随机森林模型进行shap分析,确定每个预测变量的重要性占比,并揭示预测变量对地下水总硬度的具体影响特征。
8、进一步地,所述步骤(1)实现过程如下:
9、获取待研究区域地下水总硬度数据,在记录地下水总硬度数据的同时,记录该数据对应的采样时间,采样地点以及当地的土地利用类型;将所有收集到的数据折算成相当于碳酸钙的质量浓度,在此基础上进行数据的分辨率转换,得到目标分辨率下的覆盖研究区域部分点位的地下水总硬度数据集。
10、进一步地,所述步骤(2)实现过程如下:
11、获取能覆盖整个待研究区域的相关气候、地质土壤、人类活动、植被条件的相关指标;挑选出与地下水总硬度最为相关的指标作为预测变量,并进行数据的分辨率转换,得到覆盖整个研究区域与研究时段的目标分辨率下的地下水总硬度预测变量数据集。
12、进一步地,所述步骤(3)实现过程如下:
13、将预测变量数据集与地下水总硬度数据集中的数据划分为训练集与测试集;测试集中有个样本,每个样本有个预测变量和一个地下水总硬度的输出值;将训练数据表示为,其中,,表示第个样本的预测变量向量,表示第个样本的地下水总硬度输出值;
14、构建决策树:从训练集中随机有放回地抽取个样本,形成训练集来构建每棵决策树;对于每个节点的分裂,从个预测变量中随机选择 个,,构成候选预测变量集合;然后,根据分裂准则选择最优预测变量进行节点划分;重复该过程次,得到棵决策树;
15、预测过程:对于一个新的样本,将其输入到每棵决策树中进行预测,得到个预测值;将所有决策树预测值的平均值作为随机森林模型的最终预测结果;
16、决策树数目选择:在不同的决策树具体数值下进行随机森林模型训练,并以测试集下预测结果与真实结果的拟合效果为依据选择较优的随机森林模型决策树数目。
17、进一步地,所述步骤(4)实现过程如下:
18、基于较优的决策树数目下训练得到的随机森林模型,从覆盖整个研究区域与整个研究时段的预测变量出发,得到覆盖整个研究区域与研究时段的地下水总硬度预测;基于预测结果绘制地下水总硬度空间分布图,得到对研究区域内地下水总硬度空间分布特征的理解,对比不同时间下空间分布图,得到对研究区域内地下水总硬度空间分布动态变化规律的理解。
19、进一步地,所述步骤(5)实现过程如下:
20、由shap刻画每个预测变量对地下水总硬度的影响特征,条件shap算法通过其他预测变量的值来计算每个预测变量的边际贡献,从而更准确地捕获预测变量间的相互依赖关系,以确定每个预测变量对地下水总硬度的影响模式;条件shap值的公式为:
21、;
22、其中,为预测变量对地下水总硬度预测结果的贡献,是所有预测变量的集合,是不包括预测变量 的子集, 是仅使用中的预测变量的模型预测,表示以所有其他预测变量的值为条件的期望。
23、进一步地,所述分裂准则为最小化决策树的预测值与真实值的均方误差:
24、;
25、其中,是真实值,是预测值,为样本个数。
26、有益效果:与现有技术相比,本专利技术的有益效果:本专利技术通过构建地下水总硬度与其他相关指标的随机森林模型,可实现对整个研究区域与研究时段地下水总硬度的预测,为明晰地下水总硬度分布及变化特征提供依据;进一步的,对建立的随机森林模型实施shap分析,可得到各影响因子对地下水总硬度的影响特征,为地下水治理管控提供科学依据。
本文档来自技高网...【技术保护点】
1.一种基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,所述步骤(1)实现过程如下:
3.根据权利要求1所述的基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,所述步骤(2)实现过程如下:
4.根据权利要求1所述的基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,所述步骤(3)实现过程如下:
5.根据权利要求1所述的基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,所述步骤(4)实现过程如下:
6.根据权利要求1所述的基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,所述步骤(5)实现过程如下:
7.根据权利要求4所述的基于随机森林及SHAP的地下水硬度影响因子分析方法,其特征在于,所述分裂准则为最小化决策树的预测值与真实值的均方误差:
【技术特征摘要】
1.一种基于随机森林及shap的地下水硬度影响因子分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于随机森林及shap的地下水硬度影响因子分析方法,其特征在于,所述步骤(1)实现过程如下:
3.根据权利要求1所述的基于随机森林及shap的地下水硬度影响因子分析方法,其特征在于,所述步骤(2)实现过程如下:
4.根据权利要求1所述的基于随机森林及shap的地下水硬度影响因子分析方法,其特征在于...
【专利技术属性】
技术研发人员:张江江,曹成龙,周坤,南统超,徐腾,尹吉娜,鲁春辉,叶逾,谢一凡,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。