System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及灾害识别,尤其涉及一种基于多模型stacking集成的流域单元泥石流易发性评估方法。
技术介绍
1、目前泥石流风险评估主要有以下几种方式:基于统计学与经验模型方法、基于数值模拟和物理建模方法、多因素综合分析方法和集成学习方法。
2、基于统计学与经验模型方法主要基于历史数据和专家经验,其固有的线性假设难以捕捉泥石流发生机制的复杂性与高度不确定性,导致评估结果的精确性和全面性受限。
3、基于数值模拟方法通过构建泥石流运动的数学模型或利用物理过程模拟软件,对泥石流的发生、发展和演化过程进行数值模拟,由于其建模过程的复杂性和计算资源的高需求,使得这些方法在实际操作中面临耗时耗力、成本高昂的问题,其普适性和效率尚待进一步提升。
4、多因素综合分析方法考虑多个影响因素,并通过一定的算法或模型将这些因素综合起来进行评估。它的缺陷主要在于其会受到主观因素影响导致权重分配不准确,以及对各因素间复杂相互作用的简化处理可能降低评估的精确度。
5、stacking算法是一种集成学习方法,通过结合多个基学习器的预测结果来提高模型的泛化能力和预测性能。其基本思想是先训练多个不同的基学习器,然后将这些基学习器的预测结果作为新的训练集,再训练一个元学习器来综合这些预测结果,从而得到最终的预测输出。但传统的stacking算法中,元模型通常仅接收基模型的预测结果作为输入,这种做法忽略了原始数据中的丰富信息,尤其是在原始数据存在关联特征时,可能导致元模型的预测性能受限。
技术
1、本专利技术的目的就在于提供一种解决多个影响因素权重分配不准确,以及传统stacking算法中对基模型质量过度依赖等问题的,基于多模型stacking集成的流域单元泥石流易发性评估方法。
2、为了实现上述目的,本专利技术采用的技术方案是这样的:一种基于多模型stacking集成的流域单元泥石流易发性评估方法,包括以下步骤;
3、s1,构造泥石流灾害数据集,包括s11~s13;
4、s11,定义数个引起泥石流灾害的影响因素,选择目标区域,统计其在预设时间段内发生泥石流的总次数m,将目标区域划分为若干流域单元,对每个流域单元,获取其对应的每个影响因素值,标记泥石流灾害概率b,b=m/m,m为该流域单元在预设时间段内发生泥石流的次数;
5、s12,对影响因素进行共线性筛选,剔除高共线性的影响因素,若剩余的影响因素为n个,则将剩余的影响因素依次标记为y1~yn;
6、s13,基于流域单元生成样本,并将所有样本构成泥石流灾害数据集,其中目标区域中第i个流域单元生成的样本为ui,,yin为第i个流域单元对应影响因素yn的值,1≤n≤n,bi为第i个流域单元的泥石流灾害概率;
7、s2,构建stacking集成学习模型,包括四个基模型、特征堆叠层、注意力层、混合特征层、特征拼接层和元模型;
8、所述四个基模型m1~m4,分别由泥石流灾害数据集训练逻辑回归模型、随机森林模型、支持向量机模型和深度神经网络模型得到,所述m1~m4用于输入样本ui,分别输出ui的预测泥石流灾害概率pi1、pi2、pi3、pi4;
9、所述特征堆叠层用于根据公式,得到ui的预测概率向量a1i;
10、所述注意力层用于根据公式计算ui的注意力得分scorei,并归一化处理得到注意力权重a2i,式中,t为转置操作;
11、所述混合特征层用于根据公式得到混合概率向量a3i;
12、所述特征拼接层用于将ui与a3i拼接,生成ui对应的拼接样本,;
13、所述元模型由三折交叉验证方法从四个基模型中筛选得到;
14、s3,训练stacking集成学习模型;
15、将泥石流灾害数据集输入stacking集成学习模型中,每个样本经四个基模型、特征堆叠层、注意力层、混合特征层和特征拼接层生成一拼接样本,构成拼接样本数据集;
16、将拼接样本数据集输入元模型,以拼接样本中的泥石流灾害概率为期望输出,训练元模型至收敛,得到训练好的元模型;
17、s4,预测待识别流域单元的泥石流灾害概率;
18、获取待识别流域单元,按步骤s13构成对应的样本ud,输入stacking集成学习模型中生成拼接样本,再送入训练好的元模型输出预测泥石流灾害概率;
19、s5,泥石流易发性评估;
20、将[0,1]区间等分为数个子区间,从小到大对应不同等级,将所在子区间等级,作为的泥石流易发性等级。
21、作为优选:s11中,所述流域单元通过gis软件或qgis软件划分,所述影响因素包括该流域单元的流域面积、高程差、高程值、坡度、坡向、平面曲率、年降雨量、归一化植被指数、土地利用类型、流域密度、距水系距离、距道路距离、土壤类型、地质构造、和/或泥石流记录。
22、作为优选:对影响因素进行共线性筛选具体为;
23、sa1,预设皮尔逊相关系数阈值r、容差阈值tol、方差膨胀系数阈值vif;
24、sa2,将影响因素两两一组,计算每组的皮尔逊相关系数,计算每个影响因素的容差和方差膨胀系数;
25、sa3,将皮尔逊相关系数大于r、容差小于tol、或方差膨胀系数大于vif对应的影响因子删除。
26、作为优选:所述r=0.5,tol=0.1,vif=5。
27、作为优选:注意力层中,归一化处理根据公式得到,式中,为softmax函数。
28、作为优选:筛选元模型时,用三折交叉验证方法从四个基模型中筛选出预测泥石流灾害概率与泥石流灾害概率误差最小的基模型作为元模型。
29、作为优选:s5中划分子区间具体为;
30、将[0,1]区间用等距分割法分为5个级别:极低易发区[0,0.2)、低易发区[0.2,0.4)、中等易发区[0.4,0.6)、高易发区[0.6,0.8)和极高易发区[0.8,1]。
31、本专利技术的思路为:先对目标区域进行流域单元划分;再统计流域单元的多种影响因素,通过共线性筛选删除部分影响因素;再基于剩余影响因素去构造样本,训练基模型、筛选元模型;再对样本通过特征堆叠层、注意力层、混合特征层、特征拼接层的处理,生成拼接样本,用于元模型的训练。
32、本专利技术在生成拼接样本时,注意力层用于对每个样本生成一注意力权重,混合特征层利用注意力权重,对四个基模型进行混合生成混合概率向量,处理后的混合概率向量体现了不同基模型在预测过程中的重要性和贡献度。这一步骤使得元模型在预测时能够更多地关注于表现优秀的基模型,减少低精度基模型的影响。
33、与现有技术相比,本专利技术的优点在于:
34、(1)多源数据融合的高效性:本专利技术的研究基于流域单元的,深入研究了包括地形如坡度、高程,气候如降雨量、干旱度,土地特性如归一化植被指数、土地利用类型本文档来自技高网...
【技术保护点】
1.一种基于多模型Stacking集成的流域单元泥石流易发性评估方法,其特征在于:包括以下步骤;
2.根据权利要求1所述的基于多模型Stacking集成的流域单元泥石流易发性评估方法,其特征在于:S11中,所述流域单元通过GIS软件或QGIS软件划分,所述影响因素包括该流域单元的流域面积、高程差、高程值、坡度、坡向、平面曲率、年降雨量、归一化植被指数、土地利用类型、流域密度、距水系距离、距道路距离、土壤类型、地质构造、和/或泥石流记录。
3.根据权利要求1所述的基于多模型Stacking集成的流域单元泥石流易发性评估方法,其特征在于:对影响因素进行共线性筛选具体为;
4.根据权利要求3所述的基于多模型Stacking集成的流域单元泥石流易发性评估方法,其特征在于:所述r=0.5,TOL=0.1,VIF=5。
5.根据权利要求1所述的基于多模型Stacking集成的流域单元泥石流易发性评估方法,其特征在于:注意力层中,归一化处理根据公式得到,式中,为softmax函数。
6.根据权利要求1所述的基于多模型Stacking集
7.根据权利要求1所述的基于多模型Stacking集成的流域单元泥石流易发性评估方法,其特征在于:S5中划分子区间具体为;
...【技术特征摘要】
1.一种基于多模型stacking集成的流域单元泥石流易发性评估方法,其特征在于:包括以下步骤;
2.根据权利要求1所述的基于多模型stacking集成的流域单元泥石流易发性评估方法,其特征在于:s11中,所述流域单元通过gis软件或qgis软件划分,所述影响因素包括该流域单元的流域面积、高程差、高程值、坡度、坡向、平面曲率、年降雨量、归一化植被指数、土地利用类型、流域密度、距水系距离、距道路距离、土壤类型、地质构造、和/或泥石流记录。
3.根据权利要求1所述的基于多模型stacking集成的流域单元泥石流易发性评估方法,其特征在于:对影响因素进行共线性筛选具体为;
4.根据权利要求3所述的基于多模型s...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。