System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于RF-C-SOM聚类算法的水质监测布点优化方法技术_技高网

基于RF-C-SOM聚类算法的水质监测布点优化方法技术

技术编号:41681802 阅读:9 留言:0更新日期:2024-06-14 15:34
本发明专利技术公开了基于RF‑C‑SOM聚类算法的水质监测布点优化方法,包括:对采集的水质数据进行预处理,获取预处理后的水质数据;将预处理后的水质数据为数据,水质类别为标签,进行随机森林模型的训练,确定水质指标的特征重要度;根据特征重要度结合模型训练准确度进行特征重要性的选择,对预处理后的水质数据进行降维,获取降维后的数据;对降维后的数据进行模糊聚类,获得水质断面分类结果;基于水质断面分类结果,确定自组织映射算法的初始权重值;基于设置好的初始权重值对神经元进行初始化并训练自组织映射网络模型;通过自组织映射网络模型获得点位聚类结果;将筛选前与筛选后的点位结果进行水质质量指数评定。

【技术实现步骤摘要】

本专利技术属于水质监测布点优化,尤其涉及基于rf-c-som聚类算法的水质监测布点优化方法。


技术介绍

1、水是地球上一切生物赖以生存的基本元素,水资源在地区乃至国家可持续发展中具有至关重要的作用,水资源承载力研究对实现人水和谐,突破水资源限制社会发展的瓶颈具有现实意义。近年来,随着社会发展以及环境的变化,人们环保意识的不断提高,同时政府水污染治理工作的力度也在不断加强。水质监测对我们及时并准确的掌握水质量起到了至关重要的作用。其中水质监测点位的选择更是最为关键的第一步。一个设计合理的水质监测点位布局既能完整地代表当前的水质情况,又能避免过多不必要的监测点位,节省人力和物力。随着大数据时代的到来,机器学习得到了快速的发展并被广泛应用到了各个领域中,当然也包括环境领域。过去水质监测点位的选择大多都沿用多年前的老点位,相关技术规范和要求较笼统、操作性差,导致点位的选择可能会出现误选或冗余的情况。


技术实现思路

1、为解决上述技术问题,本专利技术提出了基于rf-c-som聚类算法的水质监测布点优化方法,将监督学习算法中的随机森林算法和模糊聚类法两者结合,对自组织映射网络进行优化,分析断面水质,进行点位的筛选和优化,提高点位准确性,提升效率,节省人力物力。

2、为实现上述目的,本专利技术提供了基于rf-c-som聚类算法的水质监测布点优化方法,包括:

3、步骤一、对采集的初始水质数据进行预处理,获取预处理后的水质数据;

4、步骤二、将所述预处理后的水质数据为数据,水质类别为标签,进行随机森林模型的训练,确定水质指标的特征重要度;

5、步骤三、根据所述特征重要度结合模型训练准确度进行特征重要性的选择,对所述预处理后的水质数据进行降维,获取降维后的数据;

6、步骤四、对所述降维后的数据进行模糊聚类,获得水质断面分类结果;

7、步骤五、基于所述水质断面分类结果,确定自组织映射算法的初始权重值;

8、步骤六、基于设置好的初始权重值对神经元进行初始化并训练自组织映射网络模型;

9、步骤七、通过自组织映射网络模型获得点位聚类结果;

10、步骤八、将所述初始水质数据与所述点位聚类结果进行水质质量指数评定。

11、可选的,所述水质数据包括ph,溶解氧,电导率,浊度,高锰酸盐指数,氨氮,总磷和总氮。

12、可选的,对采集的初始水质数据进行预处理,获取预处理后的水质数据的方法为:对于采集的水质数据的缺失值,连续的数值缺失采取直接删除的方法,对于个别指标数据缺失的数据修复,采取归因法,使用指标平均数进行填补,为消除数据量纲以及数量级不同所带来的影响,对数据进行z-score标准化,计算如下

13、

14、其中,aij表示第i天的第j个指标的取值,表示第j个指标的样本均值,δj表示第j个指标的标准差。

15、可选的,对所述预处理后的水质数据进行降维,获取降维后的数据的方法包括:将所述预处理后的水质数据按照7:3的比例分成训练集和测试集,以水质类别为标签,放入随机森林模型中进行训练;

16、对于所有训练样本采取bootstrap有样放回的方式进行取样获得样本集,采用所述样本集生成一棵决策树,根据gini系数来计算不纯度,通过选取不纯度指标最优特征来确定决策树的最佳节点和最佳分枝方法并计算模型准确率;

17、利用袋外数据产生的oob误差计算特征变量重要度,得出特征重要度排名靠前的特征变量。

18、可选的,根据gini系数来计算不纯度的方法为:

19、

20、其中,c代表类别数量,t代表给定的特征节点,p(i|t)代表标签分类i在节点t上所占的比例。

21、可选的,利用袋外数据产生的oob误差计算特征变量重要度的方法为:

22、

23、其中,n为随机森林中决策树数量。

24、可选的,对所述降维后的数据进行模糊聚类,获得水质断面分类结果的方法包括:s1、对聚类算法进行初始化,确定初始参数以及变量;

25、s2、使用[0,1]之间的随机数初始化隶属度矩阵u,矩阵需满足约束条件其中,uij代表样本点xi与聚类中心cj的隶属度;

26、s3、根据对目标函数的迭代优化获得对水质数据集的模糊分类,使用拉格朗日乘数法求目标函数在约束条件下的最小值,计算新的隶属度矩阵i和聚类中心cj,计算公式为:

27、

28、

29、

30、其中,公式(3)为fcm的目标函数j,d(xi,cj)是水质样本点xi到聚类中心cj的欧氏距离;公式(4)为更新后的隶属度矩阵u;公式(5)为更新后的聚类中心cj;

31、欧式距离公式为:

32、

33、其中,d(x,c)是样本点x到聚类中心c的欧氏距离,xi(i=1,2,…,n)是实数称为x的第i个坐标,yi(i=1,2,…,n)是实数称为y的第i个坐标;

34、s4、重复s3,直到目标函数j满足迭代停止条件‖jl―jl―1‖≤ε,此时数据的迭代中心将不再发生显著变化,输出聚类中心和数据隶属度矩阵的结果。

35、可选的,通过自组织映射网络模型获得点位聚类结果的方法包括:

36、初始化一个二维的网格结构,每个节点代表一个聚类中心;

37、根据模糊聚类结果进行数据集中样本的初始化,同属一类的样本被赋予相同的初始权重向量,并通过网络拓扑结构更新权重;

38、在每次迭代中,选择一个输入样本,找到距离该节点最近的节点,并调整优胜节点及其邻近节点的更新幅度;

39、通过不断迭代,相邻的节点在特征空间中形成聚类,最终形成了数据的拓扑映射。

40、可选的,权重更新方法为:

41、

42、其中,为第k轮迭代时第j个神经元节点权重,ηk为第k轮迭代的学习率,gij代表第i个样本对应的优胜领域内第j个神经节点更新的幅度。

43、可选的,根据领域函数计算优胜领域内节点的更新幅度的方法为:

44、

45、其中,(cx,cy)为优胜节点,σ(k)为第k轮迭代的优胜半径。

46、本专利技术技术效果:本专利技术公开了基于rf-c-som聚类算法的水质监测布点优化方法,使用随机森林算法对数据进行降维以及对数据集的简化,降低了特征的冗余性,大幅提高后续的计算效率和模型性能和可解释性;同时使用模糊聚类的聚类结果作为初始化som权重的参考,即能避免传统som算法中随机选择样本初始权重值的不确定性,又能加快优化算法进度以更快地达到收敛状态,使得聚类结果更加准确以及可靠。

本文档来自技高网...

【技术保护点】

1.基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,包括:

2.如权利要求1所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,所述水质数据包括pH,溶解氧,电导率,浊度,高锰酸盐指数,氨氮,总磷和总氮。

3.如权利要求1所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,对采集的初始水质数据进行预处理,获取预处理后的水质数据的方法为:对于采集的水质数据的缺失值,连续的数值缺失采取直接删除的方法,对于个别指标数据缺失的数据修复,采取归因法,使用指标平均数进行填补,为消除数据量纲以及数量级不同所带来的影响,对数据进行Z-score标准化,计算如下

4.如权利要求1所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,对所述预处理后的水质数据进行降维,获取降维后的数据的方法包括:将所述预处理后的水质数据按照7:3的比例分成训练集和测试集,以水质类别为标签,放入随机森林模型中进行训练;

5.如权利要求4所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,根据Gini系数来计算不纯度的方法为:

6.如权利要求4所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,利用袋外数据产生的oob误差计算特征变量重要度的方法为:

7.如权利要求1所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,对所述降维后的数据进行模糊聚类,获得水质断面分类结果的方法包括:S1、对聚类算法进行初始化,确定初始参数以及变量;

8.如权利要求1所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,通过自组织映射网络模型获得点位聚类结果的方法包括:

9.如权利要求8所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,权重更新方法为:

10.如权利要求8所述的基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,根据领域函数计算优胜领域内节点的更新幅度的方法为:

...

【技术特征摘要】

1.基于rf-c-som聚类算法的水质监测布点优化方法,其特征在于,包括:

2.如权利要求1所述的基于rf-c-som聚类算法的水质监测布点优化方法,其特征在于,所述水质数据包括ph,溶解氧,电导率,浊度,高锰酸盐指数,氨氮,总磷和总氮。

3.如权利要求1所述的基于rf-c-som聚类算法的水质监测布点优化方法,其特征在于,对采集的初始水质数据进行预处理,获取预处理后的水质数据的方法为:对于采集的水质数据的缺失值,连续的数值缺失采取直接删除的方法,对于个别指标数据缺失的数据修复,采取归因法,使用指标平均数进行填补,为消除数据量纲以及数量级不同所带来的影响,对数据进行z-score标准化,计算如下

4.如权利要求1所述的基于rf-c-som聚类算法的水质监测布点优化方法,其特征在于,对所述预处理后的水质数据进行降维,获取降维后的数据的方法包括:将所述预处理后的水质数据按照7:3的比例分成训练集和测试集,以水质类别为标签,放入随机森林模型中进行训练;

5...

【专利技术属性】
技术研发人员:李欢徐咏梅朱日龙李濠薛红欧阳昕彤李鑫星
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1