本发明专利技术属于水环境监控与治理领域,公开了一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,包括以下步骤:首先根据原始采集的水质监测数据建立标准化矩阵,通过5种距离算法计算监测数据变量之间的相似性以获得变量之间的亲疏关系,接着通过4种连接算法以实现对数据集合的自动聚类;然后以加权重的皮尔逊相关系数为判定准则来选择最优组合以进行分层聚类,最后通过生成的相应最优聚类树矩阵,来优化设置断面监测站点,从而可获得反映水域整体水质的监测数据,以提高水环境的监测质量。本方法方便简捷、结果直观、具有很高的可行性。
【技术实现步骤摘要】
基于综合分层聚类的湖库、流域的水质监测断面优化布设方法
本专利技术属于水环境监测与治理
,涉及一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法。
技术介绍
近年来,在水环境监测与治理
,如何对水质监测断面进行优化布设受到研究人员的广泛关注。传统的湖库断面监测是按照水体区域大小以平均分布的原则进行布设,即将湖库水域平均分割为固定大小(通常为2平方公里)的网格,并在每个网格的中心位置布测点。这种方法虽然简单易行,但往往会导致相邻断面出现水质监测结果相近,造成监测资源浪费。由于自然环境和社会环境的变化,地表水环境的分布规律也并不是一成不变的,因此需要对水环境检测的断面进行不断优化。水质监测的断面优化,即用最少的测点获得最具有空间代表性的监测数据,充分说明环境质量的状况和变化。通过断面优化,可以有效整合水环境监测资源,减少重复投资和建设,最大程度地客观反映出水环境整体质量状况,实现更加有效的水环境监测。聚类分析是数理统计研究中研究“物以类聚”的一种多元分析方法,即用数理定量地确定样品之间的亲疏关系。近年来,已有很多研究学者将这种模糊数学方法引入到水环境灰色系统中,以更加准确地进行对不同断面的水质分型划类。1993年,王建珊等人采用模糊数学“最大树”聚类分析法,对秦淮河水系的监测点位进行了优化调整,经检验,优化后的监测点位不仅保留原有功能,而且能够较好反映秦淮河水质情况。梁伟臻等人于2002年采用模糊数学中的聚类原理,以广州市某河涌为例对水质监测站点进行优化。马飞等人于2006年采用模糊数学中的聚类原理对南运河进行了水质监测断面优化设置,经验证,该方法不仅能够全面控制南运河水质变化动态,同时能够减少监测工作量,节约人力物力。聚类分析在样本数量较少的情况下比较简单,无需复杂编程,逐渐被应用于国内外地表水环境监测点位优化。目前广泛应用的聚类方法为分层聚类法,即通过计算距离得到数据集合中变量两两之间的相似性和非相似性,进而再通过定义变量之间的连接,对所得聚类信息进行评价,最终创建聚类,并实现以图形化显示聚类分析结果。但其缺点在于距离度量方法和连接方法的选择上较单一,对于不同水域不同的数据特征,无法自适应选择最佳方法以获取效果最好的水质监测断面优化布设。
技术实现思路
本专利技术提出一种基于综合分层聚类(CHC)的湖库、流域的水质监测断面优化布设方法。可针对不同水域,自适应地选择分层聚类法中的距离方法和连接方法,从而提高综合分层聚类的结果准确度,以获取效果更佳的水质监测断面优化设置,实验结果表明本专利技术采用的综合分层聚类方法在实际应用当中更加合理有效,可更好地对水域进行水质监控提供合理、有效的数据支持。本专利技术提供的基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,包括如下步骤:步骤1:通过监测采集不同断面的水质指标,建立原始数据矩阵Z,Z为m×n的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数将矩阵Z标准化后得到矩阵X;步骤2:将监测断面的水质指标作为变量,对应为矩阵X的列向量,采用五种距离度量方法得出各变量之间的相似性;所述的距离度量方法包括:欧氏距离、标准欧氏距离、马氏距离、布洛克距离以及切比雪夫距离;步骤3:根据变量间的亲疏关系,采用四种连接方法对变量进行聚类;所述的连接方法包括:最短距离法、最长距离法、平均距离法和质心距离法;步骤4:确定连接方法与距离度量方法的相关系数,选取相关系数最大情况下的距离度量方法与连接方法,根据相关系数最大情况下的聚类来优化水质监测断面的布设。设a=1,2,3,4,5分别代表五种距离度量方法,b=1,2,3,4分别代表四种连接方法。对于某种连接方法与距离度量方法的相关系数cab为:其中,i和j分别指代矩阵X中第i个变量与第j个变量,daij表示第a种距离度量方法计算两个变量之间的距离,Dbij表示第b种连接方法计算的两个变量之间的距离,da和Db分别是向量daij和Dbij中的平均值。α和β为权重系数,其中与现有技术相比,本专利技术的有益效果是:(1)本专利技术提供的基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,利用五种距离度量方法和四种连接方法,除默认欧氏距离和最小距离法外,距离度量方法还包括有标准欧式距离,马氏距离,布洛克距离以及切比雪夫距离,此外,连接方法还包括有最长距离,平均距离以及质心距离,这样有效避免了单一方法的局限性,能自适应选择更好的聚类结果来优化水质监测断面布设。(2)本专利技术提供的基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,以加权的皮尔逊相关系数作为判定准则,即检验某种距离度量方法与某种连接方法所产生的聚类树和实际情况的相符程度,以此来针对不同的水域水质特征,选取相关性最高的一组距离度量方法与连接方法进行聚类进而对监测断面进行优化分析。通过实验验证表明,采用本专利技术提供的相关系数来判断符合程度,所选的聚类结果更优,可更好的优化水质监测断面布设。附图说明图1为本专利技术的基于CHC的湖库、流域的水质监测断面优化布设方法的流程示意图;图2为默认聚类方法和本专利技术CHC方法相关系数对比图3为采用本专利技术方法生成的聚类树的示意图;(a)~(e)分别对应实施例中五个水域。具体实施方式下面结合附图和实施例来说明本专利技术的技术方案。本专利技术采用综合分层聚类,通过相关系数作为判别指标,从5种距离方法和4种连接方法当中选取最优组合,解决了传统聚类法在距离方法和连接方法唯一的局限性,可针对不同水域不同的数据特征进行适应性选择,实现对水质监测断面的优化布设。本专利技术是关于一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,如图1所示,具体包括如下步骤:步骤1:建立原始矩阵并进行标准化处理。由水质监测所得不同断面的水质指标,建立原始数据矩阵Z,Z为m行n列的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数。对原始数据矩阵进行标准化得到标准化矩阵。因为各水质指标的量纲不同,为了能够将指标参与后面的计算,需要对由各监测断面水质指标值组成的原始数据矩阵进行标准化,通过函数变换将其数值映射到某个数值区间。对于第k个水质指标fk的度量值(k=1,2,…,n),进行标准化的方法如下:1)计算该水质指标的所有度量值的绝对偏差的平均值其中,z1k,z2k,…,zmk为水质指标fk的m个度量值,为矩阵Z中的第k列元素值,为fk的m个度量值的平均值,即2)对该水质指标的所有度量值进行归一化,水质指标fk的第i个度量值zik归一化得到的标准值xik可由以下公式求得:通过上面标准化处理,得到标准化矩阵X。对于孤立点,运用平均绝对偏差比标准差具有更好的鲁棒性。步骤2:计算各监测断面的水质指标之间的相似性。将各监测断面的水质指标作为变量,通过距离度量方法来计算其相似性。距离度量方法除了常用的欧氏距离,还有标准欧氏距离、马氏距离、布洛克距离、以及切比雪夫距离。(2.1)欧式距离。基于各变量间的距离来计算相似度通常采用欧氏距离进行计算。其中(xi1,xi2,…,xin)和(xj1,xj2,…,xjn)分别为第i个和第j个监测断面的水质指标,均为n维的数据对象,为矩阵X中的第i行和第j行元素值,d1ij表示第i个和第j个监测断面的水质指标的欧式距离。但欧氏距离的缺点是本文档来自技高网...
【技术保护点】
一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,其特征在于,包括以下步骤:步骤1:通过监测采集不同断面的水质指标,建立原始数据矩阵Z,将矩阵Z标准化处理后得到矩阵X;矩阵Z为m×n的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数;步骤2:将监测断面的水质指标作为变量,对应为矩阵X的列向量,采用五种距离度量方法得出各变量之间的相似性;所述的距离度量方法包括:欧氏距离、标准欧氏距离、马氏距离、布洛克距离以及切比雪夫距离;步骤3:根据变量间的亲疏关系,采用四种连接方法对变量进行聚类;所述的连接方法包括:最短距离法、最长距离法、平均距离法和质心距离法;步骤4:确定连接方法与距离度量方法的相关系数,选取相关系数最大情况下的距离度量方法与连接方法,根据相关系数最大情况下的聚类来优化水质监测断面的布设;设a=1,2,3,4,5分别代表五种距离度量方法,b=1,2,3,4分别代表四种连接方法;对于某种连接方法与距离度量方法的相关系数cab为:cab=Σi<jα(daij-da‾)β(Dbij-Db‾)Σi<j(daij-da‾)2Σi<j(Dbij-Db‾)2,a∈[1,2,3,4,5],b∈[1,2,3,4]]]>其中,i和j分别指代矩阵X中第i个变量与第j个变量,daij表示第a种距离度量方法计算两个变量之间的距离,Dbij表示第b种连接方法计算的两个变量之间的距离,和分别是向量daij和Dbij中的平均值;α和β为权重系数,α=daijda‾,β=DbijDb‾.]]>...
【技术特征摘要】
1.一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,其特征在于,包括以下步骤:步骤1:通过监测采集不同断面的水质指标,建立原始数据矩阵Z,将矩阵Z标准化处理后得到矩阵X;矩阵Z为m×n的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数;运用平均绝对偏差进行标准化处理,具体方法为:设z1k,z2k,…,zmk为水质指标fk的m个度量值,k=1,2,…,n;1)计算水质指标fk的所有度量值的绝对偏差的平均值其中,为fk的m个度量值的平均值,2)水质指标fk的第i个度量值zik归一化得到的标准值xik为:步骤2:将监测断面的水质指标作为变量,对应为矩阵X的列向量,采用五种距离度量方法得出各变量之间的相似性;所述的距离度量方法包括:欧氏距离、标准欧氏距离、马氏距离、布洛克距离以及切比雪夫距离;步骤3:根据变量间的亲疏关系,采用四种连接方法对变量进行聚类;所述的连接方法包括...
【专利技术属性】
技术研发人员:连晓峰,王小艺,彭森,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。