一种基于动态更新数据集的水质污染报警方法技术

技术编号:29786042 阅读:19 留言:0更新日期:2021-08-24 18:03
本发明专利技术属于水污染分析技术领域,具体为是一种基于动态更新数据集的水质污染报警方法,包括训练数据集的获取、异常检测模型的构建、实时数据的实测运行和当日异常数据更新异常数据集A2。通过将检测出的当日异常数据,替换掉异常数据集A2中的历史数据,实现了数据库的不断更新,降低了异常阈值的误差性,解决了现有深度算法中样本稀少的问题。通过调用决策树来构建模型,可以在此基础上实现参数的进一步优化,这是PMF模型无法实现的效果,提高了判别结果的准确性,具有较好的鲁棒性。

【技术实现步骤摘要】
一种基于动态更新数据集的水质污染报警方法
本专利技术属于水污染分析
,涉及到一种水质污染报警方法,特别是一种基于动态更新数据集的水质污染报警方法。
技术介绍
突发水污染事故会对水系及生态环境造成严重的污染和伤害。由于突发水污染事故的发生时间和地点具有很大的不确定性,同时也很难在短期内确定危害的方式和污染程度,容易给正常的社会生活、生产秩序的造成严重干扰。因此,需要找到有效可靠的污染源溯源方法,快速准确地找到导致突发性水污染的污染源发生时间和位置,做出正确的决策,并采取切实可行的措施加以处理。突发水质污染事件的特征主要包括以下两点:(1)复杂性。水环境污染的污染源成分比较复杂,可能含有单一有毒性物质,也有可能是多种毒性物质相互反应所生成的新型有毒物质;另外,在开放式环境中干扰因素较多,容易造成水污染事件漏警。(2)不确定性。突发性水污染事件的发生地点并不是固定的,并且发生时间和发生方式也具有不确定特征,很难及时找出水污染事故发生规律,很难在较短时间内确定污染种类浓度以及影响范围。通常,水质监测中依靠化学需氧量(COD)、生物需氧量(BOD)、硝酸盐氮(NO3-N)、浊度(FTU)等水质参数来反映水质是否存在异常,但这些参数所反映的是水体有机物的综合信息,很难判定其单一或特定的污染源。当前有不少研究者使用正定矩阵因子分解模型(PMF)作为分析工具,但在PMF模型中,需人为确定因子数,不同因子数的选择会导致异常分析过程中各参数的载荷分配不确定性,会给异常事件的判定结果产生较大的误差,鲁棒性较差。现如今,随着人工智能技术的进步,很多污染检测方法都是利用深度学习来完成,具有识别速度快、准确率高等优点。然而,利用深度学习的方法意味着需要大量的正样本和负样本,这对于污染源成分复杂且具有突发性的水质污染来说,很难实现,尤其是获取负样本更是非常困难。
技术实现思路
为解决上述问题,本专利技术设计了一种基于动态更新数据集的水质污染报警方法,解决了现实中污染样本稀少以及现有算法鲁棒性差的问题。本专利技术采用的技术方案是,一种基于动态更新数据集的水质污染报警方法,包括,步骤1:获取水质无污染时的光谱数据,作为特征数据集A1;步骤2:获取水质污染时的光谱数据,作为异常数据集A2;步骤3:A1和A2根据模型训练参数M的比例进行数据选取,M=A1/A2;步骤4:根据选取后的A1和A2得到训练数据集A3,A3=A1∪A2;步骤5:开始训练异常检测模型,具体为,步骤501:从训练数据集A3中随机选择m个样本点构成n个子集Ωi,其中,i∈1,2,3……n,在n个子集上构建决策树;步骤502:随机选择Ωi中的一个特征,随机选择一个阈值进行二分裂;阈值介于当前节点数据中指定特征的最大值和最小值之间;步骤503:重复步骤502,直到决策树到达设定的高度d或者每个叶子节点中只有一个点;步骤504:重复步骤502~步骤503,直到n个决策树构建完成;步骤505:计算n个决策树的平均深度,作为异常阈值输出,异常检测模型构建完成;步骤6:获取待测水质的光谱数据,输入到异常检测模型,得到归一化异常分数;步骤7:比较归一化异常分数和异常阈值,当归一化异常分数小于异常阈值时,判定待测水质无污染;当归一化异常分数大于或等于异常阈值时,判定待测水质污染,获取待测水质的光谱数据,保存为当日异常数据;步骤8:重复步骤6~步骤7,直到预设时间;步骤9:在设定的时间段内,根据当日异常数据更新异常数据集A2。进一步,步骤7还包括,当归一化异常分数大于或等于异常阈值时,判定待测水质污染,启动报警。进一步,本专利技术还包括异常检测模型的参数优化,所述参数优化包括,步骤A:获取在水质无污染状态下异常检测模型将正常数据判定为异常数据的集合A4,定义在水质无污染状态下异常检测模型误判正常数据为异常数据的比例为虚警率X,X=A4/A1;步骤B:获取在水质污染状态下异常检测模型将异常数据判定为正常数据的集合A5,定义在水质污染状态下异常检测模型误判异常数据为正常数据的比例为漏警率Y,Y=A5/A2;步骤C:调用孤立森林模型,统计不同n_estimators和max_samples值的状态下的虚警率和漏警率,其中n_estimators为子树个数,即决策树的个数n,max_samples为构建每棵子树的训练样本个数,即样本点的个数m;步骤D:选择虚警率和漏警率最低状态下的对应n_estimators和max_samples的值分别作为优化后n和m的参数。进一步,所述步骤9包括,在进入系统自动校准时段内,从当日异常数据中提取R条数据,其中,R∈1,2...10…,替换掉异常数据集A2中同样数量的历史数据。进一步,所述待测水质的光谱数据自带时间标签,所述时间标签包括待测水质的光谱数据的获取时间。进一步,本专利技术还包括异常阈值校正,所述异常阈值校正包括,步骤a:获取多组测试数据,其中多组数据包括水质污染的测试数据和水质无污染的测试数据,分别计算每组数据的决策树的平均深度;步骤b:根据水质污染的测试数据和水质无污染的测试数据对应的平均深度,设定校正阈值,使平均深度低于校正阈值的为水质无污染的测试数据,平均深度低于校正阈值的为水质污染的测试数据;步骤c:根据校正阈值对异常阈值进行校正处理。本专利技术的工作原理和有益效果是:1.通过将检测出的当日异常数据,替换掉异常数据集A2中的历史数据,实现了数据库的不断更新,降低了异常阈值的误差性,解决了现有深度算法中样本稀少的问题。2.通过调用决策树来构建模型,可以在此基础上实现参数的进一步优化,这是PMF模型无法实现的效果,提高了判别结果的准确性,具有较好的鲁棒性。下面结合附图对本专利技术进行详细说明。附图说明图1是本专利技术的流程图。具体实施方式以下结合具体实施例及附图对本专利技术的技术方案作进一步详细的描述,但本专利技术的保护范围及实施方式不限于此。具体实施例,如图1所示,本专利技术为一种基于动态更新数据集的水质污染报警方法,包括,1.数据集的生成(1)从历史数据中获取水质无污染时的光谱数据,作为特征数据集A1;如表1所示:波段190nm192.2nm……579.4nm……704.8nm……748.8nm751.0nm电压值125122……8288……3116……19021825电压值125122……8296……3121……本文档来自技高网
...

【技术保护点】
1.一种基于动态更新数据集的水质污染报警方法,其特征在于,包括,/n步骤1:获取水质无污染时的光谱数据,作为特征数据集A1;/n步骤2:获取水质污染时的光谱数据,作为异常数据集A2;/n步骤3:A1和A2根据模型训练参数M的比例进行数据选取,M=A1/A2;/n步骤4:根据选取后的A1和A2得到训练数据集A3,A3=A1∪A2;/n步骤5:开始训练异常检测模型,具体为,/n步骤501:从训练数据集A3中随机选择m个样本点构成n个子集Ωi,其中,i∈1,2,3……n,在n个子集上构建决策树;/n步骤502:随机选择Ωi中的一个特征,随机选择一个阈值进行二分裂;阈值介于当前节点数据中指定特征的最大值和最小值之间;/n步骤503:重复步骤502,直到决策树到达设定的高度d或者每个叶子节点中只有一个点;/n步骤504:重复步骤502~步骤503,直到n个决策树构建完成;/n步骤505:计算n个决策树的平均深度,作为异常阈值输出,异常检测模型构建完成;/n步骤6:获取待测水质的光谱数据,输入到异常检测模型,得到归一化异常分数/n步骤7:比较归一化异常分数和异常阈值,当归一化异常分数小于异常阈值时,判定待测水质无污染;当归一化异常分数大于或等于异常阈值时,判定待测水质污染,获取待测水质的光谱数据,保存为当日异常数据;/n步骤8:重复步骤6~步骤7,直到预设时间;/n步骤9:在设定的时间段内,根据当日异常数据更新异常数据集A2。/n...

【技术特征摘要】
1.一种基于动态更新数据集的水质污染报警方法,其特征在于,包括,
步骤1:获取水质无污染时的光谱数据,作为特征数据集A1;
步骤2:获取水质污染时的光谱数据,作为异常数据集A2;
步骤3:A1和A2根据模型训练参数M的比例进行数据选取,M=A1/A2;
步骤4:根据选取后的A1和A2得到训练数据集A3,A3=A1∪A2;
步骤5:开始训练异常检测模型,具体为,
步骤501:从训练数据集A3中随机选择m个样本点构成n个子集Ωi,其中,i∈1,2,3……n,在n个子集上构建决策树;
步骤502:随机选择Ωi中的一个特征,随机选择一个阈值进行二分裂;阈值介于当前节点数据中指定特征的最大值和最小值之间;
步骤503:重复步骤502,直到决策树到达设定的高度d或者每个叶子节点中只有一个点;
步骤504:重复步骤502~步骤503,直到n个决策树构建完成;
步骤505:计算n个决策树的平均深度,作为异常阈值输出,异常检测模型构建完成;
步骤6:获取待测水质的光谱数据,输入到异常检测模型,得到归一化异常分数
步骤7:比较归一化异常分数和异常阈值,当归一化异常分数小于异常阈值时,判定待测水质无污染;当归一化异常分数大于或等于异常阈值时,判定待测水质污染,获取待测水质的光谱数据,保存为当日异常数据;
步骤8:重复步骤6~步骤7,直到预设时间;
步骤9:在设定的时间段内,根据当日异常数据更新异常数据集A2。


2.根据权利要求1所述的一种基于动态更新数据集的水质污染报警方法,其特征在于,步骤7还包括,当归一化异常分数大于或等于异常阈值时,判定待测水质污染,启动报警。


3.根据权利要求1所述的一种基于动态更新数据集的水质污染报警方法,其特征在于,还包括异常检测模型的参数优化,所述参数优化包括,
步骤A:获...

【专利技术属性】
技术研发人员:王宏杰尚永昌孙冬生冯浩董浩崔志旺郎嘉烨崔厚欣邓家春王明霞
申请(专利权)人:河北先河环保科技股份有限公司
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1