当前位置: 首页 > 专利查询>暨南大学专利>正文

基于代价敏感深度级联森林的饮用水质预测方法及系统技术方案

技术编号:31086227 阅读:21 留言:0更新日期:2021-12-01 12:39
本发明专利技术公开了一种基于代价敏感深度级联森林的饮用水质预测方法及系统,该方法包括以下步骤:数据采集步骤:采集饮用水质原始数据,饮用水质原始数据包括水质参数;数据预处理步骤:对饮用水质原始数据进行数据清洗、标准化数据,得到水质预处理数据;预测步骤:将水质预处理数据输入到水质预测模型进行预测水质是否合格;水质预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括饮用水质训练数据和标识该水质训练数据是否合格的标签信息;本发明专利技术通过设置不平衡代价矩阵以引入代价敏感因子进而提升模型预测不平衡数据能力,对水质预测具有较高的准确性。对水质预测具有较高的准确性。对水质预测具有较高的准确性。

【技术实现步骤摘要】
基于代价敏感深度级联森林的饮用水质预测方法及系统


[0001]本专利技术涉及环境质量监测和预报
,特别涉及一种基于代价敏感深度级联森林的饮用水质预测方法及系统。

技术介绍

[0002]淡水资源是人类赖以生存的主要资源,饮用水质量与人类健康密切相关。因此世界各国都采取了多种措施来保障水质安全,而在这些措施中,使用人工智能技术来监测和预报水质是保护饮水安全的重要步骤。
[0003]尽管目前已有不少人工智能模型采用支持向量机和随机森林对地表水水质进行预测,但是在这些模型中,尤其是传统人工智能模型难以胜任预测饮用水水质的任务。其中一个主要原因是这些模型进行训练使用的饮用水水质数据集是一个典型的极端不平衡的数据集,而人工智能模型对平衡数据具有较好的预测能力,这些极端不平衡数据会显著降低这些模型的预测能力。因此单独使用传统模型无法有效监控和预测饮用水质情况,传统学习模型如LR、SVM等对饮用水水质预测性能不高,尤其是对不合格水质预测的准确性和稳定性不高。
[0004]处理不平衡数据的方法目前有两大类:一大类是对数据进行重采样、欠采样或者混合采样,从数据集角度改变少数类样本的比例;另一大类是使用集成模型来预测不平衡数据,从增加模型应变能力角度来提升对不平衡数据预测能力。

技术实现思路

[0005]为了克服现有技术存在的缺陷与不足,本专利技术的第一目的在于提出了基于代价敏感深度级联森林的饮用水质预测方法,该方法通过引入代价敏感因子以提升模型预测不平衡数据能力,进而准确预测饮用水水质状况并保障饮用水安全。
[0006]本专利技术的第二目的在于提出了基于代价敏感深度级联森林的饮用水质预测系统。
[0007]为了达到上述第一目的,本专利技术采用以下技术方案:
[0008]一种基于代价敏感深度级联森林的饮用水质预测方法,包括以下步骤:
[0009]数据采集步骤:采集饮用水质原始数据,饮用水质原始数据包括水质参数,所述水质参数包括pH、温度、浊度、电导率、重金属、氯化物、硫酸盐、溶解性氧;
[0010]数据预处理步骤:对饮用水质原始数据进行数据清洗、标准化数据,得到水质预处理数据;
[0011]预测步骤:将水质预处理数据输入到水质预测模型进行预测水质是否合格;
[0012]所述水质预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括饮用水质训练数据和标识该水质训练数据是否合格的标签信息;
[0013]所述水质预测模型通过设置不平衡代价矩阵以引入代价敏感因子。
[0014]作为优选的技术方案,所述水质预测模型为使用多组数据通过机器学习训练得出,具体包括以下步骤:
[0015]步骤S100、构建代价敏感基分类器:引入代价敏感因子进行构建代价敏感基分类器,具体通过直接引入代价矩阵的形式来表示基分类器的代价敏感;
[0016]所述代价矩阵为非对称矩阵,用于把少数类样本分类错误的代价设置远高于多数类样本错分代价;
[0017]步骤S200、构建代价敏感深度级联森林:代价敏感深度级联森林为多层结构,每一层设有多个估计器,其中每一层估计器的类型和数目都相同,所述估计器包括多个代价敏感基分类器;
[0018]步骤S300、饮用水质数据前处理:对饮用水质原始数据进行清洗并标准化数据;
[0019]步骤S400、代价敏感深度级联森林训练:对前处理后的水质数据进行K折划分训练集和验证集,设置预测目标函数,基于训练集进行训练,优化预测目标函数并固定超参,其中将k

1折数据作为训练集并用来训练模型,将剩余的1折数据作为验证集并用于验证模型;
[0020]步骤S500、代价敏感深度级联深林的验证:使用验证集的水质数据来验证模型,比较不同代价矩阵下代价敏感深度级联深林的预测能力,筛选最优代价矩阵,进而得到水质预测模型。
[0021]作为优选的技术方案,所述代价敏感基分类器采用随机树、完全随机树中的一种或者多种组合。
[0022]作为优选的技术方案,所述最优代价矩阵具体为通过启发式法和网格式法寻找初始代价矩阵和最佳代价矩阵进行筛选。
[0023]作为优选的技术方案,在步骤S400中,所述预测目标函数表示为:
[0024][0025]式y为用于表示水质是否合格的标签信息,其中表示对第j类标签信息的预测准确概率,i表示第i个数据,j表示第j类标签信息,n表示数据总数,C
ij
表示i个数据和j类标签信息的代价矩阵。
[0026]作为优选的技术方案,在步骤S400中,所述代价敏感深度级联森林训练具体采用CS

DCF算法进行训练,所述CS

DCF算法为代价敏感深度级联森林算法;
[0027]所述基于训练集进行训练具体为:首层输入的是原始特征向量,其余层输入是原始特征向量和相邻前一层的输出概率向量,每一层都会计算代价,如果代价降低则将原始特征向量与该层的输出相结合,作为下一层的输入;随后每层遵循相同的过程,直到预测目标函数不再降低,最后,相应层的结果则为代价敏感深度级联森林的输出。
[0028]作为优选的技术方案,所述代价敏感深度级联森林算法具体包括以下步骤:
[0029]步骤S401、初始化步骤:
[0030]输入特征采样矩阵、代价矩阵、迭代次数,并初始化当前处理层数为1,初始化当前迭代次数序号值为0;
[0031]所述特征采样矩阵表示为:
[0032]X=(X1,X2,

,X
p
)
[0033]其中p为特征采样矩阵的维数,代价矩阵表示为C,迭代次数为s;
[0034]步骤S402、循环训练步骤:执行以下操作直到遍历完所有处理层数;
[0035]根据代价矩阵构建代价敏感基分类器,利用代价敏感基分类器获得当前处理层的代价值c;
[0036]将当前处理层的输出作为新的特征矩阵F;
[0037]生成新的采样矩阵:对于当前处理层数不为1时的情况,将当前处理层的新的特征矩阵F与采样矩阵X连接得到新的采样矩阵X


[0038]如果当前处理层数为1或者相邻后一个处理层的代价值c

满足c
’‑
c>0条件时,将当前处理层数赋值给下一层处理层数,并将当前处理层的代价值赋值给相邻后一个处理层的代价值;
[0039]否则,将当前迭代次数序号值累加1,如果当前迭代次数序号值为迭代次数则退出,否则当前处理层数累加1;
[0040]步骤S403、输出步骤:
[0041]输出代价敏感深度级联森林。
[0042]作为优选的技术方案,多个估计器采用随机森林、完全随机森林中的任一种或者多种的组合。
[0043]作为优选的技术方案,所述原始特征向量为水质参数pH、温度、浊度、电导率、重金属、氯化物、硫酸盐、溶解性氧中的一种或任意多种组合。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,包括以下步骤:数据采集步骤:采集饮用水质原始数据,饮用水质原始数据包括水质参数,所述水质参数包括pH、温度、浊度、电导率、重金属、氯化物、硫酸盐、溶解性氧;数据预处理步骤:对饮用水质原始数据进行数据清洗、标准化数据,得到水质预处理数据;预测步骤:将水质预处理数据输入到水质预测模型进行预测水质是否合格;所述水质预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括饮用水质训练数据和标识该水质训练数据是否合格的标签信息;所述水质预测模型通过设置不平衡代价矩阵以引入代价敏感因子。2.根据权利要求1所述的基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,所述水质预测模型为使用多组数据通过机器学习训练得出,具体包括以下步骤:步骤S100、构建代价敏感基分类器:引入代价敏感因子进行构建代价敏感基分类器,具体通过直接引入代价矩阵的形式来表示基分类器的代价敏感;所述代价矩阵为非对称矩阵,用于把少数类样本分类错误的代价设置远高于多数类样本错分代价;步骤S200、构建代价敏感深度级联森林:代价敏感深度级联森林为多层结构,每一层设有多个估计器,其中每一层估计器的类型和数目都相同,所述估计器包括多个代价敏感基分类器;步骤S300、饮用水质数据前处理:对饮用水质原始数据进行清洗并标准化数据;步骤S400、代价敏感深度级联森林训练:对前处理后的水质数据进行K折划分训练集和验证集,设置预测目标函数,基于训练集进行训练,优化预测目标函数并固定超参,其中将k

1折数据作为训练集并用来训练模型,将剩余的1折数据作为验证集并用于验证模型;步骤S500、代价敏感深度级联深林的验证:使用验证集的水质数据来验证模型,比较不同代价矩阵下代价敏感深度级联深林的预测能力,筛选最优代价矩阵,进而得到水质预测模型。3.根据权利要求2所述的基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,所述代价敏感基分类器采用随机树、完全随机树中的一种或者多种组合。4.根据权利要求2所述的基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,所述最优代价矩阵具体为通过启发式法和网格式法寻找初始代价矩阵和最佳代价矩阵进行筛选。5.根据权利要求2所述的基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,在步骤S400中,所述预测目标函数表示为:式y为用于表示水质是否合格的标签信息,其中表示对第j类标签信息的预测准确概率,i表示第i个数据,j表示第j类标签信息,n表示数据总数,C
ij
表示i个数据和j类标签信息的代价矩阵。
6.根据权利要求2所述的基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,在步骤S400中,所述代价敏感深度级联森林训练具体采用CS

DCF算法进行训练,所述CS

DCF算法为代价敏感深度级联森林算法;所述基于训练集进行训练具体为:首层输入的是原始特征向量,其余层输入是原始特征向量和相邻前一层的输出概率向量,每一层都会计算代价,如果代价降低则将原始特征向量与该层的输出相结合,作为下一层的输入;随后每层遵循相同的过程,直到预测目标函数不再降低,最后,相应层的结果则为代价敏感深度级联森林的输出。7.根据权利要求6所述的基于代价敏感深度级联森林的饮用水质预测方法,其特征在于,所述代价敏感深度级联森林算法具体包括以下步骤:步骤S401、初始化步骤:输入特征采样矩阵、代价矩阵、迭代次数,并初始化当前处理层数为1,初始化当前迭代次数序号值为0;所述特征采样矩阵表示为:X=(X1,X2...

【专利技术属性】
技术研发人员:陈达邓永锋陈兴国
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1