多工况排放数据造假检测方法技术

技术编号：39807790 阅读：27 留言：0更新日期：2023-12-22 02:42

本发明专利技术公开一种多工况排放数据造假检测方法

全部详细技术资料下载

【技术实现步骤摘要】
多工况排放数据造假检测方法、装置及系统和存储介质

[0001]本专利技术涉及通信信号处理
，特别是涉及一种多工况排放数据造假检测方法
、
装置及系统和存储介质
。

技术介绍

[0002]企业排放数据造假使数据失真，进而影响环保治理决策，长此以往终究危及环境
。
在全国多地严厉打击环保监控造假的同时，一些企业仍不收手，作案手法更加隐秘，技术含量更高
。
现有的排放数据造假识别通过人工筛查的方式，或者使用检测算法识别异常监测数据
。
其中，人工方式识别异常数据是比较常用的方法，使用大量的人力长时间观测，尽可能发现异常现象
。
而异常检测算法主要是通过统计学方法
、
模型的预测方法
、
距离的检测方法
、
神经网络方法
、
以及支持向量机方法等来判别
。
以上两种异常数据识别方法都存在一定的缺陷，人工审核的方式，不仅人力耗费巨大，审核效率比较低，而且易受个人经验的主观性影响，从而可能对异常数据的判别存在一定的偏差，并且随着数据量的提升，遗漏会越来越多；而常见的异常检测算法，并没有结合企业排放数据在不同工况下，异常数据展现出的不同特征，从而导致部分异常点难以捕获，鲁棒性比较差
。
[0003]在大数据时代，如何对环保部门目前掌握的海量自动监测数据进行充分挖掘分析，建立环保监测数据自动识别告警预警模型，智能地识别造假行为，提高企业排放数据造...

【技术保护点】

【技术特征摘要】
1.
一种多工况排放数据造假检测方法，其特征在于，所述方法包括：根据企业生产数据以及排放数据建立自适应工况分类模型，以确定企业在不同时期所处工况；建立不同工况下的数据不均衡情况下的统计规则模型，对排放数据是否造假进行判断；建立不同工况下的分类模型，对排放数据是否造假进行判断；建立集成模型，根据所述统计规则模型和所述分类模型的输出，输出排放数据是否造假的综合判断
。2.
根据权利要求1所述的方法，其特征在于，所述根据企业历史生产数据以及排放数据建立自适应工况分类模型，具体包括：获取企业生产数据和污染物排放数据；构建如公式
(1)
所示的
m
维生产数据，如公式
(2)
所示的
n
维排放数据；维排放数据；其中
X
p
表示
m
维生产数据，
X
e
表示
n
维排放数据，表示获取到的
m
维生产数据中的第
i
维生产因子，表示获取到的
n
维排放数据中的第
i
维排放因子；对获取的数据打标签，判断是否存在数据作假，得到标签数据
y
如公式
(3)
所示：以同一时间点和同一设备号所确定的唯一一组
(X
p
，
X
e
，
y)
元组数据记为一个样本，所有的样本集合作为数据集，将数据集划分为训练集
、
验证集
、
测试集；利用所述训练集中的生产数据，建立自适应工况分类模型；基于所述自适应工况分类模型来确定企业在不同时期所处工况
。3.
根据权利要求2所述的方法，其特征在于，基于所述自适应工况分类模型来确定企业在不同时期所处工况，具体包括：利用
k
均值聚类算法，建立自适应工况分类模型，如公式
(4)
所示：
y
cond
＝
f1(X
p
,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中，其中
k
表示工况类别个数，工况类别包括正常生产工况
、
停产工况以及减产工况，减产工况存在不同的减产程度，
k
的趋势范围设置如公式
(5)
所示：
k
＝
2,3,
…
,10
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)k
的初始选择为2，根据集成模型的输出，将验证集造假数据检测的
AUC
值作为目标，进行迭代，选择最优
AUC
下的
k
值，作为工况分类个数
。4.
根据权利要求3所述的方法，其特征在于，所述建立不同工况下的数据不均衡情况下的统计规则模型，对排放数据是否造假进行判断，具体包括：利用所述自适应工况分类模型，对训练集进行分类，将训练集分成
k
个工况，得到新的数据组
(X
p
，
X
e
，
y
，
y
cond
)
；
在每个工况下对应的排放数据
X
e
，根据标签
y
，分成数据正常类和数据造假类数据正常类组合成正常样本，数据造假类组成造假样本，将每个工况下的正常样本分成
L
份，每一份和对应工况下的数据造假类形成对照组计算
L
个对照组均值：按照公式
(6)
，得到这个工况下，
L
个对照组的对应的均值，如公式
(7)
...

【专利技术属性】
技术研发人员：庞继伟，王秀兰，张栩，郭炜，杨珊珊，丁杰，
申请(专利权)人：中节能天融科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人