【技术实现步骤摘要】
多工况排放数据造假检测方法、装置及系统和存储介质
[0001]本专利技术涉及通信信号处理
,特别是涉及一种多工况排放数据造假检测方法
、
装置及系统和存储介质
。
技术介绍
[0002]企业排放数据造假使数据失真,进而影响环保治理决策,长此以往终究危及环境
。
在全国多地严厉打击环保监控造假的同时,一些企业仍不收手,作案手法更加隐秘,技术含量更高
。
现有的排放数据造假识别通过人工筛查的方式,或者使用检测算法识别异常监测数据
。
其中,人工方式识别异常数据是比较常用的方法,使用大量的人力长时间观测,尽可能发现异常现象
。
而异常检测算法主要是通过统计学方法
、
模型的预测方法
、
距离的检测方法
、
神经网络方法
、
以及支持向量机方法等来判别
。
以上两种异常数据识别方法都存在一定的缺陷,人工审核的方式,不仅人力耗费巨大,审核效率比较低,而且易受个人经验的主观性影响,从而可能对异常数据的判别存在一定的偏差,并且随着数据量的提升,遗漏会越来越多;而常见的异常检测算法,并没有结合企业排放数据在不同工况下,异常数据展现出的不同特征,从而导致部分异常点难以捕获,鲁棒性比较差
。
[0003]在大数据时代,如何对环保部门目前掌握的海量自动监测数据进行充分挖掘分析,建立环保监测数据自动识别告警预警模型,智能地识别造假行为,提高企业排放数据造 ...
【技术保护点】
【技术特征摘要】
1.
一种多工况排放数据造假检测方法,其特征在于,所述方法包括:根据企业生产数据以及排放数据建立自适应工况分类模型,以确定企业在不同时期所处工况;建立不同工况下的数据不均衡情况下的统计规则模型,对排放数据是否造假进行判断;建立不同工况下的分类模型,对排放数据是否造假进行判断;建立集成模型,根据所述统计规则模型和所述分类模型的输出,输出排放数据是否造假的综合判断
。2.
根据权利要求1所述的方法,其特征在于,所述根据企业历史生产数据以及排放数据建立自适应工况分类模型,具体包括:获取企业生产数据和污染物排放数据;构建如公式
(1)
所示的
m
维生产数据,如公式
(2)
所示的
n
维排放数据;维排放数据;其中
X
p
表示
m
维生产数据,
X
e
表示
n
维排放数据,表示获取到的
m
维生产数据中的第
i
维生产因子,表示获取到的
n
维排放数据中的第
i
维排放因子;对获取的数据打标签,判断是否存在数据作假,得到标签数据
y
如公式
(3)
所示:以同一时间点和同一设备号所确定的唯一一组
(X
p
,
X
e
,
y)
元组数据记为一个样本,所有的样本集合作为数据集,将数据集划分为训练集
、
验证集
、
测试集;利用所述训练集中的生产数据,建立自适应工况分类模型;基于所述自适应工况分类模型来确定企业在不同时期所处工况
。3.
根据权利要求2所述的方法,其特征在于,基于所述自适应工况分类模型来确定企业在不同时期所处工况,具体包括:利用
k
均值聚类算法,建立自适应工况分类模型,如公式
(4)
所示:
y
cond
=
f1(X
p
,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中,其中
k
表示工况类别个数,工况类别包括正常生产工况
、
停产工况以及减产工况,减产工况存在不同的减产程度,
k
的趋势范围设置如公式
(5)
所示:
k
=
2,3,
…
,10
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)k
的初始选择为2,根据集成模型的输出,将验证集造假数据检测的
AUC
值作为目标,进行迭代,选择最优
AUC
下的
k
值,作为工况分类个数
。4.
根据权利要求3所述的方法,其特征在于,所述建立不同工况下的数据不均衡情况下的统计规则模型,对排放数据是否造假进行判断,具体包括:利用所述自适应工况分类模型,对训练集进行分类,将训练集分成
k
个工况,得到新的数据组
(X
p
,
X
e
,
y
,
y
cond
)
;
在每个工况下对应的排放数据
X
e
,根据标签
y
,分成数据正常类和数据造假类数据正常类组合成正常样本,数据造假类组成造假样本,将每个工况下的正常样本分成
L
份,每一份和对应工况下的数据造假类形成对照组计算
L
个对照组均值:按照公式
(6)
,得到这个工况下,
L
个对照组的对应的均值,如公式
(7)
...
【专利技术属性】
技术研发人员:庞继伟,王秀兰,张栩,郭炜,杨珊珊,丁杰,
申请(专利权)人:中节能天融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。