多工况排放数据造假检测方法技术

技术编号:39807790 阅读:19 留言:0更新日期:2023-12-22 02:42
本发明专利技术公开一种多工况排放数据造假检测方法

【技术实现步骤摘要】
多工况排放数据造假检测方法、装置及系统和存储介质


[0001]本专利技术涉及通信信号处理
,特别是涉及一种多工况排放数据造假检测方法

装置及系统和存储介质


技术介绍

[0002]企业排放数据造假使数据失真,进而影响环保治理决策,长此以往终究危及环境

在全国多地严厉打击环保监控造假的同时,一些企业仍不收手,作案手法更加隐秘,技术含量更高

现有的排放数据造假识别通过人工筛查的方式,或者使用检测算法识别异常监测数据

其中,人工方式识别异常数据是比较常用的方法,使用大量的人力长时间观测,尽可能发现异常现象

而异常检测算法主要是通过统计学方法

模型的预测方法

距离的检测方法

神经网络方法

以及支持向量机方法等来判别

以上两种异常数据识别方法都存在一定的缺陷,人工审核的方式,不仅人力耗费巨大,审核效率比较低,而且易受个人经验的主观性影响,从而可能对异常数据的判别存在一定的偏差,并且随着数据量的提升,遗漏会越来越多;而常见的异常检测算法,并没有结合企业排放数据在不同工况下,异常数据展现出的不同特征,从而导致部分异常点难以捕获,鲁棒性比较差

[0003]在大数据时代,如何对环保部门目前掌握的海量自动监测数据进行充分挖掘分析,建立环保监测数据自动识别告警预警模型,智能地识别造假行为,提高企业排放数据造假检测精准度,提升环保部门监测人员工作效率,更好地践行国家环保政策,成为当下环保部门数据监测工作的一个新的探索方向


技术实现思路

[0004]提供了本专利技术以解决现有技术中存在的上述问题

因此,需要一种多工况排放数据造假检测方法

装置及系统和存储介质,以快速

准确地识别企业排放数据是否造假,从而为保障环境监测质量管控提供及时准确的辅助决策依据

[0005]本专利技术针对上述现有技术中对环境监测数据的造假识别的人工监测难度大

实时性差以及现有数据造假手段识别中,并没有结合企业排放数据在不同工况下,异常数据展现出的不同特征进行识别的问题,通过对生产数据的聚类分析确认工况状态,建立基于混合规则的多工况异常行为提取规则模型,对环境监测数据的造假现象进行自动实时性识别,提高排放数据造假检测方法的精准度,提升环保部门监测人员工作效率

[0006]根据本专利技术的第一方案,提供了一种多工况排放数据造假检测方法,所述方法包括:
[0007]根据企业生产数据以及排放数据建立自适应工况分类模型,以确定企业在不同时期所处工况;
[0008]建立不同工况下的数据不均衡情况下的统计规则模型,对排放数据是否造假进行判断;
[0009]建立不同工况下的分类模型,对排放数据是否造假进行判断;
[0010]建立集成模型,根据所述统计规则模型和所述分类模型的输出,输出排放数据是否造假的综合判断

[0011]进一步地,所述根据企业历史生产数据以及排放数据建立自适应工况分类模型,具体包括:
[0012]获取企业生产数据和污染物排放数据

[0013]构建如公式
(1)
所示的
m
维生产数据,如公式
(2)
所示的
n
维排放数据;
[0014][0015][0016]其中
X
p
表示在
m
维生产数据,
X
e
表示
n
维排放数据,表示获取到的
m
维生产数据中的第
i
维生产因子,表示获取到的
n
维排放数据中的第
i
维排放因子;
[0017]对获取的数据打标签,判断是否存在数据作假,得到标签数据
y
如公式
(3)
所示:
[0018][0019]以同一时间点和同一设备号所确定的唯一一组
(X
p

X
e

y)
元组数据记为一个样本,所有的样本集合作为数据集,将数据集划分为训练集

验证集

测试集;
[0020]利用所述训练集中的生产数据,建立自适应工况分类模型;
[0021]基于所述自适应工况分类模型来确定企业在不同时期所处工况

[0022]进一步地,所述基于所述自适应工况分类模型来确定企业在不同时期所处工况,具体包括:
[0023]利用
k
均值聚类算法,建立自适应工况分类模型,如公式
(4)
所示:
[0024]y
cond

f1(X
p
,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025]其中,其中
k
表示工况类别个数,工况类别包括正常生产工况

停产工况以及减产工况,减产工况存在不同的减产程度,
k
的趋势范围设置如公式
(5)
所示:
[0026]k

2,3,

,10
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0027]k
的初始选择为2,根据集成模型的输出,将验证集造假数据检测的
AUC
值作为目标,进行迭代,选择最优
AUC
下的
k
值,作为工况分类个数

[0028]进一步地,所述建立不同工况下的数据不均衡情况下的统计规则模型,对排放数据是否造假进行判断,具体包括:
[0029]利用所述自适应工况分类模型,对训练集进行分类,将训练集分成
k
个工况,得到新的数据组
(X
p

X
e

y

y
cond
)

[0030]在每个工况下对应的排放数据
X
e
,根据标签
y
,分成数据正常类和数据造假类数据正常类组合成正常样本,数据造假类组成造假样本,
[0031]将每个工况下的正常样本分成
L
份,每一个份和对应工况下的数据造假类形成对照组
[0032]计算
L
个对照组均值:
[0033][0034]按照公式
(6)
,得到这个工况下,
L
个对照组的对应的均值,如公式
(7)
所示,其中表示第一个对照组中正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多工况排放数据造假检测方法,其特征在于,所述方法包括:根据企业生产数据以及排放数据建立自适应工况分类模型,以确定企业在不同时期所处工况;建立不同工况下的数据不均衡情况下的统计规则模型,对排放数据是否造假进行判断;建立不同工况下的分类模型,对排放数据是否造假进行判断;建立集成模型,根据所述统计规则模型和所述分类模型的输出,输出排放数据是否造假的综合判断
。2.
根据权利要求1所述的方法,其特征在于,所述根据企业历史生产数据以及排放数据建立自适应工况分类模型,具体包括:获取企业生产数据和污染物排放数据;构建如公式
(1)
所示的
m
维生产数据,如公式
(2)
所示的
n
维排放数据;维排放数据;其中
X
p
表示
m
维生产数据,
X
e
表示
n
维排放数据,表示获取到的
m
维生产数据中的第
i
维生产因子,表示获取到的
n
维排放数据中的第
i
维排放因子;对获取的数据打标签,判断是否存在数据作假,得到标签数据
y
如公式
(3)
所示:以同一时间点和同一设备号所确定的唯一一组
(X
p

X
e

y)
元组数据记为一个样本,所有的样本集合作为数据集,将数据集划分为训练集

验证集

测试集;利用所述训练集中的生产数据,建立自适应工况分类模型;基于所述自适应工况分类模型来确定企业在不同时期所处工况
。3.
根据权利要求2所述的方法,其特征在于,基于所述自适应工况分类模型来确定企业在不同时期所处工况,具体包括:利用
k
均值聚类算法,建立自适应工况分类模型,如公式
(4)
所示:
y
cond

f1(X
p
,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中,其中
k
表示工况类别个数,工况类别包括正常生产工况

停产工况以及减产工况,减产工况存在不同的减产程度,
k
的趋势范围设置如公式
(5)
所示:
k

2,3,

,10
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)k
的初始选择为2,根据集成模型的输出,将验证集造假数据检测的
AUC
值作为目标,进行迭代,选择最优
AUC
下的
k
值,作为工况分类个数
。4.
根据权利要求3所述的方法,其特征在于,所述建立不同工况下的数据不均衡情况下的统计规则模型,对排放数据是否造假进行判断,具体包括:利用所述自适应工况分类模型,对训练集进行分类,将训练集分成
k
个工况,得到新的数据组
(X
p

X
e

y

y
cond
)

在每个工况下对应的排放数据
X
e
,根据标签
y
,分成数据正常类和数据造假类数据正常类组合成正常样本,数据造假类组成造假样本,将每个工况下的正常样本分成
L
份,每一份和对应工况下的数据造假类形成对照组计算
L
个对照组均值:按照公式
(6)
,得到这个工况下,
L
个对照组的对应的均值,如公式
(7)
...

【专利技术属性】
技术研发人员:庞继伟王秀兰张栩郭炜杨珊珊丁杰
申请(专利权)人:中节能天融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1