一种基于链路预测的大气污染传播路径预测方法技术

技术编号:34818819 阅读:18 留言:0更新日期:2022-09-03 20:29
本发明专利技术公开了一种基于链路预测的大气污染传播路径预测方法。包括基于转移熵计算大气污染物PM2.5在不同监测站间的传播量;将复杂的时序数据转化为容易建模分析的网络数据,强化关注不同监测站间的污染物传播关系;通过网络表征学习技术将网络节点进行向量化表示,基于注意力机制和网络邻居聚合技术,得到有较低数据噪音的节点向量表示;通过哈达玛积得到网络中连边对应的向量表示,将大气污染物传播路径预测问题转化为一个二分类问题。该方法有效解决了大气污染传播路径数据收集难度大、预测结果滞后、模型不易迁移等问题,该方法在大气污染物传播路径预测问题上有较高的适应性和稳定性。稳定性。稳定性。

【技术实现步骤摘要】
一种基于链路预测的大气污染传播路径预测方法


[0001]本专利技术专利涉及一种基于转移熵的时序数据网络构建方法和一种基于网络表征学习的链路预测方法。在大气污染物PM2.5传播路径预测领域具有重要的应用和推广价值。

技术介绍

[0002]随着人类工业与科技的进步,大气污染已成为影响人类身体健康和日常生活的重要因素,精准地预测污染物的传播路径是预防大气污染的重要手段。现有大气污染传播路径预测模型主要包括基于概率论的数学模型和基于深度学习的图像模型。数学模型的建立往往依赖大量的先验数据,如:建筑密度、人口密度、人流量、道路宽度等,此类数据的采集过程需要耗费大量人力物力,模型求解难度大,且在城市基建改造的情况下,易对模型精度造成较大的不利影响。图像模型的建立往往依赖城市某个区域的即时摄影图像或卫星拍摄的高空图像,在大气变化剧烈的情况下,图像模型的感知范围会受到一定限制,且不同的图像之间缺少关联关系,使得图像模型的预测结果具有明显的滞后性。如:在距离当前位置3km以外的位置发现污染较为严重,在当前位置拍摄的图像并不一定能够及时的感知到此现象。
[0003]链路预测作为网络科学领域中一种常见的数据分析方法,旨在推断任意两节点间产生连边关系的概率大小。以网络科学的视角建立大气污染物PM2.5传播路径预测模型,可以更好的刻画大气污染物在城市中不同位置的转移关系,而且在降低了对先验数据依赖的同时,提高了模型的普适性。

技术实现思路

[0004]为了克服现有技术的不足,在本专利技术技术方案中假设收集到的PM2.5时序数据矩阵为X,该矩阵包含的监测站数量N行,每个检测站包含PM2.5浓度值数据M列。基于转移熵和PM2.5时序矩阵X构建的大气污染物PM2.5传播网络为G=(V,E),其中V代表网络的节点集合,节点代表监测站;E代表网络的连边集合,连边代表PM2.5在不同监测站间的传播关系。通过给定初始节点在网络中随机游走,得到代表节点局部拓扑结构的向量表示矩阵H。通过图神经网络的节点邻居聚合技术对H进行优化,得到最终的节点向量表示矩阵H'。随机选取网络中存在的连边和不存在的连边构建样本空间,连边向量用所构成该连边的两个节点的表征向量的哈达玛积表示。通过逻辑回归分类器,可得到模型的整个预测输出,即大气污染物PM2.5在监测站间传播的概率值矩阵Y。
[0005]本专利技术主要包括五个部分:(1)对PM2.5时序数据矩阵X,根据时序间隔选定K个时间窗口,按行两两之间计算出N(N

1)组数据,每组数据为K个转移熵值。(2)以监测站为节点,同时对每组K个转移熵值求出平均值和标准差,根据平均值和标准差确定连边,构建大气污染物传播网络G=(V,E)。(3)依次给定初始节点,在网络中随机游走,得到节点局部拓扑结构向量化表示矩阵H。(4)从网络节点集V中找出m个重要节点,计算重要节点与所有节点的相似度矩阵Sim,通过Sim矩阵可得到注意力系数矩阵A,通过注意力系数与图神经网络
的邻居聚合过程得到最终的节点向量表示矩阵H'。(5)构建连边的训练集和测试集,计算表示两节点的向量哈达玛积,得到表示两节点对应的连边向量,通过逻辑回归分类器解决该二分类问题。下面分别介绍以上五个部分的具体内容:
[0006]1、对PM2.5时序数据矩阵X,根据时序间隔选定K个时间窗口,按行两两之间计算出N(N

1)组数据,每组数据为K个转移熵值。每个转移熵的大小代表在规定时间窗口的情况下,由一个监测站到另一个监测站PM2.5污染物传播量。
[0007]2、以监测站为节点,同时对每组K个转移熵值求出平均值和标准差。通过平均值衡量污染物传播的量,平均值越大,污染物在两监测站点间的传播量越大;通过标准差衡量传播关系存在的稳定程度,标准差越小,污染物在两监测站点间的传播关系越稳定。选取监测站作为节点,选取平均值大、标准差小的节点对组成连边,构建出大气污染物PM2.5传播网络G=(V,E)。
[0008]3、依次给定初始节点,在大气污染PM2.5传播网络G中随机游走,得到N条随机游走路径,通过词向量化方法表达该路径,即得到了代表局部网络结构的特征向量矩阵H。
[0009]4、从网络G的节点集合V中选取m个重要节点,与所有节点进行一次相似度计算,得到相似度矩阵Sim,通过计算Sim和一个放大因子矩阵L的乘积,可得到注意力系数矩阵A,通过行归一化,将A中元素的取值范围映射到区间[0,1],结合图神经网络的节点邻居聚合技术,对H中的元素进行优化调整,最终得到用于链路预测的节点向量表示矩阵H'。
[0010]5、将网络G的连边集合中所有元素作为正例样本加入样本空间,通过负采样技术,选取与正例样本等量的反例样本加入样本空间。从样本空间中随机抽取训练集与测试集,根据构成连边的两个节点向量表示,计算出哈达玛积表示连边对应的向量,通过逻辑回归分类器,解决该二分类问题。
[0011]基于链路预测的大气污染传播路径预测方法(xx)详细步骤如下:
[0012]步骤1:通过步骤1.1、1.2、1.3分别计算转移熵,通过转移熵描述PM2.5在不同监测站间的转移量,之后转入步骤2;令矩阵X表示PM2.5时序数据矩阵,共有N行,每行代表一个监测站,每行有M列,每列代表一个采集时间,矩阵中每个元素代表监测站在该采集时间采集到的PM2.5浓度值;令具有下标i的X
i
表示监测站i在M个采集时间采集到的PM2.5浓度值所构成的行向量。步骤1.1、1.2和1.3详细描述如下:
[0013]步骤1.1:数据采集与清洗:在城市密布空气质量监测站,每间隔1小时记录一次当前区域的PM2.5浓度值,对于因设备故障未能记录到的缺失值,以其前后一小时PM2.5浓度的平均值进行填充,得到PM2.5时序数据矩阵X,后转入步骤1.2。
[0014]步骤1.2:对于PM2.5时序数据矩阵X,取第1行数据的行向量X1,与剩余i

1行数据的行向量X2,X3…
,X
i
,将X1记为Y,任意X
i
记为X,利用公式即可计算出X1对X
i
的转移熵,其中x与y的下标n代表行向量的维度是n维,x与y的上标k和l代表计算转移熵所指定的时间窗口大小,通常分析4个小时内的PM2.5传播量就可以满足现实需求,因此,在k=l=1,2,3,4四种情况下,任意两监测站可计算出4个转移熵,记为一组,后转入步骤1.3。
[0015]步骤1.3:重复步骤1.2,对于PM2.5时序数据矩阵X,将所有的行向量和除自身外所有的行向量计算转移熵,即可计算出N(N

1)组转移熵,每组转移熵代表了两个监测站分别
在1、2、3、4个小时内的PM2.5转移量,后转入步骤2。
[0016]步骤2:通过步骤2.1、2.2、2.3构建大气污染物传播网络,之后转入步骤3;令G=(V,E)表示大气污染物传播网络,其中V代表网络的节点集合,E代表网络中的连边集合。令表示监本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于链路预测的大气污染传播路径预测方法,其特征在于:在构建大气污染传播路径预测模型时,采用网络科学视角下的处理方法。2.如权利要求1所述一种基于链路预测的大气污染传播路径预测方法,其特征在于:根据不同监测站采集到的PM2.5时序数据向量,滑动时间窗口计算不同窗口条件下的转移熵值,用转移熵值量化PM2.5在不同监测站间的传播量。3.如权利要求1所述一种基于链路预测的大气污染传播路径预测方法,其特征在于:根据求出的不同时间窗口条件下的转移熵值,计算转移熵均值与标准差,通过以转移熵均值为横轴,转移熵标准差为纵轴,构建监测站间PM2.5传播关系的二维空间表示,确定整个样本空间中转移熵均值偏大、标准差均值偏小的样本点,选取此样本点涉及的监测站构建连边,构建大气污染物传播网络。4.如权利要求1所述一种基于链路预测的大气污染传播路径预测方法,其特征在于:在大气污染物传播网络中通过网络表征学习技术,给定一个初始节点进行随机游走,得到一个节点访...

【专利技术属性】
技术研发人员:李勇吴京鹏
申请(专利权)人:兰州七度数聚技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1