污染物预报模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32916274 阅读:17 留言:0更新日期:2022-04-07 12:07
本发明专利技术提供一种污染物预报模型训练方法、装置、电子设备及存储介质。方法包括:当触发训练任务时,获取预报数据集和原始数据集;其中,预报数据集包括第一指定时期内的样本数据;原始数据集包括第二指定时期内的样本数据;在预报数据集中,获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差;根据绝对误差,在预报数据集中筛选得到大误差数据集;根据大误差数据集和原始数据集,获得重构数据集;根据重构数据集对污染物预报模型进行训练,获得更新的污染物预报模型;当触发预报任务时,将目标污染物观测浓度和目标气象要素特征数据输入更新的污染物预报模型进行处理,获得目标污染物预报浓度。采用本发明专利技术,可以提高污染物预报模型的预报效果。污染物预报模型的预报效果。污染物预报模型的预报效果。

【技术实现步骤摘要】
污染物预报模型训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及环境气象
,具体涉及一种污染物预报模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,我国大气污染问题已经引起社会高度关注。大气污染物对人体健康、大气能见度以及气候变化等都有重要影响。加紧建设空气质量预报预警体系,提升空气质量预警能力,开展环境空气质量预报是保障及时妥善应对重污染天气的重要技术手段,并且对区域大气污染联防联控也具有指导意义。
[0003]目前,主要的大气污染物浓度预报方法有两种:统计预报法和数值预报法。其中,数值预报法在技术和硬件设施上投入大,并且在预报中存在计算资源消耗大,计算速度慢的问题。然而,随着机器学习算法的发展,机器学习算法已经成为实现空气质量短时临近预报的重要方法。大气污染物的浓度受气象条件、本地排放等要素的影响较大,并且气象条件和本地排放情况随时间变化较大,因此算法无法很好的捕捉当下污染物浓度的变化特征,导致预报结果不佳。
[0004]针对现有技术中在通过机器学习预报模型进行空气质量预报时,预报结果不佳的问题,还未提出有效的解决方案。

技术实现思路

[0005]为了解决现有技术的问题,本专利技术实施例提供了一种污染物预报模型训练方法、装置、电子设备及存储介质。技术方案如下:
[0006]根据本专利技术的第一方面,提供了一种污染物预报模型训练方法,所述方法包括:
[0007]当触发训练任务时,获取预报数据集和原始数据集;其中,所述预报数据集包括第一指定时期内的样本数据;所述原始数据集包括第二指定时期内的样本数据;所述第一指定时期是指触发训练任务的时刻之前的更新周期内的时段;所述第二指定时期长于所述第一指定时期;所述样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据;
[0008]在所述预报数据集中,获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差;
[0009]根据所述绝对误差,在所述预报数据集中筛选得到大误差数据集;
[0010]根据所述大误差数据集和所述原始数据集,获得重构数据集;
[0011]根据所述重构数据集对污染物预报模型进行训练,获得更新的污染物预报模型;
[0012]当触发预报任务时,将目标污染物观测浓度和目标气象要素特征数据输入所述更新的污染物预报模型进行处理,获得目标污染物预报浓度。
[0013]可选地,所述根据所述绝对误差,在所述预报数据集中筛选得到大误差数据集,包括:
[0014]获取百分位阈值和所述预报数据集包含的样本数量;
[0015]根据所述百分位阈值和所述样本数量,确定筛选标记;
[0016]将全部绝对误差进行排序,在所述预报数据集中,获取每一个序号大于所述筛选标记的绝对误差对应的样本数据,形成所述大误差数据集。
[0017]可选地,所述根据所述大误差数据集和所述原始数据集,获得重构数据集,包括:
[0018]根据所述大误差数据集和所述原始数据集,通过SMOTE算法获取重构数据集。
[0019]可选地,所述根据所述大误差数据集和所述原始数据集,通过SMOTE算法获取重构数据集,包括:
[0020]根据预定规则从所述原始数据集中获取子数据集;
[0021]在所述子数据集中,按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据;
[0022]根据所述大误差数据集中每个样本数据与所述邻近样本数据,获取新数据集;
[0023]将所述原始数据集、所述大误差数据集以及所述新数据集合并,形成所述重构数据集。
[0024]可选地,所述根据所述大误差数据集中每个样本数据与所述邻近样本数据,获取新数据集包括:
[0025]根据所述大误差数据集中每个样本数据与全部邻近样本数据,获取多个新样本数据,具体如下:
[0026][0027]其中,X
new
为新样本数据;X
i
为所述大误差数据集中第i个样本数据;为与第i个样本数据对应的邻近样本数据;P为0至1之间的随机数;
[0028]将全部新样本数据组合为新数据集。
[0029]可选地,在所述子数据集中,按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据,包括:
[0030]确定所述大误差数据集中每个样本数据与所述子数据集中任意样本数据之间的欧氏距离;
[0031]在所述子数据集中,将欧式距离小于或者等于预定阈值对应的样本数据,作为所述每个样本数据对应的邻近样本数据。
[0032]可选地,所述方法还包括:
[0033]对所述目标气象要素特征数据和所述目标污染物预报浓度建立对应关系并进行存储;
[0034]当与所述目标污染物预报浓度对应的目标污染物观测浓度完成观测时,对所述目标污染物预报浓度和所述目标污染物观测浓度建立对应关系并进行存储。
[0035]根据本专利技术的第二方面,提供了一种污染物预报模型训练装置,所述装置包括:
[0036]第一获取模块,用于当触发训练任务时,获取预报数据集和原始数据集;其中,所述预报数据集包括第一指定时期内的样本数据;所述原始数据集包括第二指定时期内的样本数据;所述第一指定时期是指触发训练任务的时刻之前的更新周期内的时段;所述第二指定时期长于所述第一指定时期;所述样本数据至少包括污染物预报浓度、污染物观测浓
度和气象要素特征数据;
[0037]第二获取模块,用于在所述预报数据集中,获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差;
[0038]筛选模块,用于根据所述绝对误差,在所述预报数据集中筛选得到大误差数据集;
[0039]第三获取模块,用于根据所述大误差数据集和所述原始数据集,获得重构数据集;
[0040]训练模块,用于根据所述重构数据集对污染物预报模型进行训练,获得更新的污染物预报模型;
[0041]第四获取模块,用于当触发预报任务时,将目标污染物观测浓度和目标气象要素特征数据输入所述更新的污染物预报模型进行处理,获得目标污染物预报浓度。
[0042]根据本专利技术的第三方面,提供了一种电子设备,包括:
[0043]处理器;以及
[0044]存储程序的存储器,
[0045]其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述污染物预报模型训练方法。
[0046]根据本专利技术的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行上述污染物预报模型训练方法。
[0047]本专利技术提供了一种污染物预报模型训练方法,是基于污染物预报模型设计了预报结果的在线评估方法,并实现训练数据集的在线重构,可以完成污染物预报模型的在线训练更新,解决了现有技术中在通过机器学习预报模型进行空气质量预报时,预报结果不佳的问题。通过本专利技术可以适应天气条件和本地排放本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种污染物预报模型训练方法,其特征在于,包括:当触发训练任务时,获取预报数据集和原始数据集;其中,所述预报数据集包括第一指定时期内的样本数据;所述原始数据集包括第二指定时期内的样本数据;所述第一指定时期是指触发训练任务的时刻之前的更新周期内的时段;所述第二指定时期长于所述第一指定时期;所述样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据;在所述预报数据集中,获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差;根据所述绝对误差,在所述预报数据集中筛选得到大误差数据集;根据所述大误差数据集和所述原始数据集,获得重构数据集;根据所述重构数据集对污染物预报模型进行训练,获得更新的污染物预报模型;当触发预报任务时,将目标污染物观测浓度和目标气象要素特征数据输入所述更新的污染物预报模型进行处理,获得目标污染物预报浓度。2.根据权利要求1所述的污染物预报模型训练方法,其特征在于,所述根据所述绝对误差,在所述预报数据集中筛选得到大误差数据集,包括:获取百分位阈值和所述预报数据集包含的样本数量;根据所述百分位阈值和所述样本数量,确定筛选标记;将全部绝对误差进行排序,在所述预报数据集中,获取每一个序号大于所述筛选标记的绝对误差对应的样本数据,形成所述大误差数据集。3.根据权利要求1所述的污染物预报模型训练方法,其特征在于,所述根据所述大误差数据集和所述原始数据集,获得重构数据集,包括:根据所述大误差数据集和所述原始数据集,通过SMOTE算法获取重构数据集。4.根据权利要求3所述的污染物预报模型训练方法,其特征在于,所述根据所述大误差数据集和所述原始数据集,通过SMOTE算法获取重构数据集,包括:根据预定规则从所述原始数据集中获取子数据集;在所述子数据集中,按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据;根据所述大误差数据集中每个样本数据与所述邻近样本数据,获取新数据集;将所述原始数据集、所述大误差数据集以及所述新数据集合并,形成所述重构数据集。5.根据权利要求4所述的污染物预报模型训练方法,其特征在于,所述根据所述大误差数据集中每个样本数据与所述邻近样本数据,获取新数据集包括:根据所述大误差数据集中每个样本数据与全部邻近样本数据,获取多个新样本数据,具体如下:其中,X
new
为新样本数据;X
i
...

【专利技术属性】
技术研发人员:樊旭陈焕盛文质彬柴源陈婷婷亢思静秦东明肖林鸿吴剑斌
申请(专利权)人:中科三清科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1