污染物预报模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32916274 阅读：17 留言：0更新日期：2022-04-07 12:07

本发明专利技术提供一种污染物预报模型训练方法、装置、电子设备及存储介质。方法包括：当触发训练任务时，获取预报数据集和原始数据集；其中，预报数据集包括第一指定时期内的样本数据；原始数据集包括第二指定时期内的样本数据；在预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差；根据绝对误差，在预报数据集中筛选得到大误差数据集；根据大误差数据集和原始数据集，获得重构数据集；根据重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型；当触发预报任务时，将目标污染物观测浓度和目标气象要素特征数据输入更新的污染物预报模型进行处理，获得目标污染物预报浓度。采用本发明专利技术，可以提高污染物预报模型的预报效果。污染物预报模型的预报效果。污染物预报模型的预报效果。

全部详细技术资料下载

【技术实现步骤摘要】
污染物预报模型训练方法、装置、电子设备及存储介质

[0001]本专利技术涉及环境气象
，具体涉及一种污染物预报模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来，我国大气污染问题已经引起社会高度关注。大气污染物对人体健康、大气能见度以及气候变化等都有重要影响。加紧建设空气质量预报预警体系，提升空气质量预警能力，开展环境空气质量预报是保障及时妥善应对重污染天气的重要技术手段，并且对区域大气污染联防联控也具有指导意义。
[0003]目前，主要的大气污染物浓度预报方法有两种：统计预报法和数值预报法。其中，数值预报法在技术和硬件设施上投入大，并且在预报中存在计算资源消耗大，计算速度慢的问题。然而，随着机器学习算法的发展，机器学习算法已经成为实现空气质量短时临近预报的重要方法。大气污染物的浓度受气象条件、本地排放等要素的影响较大，并且气象条件和本地排放情况随时间变化较大，因此算法无法很好的捕捉当下污染物浓度的变化特征，导致预报结果不佳。
[0004]针对现有技术中在通过机器学习预报模型进行空气质量预报时，预报结果不佳的问题，还未提出有效的解决方案。

技术实现思路

[0005]为了解决现有技术的问题，本专利技术实施例提供了一种污染物预报模型训练方法、装置、电子设备及存储介质。技术方案如下：
[0006]根据本专利技术的第一方面，提供了一种污染物预报模型训练方法，所述方法包括：
[0007]当触发训练任务时，获取预报数据集和原始数据集；其中，所述预报数据集包...

【技术保护点】

【技术特征摘要】
1.一种污染物预报模型训练方法，其特征在于，包括：当触发训练任务时，获取预报数据集和原始数据集；其中，所述预报数据集包括第一指定时期内的样本数据；所述原始数据集包括第二指定时期内的样本数据；所述第一指定时期是指触发训练任务的时刻之前的更新周期内的时段；所述第二指定时期长于所述第一指定时期；所述样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据；在所述预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差；根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集；根据所述大误差数据集和所述原始数据集，获得重构数据集；根据所述重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型；当触发预报任务时，将目标污染物观测浓度和目标气象要素特征数据输入所述更新的污染物预报模型进行处理，获得目标污染物预报浓度。2.根据权利要求1所述的污染物预报模型训练方法，其特征在于，所述根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集，包括：获取百分位阈值和所述预报数据集包含的样本数量；根据所述百分位阈值和所述样本数量，确定筛选标记；将全部绝对误差进行排序，在所述预报数据集中，获取每一个序号大于所述筛选标记的绝对误差对应的样本数据，形成所述大误差数据集。3.根据权利要求1所述的污染物预报模型训练方法，其特征在于，所述根据所述大误差数据集和所述原始数据集，获得重构数据集，包括：根据所述大误差数据集和所述原始数据集，通过SMOTE算法获取重构数据集。4.根据权利要求3所述的污染物预报模型训练方法，其特征在于，所述根据所述大误差数据集和所述原始数据集，通过SMOTE算法获取重构数据集，包括：根据预定规则从所述原始数据集中获取子数据集；在所述子数据集中，按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据；根据所述大误差数据集中每个样本数据与所述邻近样本数据，获取新数据集；将所述原始数据集、所述大误差数据集以及所述新数据集合并，形成所述重构数据集。5.根据权利要求4所述的污染物预报模型训练方法，其特征在于，所述根据所述大误差数据集中每个样本数据与所述邻近样本数据，获取新数据集包括：根据所述大误差数据集中每个样本数据与全部邻近样本数据，获取多个新样本数据，具体如下：其中，X
new
为新样本数据；X
i
...

【专利技术属性】
技术研发人员：樊旭，陈焕盛，文质彬，柴源，陈婷婷，亢思静，秦东明，肖林鸿，吴剑斌，
申请(专利权)人：中科三清科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人