一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法制造技术

技术编号：43005395 阅读：28 留言：0更新日期：2024-10-18 17:13

本发明专利技术属于大气污染物浓度时空分布计算技术领域，且公开了一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，该算法步骤如下：S1，多源数据的获取：S2，数据清洗和预处理：S3，训练数据集构建：S4，机器学习模型训练：S5，模型验证与评价：S6，数据结果可视化。本发明专利技术通过多源数据融合技术，能够获取逐日的高精度颗粒物浓度数据，准确性更高，且适用于近实时系统，在多源数据应用上具有更广泛的覆盖面，包括卫星AOD、地面监测站数据传统数据源，利用土地分类、植被指数、夜间灯光、道路交通和人类足迹多元化社会经济数据源，充分利用卫星遥感AOD与颗粒物浓度之间的关联，通过使用卫星遥感AOD进行颗粒物估算，提高估算的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大气污染物浓度时空分布计算，具体为一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法。

技术介绍

1、目前遥感多源数据融合技术是一种新兴的结合多种来源数据基于遥感影像对研究目标进行数据补充，提高遥感数据的时空覆盖，通过卫星遥感产品想要精准预测近地面颗粒物等大气污染物浓度是难点，多源融合技术是目前解决此问题的手段之一，多源融合技术基于机器学习，将不同数据源的数据经过同化、训练、融合来增加目标数据的空间覆盖率，近些年，该技术逐渐被应用于大气污染物浓度的估算和监测，机器学习已用于重构颗粒物等大气污染物的时空分布数据，这种方法以地面监测站数据为基础，结合卫星遥感、地形和气象数据，通过机器学习模型进行重构，然而，由于卫星遥感数据的时间覆盖率低和过境时间短的问题，重构的时空数据存在缺失。因此，如何结合两者的优点，获得具有高空间和时间覆盖率且准确估算的颗粒物时空分布数据，是当前研究的重点和难点。

技术实现思路

1、本专利技术的目的在于提供一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，以解决上述
技术介绍
中提出的问题。

2、为了实现上述目的，本专利技术提供如下技术方案：一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，

3、该算法步骤如下：

4、s1，多源数据的获取：在获取多源数据时，需要考虑数据的来源、质量和可用性。

5、s2，数据清洗和预处理：需要进行数据清洗和格式统一，数据清洗包括缺失值填

6、s3，训练数据集构建：在构建训练数据集时，需要选择合适的数据分割方法，将数据集划分为训练集和测试集。

7、s4，机器学习模型训练：在模型训练阶段，需要选择适合的机器学习算法，如随机森林、支持向量机、神经网络，使用训练集对模型进行训练，调整模型参数，以提高估算精度。

8、s5，模型验证与评价：在模型验证和评估阶段，需要使用测试集对模型进行验证和评估，计算模型的精度、召回率、f1分数指标，确保模型的可靠性和有效性。

9、s6，数据结果可视化：为了更好地呈现估算结果和数据分布情况，需要进行数据结果可视化，使用各种可视化工具和技术，如散点图、柱状图和热力图，将估算结果和原始数据进行可视化展示。

10、优选地，所述多源数据的获取是采用maiac的aod数据，其高分辨率为颗粒物浓度的准确估算提供了有力支持，数据的多波段特性使得从多个角度捕捉颗粒物的分布和浓度信息，整合波段的信息，采用了波段均值化处理，旨在提高估算的稳定性和精度，这一数据处理策略不仅增强了数据的分析价值，更为后续的模型训练和结果评估提供了更为可靠的依据。

11、优选地，所述数据清洗和预处理中多源数据来自卫星与同化系统，需清洗缺失、无效值，因坐标系、分辨率各异，需统一后才可训练模型，以aod数据和地理坐标系为基准，进行重投影、重采样等预处理，统一为1km、小时、wgs84格式。

12、优选地，所述训练数据集构建是根据在预处理阶段，多源数据经过清洗、格式统一和坐标系转换后，确保了数据在空间位置上的对应性，这一步骤为后续构建训练数据集奠定了基础，大大简化了机器学习模型训练时的数据读取过程，除多源数据外，还需要计算得到数据的空间特征和时间特征，也存入数据集中。

13、优选地，所述s4中的空间特征的计算如下：

14、空间特征的计算如下：

15、ps＝(lon,lat,dp1,dp2,dp3,dp4,dp5,dp6,dp7,dp8,dp9)

16、其中dpi为该点到各个基准点的距离，

17、

18、其中a1、a2为两点的经度所对应的弧度，b1、b2为两点的纬度对应的弧度，r为地球半径。

19、时间特征的计算为确保时间连续性，将一年365天转换为正弦函数形式，使得每年的最后一天与第一天的数据得以平滑衔接，通过正弦函数表示的每一天数值，得以捕捉到季节性和周期性变化，从而更好地体现颗粒物浓度的年度周期性规律，为模型的训练提供更精准的时间特征信息。

20、优选地，所述机器学习模型训练将s4制作的数据集输入到一个xgboost模型中进行训练，以站点的颗粒物浓度数据为因变量，其他数据为自变量，对近地面的颗粒物浓度进行估算。

21、优选地，所述模型验证与评价是将s4制作的数据集中数据随机分成10份，轮流用其中9份进行训练，1份用来验证，采用确定性系数(r2)和均方根误差(rmse)来定量表征模型的精度。

22、优选地，所述数据结果可视化是将模型估算的近地面颗粒物浓度数据以直观、易于理解的方式呈现，通过可视化技术，能够更好地揭示逐日颗粒物浓度的空间分布和变化趋势。

23、本专利技术的有益效果如下：

24、本专利技术通过与现有技术相比，通过多源数据融合技术，能够获取逐日的高精度颗粒物浓度数据，准确性更高，且适用于近实时系统，在多源数据应用上具有更广泛的覆盖面，不仅包括卫星aod、地面监测站数据等传统数据源，还利用了土地分类、植被指数、夜间灯光、道路交通和人类足迹等多元化社会经济数据源，最重要的是，充分利用了卫星遥感aod与颗粒物浓度之间的关联，通过使用卫星遥感aod进行颗粒物估算，显著提高了估算的准确率，在颗粒物浓度估算方面具有更高的精度和更广泛的数据应用，为环境监测和治理提供了有力支持。

本文档来自技高网...

【技术保护点】

1.一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：

2.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述多源数据的获取是采用MAIAC的AOD数据，其高分辨率为颗粒物浓度的准确估算提供了有力支持，数据的多波段特性使得从多个角度捕捉颗粒物的分布和浓度信息，整合波段的信息，采用了波段均值化处理。

3.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述数据清洗和预处理中多源数据来自卫星与同化系统，需清洗缺失、无效值，因坐标系、分辨率各异，需统一后才可训练模型，以AOD数据和地理坐标系为基准，进行重投影和重采样预处理，统一为1km、小时、WGS84格式。

4.根据权利要求3所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述训练数据集构建是根据在预处理阶段，多源数据经过清洗、格式统一和坐标系转换后，确保了数据在空间位置上的对应性，这一步骤为后续构建训练数据集奠定了基础，大大简化了机器学习模

5.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述S4中的空间特征的计算如下：

6.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述机器学习模型训练将S4制作的数据集输入到一个XGBoost模型中进行训练，以站点的颗粒物浓度数据为因变量，其他数据为自变量，对近地面的颗粒物浓度进行估算。

7.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述模型验证与评价是将S4制作的数据集中数据随机分成10份，轮流用其中9份进行训练，1份用来验证，采用确定性系数(R2)和均方根误差(RMSE)来定量表征模型的精度。

8.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述数据结果可视化是将模型估算的近地面颗粒物浓度数据以直观、易于理解的方式呈现，通过可视化技术，能够更好地揭示逐日颗粒物浓度的空间分布和变化趋势。

...

【技术特征摘要】

1.一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：

2.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述多源数据的获取是采用maiac的aod数据，其高分辨率为颗粒物浓度的准确估算提供了有力支持，数据的多波段特性使得从多个角度捕捉颗粒物的分布和浓度信息，整合波段的信息，采用了波段均值化处理。

3.根据权利要求1所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述数据清洗和预处理中多源数据来自卫星与同化系统，需清洗缺失、无效值，因坐标系、分辨率各异，需统一后才可训练模型，以aod数据和地理坐标系为基准，进行重投影和重采样预处理，统一为1km、小时、wgs84格式。

4.根据权利要求3所述的一种基于机器学习和多源数据估算逐日高精度近地面颗粒物浓度的算法，其特征在于：所述训练数据集构建是根据在预处理阶段，多源数据经过清洗、格式统一和坐标系转换后，确保了数据在空间位置上的对应性，这一步骤为后续构建训练数据集奠定了基础，大大简化了机器学习模型训练时的数据读取过程，除多源...

【专利技术属性】
技术研发人员：姚明志，李德琦，孙天宝，姚宇飞，王宝刚，边帅鹏，焦高超，王振楠，王彬，
申请(专利权)人：中科宇图科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人