一种大气污染源数据分析方法、装置、设备及存储介质制造方法及图纸

技术编号：33808106 阅读：12 留言：0更新日期：2022-06-16 10:16

本发明专利技术公开了一种大气污染源数据分析方法、装置、设备及存储介质。所述方法包括：基于大气污染源数据确定训练数据集和测试数据集；基于所述训练数据集对随机森林模型进行训练得到已训练模型；通过分布式计算框架，基于所述测试数据集和所述已训练模型确定目标模型；将待分析的大气污染源数据进行特征选取后得到的特征输入所述目标模型，得到分析结果，所述分析结果包括大气污染元素排放量。该方法中的目标模型可以直接集成在主流服务端应用，能够有效避免兼容问题，该方法还能够高效处理海量的大气污染源数据。量的大气污染源数据。量的大气污染源数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种大气污染源数据分析方法、装置、设备及存储介质

[0001]本专利技术实施例涉及人工智能
，尤其涉及一种大气污染源数据分析方法、装置、设备及存储介质。

技术介绍

[0002]随着经济的飞速发展，大气污染问题愈加突出，大气污染源数据的高效分析，可以帮助环境保护人员全面了解污染态势，合理制定污染防控策略。
[0003]在现有技术中，一般通过构建模型对大气污染源数据进行分析，该方法首先训练出预测模型，然后通过适配接口将预测程序集成到应用系统中。
[0004]但是，该方法采用集中式计算方式，难以处理海量数据下的数据分析，存在效率低、耗时长的问题；传统的机器学习框架构建出的模型需要通过特定的适配工具集成到主流的服务端应用中，容易出现兼容性问题。

技术实现思路

[0005]本专利技术实施例提供了一种大气污染源数据分析方法、装置、设备及存储介质，能够有效避免兼容问题，还能够高效处理海量的大气污染源数据。
[0006]第一方面，本专利技术实施例提供了一种大气污染源数据分析方法，包括：
[0007]基于大气污染源数据确定训练数据集和测试数据集；
[0008]基于所述训练数据集对随机森林模型进行训练得到已训练模型；
[0009]通过分布式计算框架，基于所述测试数据集和所述已训练模型确定目标模型；
[0010]将待分析的大气污染源数据进行特征选取后得到的特征输入所述目标模型，得到分析结果，所述分析结果包括大气污染元素排放量。
[0011...

【技术保护点】

【技术特征摘要】
1.一种大气污染源数据分析方法，其特征在于，所述方法包括：基于大气污染源数据确定训练数据集和测试数据集；基于所述训练数据集对随机森林模型进行训练得到已训练模型；通过分布式计算框架，基于所述测试数据集和所述已训练模型确定目标模型；将待分析的大气污染源数据进行特征选取后得到的特征输入所述目标模型，得到分析结果，所述分析结果包括大气污染元素排放量。2.根据权利要求1所述的方法，其特征在于，所述基于大气污染源数据确定训练数据集和测试数据集，包括：对大气污染源数据进行特征选取得到多组特征子集；将所述特征子集按照预设比例分为训练数据集和测试数据集。3.根据权利要求2所述的方法，其特征在于，所述对大气污染源数据进行特征选取得到多组特征子集，包括：将大气污染源数据转换为弹性分布式数据；通过预设机器学习库对所述弹性分布式数据分别进行相关性分析以及特征筛选，得到多组特征子集。4.根据权利要求3所述的方法，其特征在于，所述通过预设机器学习库对所述弹性分布式数据分别进行相关性分析以及特征筛选，得到多组特征子集，包括：通过预设机器学习库中的地图函数对所述弹性分布式数据进行解析得到多组特征，并返回多个向量类型的数据，一个向量类型的数据包括一组特征和一个标签，所述标签表征所述特征对应的大气污染元素排放量的目标值；计算所有特征与所有标签的相关性；根据所述相关性确定特征筛选的筛选范围；通过卡方选择器从所述筛选范围内筛选出多个向量类型的目标数据；将所述向量类型的目标数据构成多组特征子集。5.根据权利要求1所述的方法，其特征在于，所述随机森林模型为已进行参数设置的机器学习模型，所述基于所述训练数据集对随机森林模型进行训练得到已训练模型，包括：根据所述训练数据集中的特征以及标签，通过预设的分类器训练方法对随机森林模型中的分类器进行训练，得到已训练模型。6.根据权利要求5所述的方法，其特...

【专利技术属性】
技术研发人员：董兰天，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人