基于大数据和遗传规划的泥石流多因子融合预测系统技术方案

技术编号:39828629 阅读:21 留言:0更新日期:2023-12-29 16:05
本发明专利技术公开了基于大数据和遗传规划的泥石流多因子融合预测系统,涉及泥石流预测技术领域,包括大数据平台和遗传规划模型单元,所述大数据平台包括数据收集单元,其用于针对多种不同数据源,采取不同的采集

【技术实现步骤摘要】
基于大数据和遗传规划的泥石流多因子融合预测系统


[0001]本专利技术涉及泥石流预测
,具体涉及基于大数据和遗传规划的泥石流多因子融合预测系统


技术介绍

[0002]泥石流是山区多发频发突发的地质灾害之一,常给人民生命财产安全带来极大威胁,泥石流预警作为泥石流防治的有效手段,一直是研究机构和企业关注的焦点问题

多年来,针对降水在泥石流暴发中的触发作用公开了大量研究成果及工程实践经验

[0003]有采用线性拟合
、Logistics
回归等方法建立了前期有效雨量

小时雨强

过程雨量等降雨指标的泥石流灾害临界预警表达式;也有采用人工神经网络建立了泥石流非线性预警模型,但预测精度在很大程度上依赖于使用者的经验与水平,限制了模型推广和应用;且对泥石流进行预测需要获取天气数据,如降雨量

土壤含水量等数据来源于全球预报系统,但该网站并未提供数据的直接下载接口,从欧洲航天局网站下载数据高程文件,需要用户登录网站,不方便自动化下载;且对于大数据量的文件的下载,现有系统下载速度不够高效,会对采集的数据的时效性有所影响


技术实现思路

[0004]本专利技术的目的是提供基于大数据和遗传规划的泥石流多因子融合预测系统,以解决现有技术中的上述不足之处

[0005]为了实现上述目的,本专利技术提供如下技术方案:基于大数据和遗传规划的泥石流多因子融合预测系统,包括大数据平台和遗传规划模型单元,所述大数据平台包括数据收集单元,其用于针对多种不同数据源,采取不同的采集

下载

预处理;数据存储单元,其用于采用分布式文件系统
HDFS、
分布式数据库
Hbase
以及数据仓库
Hive
相结合的方式对不同的数据进行储存;
Yarn
分布式管理系统,其用于管理集群利用率

资源统一和数据共享;协调单元,其用于进行应用程序协调,封装复杂易出错的关键服务,为用户提供稳定的系统;数据计算分析使用内存计算单元,其用于使用
Spark
的内存计算框架和
Hadoop

MapReduce
计算模型进行分析计算;遗传规划模型单元包括样本库模块,其用于以地区为限制,建立历史泥石流样本库,所述样本库样本分为学习样本和测试样本;算法模型模块,其用于以学习样本为基础,根据泥石流影响因子的特征,建立泥石流综合预测模型;验证模块,其用于将测试样本带入建好的模型,得到预测的临界降雨指数,并根据其进行预警

[0006]进一步的,所述数据收集单元针对不同数据源,采取不同的采集方法,包括采取爬虫

程序模拟,针对大数据量文件采集,采用分解方法和并行处理方法进行下载,针对原始数据格式复杂多样,采用不同的预处理方法

[0007]进一步的,所述分布式文件系统
HDFS
为分布式数据库
HBase
提供底层存储支持,分布式文件系统
HDFS
用于保存顺序读取的海量数据,分布式数据库
HBase
用于存储快速随机访问数据;所述协调单元采用
Zookeeper。
[0008]进一步的,算法模型模块采用非线性适应度函数,具体是计算预测值与实际值之间误差减去整体预测值与实际值的平均绝对误差,最后得到的值为适应度,计算公式如下:
[0009][0010]其中,是预测值,
y
i
是真实值

[0011]进一步的,所述样本库模块以遥感解译

历史地面调查为手段,获取历史泥石流地质因子,收集泥石流沟域内历史雨量站数据,建立以地质因子为自变量,以小时雨强

当日雨量为因变量的历史泥石流样本库,所述地质因子包括流域面积

松散物质比率

沟床平均坡度

[0012]进一步的,所述算法模型模块通过确定函数集和终止符集,设定遗传规划进化参数,初始群体产生方法

群体规模

交换概率

突变概率

选择方法

最大允许代次

最大突变深度以及终止准则,进行寻优搜索,满足终止准则后,输出临界降雨因子与地质因子之间的非线性函数表达式

[0013]进一步的,所述大数据平台由两台物理服务器和八台虚拟服务器搭建构成

[0014]进一步的,八台所述虚拟服务器包括两台主节点,五台从节点和一台
Ambari
服务器;两台所述主节点作为
HDFS、Hive

HBase

master
,在五台从节点中,有两台从节点作为
Yarn
分布式管理系统的主机点,剩下三台从节点作为数据节点
DataNode
,并在三台所述从节点上搭建
Zookeeper
集群

[0015]进一步的,在所述
Hadoop
上搭建
Spark
集群,在两台主节点上搭建
Spark
主节点,在五台从节点上搭建
SparkWorker。
[0016]1、
与现有技术相比,本专利技术提供的基于大数据和遗传规划的泥石流多因子融合预测系统,通过搭建大数据平台,从不同外部系统中采集泥石流的多源异构数据,针对不同数据源,采取爬虫

程序模拟等不同的采集方法获取相关数据,解决数据源没有直接的数据下载接口的问题,且针对大数据量文件采集,采用分解方法和并行处理方法下载,提高数据下载处理速度实现快速采集,保证采集的时效性,且对于数据格式复杂多样的原始数据采用不同的预测处理方法,以高效的储存泥石流灾害的多源异构数据,并进行大数据计算处理,使得数据采集更加便捷高效

[0017]2、
与现有技术相比,本专利技术提供的基于大数据和遗传规划的泥石流多因子融合预测系统,通过在历史泥石流地质因子和降雨数据分析的基础上,采用遗传规划建立地质因子与关键降雨因子之间非线性函数关系,输出泥石流预测二叉树模型,实现不同地质环境背景下的泥石流预测,并通过将测试样本带入建好的模型,得到预测的临界降雨指数,并与实际临界降雨指数作比较,调校出高预测精度的计算模型,保证了泥石流预测的精度,且基于二叉树的遗传规划方法,仿照生物界进化过程,采用复杂多变的树状结构表达多变量之间线性或非线性数学关系,更适用于处理大型

复杂的非线性问题,为解决类似非线性问题提供了技术参考

附图说明
[0018]为了更清楚地说明本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于大数据和遗传规划的泥石流多因子融合预测系统,其特征在于:包括大数据平台和遗传规划模型单元,所述大数据平台包括数据收集单元,其用于针对多种不同数据源,采取不同的采集

下载

预处理;数据存储单元,其用于采用分布式文件系统
HDFS、
分布式数据库
Hbase
以及数据仓库
Hive
相结合的方式对不同的数据进行储存;
Yarn
分布式管理系统,其用于管理集群利用率

资源统一和数据共享;协调单元,其用于进行应用程序协调,封装复杂易出错的关键服务,为用户提供稳定的系统;数据计算分析使用内存计算单元,其用于使用
Spark
的内存计算框架和
Hadoop

MapReduce
计算模型进行分析计算;遗传规划模型单元包括样本库模块,其用于以地区为限制,建立历史泥石流样本库,所述样本库样本分为学习样本和测试样本;算法模型模块,其用于以学习样本为基础,根据泥石流影响因子的特征,建立泥石流综合预测模型;验证模块,其用于将测试样本带入建好的模型,得到预测的临界降雨指数,并根据其进行预警
。2.
根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统,其特征在于:所述数据收集单元针对不同数据源,采取不同的采集方法,包括采取爬虫

程序模拟,针对大数据量文件采集,采用分解方法和并行处理方法进行下载,针对原始数据格式复杂多样,采用不同的预处理方法
。3.
根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统,其特征在于:所述分布式文件系统
HDFS
为分布式数据库
HBase
提供底层存储支持,分布式文件系统
HDFS
用于保存顺序读取的海量数据,分布式数据库
HBase
用于存储快速随机访问数据;所述协调单元采用
Zookeeper。4.
根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统,其特征在于:所述算法模型模块采用非线性适应度函数,具体是计算预测值与实际值之间误差减去整体预测值与实际值的平均绝对误差,最后得到的值为适应度,计算公式如下:其中...

【专利技术属性】
技术研发人员:孙浪顾璇于超毕致远张福清
申请(专利权)人:安徽中科国金智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1