一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置制造方法及图纸

技术编号:29679876 阅读:13 留言:0更新日期:2021-08-13 22:03
本发明专利技术公开了一种优化LSTM和LightGBM参数的流感预测系统,该系统包括LSTM模块、LightGBM模块、预测模块;所述LSTM模块被配置为基于历史因素数据及外部因素数据,采用LSTM计算聚集群体中流感感染人数的预测值n;所述LightGBM被配置为基于健康情况数据及周围环境数据采用LightGBM计算聚集群体中每个人感染流感的概率

【技术实现步骤摘要】
一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置
本专利技术属于人工智能、数据统计学、医疗信息化等领域,涉及一种用于预流感的多变量LSTM和LightGBM调参系统、存储介质和装置。
技术介绍
目前对于流感的趋势预测已有一些进展,例如对流感爆发趋势进行预测,主要采用线性回归模型、时间序列模型等进行预测,这些预测方式以历史流感人数数据对模型进行训练,虽然一定程度上考量了诸如环境因素、天气因素等对流感病例的百分比造成一定程度影响的外部特征,但也仅是对爆发趋势的预测,并不能准确找出一定范围人群中的易感者。现有技术中已出现通过长短记忆网络LSTM(LongShortTermMemorynetworks,LSTM)进行疾病预测的技术方案,但通过该方法仅能得到疾病爆发趋势的预测结果,并不能将群体中的易感者抓取出来,且预测均是基于一般LSTM模型进行的,输入的是单一的时间序列导致预测结果不够准确;若采用多时间序列数据,LSTM模型大计算速度慢,难于收敛,导致无法在预期时间内获得预测结果。LightGBM算法作为对目前工业界已广泛应用的GBDT算法的改进,以决策树为基学习器,通过使用直方图算法寻找决策树的最佳分裂结点,并使用带深度限制的叶子生长策略(leaf_wise)分裂结点,有效解决了GBDT算法在面对特征维度很高或者数据量很大时存在的效率过低问题。但目前基于该算法得到的概率,并未考虑到算法本身存在的诸如过拟合等问题对预测结果带来的不良影响,在一定程度上也影响了预测的准确性。<br>
技术实现思路
本专利技术的目的在于采用多变量LSTM网络,结合影响聚集群体中感染流感人数的多种因素,预测未来一段时间内流感爆发趋势,同时根据聚集群体中每名个体的情况和所处的客观条件,采用LightGBM算法判断聚集群体中的每名个体感染流感的概率,准确抓取出聚集群体中的易感者,提示其加强防范。为解决LSTM模型大导致的在处理数据维度较多时的计算速度慢难于收敛,从而导致无法兼顾较多种类的因素,以及lightGBM容易过拟合导致计算不准确的问题,本专利技术提供如下技术方案:一种优化LSTM和LightGBM参数的流感预测系统,该系统包括LSTM模块、LightGBM模块、预测模块;所述LSTM模块被配置为基于历史因素数据及外部因素数据,采用LSTM计算聚集群体中流感感染人数的预测值n;所述LSTM的参数确定方法包括:S11设定LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长的初始值;S12以最小化测试集上的预设函数作为LSTM的网络的目标函数;S13采用贝叶斯优化对LSTM的网络进行优化;S14返回贝叶斯优化后的预设函数,确定对应的LSTM的网络的LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长的初始值;S15将S14获得的LSTM的网络的LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长作为LSTM的参数;所述LightGBM模块被配置为基于健康情况数据及周围环境数据采用LightGBM计算聚集群体中每个人感染流感的概率,由大到小排序获得感染概率序列;所述预测模块被配置为选取感染流感概率最高的前n个人为高风险人群。优选的,所述预设函数为:,或,,或,;其中,,为三种预设函数,为真实值,为预测值,m为学生总数。优选的,所述LightGBM的参数确定方法包括:S21计算训练集绝对平方误差TRAIN_MAE及测试集绝对平方误差TEST_MAE;S22根据训练集绝对平方误差TRAIN_MAE及测试集绝对平方误差TEST_MAE的差确定LightGBM的参数:最大深度MAX_DEPTH、健康情况数据及周围环境数据的采样比例COLSAMPLE_BYLEVEL。优选的,所述步骤S22进一步包括:若,则,若,则;若,则,若,则;若,则停止调参,以当前的最大深度MAX_DEPTH、健康情况数据及周围环境数据的采样比例COLSAMPLE_BYLEVEL作为所述LightGBM的参数;其中,为第j情况下训练集绝对平方误差,为第j情况下测试集绝对平方误差,j为第j情况下测试集均值,为第j情况下当前最大深度,为第j情况下调整后最大深度,为第j情况下当前健康情况数据及周围环境数据的采样比例,为第j情况下调整后健康情况数据及周围环境数据的采样比例;、、、为系数,、的取值范围为(0.5,2),、的取值范围为(0.01,0.25)。优选的,所外部因素数据包括天气因素、环境因素和公众关注程度因素。优选的,所述天气因素包括周平均最高气温、周平均最低气温、周晴天天数、周雨天天数、周多云天数、周阴天天数;所述环境因素包括周平均雾霾指数、周有害气体平均浓度、周PM10平均浓度;公众关注程度因素包括在搜索引擎搜索流感敏感词的周平均频率指数、在互联网平台下单买流感相关药品的周平均频率指数、在问诊平台问诊的周平均频率指数。优选的,所述健康情况数据包括体能检测分数、患病的频率、严重程度、症状数据;所述症状数据包括无症状、发热、咳嗽、咽痛、头痛、腹泻、呕吐;所述周围环境数据包括群体聚集多个区域范围内是否有其他个体感染流感及感染流感人数。一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序包括如上述任一项所述的优化LSTM和LightGBM参数的流感预测系统。一种基于多变量LSTM和lightGBM算法的聚集群体流感预测装置,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序包括如上述任一项所述的优化LSTM和LightGBM参数的流感预测系统。与现有技术相比,本专利技术提供的用于预流感的多变量LSTM和LightGBM调参系统,其具备以下有益技术效果:1、将聚集群体的流感爆发趋势与群体中每名个体的流感感染概率结合,能够准确预测出聚集群体中的易感者。预测结果兼具LSTM模型和LihgtGBM算法的优势,考虑了多项外部因素对预测结果的影响,在提高预测召回率的同时保证了预测速度和准确率。2、本专利技术的LSTM参数确定方法,有效解决了LSTM由于模型复杂导致的在面对过多影响因素时,尤其是多变量,非单一的时间序列时,计算速度慢的技术问题,在兼顾复杂流感发生因素的同时保证计算速度,3、本专利技术的LightGBM参数确定方法,通过分区最大深度、健康情况数据及周围环境数据的采样比例的参数确定,有效避免了LightGBM模型容易过拟合的问题,使感染流感人数预测结果更加精确。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本文档来自技高网
...

【技术保护点】
1.一种优化LSTM和LightGBM参数的流感预测系统,其特征在于,包括LSTM模块、LightGBM模块、预测模块;/n所述LSTM模块被配置为基于历史因素数据及外部因素数据,采用LSTM计算聚集群体中流感感染人数的预测值n;/n所述LSTM的参数确定方法包括:/nS11设定LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长的初始值;/nS12以最小化测试集上的预设函数作为LSTM的网络的目标函数;/nS13采用贝叶斯优化对LSTM的网络进行优化;/nS14返回贝叶斯优化后的预设函数,确定对应的LSTM的网络的LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长的初始值;/nS15将S14获得的LSTM的网络的LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长作为LSTM的参数;/n所述LightGBM模块被配置为基于健康情况数据及周围环境数据采用LightGBM计算聚集群体中每个人感染流感的概率

【技术特征摘要】
1.一种优化LSTM和LightGBM参数的流感预测系统,其特征在于,包括LSTM模块、LightGBM模块、预测模块;
所述LSTM模块被配置为基于历史因素数据及外部因素数据,采用LSTM计算聚集群体中流感感染人数的预测值n;
所述LSTM的参数确定方法包括:
S11设定LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长的初始值;
S12以最小化测试集上的预设函数作为LSTM的网络的目标函数;
S13采用贝叶斯优化对LSTM的网络进行优化;
S14返回贝叶斯优化后的预设函数,确定对应的LSTM的网络的LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长的初始值;
S15将S14获得的LSTM的网络的LSTM网络层数、每层网络隐藏节点数、随机删除隐藏节点率、感染人数观测步长作为LSTM的参数;
所述LightGBM模块被配置为基于健康情况数据及周围环境数据采用LightGBM计算聚集群体中每个人感染流感的概率,由大到小排序获得感染概率序列;
所述预测模块被配置为选取感染流感概率最高的前n个人为高风险人群。


2.据权利要求1所述的优化LSTM和LightGBM参数的流感预测系统,其特征在于:所述预设函数为:


或,


或,


其中,,为三种预设函数,为真实值,为预测值,m为学生总数。


3.据权利要求1所述的优化LSTM和LightGBM参数的流感预测系统,其特征在于:所述LightGBM的参数确定方法包括:
S21计算训练集绝对平方误差TRAIN_MAE及测试集绝对平方误差TEST_MAE;
S22根据训练集绝对平方误差TRAIN_MAE及测试集绝对平方误差TEST_MAE的差确定LightGBM的参数:最大深度MAX_DEPTH、健康情况数据及周围环境数据的采样比例COLSAMPLE_BYLEVEL。


4.根据权利要求3所述的优化LSTM和LightGBM参数的流感预测系统,其特征在于:所述步骤S22进一步包括:
若,
则,
若,
则;
若,
则,

【专利技术属性】
技术研发人员:吴和俊王敏康王玲傅天涯
申请(专利权)人:杭州华网信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1