基于动态邻接矩阵和时空注意力的医学时间序列预测方法技术

技术编号:37575902 阅读:14 留言:0更新日期:2023-05-15 07:52
本发明专利技术涉及一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,属于大数据挖掘和医学人工智能数据预测技术领域。该方法对于疾病暴露人口数医学时间序列历史数据,构建静态空间邻接矩阵捕获空间外部数据,构建动态时间邻接矩阵挖掘疾病暴露人口数在时间维度上的关联特征,利用时空注意力机制融合静态空间邻接矩阵和动态时间邻接矩阵,采用图卷积神经网络和门控循环单元框架来预测未来时间步的疾病暴露人口数。本发明专利技术引入空间外部数据,学习动态时间邻接矩阵,引入时空注意力机制,能够捕获发病地区之间空间相关性,疾病暴露人口数在时间维度上的关联特征,实现时空信息相关性的融合,从提高医学时间序列预测方法的性能。能。能。

【技术实现步骤摘要】
基于动态邻接矩阵和时空注意力的医学时间序列预测方法


[0001]本专利技术涉及一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,属于大数据挖掘和医学人工智能数据预测


技术介绍

[0002]医学时间序列预测是医学人工智能领域的重要研究问题。医学时间序列预测问题受到学术界和工业界的广泛关注和研究。疾病暴露人口数的精准预测有助于为科学预防和治疗提供依据。医学时间序列预测任务是指以若干地区历史时间步的疾病暴露人口数等医学数据作为观测数据,由此来预测未来多个时间步的疾病暴露人口数等医学数据。
[0003]杨静等在《ARIMA模型在成都市成华区狂犬病暴露监测数据分析中的应用》(中国卫生统计,2016)中,利用成都市成华区2009

2015年的狂犬病暴露数建立季节性自回归积分滑动平均模型(Seasonal Autoregressive Integrated Moving Average,简称SARIMAX),预测未来时间步的狂犬病暴露数。Yogesh Kumar等在《Predicting utilization of healthcare services from individual disease trajectories using RNNs with multi

headed attention》(NeurIPS,2019)中,采用循环神经网络(Recurrent Neural Network,简称RNN)和多头注意力机制处理电子健康记录(Electronic Health Record,简称EHR),预测下一年份患者的医疗保健服务使用情况。
[0004]图卷积神经网络(Graph Convolutional Network,简称GCN)能够用于图结构学习。图卷积神经网络获得邻接矩阵的拉普拉斯形式,计算与特征矩阵的乘积并更新卷积层参数,获取邻接矩阵中表示的不同节点之间相关性,在预测结果中融合相邻地区的历史信息。长短期记忆网络(Long Short

Term Memory,简称LSTM)旨在于解决循环神经网络(Recurrent Neural Network,简称RNN)中的长期依赖问题。门控循环单元(Gate Recurrent Unit,简称GRU)是LSTM的变体,引入更新门来代替遗忘门和输入门。GRU的特点是模型参数相对较少,降低了模型过拟合的可能性。
[0005]当前的医学时间序列预测方法,主要存在如下问题,第一,主要关注疾病暴露人口数等医学数据在时间维度的相关性,忽略了发病地区之间的空间相关性。第二,由于疾病的发病原因繁杂多样,发病原因可能包括气候、海拔、经纬度等因素,通过单一的空间信息难以对未来疾病暴露人口数进行准确建模,降低了方法应用于不同类型疾病暴露人口数预测的扩展性。第三,现有方法较少引入时间信息和空间信息的融合,以及时间信息与空间信息之间的关联关系。

技术实现思路

[0006]本专利技术的目的是为了解决现有医学时间序列预测方法扩展性较弱,忽略空间相关性、时空信息相关性问题,提出了一种基于动态邻接矩阵和时空注意力机制的医学时间序列预测方法。该方法对于疾病暴露人口数的医学时间序列历史数据,构建静态空间邻接矩阵捕获空间外部数据,构建动态时间邻接矩阵挖掘疾病暴露人口数在时间维度上的关联特
征,利用时空注意力机制融合静态空间邻接矩阵和动态时间邻接矩阵,采用图卷积神经网络和门控循环单元框架来预测未来时间步的疾病暴露人口数。
[0007]一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,该方法的步骤包括:
[0008]步骤1:获取疾病暴露人口数数据,采集地区边界线长度、地区中心城市经纬度、地区间人口流动数据;
[0009]首先,获取的疾病暴露人口数数据为:若干省份或地区相同时间间隔的历史疾病暴露人口数X,暴露人口数X,
[0010]其中,q表示历史时间步步长,k是自然数,N表示地区数量,表示地区i时间步t的疾病暴露人口数,t≤k;
[0011]然后,采集地区边界线长度、地区中心城市经纬度、地区间人口流动三种外部数据,用于表示发病地区之间的空间关系;
[0012]地区边界线长度A
length
为相邻的发病地区之间邻接边界线的长度,边界线越长表明相邻地区的空间相关性越大,维度为N
×
N,其中N是地区的数目。
[0013]地区间人口流动A
people
表示相邻发病地区之间人口迁移的数量或比例,人口流动数量越大表明相邻地区的空间相关性越大,维度为N
×
N。
[0014]地区中心城市经纬度A
longitude
表示每一个发病地区的经纬度信息,其维度为N
×
2。
[0015]步骤2:对步骤1获取的疾病暴露人口数数据以及采集到的地区边界线长度、地区中心城市经纬度、地区间人口流动数据进行预处理,构建静态空间邻接矩阵:
[0016]步骤2.1:构建特征数据和标签数据,划分训练集、验证集和测试集;
[0017]构建特征数据和标签数据的方法为:设seq_len表示历史时间步长,pre_len表示预测时间步长,将历史数据构建为大小是(group_num
×
seq_len
×
N)的特征数据,以及大小为(group_num
×
pre_len
×
N)的标签数据,其中,group_num是数据组数;
[0018]划分训练集、验证集和测试集的方法为:
[0019]根据训练集、验证集和测试集的预设所占比例分割特征数据和标签数据,训练集、验证集和测试集的所占比例之和为1,将训练集、验证集和测试集各自的所占比例与数据组数group_num相乘,获得训练集、验证集和测试集的大小,由此将特征数据和标签数据分割为训练集、验证集和测试集,按照设定的Batch值,将大小为Batch值的训练数据作为输入数据分批进行时间序列预测模型训练;
[0020]步骤2.2中,构建静态空间邻接矩阵;
[0021]首先,利用步骤1中获得的地区中心城市经纬度A
longitude
,采用欧氏距离计算不同地区中心城市之间的距离,获得地区欧氏距离A
eucilide
,如公式(1)所示:
[0022][0023]其中,A
longitude
[i][0]和A
longitude
[j][0]表示地区i和地区j的经度,A
longitude
[i][1]和A
longitude
[j][1]表示地区i和地区j的纬度;
[0024]欧氏距离表示发病地区之间的距离,不同地区之间的位置关系越近,则这些地区
的空间相关性越大;
[0025]然后,将地区边界线长度A
length...

【技术保护点】

【技术特征摘要】
1.一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于该方法的步骤包括:步骤1:获取疾病暴露人口数数据,采集地区边界线长度、地区中心城市经纬度、地区间人口流动数据;步骤2:对步骤1获取的疾病暴露人口数数据以及采集到的地区边界线长度、地区中心城市经纬度、地区间人口流动数据进行预处理,构建静态空间邻接矩阵;步骤3:采用基于动态邻接矩阵和时空注意力的方法获得医学时间序列预测结果。2.根据权利要求1所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:所述的步骤1中,获取的疾病暴露人口数数据为:若干省份或地区相同时间间隔的历史疾病暴露人口数X,疾病暴露人口数X,其中,q表示历史时间步步长,k是自然数,N表示地区数量,表示地区i时间步t的疾病暴露人口数,t≤k。3.根据权利要求2所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:所述的步骤1中,地区边界线长度A
length
为相邻的发病地区之间邻接边界线的长度,维度为N
×
N,其中,N是地区的数目;地区中心城市经纬度A
longitude
表示每一个发病地区的经纬度信息,其维度为N
×
2;地区间人口流动数据A
people
表示相邻发病地区之间人口迁移的数量或比例,维度为N
×
N。4.根据权利要求3所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:所述的步骤2中,进行预处理的方法为:步骤2.1:构建特征数据和标签数据,划分训练集、验证集和测试集;步骤2.2:构建静态空间邻接矩阵;步骤2.3:对历史数据和静态空间邻接矩阵进行归一化。5.根据权利要求4所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:步骤2.1中,构建特征数据和标签数据的方法为:设seq_len表示历史时间步长,pre_len表示预测时间步长,将历史数据构建为大小是(group_num
×
seq_len
×
N)的特征数据,以及大小为(group_num
×
pre_len
×
N)的标签数据,其中,group_num是数据组数;划分训练集、验证集和测试集的方法为:根据训练集、验证集和测试集的预设所占比例分割特征数据和标签数据,训练集、验证集和测试集的所占比例之和为1,将训练集、验证集和测试集各自的所占比例与数据组数group_num相乘,获得训练集、验证集和测试集的大小,由此将特征数据和标签数据分割为训练集、验证集和测试集,按照设定的Batch值,将大小为Batch值的训练数据作为输入数据分批进行时间序列预测模型训练。
6.根据权利要求4所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:步骤2.2中,构建静态空间邻接矩阵的方法为:首先,利用步骤1中获得的地区中心城市经纬度A
longitude
,采用欧氏距离计算不同地区中心城市之间的距离,获得地区欧氏距离A
eucilide
,如公式(1)所示:其中,A
longitude
[i][0]和A
longitude
[j][0]表示地区i和地区j的经度,A
longitude
[i][1]和A
longitude
[j][1]表示地区i和地区j的纬度;欧氏距离表示发病地区之间的距离,不同地区之间的位置关系越近,则这些地区的空间相关性越大;然后,将地区边界线长度A
length
、地区间人口流动A
people
,以及地区欧氏距离A
eucilide
的倒数相加,获得静态空间邻接矩阵A
sta
,A
sta
表示疾病发病地区之间的空间相关性。步骤2.3:对历史数据和静态空间邻接矩阵进行归一化的方法为:对历史数据和静态空间邻接矩阵进行归一化操作,将其数值范围归一至[0,1]区间,从而时间序列预测模型训练时提高收敛速度,获得时间序列预测模型的最优参数。7.根据权利要求1

6任一所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:所述的步骤3中,获得医学时间序列预测结果的方法为:步骤3.1:学习动态时间邻接矩阵;步骤3.2:利用时空注意力机制融合静态空间邻接矩阵和动态时间邻接矩阵;步骤3.3:采用图卷积神经网络GCN和门控循环单元GRU框架预测未来时间步的隐层状态;步骤3.4:经过全连接层,将隐层状态作为输入,生成预测时间步的疾病暴露人口数预测数据。8.根据权利要求7所述的一种基于动态邻接矩阵和时空注意力的医学时间序列预测方法,其特征在于:步骤3.1中,学习动态时间邻接矩阵,动态时间邻接矩阵A
dyn
的计算方法如下:首先,将特征数据输入全连接层,学习获得特征数据的特征嵌入矩阵V
init
,如公式(2)所示:V
init
=dropout(ReLU(WX+b)),
ꢀꢀꢀꢀꢀꢀꢀ
(2)其中,X表示历史数据,W表示权重矩阵,b表示偏移量,RELU是激活函数,dropout是随机失活函数;其次,对特征嵌入矩阵V
init
计算L2范数,如公式(3)所示:其中,表示时间步i的L2范数;然后,将每一个时间步的L2范数向量进行拼接,获得L2范数矩阵V
normal
,如公式(4)所示:
最后,将特征嵌入矩阵V
init
与其转置矩阵相乘,用于表示历史数据的特征信息,将L2范数矩阵V
normal
与其转置矩阵相乘,...

【专利技术属性】
技术研发人员:张春霞于敬楠薛新月艾丹妮宋红臧梓硕牛振东
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1