基于多参数的心血管疾病风险预测网络模型及其构建方法技术

技术编号:24519365 阅读:293 留言:0更新日期:2020-06-17 07:23
基于多参数的心血管疾病风险预测网络模型及其构建方法,涉及一种风险预测模型,解决了现有心血管疾病风险预测模型存在的无法针对多种生理参数进行预测并且预测效果不理想的问题。该方法包括:组建心血管疾病数据集;对数据集数据进行预处理,并按照训练集数据数量与测试集数据数量之比为7:3的比例将数据集划分成训练集和测试集;模型搭建:训练集和测试集中均包括样本和标签,训练集数据在训练过程中通过前向传播和反向传播最小误差进行模型训练,通过测试集数据对训练好的模型进行评估。本发明专利技术通过检测者的年龄、性别、胸痛类型、静息血压、血清胆固醇、空腹血糖、静息心电图、最大心率等多生理参数来评估患有心血管疾病风险。

A network model of cardiovascular disease risk prediction based on multi parameters and its construction method

【技术实现步骤摘要】
基于多参数的心血管疾病风险预测网络模型及其构建方法
本专利技术涉及一种风险预测模型,具体涉及一种基于多参数的心血管疾病风险预测网络模型及其构建方法。
技术介绍
心血管疾病风险的准确预测对预防及早期治疗心血管疾病具有重要意义。据2018年中国心血管病报告显示,中国约有2.9亿人患有心血管疾病,死亡率高达居民疾病死亡率的40%,其中农村心血管疾病死亡率持续高于城市心血管疾病死亡率,目前心血管疾病的患病率和致死率在我国仍呈上升趋势。如何减少和避免患有心血管疾病是降低心血管疾病致死率的工作重心,而对存在患有心血管疾病风险人群进行精准检查,是减少心血管疾病死亡率的关键方法。目前心血管疾病的诊断方式一般为临床血管造影术和影像诊断,这对医院的基础医疗水平要求较高,对于检查人员而言不但费用昂贵而且对人体具有一定的创伤。临床实践证明,医生可通过血压、血糖、血脂的升高以及心电图和胆固醇异常等关联属性进行评估心血管疾病风险,但这对医生的理论知识和实践经验要求非常高。随着人工智能方法在智慧医疗方面的应用越来越广泛,利用其对临床医疗生理数据进行分析预测,为医生诊断提供辅助指导已经成为精准医疗的基础。目前,现有心血管疾病风险预测方法,例如随机森林方法、支持向量机方法、二维卷积神经网络方法等大部分仍是针对于医学影像作出的预测,针对多生理参数数据的模型少且效果不理想。
技术实现思路
为了解决现有心血管疾病风险预测模型存在的无法针对多种生理参数进行预测并且预测效果不理想的问题,本专利技术提供一种基于多参数的心血管疾病风险预测网络模型及其构建方法。本专利技术为解决技术问题所采用的技术方案如下:本专利技术的基于多参数的心血管疾病风险预测网络模型的构建方法,包括以下步骤:步骤一、组建心血管疾病数据集;步骤二、对数据集数据进行预处理,并将预处理后的数据集划分成训练集和测试集;步骤三、模型搭建所述训练集和测试集中均包括样本和标签,训练集数据在训练过程中通过前向传播和反向传播最小误差进行模型训练,通过测试集数据对训练好的模型进行评估。进一步的,步骤一具体包括以下步骤:采用HeartDisease心血管疾病数据集中的Cleveland子数据集作为心血管疾病数据集,来源于UCI数据库,该数据集中含有303条数据,每条数据均包含13个特征属性和1个标签属性,数据集属性及描述如表1所示:表1num表示对数据的分类标签,包含3类数据,标签值为0表示没有患病风险的数据,标签值为1表示有患病风险的数据,标签值为2表示已经患有心血管疾病的数据。进一步的,步骤二具体包括以下步骤:(1)采用缺失值所在属性的平均值对数据集中的缺失值进行补充;(2)将数据集中的非数值型特征值进行数值转换,将性别中的female转化成0,male转化成1;(3)针对数据集中不同数据属性之间的不同取值范围,采用归一化和标准化处理,采用公式(1)进行均值归一化处理:其中,μ表示数据集中同一属性的所有数据均值,σ表示数据集中同一属性的所有数据均差,x表示数据输入值,x*表示归一化后数据输出值;(4)将标签值转换成独热码,将0转换成001,1转换成010,2转换成100,并将数据集中的数据随机打乱,按训练集数据数量与测试集数据数量之比为7:3的比例将数据集划分成训练集和测试集。进一步的,步骤三具体包括以下步骤:S301、构建ReLU激活函数;S302、构建交叉熵损失函数;S303、设置训练模式;S304、设置网络模型超参数。进一步的,步骤S301中,所述ReLU激活函数的表达式如式(2)所示:f(x)=max(0,x)(2)其中,f(x)表示ReLU激活函数,x表示数据输入值。进一步的,步骤S302中,所述交叉熵损失函数用于衡量输出预测概率分布与真实类别概率分布,若分类函数采用softmax函数,则交叉熵损失函数的表达式如式(3)所示:其中,L表示损失值,yj表示真实值概率分布,Sj表示预测值概率分布,T表示分类类别,j表示某一类别,j∈(1,T)。进一步的,步骤S303中,采用两种优化方法进行训练:第一种采用Mini-batch梯度下降算法,将数据集划分成相同大小的batch数据,batch数据的大小为20,构建数据生成器,依次分批读取数据,即每次读取一个batch数据直接送入模型;第二种采用Adam优化算法最小化损失函数,其权重更新公式如式(4)所示:其中,α表示自适应性学习率,α为0.001,t表示次数,mt表示梯度的一阶矩估计,为mt的纠正,vt表示梯度的二阶矩估计,为vt的纠正,ε为固定常数,ε=e-10。进一步的,步骤S304具体包括以下步骤:S3041、卷积核设置卷积神经网络结构包括:输入层、两层卷积层、两层池化层、全连接层、输出层,两层卷积层、两层池化层和全连接层组成隐藏层;模型训练的具体流程如下:S30411、开始;S30412、调用数据集;S30413、网络初始化,赋予初值;S30414、调用训练集;S30415、依次分批读取训练集数据,即每次读取一个batch数据直接送入网络;S30416、利用公式(2)给出的ReLU激活函数求出隐藏层输出;S30417、利用公式(3)给出的交叉熵损失函数求出输出层输出;S30418、求出输出层偏差;S30419、判断输出层偏差是否满足设定要求;S30420、是的话,则直接输出模型,结束训练;否的话,则按照公式(4)调整隐藏层到输出层的连接权值,再调整输入层到隐藏层的连接权值,更新权重后重复S30415至S30419,直到输出层偏差满足设定要求;通过设置不同数量及大小的卷积核进行模型训练,通过训练参数、分类时间、最高准确率、最终准确率对结果进行分析,选取分析结果中准确率最高的三种网络模型结构,对比卷积核大小对网络模型结构的影响,结果显示,搭建两层卷积神经网络时卷积核数量为32且卷积核大小为2时,网络模型效果最佳;S3042、卷积层数量设置设置卷积核数量为32、大小为2,按步骤S3041进行模型训练;通过对卷积层层数不同的卷积神经网络进行对比,结果显示,当卷积层数量为2时,网络模型效果最佳;S3043、全连接层设置全连接层共设置为两层连接层,第一层为全连接层的神经元数目,将提取到的多维特征参数映射成一维特征参数,并采用ReLU激活函数对神经元进行激活;第二层全连接层为softmax层,用于预测输出值概率分布和目标值概率分布的相似性,通过式(5)计算出预测值概率:其中,T表示类别种类,Si表示第i个神经元的输出,z表示全连接层的输出向量,zi表示向量z的第i个输出,zk表示向量z的第k个输出,T表示分类类别,k表示某一类别,本文档来自技高网...

【技术保护点】
1.基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,包括以下步骤:/n步骤一、组建心血管疾病数据集;/n步骤二、对数据集数据进行预处理,并将预处理后的数据集划分成训练集和测试集;/n步骤三、模型搭建/n所述训练集和测试集中均包括样本和标签,训练集数据在训练过程中通过前向传播和反向传播最小误差进行模型训练,通过测试集数据对训练好的模型进行评估。/n

【技术特征摘要】
1.基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,包括以下步骤:
步骤一、组建心血管疾病数据集;
步骤二、对数据集数据进行预处理,并将预处理后的数据集划分成训练集和测试集;
步骤三、模型搭建
所述训练集和测试集中均包括样本和标签,训练集数据在训练过程中通过前向传播和反向传播最小误差进行模型训练,通过测试集数据对训练好的模型进行评估。


2.根据权利要求1所述的基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,步骤一具体包括以下步骤:
采用HeartDisease心血管疾病数据集中的Cleveland子数据集作为心血管疾病数据集,来源于UCI数据库,该数据集中含有303条数据,每条数据均包含13个特征属性和1个标签属性,数据集属性及描述如表1所示:
表1






num表示对数据的分类标签,包含3类数据,标签值为0表示没有患病风险的数据,标签值为1表示有患病风险的数据,标签值为2表示已经患有心血管疾病的数据。


3.根据权利要求2所述的基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,步骤二具体包括以下步骤:
(1)采用缺失值所在属性的平均值对数据集中的缺失值进行补充;
(2)将数据集中的非数值型特征值进行数值转换,将性别中的female转化成0,male转化成1;
(3)针对数据集中不同数据属性之间的不同取值范围,采用归一化和标准化处理,采用公式(1)进行均值归一化处理:



其中,μ表示数据集中同一属性的所有数据均值,σ表示数据集中同一属性的所有数据均差,x表示数据输入值,x*表示归一化后数据输出值;
(4)将标签值转换成独热码,将0转换成001,1转换成010,2转换成100,并将数据集中的数据随机打乱,按训练集数据数量与测试集数据数量之比为7:3的比例将数据集划分成训练集和测试集。


4.根据权利要求3所述的基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,步骤三具体包括以下步骤:
S301、构建ReLU激活函数;
S302、构建交叉熵损失函数;
S303、设置训练模式;
S304、设置网络模型超参数。


5.根据权利要求4所述的基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,步骤S301中,所述ReLU激活函数的表达式如式(2)所示:
f(x)=max(0,x)(2)
其中,f(x)表示ReLU激活函数,x表示数据输入值。


6.根据权利要求4所述的基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,步骤S302中,所述交叉熵损失函数用于衡量输出预测概率分布与真实类别概率分布,若分类函数采用softmax函数,则交叉熵损失函数的表达式如式(3)所示:



其中,L表示损失值,yj表示真实值概率分布,Sj表示预测值概率分布,T表示分类类别,j表示某一分类,j∈(1,T)。


7.根据权利要求4所述的基于多参数的心血管疾病风险预测网络模型的构建方法,其特征在于,步骤S303...

【专利技术属性】
技术研发人员:庞春颖刘园园葛安璐朱宵彤赵春华侯利杰
申请(专利权)人:长春理工大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1