基于逻辑回归的系统性红斑狼疮患者生存风险评估系统技术方案

技术编号:33205474 阅读:11 留言:0更新日期:2022-04-24 00:50
本发明专利技术公开一种基于逻辑回归的系统性红斑狼疮患者生存风险评估系统,包括数据存储模块、数据处理模块、模型训练模块和生存风险评估模块;数据存储模块用于存储系统性红斑狼疮患者的历史数据;数据处理模块用于将历史数据进行量化编码,以构建样本数据集;模型训练模块中预置有逻辑回归模型,模型训练模块的输入为样本数据集,其输出为逻辑回归模型参数;生存风险评估模块预置有与模型训练模块中相同的逻辑回归模型,且加载了模型训练模块输出的模型参数,生存风险评估模块的输入为待评估患者量化编码后的相应数据,输出为待评估患者的生存风险评估结果。本发明专利技术系统不仅能够评估患者的生存结局,还能对患者的生存风险程度进行评估。评估。评估。

【技术实现步骤摘要】
基于逻辑回归的系统性红斑狼疮患者生存风险评估系统


[0001]本专利技术属于数据挖掘
,具体涉及一种基于逻辑回归的系统性红斑狼疮患者生存风险评估系统。

技术介绍

[0002]系统性红斑狼疮(Systemic Lupus Erythematosus,SLE)是一种临床表现有多系统损害症状的慢性系统性自身免疫病,以免疫功能失调、细胞免疫降低、体液免疫增强、免疫复合物增多所引起的血管炎为其病理基础,能累及皮肤、黏膜、浆膜、血管等全身组织和器官。SLE的病因及发病机理十分复杂,目前认为其发病与遗传因素、环境因素、免疫系统异常等有关,尚无特殊治疗方法,治疗现状不容过分乐观,有约10%的患者会在发病5年内死亡,部分难治性SLE预后差,2年内死亡率高达35%。因此,为SLE患者尤其是重症难治性患者进行生存分析预测,方便医生尽早对患者病情轻重及预后进行有效评估,从而积极开启安全有效的治疗方法。近年来,计算机性能的提高和大量可利用性的数据,使得医疗数据挖掘在解决人们的健康问题上起到了重要的作用,也越来越受到广泛的关注。
[0003]常见的二分类器,例如神经网络,支持向量机等只能预测存活和死亡生存结局,很难区分患者在住院初期的风险状态,而COX这种回归模型必须含有生存结局和生存时间两个变量,考虑到SLE患者生存结局的多因素性以及生存时间的长跨度性,这对患者的风险评估造成了很大不便,也会使得评估的结果受到质疑。

技术实现思路

[0004]本专利技术针对现有技术中的不足,提供一种基于逻辑回归的系统性红斑狼疮患者生存风险评估系统,采用的技术方案如下:
[0005]基于逻辑回归的系统性红斑狼疮患者生存风险评估系统,包括数据存储模块、数据处理模块、模型训练模块和生存风险评估模块;
[0006]所述数据存储模块用于存储有生存结局回访记录的系统性红斑狼疮患者的历史数据;
[0007]所述数据处理模块用于将数据存储模块中的历史数据进行量化编码,并将患者的生存结局作为标签,将同一患者量化编码后的其他历史数据作为生存结局影响特征,以构建样本数据集;
[0008]所述模型训练模块中预置有逻辑回归模型,模型训练模块的输入为样本数据集,其输出为利用样本数据集训练得到的逻辑回归模型参数;
[0009]所述生存风险评估模块预置有与模型训练模块中相同的逻辑回归模型,且该逻辑回归模型加载了模型训练模块输出的模型参数,生存风险评估模块的输入为待评估患者量化编码后的相应数据,输出为待评估患者的生存风险评估结果。
[0010]进一步地,所述历史数据包括患者的入院基本信息、症状和血清学指标;所述量化指对历史数据中的数值数据进行归一化和独热编码,对历史数据中的非数值数据根据一定
规则进行数值量化。
[0011]进一步地,所述逻辑回归模型为:
[0012][0013]将逻辑回归的输出y视为样本x属于正例的概率,得到样本属于正例的概率和属于反例的概率:
[0014][0015][0016]其中,向量x包含多个生存结局影响特征,即x=[x1,x2,

,x
n
]T
,w表示与x相对应的逻辑回归模型参数,即特征风险系数。
[0017]进一步地,所述模型训练模块中逻辑回归模型给定训练数据集采用极大似然法来估计w,b,对数似然函数为:
[0018][0019]π(x)=P(y=1|x)
[0020]L(w,b)是高阶连续可导凸函数,根据凸优化理论,可采用梯度下降法求解,参数迭代更新公式为:
[0021][0022][0023]θ=[b,w0,w1,

,,w
n
][0024]其中,θ
j
为第j个逻辑回归模型参数,α为学习率,m为样本个数,x
(i)
和y
(i)
分别表示第i个样本的生存结局影响特征向量和对应的样本标签,表示第i个样本的第j个生存结局影响特征。
[0025]进一步地,所述生存风险评估模块中,风险评分由特征的风险系数依次与特征值相乘求和得到,
[0026][0027]其中,w0,w1,

,w
n
分别是特征x0,x1,

,x
n
的风险系数;
[0028]风险评分反映患者患病的轻重程度或者死亡风险,即患者风险评分越低,则患病程度越轻,死亡风险越低,患者风险评分越高,则患病程度越重,死亡风险越高;
[0029]测试集根据风险评分以及阈值对患者生存结局预测评估,
[0030](y=1|x)=w0x0+w1x1+w2x2+

+w
n
x
n
>T
[0031](y=0|x)=w0x0+w1x1+w2x2+

+w
n
x
n
<T
[0032]其中,(y=1|x)表示预测结局为死亡,(y=0|x)表示预测结局为存活,T表示生存与死亡风险评分阈值;
[0033]将待评估患者量化编码后的相应数据输入逻辑回归模型中得到患者的生存风险值后,将其与预设阈值比较,若大于该预设阈值,则待评估患者的生存风险评估结果为死亡,否则为存活。
[0034]本专利技术的有益效果是:相比于现有技术,本专利技术系统摆脱了COX模型需要生存结局和生存时间这两个变量的受限性,解决了患者生存结局评估中的多因素性和生存时间的长跨度性问题,不仅能够评估患者的生存结局,还能对患者的生存风险程度进行评估。
附图说明
[0035]图1为本专利技术生存风险评估系统的模块组成示意图;
[0036]图2为本专利技术系统的生存风险评估效果图。
具体实施方式
[0037]现在结合附图对本专利技术作进一步详细的说明。
[0038]逻辑回归(Logistic Regression,LR)是一种广义的线性回归分析模型,常用于经济预测等领域,它建立在Sigmoid函数和自变量的线性回归模型之上,模型简单,训练速度快,且对于输出变量有很好的概率解释。本专利技术系统正是基于此提出的。
[0039]由图1所示,本专利技术系统主要包括数据存储模块、数据处理模块、模型训练模块和生存风险评估模块。其中,数据存储模块用于存储有生存结局回访记录的系统性红斑狼疮患者的历史数据,包括患者的入院基本信息、症状和血清学指标,比如入院年龄,性别、首发症状、器官受累、ALB、BUN等血清学指标等。
[0040]数据处理模块用于将数据存储模块中的历史数据进行量化编码,并将患者的生存结局作为标签,将同一患者量化编码后的其他历史数据作为生存结局影响特征,以构建样本数据集。量化编码指对历史数据中的数值数据进行归一化和独热编码,对于非数值数据根据制定规则进行数值量化,比如将性别男量化为1、性别女量化为0;标签即为对应患者的生存结局,即存活(标签值为0)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于逻辑回归的系统性红斑狼疮患者生存风险评估系统,其特征在于,包括数据存储模块、数据处理模块、模型训练模块和生存风险评估模块;所述数据存储模块用于存储有生存结局回访记录的系统性红斑狼疮患者的历史数据;所述数据处理模块用于将数据存储模块中的历史数据进行量化编码,并将患者的生存结局作为标签,将同一患者量化编码后的其他历史数据作为生存结局影响特征,以构建样本数据集;所述模型训练模块中预置有逻辑回归模型,模型训练模块的输入为样本数据集,其输出为利用样本数据集训练得到的逻辑回归模型参数;所述生存风险评估模块预置有与模型训练模块中相同的逻辑回归模型,且该逻辑回归模型加载了模型训练模块输出的模型参数,生存风险评估模块的输入为待评估患者量化编码后的相应数据,输出为待评估患者的生存风险评估结果。2.如权利要求1所述的系统性红斑狼疮患者生存风险评估系统,其特征在于,所述历史数据包括患者的入院基本信息、症状和血清学指标;所述量化指对历史数据中的数值数据进行归一化和独热编码,对历史数据中的非数值数据根据一定规则进行数值量化。3.如权利要求1所述的系统性红斑狼疮患者生存风险评估系统,其特征在于,所述逻辑回归模型为:将逻辑回归的输出y视为样本x属于正例的概率,得到样本属于正例的概率和属于反例的概率:的概率:其中,向量x包含多个生存结局影响特征,即x=[x1,x2,

,x
n
]
T
,w表示与x相对应的逻辑回归模型参数,即特征风险系数。4.如权利要求3所述的系统性红斑狼疮患者生存风险评估系统,其特征在于,所述模型训练模块中逻辑回归模型给定训练数据集采用极大似然法来估计w,b,对数似然函数为:π(x)=P(y=1|x)L(w,b)是高阶连续可导凸函数,根据凸优化理...

【专利技术属性】
技术研发人员:耿林玉璩文强陈嘉琪梁军张华勇冯学兵赵成马晓蕾温利辉孙凌云
申请(专利权)人:南京鼓楼医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1