本发明专利技术公开了一种失代偿期肝硬化合并感染危险预测模型的构建方法,包括步骤:S1、数据采集:收集失代偿期肝硬化患者信息;S2、数据预处理:对原始数据进行清洗整理;S3、采用LASSO回归进行指标筛选:根据患者有无合并感染分成感染组和非感染组,对分组后的患者的各个指标数据进行单因素分析,得到单因素有意义的指标;将单因素有意义的指标纳入Lasso回归进行指标再筛选,得到用于构建预测模型的指标;S4、构建预测模型:利用Lasso回归筛选出来的指标通过多因素Logistic回归构建预测模型。本发明专利技术方法基于临床大数据方法的应用,可靠性高;构建得到的模型简单易用,所用指标是常规检查能得到的,容易获得。
【技术实现步骤摘要】
失代偿期肝硬化合并感染危险预测模型的构建方法
本专利技术涉及医学
,具体涉及一种失代偿期肝硬化合并感染危险预测模型的构建方法。
技术介绍
失代偿期肝硬化患者病情危重,并发症多,感染是最常见的并发症,是上消化道出血、肝性脑病、肝肾综合征等严重并发症的重要诱发因素,是导致患者死亡的主要原因之一。了解失代偿期肝硬化合并感染的特点,找出其发生感染的危险因素并构建感染预测模型对于早期诊断、早期预防和有效治疗,提高患者的生存率有重要意义。目前还未见有失代偿期肝硬化合并感染危险预测模型的报道。
技术实现思路
本专利技术的目的是针对上述问题,提供一种失代偿期肝硬化合并感染危险预测模型的构建方法,以期为临床防治工作提供参考和借鉴。本专利技术为了实现其目的,采用的技术方案是:一种失代偿期肝硬化合并感染危险预测模型的构建方法,包括如下步骤:S1、数据采集:收集失代偿期肝硬化患者信息;S2、数据预处理:对原始数据进行清洗整理;S3、采用LASSO回归进行指标筛选:根据患者有无合并感染分成感染组和非感染组,对分组后的患者的各个指标数据进行单因素分析,得到单因素有意义的指标;将单因素有意义的指标纳入Lasso回归进行指标再筛选,得到用于构建预测模型的指标;S4、构建预测模型:利用Lasso回归筛选出来的指标通过多因素Logistic回归构建预测模型。步骤S1中所述失代偿期肝硬化患者信息,包括年龄、性别、吸烟史、饮酒史、肝病史、高血压、糖尿病;病因、并发症信息和实验室资料。优选地,所述病因包括:乙肝、丙肝、酒精肝、自身免疫性肝病;所述并发症信息包括:原发性肝癌、肝性脑病、消化道出血、腹水、肝衰竭;所述实验室资料包括:血常规、肝功能、肾功能、电解质、凝血功能指标。优选地,步骤S2中采用SPSS22.0和R4.0.2统计分析软件进行数据预处理。步骤S2预处理后的数据分为训练集和测试集进行步骤S3。在上述技术方案中,还包括步骤S5、采用ROC曲线对构建的预测模型进行临床效能评估。优选地,步骤S3中Lasso回归采用10重交叉验证方法选择合适的惩罚项λ,筛选变量时选择λ值为0.1299时系数不为零的变量作为用于构建预测模型的指标;进一步优选变量为白蛋白、凝血酶原活动度和淋巴细胞百分比。本专利技术的再一目的是提供一种失代偿期肝硬化合并感染危险预测方法,是采用前述任一的方法构建的预测模型进行预测。在上述技术方案中,Logistic预测模型表现为P=ex/(1+ex),X=8.766-0.110×白蛋白-0.042×凝血酶原活动度-0.119×淋巴细胞百分比。本专利技术的再一目的是提供一种利用前面任一所述的构建方法构建的系统,包括数据采集单元,数据预处理单元,数据处理单元以及预测单元;所述数据采集单元收集失代偿期肝硬化患者信息;所述数据预处理单元对原始数据进行清洗整理;所述数据处理单元采用LASSO回归进行指标筛选:根据患者有无合并感染分成感染组和非感染组,对分组后的患者的各个指标数据进行单因素分析,得到单因素有意义的指标;将单因素有意义的指标纳入Lasso回归进行指标再筛选,得到预测单元的预测指标;所述预测单元利用Lasso回归筛选出来的指标通过多因素Logistic回归进行预测。本专利技术的有益效果是:本方法筛选的指标是通过对病人的询问或者常规检查得到,不涉及有创检查或者操作;利用Lasso回归筛选变量,采用Logistic回归获得模型,该方法基于临床大数据方法的应用,可靠性高;本专利技术方法构建得到的模型简单易用,所用指标是常规检查能得到的,容易获得,能够为临床防治感染提供参考和借鉴,具有较高的参考价值。附图说明图1是Lasso回归10重交叉验证结果,图中两条竖线分别代表最小化MSE的λ值和λ+1se值。图2是惩罚项对系数的压缩结果。图3是训练集和测试集ROC曲线。图4是预测模型列线图。具体实施方式下面结合实施例对本专利技术作进一步说明,但并不因此而限制本专利技术。下述实施例中的实验方法,如无特别说明,均为常规方法。实施例1一、对象与方法1、研究对象收集2013年1月-2020年6月就诊于重庆市7家医疗机构的失代偿期肝硬化住院患者。纳入标准:失代偿期肝硬化;年龄>18周岁。排除标准:患有除原发性肝癌外的其他癌;患有精神疾病;妊娠及哺乳期妇女;病案资料不全。最终纳入研究患者6648例,根据是否合并感染分为感染组(n=3430)和非感染组(n=3218)。将纳入研究患者资料随机抽取70%(4654例)作为训练集构建预测模型,剩余30%(1994例)作为测试集进行内部验证。2、研究指标本次研究纳入指标如下:年龄、性别、吸烟史、饮酒史、肝病史、高血压、糖尿病;病因:乙肝、丙肝、酒精肝、自身免疫性肝病;并发症:原发性肝癌、肝性脑病、消化道出血、腹水、肝衰竭;实验室资料:血常规、肝功能、肾功能、电解质、凝血功能指标。3、研究方法本研究采用SPSS22.0和R4.0.2统计分析软件对数据进行整理分析。正态分布的计量资料采用表示,组间比较采用t检验;非正态分布的计量资料采用中位数和四分位间距[M(P25~P75]表示,组间比较采用Mann-WhitneyU检验;计数资料采用率和百分比表示,组间比较采用卡方检验。采用LASSO回归进行指标筛选,采用Logistic回归进行预测模型构建。二、具体步骤(1)首先获取原始电子病历,包括患者信息表,病历表,用药表,病案首页表,用药表,检验表,出院诊断表,手术表等多张原始表。(2)采用SPSS22.0和R4.0.2统计分析软件对原始表进行数据清洗整理:例如对用药表字符规范化处理、药品不同名称进行归一化处理、药品单位统一。其它原始表数据的离群值处理、缺失数据插补等等。得到完成全部清洗组合的数据。(3)将患者有无合并感染分成两组,即感染组和非感染组。对分组后的各个指标进行单因素分析,得到单因素有意义(P<0.05)的指标。结果显示,两组患者在性别(χ2=19.687,P<0.001)、饮酒史(χ2=26.736,P<0.001)、肝性脑病(χ2=130.001,P<0.001)、总胆红素(t=-28.305,P<0.001)等指标上差异存在统计学意义(P<0.05);年龄、肝病史、高血压、糖尿病、天门冬氨酸氨基转移酶等指标上不存在统计学差异(P>0.05),详见表1。表1两组患者指标对比情况(4)将单因素有意义(P<0.05)的指标纳入Lasso回归进行指标再筛选Lasso回归采用10重交叉验证方法选择合适的惩罚项λ。结果显示最小化均方误差(MeanSquareError,MSE)的λ为0.001,λ+1se为0.010。图1呈现了本文档来自技高网...
【技术保护点】
1.一种失代偿期肝硬化合并感染危险预测模型的构建方法,其特征在于,包括如下步骤:/nS1、数据采集:收集失代偿期肝硬化患者信息;/nS2、数据预处理:对原始数据进行清洗整理;/nS3、采用LASSO回归进行指标筛选:根据患者有无合并感染分成感染组和非感染组,对分组后的患者的各个指标数据进行单因素分析,得到单因素有意义的指标;将单因素有意义的指标纳入Lasso回归进行指标再筛选,得到用于构建预测模型的指标;/nS4、构建预测模型:利用Lasso回归筛选出来的指标通过多因素Logistic回归构建预测模型。/n
【技术特征摘要】
1.一种失代偿期肝硬化合并感染危险预测模型的构建方法,其特征在于,包括如下步骤:
S1、数据采集:收集失代偿期肝硬化患者信息;
S2、数据预处理:对原始数据进行清洗整理;
S3、采用LASSO回归进行指标筛选:根据患者有无合并感染分成感染组和非感染组,对分组后的患者的各个指标数据进行单因素分析,得到单因素有意义的指标;将单因素有意义的指标纳入Lasso回归进行指标再筛选,得到用于构建预测模型的指标;
S4、构建预测模型:利用Lasso回归筛选出来的指标通过多因素Logistic回归构建预测模型。
2.如权利要求1所述的构建方法,其特征在于:步骤S1中所述失代偿期肝硬化患者信息,包括年龄、性别、吸烟史、饮酒史、肝病史、高血压、糖尿病;病因、并发症信息和实验室资料。
3.如权利要求2所述的构建方法,其特征在于:所述病因包括:乙肝、丙肝、酒精肝、自身免疫性肝病;所述并发症信息包括:原发性肝癌、肝性脑病、消化道出血、腹水、肝衰竭;所述实验室资料包括:血常规、肝功能、肾功能、电解质、凝血功能指标。
4.如权利要求1所述的构建方法,其特征在于:步骤S2中采用SPSS22.0和R4.0.2统计分析软件进行数据预处理。
5.如权利要求1所述的构建方法,其特征在于:步骤S2预处理后的数据分为训练集和测试集进行步骤S3。
6.如权利要求5所述的构建方法,其...
【专利技术属性】
技术研发人员:何雨芯,蒲川,
申请(专利权)人:重庆医科大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。