一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统技术方案

技术编号:35908935 阅读:15 留言:0更新日期:2022-12-10 10:48
本发明专利技术公开了一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统,本方法从研究对象的历史病历和问卷资料中获取针对于幽门螺旋杆菌研究的多种研究因素;其次对多种研究因素进行降维处理,再从降维后的多种研究因素中选取多种显著性因素;然后对数据挖掘出的多种显著性因素进行二元Logistic回归,直至训练得到预测模型;最后通过预测模型对待检测对象进行是否感染幽门螺旋杆菌的预测。本发明专利技术能够充分挖掘与幽门螺旋杆菌感染具有线性关系的因素,确定不同因素对于幽门螺旋杆菌感染的影响,能够对幽门螺旋杆菌感染的防治起到辅助作用;还建立幽门螺旋杆菌感染患者的预测模型,通过预测模型能够准确度和有效性的预测患者是否感染。染。染。

【技术实现步骤摘要】
一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统


[0001]本专利技术涉及幽门螺旋杆菌感染预测
,特别涉及一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统。

技术介绍

[0002]幽门螺旋杆菌(以下简称H.pylori)感染已经成为一个公共卫生健康危机。现阶段针对H.pylori感染的预测主要是通过表面的症状进行预测,但是绝大多数H.pylori感染者感染没有任何相关的临床疾病,因此该方式的预测效率和准确度都较低。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题。为此,本专利技术提出一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统,能够对患者是否感染幽门螺旋杆菌进行高效和高准确度的预测。
[0004]本专利技术的第一方面,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测方法,所述基于数据挖掘的幽门螺旋杆菌感染预测方法包括:
[0005]获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;
[0006]分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;
[0007]构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;
[0008]根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
[0009]根据本专利技术的实施例,至少具有如下技术效果:
[0010]本方法首先从研究对象的历史病历和问卷资料中获取数据,得到针对于幽门螺旋杆菌研究的多种研究因素;其次对数据进行挖掘,包括先对多种研究因素进行降维处理,再从降维后的多种研究因素中选取多种显著性因素,提取具有统计学意义的显著性因素,以实现对患者是否感染进行更为准确和客观的分析;然后对数据挖掘出的多种显著性因素进行二元Logistic回归,直至训练得到预测模型;最后通过预测模型对待检测对象进行是否感染幽门螺旋杆菌的预测。本方法能够充分挖掘幽门螺旋杆菌感染患者的临床、慢性基础疾病、生活和行为习惯等特征因素,对众多显著性因素进行分析,以确定不同因素对于幽门螺旋杆菌感染的影响,能够对幽门螺旋杆菌感染的防治起到有效的辅助作用;本方法还建立幽门螺旋杆菌感染患者的预测模型,通过预测模型能够预测患者是否感染幽门螺旋杆菌,而且预测准确度较高。
[0011]根据本专利技术的一些实施例,对所述研究对象的所述多种研究因素进行降维,包括:
[0012]通过单因素卡方或者二阶聚类对所述研究对象的所述多种研究因素进行降维。
[0013]根据本专利技术的一些实施例,所述从降维后的所述多种研究因素中选取多种显著性
因素,包括:
[0014]对降维后的所述多种研究因素采用向前逐步回归法似然比检验作为自因素筛选,直至选取出用于输入至所述二元Logistic回归模型的多种显著性因素。
[0015]根据本专利技术的一些实施例,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括步骤:
[0016]对经过二元Logistic回归的所述多种显著性因素,根据OR值绘制森林图;
[0017]根据所述森林图判断所述显著性因素属于危险因素还是属于保护因素。
[0018]根据本专利技术的一些实施例,所述通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型,包括:
[0019]将所述多位所述研究对象划分为训练组和验证组,其中所述训练组和验证组之间的比例为7.5:2.5;
[0020]通过所述训练组中的每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,并通过所述验证组中的每一位所述研究对象对应所述多种显著性因素对训练完成的二元Logistic回归模型进行验证,得到训练完成的预测模型。
[0021]根据本专利技术的一些实施例,所述根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测之后,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括:
[0022]以ROC曲线下面积和Hosmer

Lemeshow检验验证所述预测模型的准确性。
[0023]根据本专利技术的一些实施例,所述多种研究因素包括如下三个维度的因素:基本信息维度、临床表征维度以及生活和饮食习惯维度。
[0024]本专利技术的第二方面,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测系统,所述基于数据挖掘的幽门螺旋杆菌感染预测系统,包括:
[0025]数据获取单元,用于获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;
[0026]显著性因素选取单元,用于分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;
[0027]二元Logistic回归单元,用于构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;
[0028]感染预测单元,用于根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
[0029]本专利技术的第三方面,提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
[0030]本专利技术的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
[0031]可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在
此不再赘述。
[0032]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0033]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0034]图1是本专利技术一个实施例提供的一种基于数据挖掘的幽门螺旋杆菌感染预测方法的流程示意图;
[0035]图2是本专利技术一个实施例提供的二阶聚类预测变量示意图;
[0036]图3是本专利技术一个实施例提供的单因素卡方和二阶聚类两种方式降维后的ROC曲线下AUC比较示意图;
[0037]图4是本专利技术一个实施例提供的Logistic回归显著变量的森林图;
[0038]图5是本专利技术一个实施例提供的训练组和验证组的ROC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述基于数据挖掘的幽门螺旋杆菌感染预测方法包括:获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。2.根据权利要求1所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,对所述研究对象的所述多种研究因素进行降维,包括:通过单因素卡方或者二阶聚类对所述研究对象的所述多种研究因素进行降维。3.根据权利要求2所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述从降维后的所述多种研究因素中选取多种显著性因素,包括:对降维后的所述多种研究因素采用向前逐步回归法似然比检验作为自因素筛选,直至选取出用于输入至所述二元Logistic回归模型的多种显著性因素。4.根据权利要求3所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括步骤:对经过二元Logistic回归的所述多种显著性因素,根据OR值绘制森林图;根据所述森林图判断所述显著性因素属于危险因素还是属于保护因素。5.根据权利要求1所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型,包括:将所述多位所述研究对象划分为训练组和验证组,其中所述训练组和验证组之间的比例为7.5:2.5;通过所述训练组中的每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,并通过所述验证组中的每一位所述研究对象对应所述...

【专利技术属性】
技术研发人员:袁一鸣杜洁玲洪慧斯董丽娟李龙丹邱雄泉
申请(专利权)人:中山市中医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1