一种基于逻辑回归对临床大样本因素危险性评估系统技术方案

技术编号:24942199 阅读:24 留言:0更新日期:2020-07-17 21:53
本发明专利技术公开了一种基于逻辑回归对临床大样本因素危险性评估系统,涉及医学统计学技术领域,具体包含数据质控模块,逻辑回归分析模块,结果解读模块;其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,可根据Check.info.txt展示的结果修正数据;逻辑回归分析模块,用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;结果解读模块,读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,并产生依据临床数据的结果解读报告。针对临床大样本数据质量检测的繁琐和耗时,本发明专利技术包括了常规所有需要检测项目的检查,并依据计算机来完成,可以快速修正数据,提高逻辑回归输入数据的质量,使分析结果更加可靠。

【技术实现步骤摘要】
一种基于逻辑回归对临床大样本因素危险性评估系统
本专利技术涉及涉及医学统计学
,尤其涉及一种基于逻辑回归对临床大样本因素危险性评估系统。
技术介绍
逻辑回归是医学统计学中最常用的方法之一,可以基于临床样本数据计算出各因素与疾病相关的危险程度,预测疾病发生的危险性等。该方法也是国内外各医学文献资料研究使用最广泛的方法之一,也是很多重大医学统计研究项目的前期分析方法之一。目前也有很多开发出来的工具可以实现逻辑回归的计算,总的来说这些工具使用也较为简单,即输入准备好的数据和输出结果,使用者不需要自己再去计算复杂的逻辑回归过程,甚至使用者不需要具备逻辑回归知识也可以使用,确实很大程度上提高了使用者的工作效率。但是,使用逻辑回归方法的前提是准备好输入数据,数据质量决定输出结果的质量,输出结果甚至决定着未来长期研究的因素有哪些。一旦数据质量出现问题,将会错误引导医学未来研究方向,造成人力和财力资源的极大浪费。医学临床样本检测因素非常多,数据类型也非常多样,甚至同种类科室数据也是非常不同的,这些数据从录入到输出可用数据的每一步过程都有可能出错,特别是成百上千上万样本量更是增加了数据的复杂性。如何有效的检测临床数据质量,是国内临床医生做科研的痛点之一。另外,虽说逻辑回归的工具使用简单,但是这些工具并未对输出结果结合实际数据进行有效的解读,而临床医生若是对方法不理解,或者编程统计人员对临床不理解,都会造成数据解读误差,这也是目前另一个研究的难点之一。
技术实现思路
本专利技术所要解决的技术问题是针对
技术介绍
不足提供一种基于逻辑回归对临床大样本因素危险性评估的系统,能够实现用户输入临床数据,特别是大样本数据质量检测,进而使用逻辑回归分析,并给出依据临床数据的结果解读报告。本专利技术为解决上述技术问题采用以下技术方案:一种基于逻辑回归对临床大样本因素危险性评估系统,包含数据质控模块,逻辑回归分析模块,结果解读模块;其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,可根据Check.info.txt展示的结果修正数据;逻辑回归分析模块,用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;结果解读模块,用于读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,比对结果将追加在Result.xlsx文件中。作为本专利技术一种基于逻辑回归对临床大样本因素危险性评估系统的进一步优选方案,所述数据质控模块用于提供原始输入数据检查,并输出数据检查结果文件,记为Check.info.txt,具体检查步骤如下:步骤1,输入临床数据文件,其中,临床数据文件后缀可为txt、xlsx、csv、html的格式文件,也可是压缩形式为gz或tar的格式文件压缩包;步骤2,检查临床数据文件有无样本编号重复,若有,则将重复样本编号输出到文件Check.info.txt,输出内容格式为“重复样本编号:样本编号1|样本编号2|…|样本编号n,样本编号1表示第一个重复样本编号,依次类推,直到第n个重复样本编号,不同样本编号之间用符号|分隔,若没有,则在文件Check.info.txt输出内容为重复样本编号:无;步骤3,检查临床数据文件中因素变量名称有无重复,若有,则输出重复变量名称追加到文件Check.info.txt,输出内容格式为重复变量名称:变量名称1|变量名称2|…|变量名称m,变量名称1表示第一个重复变量的名称,依次类推,直到第m个重复变量的名称,不同变量名称之间用符号|分隔,若没有,在文件Check.info.txt的输出内容记为重复变量名称:无;步骤4,检查各因素变量的缺失值,将因素变量名称和缺失值个数输出到文件Check.info.txt,输出内容格式为变量名称1:*个缺失值;变量名称2:*个缺失值;…;变量名称m:*个缺失值,变量名称1:*个缺失值表示第一个变量有*个缺失值,依次类推,直到变量名称m:*个缺失值表示第m个变量有*个缺失值;*表示缺失值个数,取值范围是大于等于0的正整数;步骤5,检查各因素变量的数据类型,输出结果类型到文件Check.info.txt,输出内容格式为连续型数据:变量名称1|变量名称2|…|变量名称m;离散型数据:变量名称1|变量名称2|…|变量名称m;分类型数据:变量名称1|变量名称2|…|变量名称m,变量名称1|变量名称2|…|变量名称m”表示第一个变量,依次类推,直到第m个变量;步骤6,检查各因素变量的数据范围类型,若变量是连续型数据,计算最大值,最小值,均值,50%位置的值即中值,25%位置的值,75%位置的值;如果变量是离散型数据或者分类型数据,统计所有元素值类型和个数;如果变量的数据同时有数字和其它非数字的符号,统计所有元素值类型和个数;将所有结果均追加到文件Check.info.txt,运行终止;步骤7,用户根据文件Check.info.txt展示的结果,进一步修正原始数据;修正完毕后,再继续输入修正后的数据,运行模块再产生Check.info.txt,用户再检查Check.info.txt展示的信息是否符合预期的数据信息。作为本专利技术一种基于逻辑回归对临床大样本因素危险性评估系统的进一步优选方案,所述逻辑回归分析模块用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;具体包含如下步骤:步骤a,输入数据质控模块检验后的数据,以及输入文件Check.info.txt;文件Check.info.txt可以提供各因素变量类型;连续型数据数值范围和最大值,最小值,均值,50%位置的值即中值,25%位置的值,75%位置的值;分类型变量和离散型变量的元素值类别和个数;步骤b,数据标准化,具体方法包含对数转换、平方根转换、取倒数转换、平方转换;模块会输出1个变量配置文件tran.xlsx,包括5个sheet表,前4个sheet表各对应一种标准化方法;用户在每个sheet表中输入需要标准化的因素变量名称,没有纳入表格的变量默认不进行标准化,若4个sheet表均未填写表示所有因素变量都不进行标准化;第5个sheet表填写将要纳入分析的变量,若不填写为空,表示所有变量均纳入逻辑回归分析中;步骤c,数据标准化处理后,进入逻辑回归分析过程;根据tran.xlsx第5个sheet表提供的变量名称纳入到逻辑回归分析中,输出结果文件Result.xlsx包括OR和显著性P值;若变量OR等于1,则因素变量和疾病无关联;若OR大于1,则因素变量升高会促进疾病的发生,该因素是个危险因素;若OR小于1,则因素变量升高会减少疾病的发生,该因素变量是个保护因素;其中,OR具体表达式如下:其中,p表示疾病事件发生的概率,1-p表示疾病事件不发生的概率,e表示自然对数。作为本专利技术一种基于逻辑回归对临床大样本因素危险性评估系统的进一步优选方案,所述结果解读模块的本文档来自技高网...

【技术保护点】
1.一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:包含数据质控模块,逻辑回归分析模块,结果解读模块;/n其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,可根据Check.info.txt展示的结果修正数据;/n逻辑回归分析模块,用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;/n结果解读模块,用于读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,比对结果将追加在Result.xlsx文件中。/n

【技术特征摘要】
1.一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:包含数据质控模块,逻辑回归分析模块,结果解读模块;
其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,可根据Check.info.txt展示的结果修正数据;
逻辑回归分析模块,用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;
结果解读模块,用于读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,比对结果将追加在Result.xlsx文件中。


2.根据权利1所述的一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:所述数据质控模块用于提供原始输入数据检查,并输出数据检查结果文件,记为Check.info.txt,具体检查步骤如下:
步骤1,输入临床数据文件,其中,临床数据文件后缀可为txt、xlsx、csv、html的格式文件,也可是压缩形式为gz或tar的格式文件压缩包;
步骤2,检查临床数据文件有无样本编号重复,若有,则将重复样本编号输出到文件Check.info.txt,输出内容格式为重复样本编号:样本编号1|样本编号2|…|样本编号n,样本编号1表示第一个重复样本编号,依次类推,直到第n个重复样本编号,不同样本编号之间用符号|分隔,若没有,则在文件Check.info.txt输出内容为重复样本编号:无;
步骤3,检查临床数据文件中因素变量名称有无重复,若有,则输出重复变量名称追加到文件Check.info.txt,输出内容格式为重复变量名称:变量名称1|变量名称2|…|变量名称m,变量名称1表示第一个重复变量的名称,依次类推,直到第m个重复变量的名称,不同变量名称之间用符号|分隔,若没有,在文件Check.info.txt的输出内容记为重复变量名称:无;
步骤4,检查各因素变量的缺失值,将因素变量名称和缺失值个数输出到文件Check.info.txt,输出内容格式为变量名称1:*个缺失值;变量名称2:*个缺失值;…;变量名称m:*个缺失值,变量名称1:*个缺失值表示第一个变量有*个缺失值,依次类推,直到变量名称m:*个缺失值表示第m个变量有*个缺失值;*表示缺失值个数,取值范围是大于等于0的正整数;
步骤5,检查各因素变量的数据类型,输出结果类型到文件Check.info.txt,输出内容格式为连续型数据:变量名称1|变量名称2|…|变量名称m;离散型数据:变量名称1|变量名称2|…|变量名称m;分类型数据:变量名称1|变量名称2|…|变量名称m,变量名称1|变量名称2|…|变量名称m表示第一个变量,依次类推,直到第m个变量;
步骤6,检查各因素变量的数据范围类型,若变量是连续型数据,计算最大值,最小值,均值,50%位置的值即中值,25%位置的值,75%位置的值;如果变量是离散型数据或者分类型数据,统计所有元素值类型和个数;如果变量的数据同时有数字和其它非数字的符号,统计所有元素值类型和个数;将所有结果均追加到文件Check.info.txt,运行终止;
步骤7,用户根据文件Check.info.txt展示的结果,进一步修正原始数据;修正完毕后,再继续输入修正后的数据,运行模...

【专利技术属性】
技术研发人员:成晓亮张磊
申请(专利权)人:南京品生医学检验实验室有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1