【技术实现步骤摘要】
一种基于逻辑回归对临床大样本因素危险性评估系统
本专利技术涉及涉及医学统计学
,尤其涉及一种基于逻辑回归对临床大样本因素危险性评估系统。
技术介绍
逻辑回归是医学统计学中最常用的方法之一,可以基于临床样本数据计算出各因素与疾病相关的危险程度,预测疾病发生的危险性等。该方法也是国内外各医学文献资料研究使用最广泛的方法之一,也是很多重大医学统计研究项目的前期分析方法之一。目前也有很多开发出来的工具可以实现逻辑回归的计算,总的来说这些工具使用也较为简单,即输入准备好的数据和输出结果,使用者不需要自己再去计算复杂的逻辑回归过程,甚至使用者不需要具备逻辑回归知识也可以使用,确实很大程度上提高了使用者的工作效率。但是,使用逻辑回归方法的前提是准备好输入数据,数据质量决定输出结果的质量,输出结果甚至决定着未来长期研究的因素有哪些。一旦数据质量出现问题,将会错误引导医学未来研究方向,造成人力和财力资源的极大浪费。医学临床样本检测因素非常多,数据类型也非常多样,甚至同种类科室数据也是非常不同的,这些数据从录入到输出可用数据的每一步过程都有可能出错,特别是成百上千上万样本量更是增加了数据的复杂性。如何有效的检测临床数据质量,是国内临床医生做科研的痛点之一。另外,虽说逻辑回归的工具使用简单,但是这些工具并未对输出结果结合实际数据进行有效的解读,而临床医生若是对方法不理解,或者编程统计人员对临床不理解,都会造成数据解读误差,这也是目前另一个研究的难点之一。
技术实现思路
本专利技术所要解决的技术问题是针对
技术介绍
的 ...
【技术保护点】
1.一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:包含数据质控模块,逻辑回归分析模块,结果解读模块;/n其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,可根据Check.info.txt展示的结果修正数据;/n逻辑回归分析模块,用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;/n结果解读模块,用于读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,比对结果将追加在Result.xlsx文件中。/n
【技术特征摘要】
1.一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:包含数据质控模块,逻辑回归分析模块,结果解读模块;
其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,可根据Check.info.txt展示的结果修正数据;
逻辑回归分析模块,用于提供数据归一化处理,逻辑回归分析,并返回结果文件Result.xlsx;
结果解读模块,用于读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,比对结果将追加在Result.xlsx文件中。
2.根据权利1所述的一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:所述数据质控模块用于提供原始输入数据检查,并输出数据检查结果文件,记为Check.info.txt,具体检查步骤如下:
步骤1,输入临床数据文件,其中,临床数据文件后缀可为txt、xlsx、csv、html的格式文件,也可是压缩形式为gz或tar的格式文件压缩包;
步骤2,检查临床数据文件有无样本编号重复,若有,则将重复样本编号输出到文件Check.info.txt,输出内容格式为重复样本编号:样本编号1|样本编号2|…|样本编号n,样本编号1表示第一个重复样本编号,依次类推,直到第n个重复样本编号,不同样本编号之间用符号|分隔,若没有,则在文件Check.info.txt输出内容为重复样本编号:无;
步骤3,检查临床数据文件中因素变量名称有无重复,若有,则输出重复变量名称追加到文件Check.info.txt,输出内容格式为重复变量名称:变量名称1|变量名称2|…|变量名称m,变量名称1表示第一个重复变量的名称,依次类推,直到第m个重复变量的名称,不同变量名称之间用符号|分隔,若没有,在文件Check.info.txt的输出内容记为重复变量名称:无;
步骤4,检查各因素变量的缺失值,将因素变量名称和缺失值个数输出到文件Check.info.txt,输出内容格式为变量名称1:*个缺失值;变量名称2:*个缺失值;…;变量名称m:*个缺失值,变量名称1:*个缺失值表示第一个变量有*个缺失值,依次类推,直到变量名称m:*个缺失值表示第m个变量有*个缺失值;*表示缺失值个数,取值范围是大于等于0的正整数;
步骤5,检查各因素变量的数据类型,输出结果类型到文件Check.info.txt,输出内容格式为连续型数据:变量名称1|变量名称2|…|变量名称m;离散型数据:变量名称1|变量名称2|…|变量名称m;分类型数据:变量名称1|变量名称2|…|变量名称m,变量名称1|变量名称2|…|变量名称m表示第一个变量,依次类推,直到第m个变量;
步骤6,检查各因素变量的数据范围类型,若变量是连续型数据,计算最大值,最小值,均值,50%位置的值即中值,25%位置的值,75%位置的值;如果变量是离散型数据或者分类型数据,统计所有元素值类型和个数;如果变量的数据同时有数字和其它非数字的符号,统计所有元素值类型和个数;将所有结果均追加到文件Check.info.txt,运行终止;
步骤7,用户根据文件Check.info.txt展示的结果,进一步修正原始数据;修正完毕后,再继续输入修正后的数据,运行模...
【专利技术属性】
技术研发人员:成晓亮,张磊,
申请(专利权)人:南京品生医学检验实验室有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。