一种使用血液标志物预测性别的方法技术

技术编号:27652202 阅读:38 留言:0更新日期:2021-03-12 14:13
本发明专利技术涉及生物信息领域,且公开了一种使用血液标志物预测性别的方法,包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤。相比其他方法和标志物,所选取的血液标志物即血液生化指标,是临床和体检机构中最常见的指标,获取难度小、成本低,同时,使用机器学习模型对选取的血液标志物进行计算,使得流程更加智能、结果更加准确。

【技术实现步骤摘要】
一种使用血液标志物预测性别的方法
本专利技术涉及生物信息领域,具体为一种使用血液标志物预测性别的方法。
技术介绍
性别指男女两性的区别。在染色体层面上,人类具有22对常染色体和一对性染色体,男性的性染色体为XY,女性的性染色体为XX,Y染色体的存在也是判断人类性别的方法之一;基因层面上通常使用SRY睾丸决定基因作为性别判断的依据,SRY基因位于Y染色体上,因此具有SRY基因的个体为男性,不具有的为女性;在更宏观的层面上看,性腺、生殖器等都可以作为划分性别的依据。国内外的研究表明,一些血液指标在男女个体中存在差异,并且这些差异性指标已应用于临床。成年男女两性的红细胞计数存在显著差异,这种差异在新生儿和婴幼儿时期无明显表现,到青春期和成年期后才表现出显著差异。在我国成年男性红细胞为400万-550万/μl,女性为350万-500万/μl,但女性到40岁以后,其体内红细胞数又逐渐升高,与男性水平相接近。据医学研究发现,这种差异与性腺功能的成熟有一定关系。在青春期,男性体内雄性激素水平开始升高,而雄性激素可通过两方面的作用来刺激红细胞的增加,一方面雄性激素可直接作用于骨髓造血组织,刺激骨髓造血组织加速有核红细胞的分裂活动和血红蛋白的合成,另一方面,雄性激素可刺激肾脏产生一种酶—红细胞生成酶,这种酶又能使肝脏产生的促红细胞生成素原转变为促红细胞生成素,后者可刺激骨髓内原始的血细胞加速分化形成原始红细胞,并能促进有核红细胞的有丝分裂过程,使其成熟过程加快。对红细胞的主要成分—血红蛋白的生物合成也有推动作用。此外,促红细胞生成素还能促进骨髓中成熟的红细胞向周围的血液中释放。正是由于以上原因,青春期开始,男性体内雄性激素水平明显高于女性,而雌性激素又无雄性激素的此种功能,导致成人男女体内红细胞的差异。成年男性血红蛋白(Hb)浓度正常参考值大约在135~180g/L之间,女性大约在115~155g/L之间,且随着年龄增长,对应的血红蛋白浓度将逐渐升高,血红蛋白在两性中的差异性也和雄性激素的调控相关。同时性激素的调控也会引起不同性别个体体内葡萄糖平衡的调控,因此血糖、糖耐量等在两性个体中也存在差异性。在没有个体实体只有个体相关样本的情况下,在宏观层面判断个体性别无法实现,染色体和基因层面上需要获取个体的染色体或基因信息才可判定个体性别,常见方法可以通过PCR方式对样本中纯化过的DNA进行扩增,以获取染色体和基因信息。现有判断或预测个体性别的方法需要个体实体的参与,或使用DNA信息,但是DNA信息获取难度大、成本高,因此,设计了一种使用血液标志物预测性别的方法,将临床使用上更加普遍、更易获取的血液标志物作为预测个体性别的特征值,降低了性别判定的成本和难度,具有现实意义和良好的应用前景。
技术实现思路
针对上述
技术介绍
中的不足,本专利技术提供一种使用血液标志物预测性别的方法,使用更加易获取的血液标志物,降低了技术成本。为实现上述目的,本专利技术提供如下技术方案:一种使用血液标志物预测性别的方法,其特征在于,包括如下步骤:第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体性别和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;第二步,数据预处理,移除有遗漏数据的样本和有明显错误离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;第三步,模型的建立与评估,预处理后的数据按照7:3的比例随机分为训练集和测试集进行模型的训练,使用深度神经网络(DNN)机器学习算法训练26754个样本的19个血液标志物数据,调整隐藏层数量、神经元个数和Dropout数量等模型参数,训练多个性别预测模型;第四步,模型的测试,在所用的26754个样本数据中,随机获取30%的数据输入模型预测性别,进行模型内部数据的验证,在每个模型上进行对应验证测试,最终挑选其中计算功效最好的模型为性别的预测模型。优选的,所述19项血液标志物包括白蛋白、葡萄糖、尿素、胆固醇、总蛋白、血清钠、肌酸酐、血红蛋白、总胆红素、甘油三酯、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、血清钙、血清钾、血细胞比容、平均红细胞血红蛋白浓度、平均红细胞体积、血小板计数和红细胞计数。优选的,所述性别预测使用深度神经网络(DNN)分类算法。优选的,所述根据DNN算法建立的性别预测模型使用19个血液标志物作为主要特征,来预测样本的性别。与现有技术相比,本专利技术具备以下有益效果:1.使用血液标志物为性别的特征值,相较于其他方法技术,成本更低,因为选取的19项血液标志物是临床和体检机构中最常见的指标,常见于血常规和血液生化检测报告单,获取难度低、成本低;2.使用DNN算法训练出的性别预测模型为机器学习模型,计算度比常规方法高、但是计算难度降低,且计算模型中的各项参数和模型结构经过多次验证,因此用该方法预测个体性别时有更高的准确性和更低的使用难度。附图说明图1为本专利技术流程示意图;图2为模型性能统计结果。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,一种使用血液标志物预测性别的方法,该方法是一种利用常见血液标志物对受试者样本进行性别预测的方法,基于统计学检验获得的19个与性别显著相关的血液标志物为特征,结合公司收集的92062例样本的血液标志物数据及表型数据,利用深度神经网络(DNN)算法构建机器学习模型,并进行内部测试,DNN算法建立的模型经验证,在结果准确率上显著高于其他机器学习算法(k近邻算法、随机森林、支持向量机等)建立的模型,同时DNN算法引入的隐藏层和神经元增强了模型的表达能力,其在自动缩放神经元权重方面的特性也最大程度的丰富了模型的发展方向。该性别预测方法包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤,所述血液标志物按照以下方法预测性别:第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体性别和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;第二步,数据预处理,移除有遗漏数据的样本和有明显错误离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;第三步,模型的建立与评估,预处理后的数据按照7:3本文档来自技高网
...

【技术保护点】
1.一种使用血液标志物预测性别的方法,其特征在于:包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤,所述血液标志物按照以下方法预测性别:/n第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体性别和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;/n第二步,数据预处理,移除有遗漏数据的样本和有明显错误离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;/n第三步,模型的建立与评估,预处理后的数据按照7:3的比例随机分为训练集和测试集进行模型的训练,使用深度神经网络(DNN)机器学习算法训练26754个样本的19个血液标志物数据,调整隐藏层数量、神经元个数和Dropout数量等模型参数,训练多个性别预测模型;/n第四步,模型的测试,在所用的26754个样本数据中,随机获取30%的数据输入模型预测性别,进行模型内部数据的验证,在每个模型上进行对应验证测试,最终挑选其中计算功效最好的模型为性别预测模型。/n...

【技术特征摘要】
1.一种使用血液标志物预测性别的方法,其特征在于:包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤,所述血液标志物按照以下方法预测性别:
第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体性别和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;
第二步,数据预处理,移除有遗漏数据的样本和有明显错误离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;
第三步,模型的建立与评估,预处理后的数据按照7:3的比例随机分为训练集和测试集进行模型的训练,使用深度神经网络(DNN)机器学习算法训练26754个样本的19个血液标志物数据,调整隐藏层数量、神经元个数和Dropout数量等模型参数,...

【专利技术属性】
技术研发人员:罗奇斌申玉林廖胜光任毅
申请(专利权)人:天津奇云诺德生物医学有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1