基于级联特征选择算法的唐氏综合征筛查系统技术方案

技术编号:33461291 阅读:74 留言:0更新日期:2022-05-19 00:42
本发明专利技术属于医学筛查方法技术领域,具体涉及一种基于级联特征选择算法的唐氏综合征筛查系统;是基于相关性的特征选择算法(CFS)、蜂群优化算法(BSO)和支持向量机SVM机器学习模型的唐氏综合征筛查系统,包括数据预处理模块、特征初筛模块、筛选最优特征子集模块、模型预测模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。量的效果。

【技术实现步骤摘要】
基于级联特征选择算法的唐氏综合征筛查系统


[0001]本专利技术属于医学筛查方法
,具体涉及一种基于级联特征选择算法的唐氏综合征筛查系统。

技术介绍

[0002]唐氏综合征也称为21

三体综合征,是由染色体异常而导致的疾病。在中国,每10000名活产婴儿就有14.7人出现这种异常。60%的患儿在胎内早期即流产,存活者有明显的智能落后、特殊面容、生长发育障碍和多发畸形。目前唐氏综合征尚缺乏有效的治疗方法,因此产前筛查是防止唐氏综合征患儿出生的有效措施。我国目前主要采用测定孕妇血清绒毛膜促性腺激素(HCG)、甲胎蛋白(AFP)、游离雌三醇(FE3)水平,并结合对孕妇外周血细胞染色体核型分析以及羊水细胞染色体检查来进行唐氏综合征筛查。
[0003]在2012年以前,我国的产前筛查方案通常采用羊膜穿刺术或绒毛取样(CVS)检测,这一度被称为染色体异常检测的“金标准”。然而,这种方法是侵入性的,具有一定的感染风险。近年来,无创性产前DNA检测(NIPT)在该领域内引起人们的关注。NIPT是一种新型的基因检测,用于筛查出生缺陷和遗传性疾病,NIPT的结果通常提供给孕妇血清筛查诊断为高风险的孕妇进行进一步筛查,结果准确但耗时且成本高,无法实现真正意义上的普及。
[0004]近年来,随着机器学习技术的发展,机器学习方法已广泛应用于癌症诊断以及其他常见疾病的预测。精确的计算机辅助工具有助于加快疾病的诊断,减少医生工作量的同时提高工作效率,带来更精确、更高效的诊断结果。
[0005]产前筛查数据是医疗数据中一类较为特殊的数据,具有高维度以及特征相关性。基于上述原因,机器学习在唐氏综合征筛查中的应用鲜有报道。相关文献考虑的特征维度较小,未能充分考虑到与筛查结果相关的重要特征。与低维特征分类问题相比,高维度以及特征相关的分类问题要困难得多。传统的机器学习模型针对高维以及特征相关数据的分类效果并不好,难以应用于唐氏综合征的筛查。
[0006]融合式特征选择方法是一种适用于高维以及特征相关数据集的特征选择算法。该算法的本质是针对不同特征选择模型的优缺点,将两种不同的特征选择方法相结合,从而进行最优特征子集选择。两种方式能够将各自的优势互补,结合后的算法在子集评估能力和分类准确率方面都有很大提升。目前,该方法大多用于工业界,还没有应用于唐氏综合征的筛查。

技术实现思路

[0007]为了克服上述问题,本专利技术提供一种基于级联特征选择算法的唐氏综合征筛查系统,是基于相关性的特征选择算法(CFS)、蜂群优化算法(BSO)和支持向量机SVM机器学习模型的唐氏综合征筛查系统,包括数据预处理模块、特征初筛模块、筛选最优特征子集模块、模型预测模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。
[0008]一种基于级联特征选择算法的唐氏综合征筛查系统,包括数据预处理模块、特征初筛模块、筛选最优特征子集模块和模型预测模块,其中数据预处理模块用于接收唐氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;
[0009]特征初筛模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与唐氏综合征筛查结果相关特征的选取;
[0010]筛选最优特征子集模块使用蜂群优化算法对特征初筛模块选取的特征进行进一步的筛选,提取出与唐氏综合征筛查结果相关性最强的最优特征;
[0011]模型预测模块使用支持向量机SVM模型对筛选最优特征子集模块提取出的最优特征进行唐氏综合征的筛查与预测,并输出预测结果。
[0012]所述数据预处理模块接收的唐氏综合征筛查结果的文本数据是指孕妇中孕期的唐氏筛查结果的文本数据,每一结果的文本数据看作一条唐氏综合征样本,每个唐氏综合征样本均包含58维特征样本;所述将数据进行标准化处理是采用Z

Score标准化方法对每一维特征样本进行标准化,Z

Score标准化的公式如下:
[0013][0014]其中:x
j
代表标准化后的特征样本,x
i
代表原始的特征样本,μ为该维度特征样本中所有数据的平均值,σ为该维度特征样本中所有数据的标准差;
[0015]所述特征样本中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Z

Score标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。
[0016]所述特征初筛模块选取与唐氏综合征筛查结果相关的特征采用的是基于相关性的特征选择算法,具体过程如下:
[0017]步骤一,从数据预处理模块输出的标准化后的唐氏综合征样本中计算出每一维度的特征样本分别与其他维度特征样本之间的相关性,以及每一维度的特征样本与唐氏综合征预测类别的相关性,进而得到两个相关性矩阵;
[0018]其中每一维度的特征样本分别与其他维度的特征样本之间的相关性按下式计算:
[0019][0020]其中:X1代表一个维度特征样本下的所有数据,E(X1)代表该维度特征样本下所有数据的数学期望,D(X1)对应的是该维度特征样本下所有数据的方差,X2代表另一维度特征样本下的所有数据,E(X2)对应的是该维度特征样本下所有数据的数学期望,D(X2)对应的是该维度特征样本下所有数据的方差;
[0021]每一维度的特征样本与唐氏综合征预测类别的相关性按下式计算:
[0022][0023]其中,X代表其中一个维度的特征样本下的所有数据,E(X)代表该维度特征样本下所有数据的数学期望,D(X)对应的是该维度特征样本下所有数据的方差,Y代表每个维度特
征样本的诊断结局,1为唐氏综合征,0为非唐氏综合征,E(Y)代表特征样本的诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;
[0024]步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:
[0025]首先给定一个空集M,接着依次向空集M中有放回的放入每一维度特征样本并计算每一维度特征样本的估计值merit,选择估计值最大的特征样本进入M,然后选择估计值第二大的一维特征样本进入M,此时在M中形成一个组合特征样本,计算该组合特征样本的估计值,如果该组合特征样本的估计值小于最先进入M中估计值最大的特征样本原来的估计值,则去除这个估计值第二大的特征样本,如果该组合特征样本的估计值不小于最先进入M中估计值最大的特征样本原来的估计值,则将这个估计值第二大的特征样本保留在M中;
[0026]继续将估计值第三大的一维特征样本进入M,此时估计值第三大的特征样本与保留在M中的其他特征样本形成一个组合特征样本,计算该组合特征样本的估计值,如果该组合特征样本的估计值小于M中未放入该特征样本时存在的组合特征样本的估计值,则去除这个最新加入到M中的特征样本,如果该组合特征样本的估计值不小于M中未放入该特征样本时存在的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于级联特征选择算法的唐氏综合征筛查系统,其特征在于包括数据预处理模块、特征初筛模块、筛选最优特征子集模块和模型预测模块,其中数据预处理模块用于接收唐氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;特征初筛模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与唐氏综合征筛查结果相关特征的选取;筛选最优特征子集模块使用蜂群优化算法对特征初筛模块选取的特征进行进一步的筛选,提取出与唐氏综合征筛查结果相关性最强的最优特征;模型预测模块使用支持向量机SVM模型对筛选最优特征子集模块提取出的最优特征进行唐氏综合征的筛查与预测,并输出预测结果。2.根据权利要求1所述的一种基于级联特征选择算法的唐氏综合征筛查系统,其特征在于所述数据预处理模块接收的唐氏综合征筛查结果的文本数据是指孕妇中孕期的唐氏筛查结果的文本数据,每一结果的文本数据看作一条唐氏综合征样本,每个唐氏综合征样本均包含58维特征样本;所述将数据进行标准化处理是采用Z

Score标准化方法对每一维特征样本进行标准化,Z

Score标准化的公式如下:其中:x
j
代表标准化后的特征样本,x
i
代表原始的特征样本,μ为该维度特征样本中所有数据的平均值,σ为该维度特征样本中所有数据的标准差;所述特征样本中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Z

Score标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。3.根据权利要求2所述的一种基于级联特征选择算法的唐氏综合征筛查系统,其特征在于所述特征初筛模块选取与唐氏综合征筛查结果相关的特征采用的是基于相关性的特征选择算法,具体过程如下:步骤一,从数据预处理模块输出的标准化后的唐氏综合征样本中计算出每一维度的特征样本分别与其他维度特征样本之间的相关性,以及每一维度的特征样本与唐氏综合征预测类别的相关性,进而得到两个相关性矩阵;其中每一维度的特征样本分别与其他维度的特征样本之间的相关性按下式计算:其中:X1代表一个维度特征样本下的所有数据,E(X1)代表该维度特征样本下所有数据的数学期望,D(X1)对应的是该维度特征样本下所有数据的方差,X2代表另一维度特征样本下的所有数据,E(X2)对应的是该维度特征样本下所有数据的数学期望,D(X2)对应的是该维度特征样本下所有数据的方差;每一维度的特征样本与唐氏综合征预测类别的相关性按下式计算:
其中,X代表其中一个维度的特征样本下的所有数据,E(X)代表该维度特征样本下所有数据的数学期望,D(X)对应的是该维度特征样本下所有数据的方差,Y代表每个维度特征样本的诊断结局,1为唐氏综合征,0为非唐氏综合征,E(Y)代表特征样本的诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:首先给定一个空集M,接着依次向空集M中有放回的放入每一维度特征样本并计算每一维度特征样本的估计值merit,选择估计值最大的特征样本进入M,然后选择估计值第二大的一维特征样本进入M,此时在M中形成一个组合特征样本,计算该组合特征样本的估计值,如果该组合特征样本的估计值小于最先进入M中估计值最大的特征样本原来的估计值,则去除这个估计值第二大的特征样本,如果该组合特征样本的估计值不小于最先进入M中估计值最大的特征样本原来的估计值,则将这个估计值...

【专利技术属性】
技术研发人员:李玲宋柬霏荆瑞航黄玉兰张海蓉
申请(专利权)人:盐城吉研智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1