使用基于树的空间数据结构对基因数据集的群体分类制造技术

技术编号:25640121 阅读:19 留言:0更新日期:2020-09-15 21:31
构建表示参考群体的参考基因数据集的参考特征向量。使用线性变换来对所述参考特征向量进行变换以生成所述参考群体的所述参考基因数据集的维度降低的向量表示。构建基于树的空间数据结构以将所述参考基因数据集索引为数据点,所述数据点由所述参考群体的所述参考基因数据集的所述维度降低的向量表示的至少一些维定义。可以通过对所述参考特征向量执行特征降维来生成所述线性变换。使用所述线性变换对表示先证者基因数据集的特征向量进行变换以生成维度降低的向量表示,所述维度降低的向量表示被定位在所述基于树的空间数据结构中以执行针对所述先证者基因数据集的群体分配。

【技术实现步骤摘要】
使用基于树的空间数据结构对基因数据集的群体分类本申请是2013年8月7日提交的申请号为201380041817.7、名称为“使用基于树的空间数据结构对基因数据集的群体分类”的分案申请。
下文总体上涉及基因分析领域、医学领域,并且涉及基因分析领域、医学领域的应用,例如包括肿瘤学领域、兽医学领域等的医学领域的应用。
技术介绍
能够使用诸如微阵列和“下一代”测序系统的技术来采集针对个体的大的基因数据集,其中,微阵列能够生成数万到数十万的基因数据点,例如,每个对应于目标蛋白等的表达水平,“下一代”测序系统能够输出构成数百万或更大基数的大的序列以及甚至整个基因组序列。根据这样的数据集,能够识别诸如单核苷酸多态性(SNP)、拷贝数变异(CNV)等的各种基因标记物,该基因标记物是医学检验的,例如指示特定类型的癌症。已知,对这样的基因标记物的解读通过按种族、性别或其他群体分组对个体的分类的知识得到促进或者在一些情况下需要按种族、性别或其他群体分组对个体的分类的知识。例如,基于群体,一些基因组变异体(注意,如本文中所使用的,“基因”和“基因组”被认为是可互换的)已经与超过一个不同的基因失调相关联。在一些情况下,等位基因在一个群体中是主要等位基因,而在另一个群体中是次要(以及疾病指示性)等位基因。因此,对于对基因变异体的适当解读而言,获知适当的群体是有用的或者甚至是必须的。在一些情况下,能够基于现有的知识和/或观测到的表现型来对基因数据集进行分类。例如,患者的性别或种族可以是已知的或自报告的。然而,该方法能够易于出错。一些分类对于对象和处置医学人员而言也可以是未知的。例如,患者可以未知地属于由未确诊的医学状况或由指示对特定疾病的倾向的基因标识定义的群体组。当一些处置的效力在群体之间可以不同时,对群体的适当识别在疾病管理中也是重要的。此外,由于笔误或遗漏、或者个人隐私或文化敏感性考虑,基因数据集可能没有标记有可用的分类信息。能够备选地基于诸如基因型、表达/甲基化状态等的群体特异性基因标记物来将基因数据集分配给群体。该方法有利地从基因数据集自身导出群体分组信息。当对新个体执行基因分析时,所采集的基因数据集经受该群体分类。类似地,当执行对在个体的群体内的子群体的基因分析时,这样的分类同样是初步操作。对基因数据集的群体分类通常是耗费时间的过程,并且必须针对分析下的(例如,每个新患者)每个新的基因数据集被执行。此外,依赖于观测基因数据集中的离散基因标记物(例如,特异性群体指示性等位基因)的群体分类方法在群体分类过程中不利用完整基因数据集。下文预见克服上述限制和其他限制的改进的装置和方法。
技术实现思路
根据一个方面,一种非暂态存储介质存储能由电子数据处理设备运行以执行包括以下的方法的指令:对表示参考群体的基因数据集的特征向量执行特征降维以生成将所述特征向量映射到与所述特征向量的维度相比维度降低的向量空间的映射;使用所述映射来生成所述参考群体的所述基因数据集的维度降低的向量表示;并且将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为基于树的空间数据结构中的数据点。所述映射是适当的线性变换,并且可以是Y=M(X),其中,X是表示基因数据集的特征向量,Y是所述基因数据集的所述维度降低的向量表示,并且M是变换矩阵。所述特征维度降低可以采用主成分分析(PCA)。所述方法还可以包括:利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点;并且基于数据点的分布和所述数据点的标注来将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联,例如,通过执行对由所述基于树的空间数据结构索引的所述空间中的所述标注的数据点的聚类。所述方法还包括:使用所述映射来生成先证者基因数据集的先证者维度降低的向量表示;将所述先证者维度降低的向量表示定位在所述基于树的空间数据结构中;并且基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。根据另一方面,一种装置包括如前一段所述的非暂态存储介质,以及电子数据处理设备,所述电子数据处理设备被配置为读取并运行在所述非暂态存储介质上存储的指令。根据另一方面,一种方法包括:构建表示基因数据集的特征向量;使用线性变换来降低所述特征向量的维度以生成所述基因数据集的维度降低的向量表示;将所述基因数据集的所述维度降低的向量表示定位在基于树的空间数据结构中;并且基于所述基因数据集的维度降低的向量表示在所述基于树的空间数据结构中的位置来将所述基因数据集分配给一个或多个群体。至少所述构建、所述生成和所述定位适当地是由电子数据处理设备执行的。根据另一方面,一种装置包括电子数据处理设备,所述电子数据处理设备被编程为:构建表示参考群体的参考基因数据集的参考特征向量;使用线性变换来对所述特参考征向量进行变换以生成所述参考群体的所述参考基因数据集的维度降低的向量表示;并且构建基于树的空间数据结构以将所述参考基因数据集索引为数据点,所述数据点由所述参考群体的所述参考基因数据集的所述维度降低的向量表示的至少一些维定义。可以通过对所述参考特征向量执行特征降维来生成所述线性变换。一个优点在于对基因数据集的更有效的群体分类或分组。另一优点在于对基因数据集的更准确的群体分类或分组。另一优点在于提供了可容易扩展的以更精细分辨的群体分组(即,可扩展以定义子群体)的群体分类架构。另一优点在于基于聚集的基因数据集而不是基于预先定义的离散基因标记物来执行对基因数据集的群体分类或分组。另一优点在于以降低的计算复杂性例如使用预先计算的线性变换而不对要分类的每个样本重新执行特征降维来执行群体分组。对本领域的普通技术人员而言,在阅读下文详细描述后,许多额外的优点和益处将变得显而易见。附图说明本专利技术可以采取各种部件和部件的布置,以及各种过程操作和过程操作的安排的形式。附图仅出于图示优选实施例的目的,并且不得被解释为对本专利技术的限制。图1以图解的方式示出用于生成采用基于树的空间数据结构(SDS)的群体分类器的系统。图2以图解的方式示出当使用二维数据点时由图1的系统适当地生成的说明性四叉树结构。图3以图解的方式示出当使用三维数据点时由图1的系统适当地生成的说明性八叉树SDS。图4以图解的方式示出由图1的系统生成的群体分类器的操作。具体实施方式参考图1,以图解的方式示出了用于生成用于对基因数据集进行分类的群体分类器的系统。该系统适当地由被编程为执行所公开的处理操作的计算机或其他电子数据处理设备10来实施,并且该系统接收针对参考群体的成员的多个基因数据集12作为输入。基因数据集能够例如包括使用微阵列或其他实验室处理生成的基因测序数据(核DNA数据、线粒体DNA数据、RNA数据、甲基化数据等)、蛋白质表达数据。在一些实施例中,基因数据集12包括全基因组序列WGS数据集或由下一代测序装置生成的其他大量基因序列。基因数本文档来自技高网
...

【技术保护点】
1.一种非暂态存储介质,其存储能由电子数据处理设备(10)运行以执行包括以下的方法的指令:/n对表示参考群体的基因数据集的特征向量执行特征降维以生成将所述特征向量映射到与所述特征向量的维度相比维度降低的向量空间的映射;/n使用所述映射来生成所述参考群体的所述基因数据集的维度降低的向量表示;/n将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为基于树的空间数据结构中的数据点;/n利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点;并且/n基于数据点的分布和所述数据点的标注将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联,/n其中,所述方法还包括:/n使用所述映射来生成先证者基因数据集的先证者维度降低的向量表示;/n将所述先证者维度降低的向量表示定位在所述基于树的空间数据结构中;并且/n基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。/n

【技术特征摘要】
20120807 US 61/680,3441.一种非暂态存储介质,其存储能由电子数据处理设备(10)运行以执行包括以下的方法的指令:
对表示参考群体的基因数据集的特征向量执行特征降维以生成将所述特征向量映射到与所述特征向量的维度相比维度降低的向量空间的映射;
使用所述映射来生成所述参考群体的所述基因数据集的维度降低的向量表示;
将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为基于树的空间数据结构中的数据点;
利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点;并且
基于数据点的分布和所述数据点的标注将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联,
其中,所述方法还包括:
使用所述映射来生成先证者基因数据集的先证者维度降低的向量表示;
将所述先证者维度降低的向量表示定位在所述基于树的空间数据结构中;并且
基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。


2.根据权利要求1所述的非暂态存储介质,其中,所述映射是线性变换。


3.根据权利要求1-2中的任一项所述的非暂态存储介质,其中,所述映射是Y=M(X),其中,X是表示基因数据集的特征向量,Y是所述基因数据集的所述维度降低的向量表示,并且M是变换矩阵。


4.根据权利要求1-3中的任一项所述的非暂态存储介质,其中,所述执行包括:
对表示所述参考群体的所述基因数据集的所述特征向量执行主成分分析(PCA)以生成所述映射。


5.根据权利要求1-4中的任一项所述的非暂态存储介质,其中,所述基于树的空间数据结构具有与所述参考群体的所述基因数据集的所述维度降低的向量表示的维度相等的维度。


6.根据权利要求1-4中的任一项所述的非暂态存储介质,其中,所述基于树的空间数据结构具有低于所述参考群体的所述基因数据集的所述维度降低的向量表示的维度的维度,并且所述存储包括:
将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为数据点,所述数据点具有由少于所述参考群体的所述基因数据集的所述维度降低的向量表示的维数的全部的维数定义的坐标。


7.根据权利要求1-6中的任一项所述的非暂态存储介质,其中,所述基于树的空间数据结构是四叉树结构、八叉树结构、k-d树结构或UB树结构。


8.根据权利要求1-7中的任一项所述的非暂态存储介质,其中,所述方法还包括:
使用所述映射来生成不是所述参考群体的部分的新的基因数据集的新的维度降低的向量表示;并且
将所述新的维度降低的向量表示存储为所述基于树的空间数据结构中的新的数据点。


9.根据权利要求1所述的非暂态存储介质,其中,所述关联包括:
执行对由所述基于树的空间数据结构索引的所述空间中的所标注的数据点的聚类。


10.根据权利要求9所述的非暂态存储介质,其中,所述聚类是k中心点聚类。


11.一种用于对基因数据集进行分类的装置,包括:
如权利要求1-10中的任一项所述的非暂态存储介质;以及
电子数据处理设备(10),其被配置为读取并执行在所述非暂态存储介质上存储的指令。


12.一种用于对基因数据集进行分类的方法,包括:
构建表示基因数据集的特征向量;
使用线性变换来降低所述特征向量的维...

【专利技术属性】
技术研发人员:B·查克拉巴蒂P·穆尼亚帕S·库马尔R·辛格S·库马尔A·马特胡尔
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1