【技术实现步骤摘要】
使用基于树的空间数据结构对基因数据集的群体分类本申请是2013年8月7日提交的申请号为201380041817.7、名称为“使用基于树的空间数据结构对基因数据集的群体分类”的分案申请。
下文总体上涉及基因分析领域、医学领域,并且涉及基因分析领域、医学领域的应用,例如包括肿瘤学领域、兽医学领域等的医学领域的应用。
技术介绍
能够使用诸如微阵列和“下一代”测序系统的技术来采集针对个体的大的基因数据集,其中,微阵列能够生成数万到数十万的基因数据点,例如,每个对应于目标蛋白等的表达水平,“下一代”测序系统能够输出构成数百万或更大基数的大的序列以及甚至整个基因组序列。根据这样的数据集,能够识别诸如单核苷酸多态性(SNP)、拷贝数变异(CNV)等的各种基因标记物,该基因标记物是医学检验的,例如指示特定类型的癌症。已知,对这样的基因标记物的解读通过按种族、性别或其他群体分组对个体的分类的知识得到促进或者在一些情况下需要按种族、性别或其他群体分组对个体的分类的知识。例如,基于群体,一些基因组变异体(注意,如本文中所使用的,“基因”和“基因组”被认为是可互换的)已经与超过一个不同的基因失调相关联。在一些情况下,等位基因在一个群体中是主要等位基因,而在另一个群体中是次要(以及疾病指示性)等位基因。因此,对于对基因变异体的适当解读而言,获知适当的群体是有用的或者甚至是必须的。在一些情况下,能够基于现有的知识和/或观测到的表现型来对基因数据集进行分类。例如,患者的性别或种族可以是已知的或自报告的。然而,该方法能够易于 ...
【技术保护点】
1.一种非暂态存储介质,其存储能由电子数据处理设备(10)运行以执行包括以下的方法的指令:/n对表示参考群体的基因数据集的特征向量执行特征降维以生成将所述特征向量映射到与所述特征向量的维度相比维度降低的向量空间的映射;/n使用所述映射来生成所述参考群体的所述基因数据集的维度降低的向量表示;/n将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为基于树的空间数据结构中的数据点;/n利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点;并且/n基于数据点的分布和所述数据点的标注将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联,/n其中,所述方法还包括:/n使用所述映射来生成先证者基因数据集的先证者维度降低的向量表示;/n将所述先证者维度降低的向量表示定位在所述基于树的空间数据结构中;并且/n基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。/n
【技术特征摘要】
20120807 US 61/680,3441.一种非暂态存储介质,其存储能由电子数据处理设备(10)运行以执行包括以下的方法的指令:
对表示参考群体的基因数据集的特征向量执行特征降维以生成将所述特征向量映射到与所述特征向量的维度相比维度降低的向量空间的映射;
使用所述映射来生成所述参考群体的所述基因数据集的维度降低的向量表示;
将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为基于树的空间数据结构中的数据点;
利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点;并且
基于数据点的分布和所述数据点的标注将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联,
其中,所述方法还包括:
使用所述映射来生成先证者基因数据集的先证者维度降低的向量表示;
将所述先证者维度降低的向量表示定位在所述基于树的空间数据结构中;并且
基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。
2.根据权利要求1所述的非暂态存储介质,其中,所述映射是线性变换。
3.根据权利要求1-2中的任一项所述的非暂态存储介质,其中,所述映射是Y=M(X),其中,X是表示基因数据集的特征向量,Y是所述基因数据集的所述维度降低的向量表示,并且M是变换矩阵。
4.根据权利要求1-3中的任一项所述的非暂态存储介质,其中,所述执行包括:
对表示所述参考群体的所述基因数据集的所述特征向量执行主成分分析(PCA)以生成所述映射。
5.根据权利要求1-4中的任一项所述的非暂态存储介质,其中,所述基于树的空间数据结构具有与所述参考群体的所述基因数据集的所述维度降低的向量表示的维度相等的维度。
6.根据权利要求1-4中的任一项所述的非暂态存储介质,其中,所述基于树的空间数据结构具有低于所述参考群体的所述基因数据集的所述维度降低的向量表示的维度的维度,并且所述存储包括:
将所述参考群体的所述基因数据集的所述维度降低的向量表示存储为数据点,所述数据点具有由少于所述参考群体的所述基因数据集的所述维度降低的向量表示的维数的全部的维数定义的坐标。
7.根据权利要求1-6中的任一项所述的非暂态存储介质,其中,所述基于树的空间数据结构是四叉树结构、八叉树结构、k-d树结构或UB树结构。
8.根据权利要求1-7中的任一项所述的非暂态存储介质,其中,所述方法还包括:
使用所述映射来生成不是所述参考群体的部分的新的基因数据集的新的维度降低的向量表示;并且
将所述新的维度降低的向量表示存储为所述基于树的空间数据结构中的新的数据点。
9.根据权利要求1所述的非暂态存储介质,其中,所述关联包括:
执行对由所述基于树的空间数据结构索引的所述空间中的所标注的数据点的聚类。
10.根据权利要求9所述的非暂态存储介质,其中,所述聚类是k中心点聚类。
11.一种用于对基因数据集进行分类的装置,包括:
如权利要求1-10中的任一项所述的非暂态存储介质;以及
电子数据处理设备(10),其被配置为读取并执行在所述非暂态存储介质上存储的指令。
12.一种用于对基因数据集进行分类的方法,包括:
构建表示基因数据集的特征向量;
使用线性变换来降低所述特征向量的维...
【专利技术属性】
技术研发人员:B·查克拉巴蒂,P·穆尼亚帕,S·库马尔,R·辛格,S·库马尔,A·马特胡尔,
申请(专利权)人:皇家飞利浦有限公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。