【技术实现步骤摘要】
【国外来华专利技术】用于确定基因相似性的方法和系统
[0001]相关申请交叉引用
[0002]本申请要求于2020年6月12日提交的美国临时申请第63/038,504号的优先权,所述美国临时申请通过引用整体并入本文。
技术介绍
[0003]将高通量DNA测序应用于人队列已经实现了从开发罕见和常见遗传变异的综合目录(Genomes Project,C.等人,《自然(Nature)》2010;467:1061;Tennessen JA等人,《科学(Science)》2012;337:64)到阐明孟德尔疾病的新型致病基因(Chong JX等人,《美国人类遗传学期刊(Am J Hum Genet)》2015;97:199;Yang Y等人,《美国医学会杂志(JAMA)》,2014;312:1870)的遗传发现,并且已发现罕见的变体与常见的复杂疾病有关(Do R等人,《自然》2015;518:102;Holm H等人,《自然遗传学(Nat Genet)》2011;43:316;Steinberg S等人,《自然遗传学》,2015;47:445)。
[0004]最新的发现受助于对罕见的“人类敲除基因”的发现(MacArthur DG等人,《科学》2012;335:823;Sulem P等人,《自然遗传学》2015;47:448;Lim ET等人,《公共科学图书馆遗传学(PLoS Genet)》2014;10:e1004494)。在一些情况下,将序列数据库与流行病学数据(Li AH等人,《自然遗传学》2015;47:640)或结构化临床记录中捕获的临床 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:对于多个表型中的每个表型,确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分;对于所述多个基因中的每个基因,基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分;基于所述基因水平关联评分生成基因表型评分矩阵,其中对于所述多个基因中的每个基因,所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分;接收所关注的基因的选择;基于所述选择,在所述基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分;在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因;以及将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因。2.根据权利要求1所述的方法,其中所述关联评分指示所述至少一个变体与所述表型相关联的可能性,其中所述关联评分包括Z评分、基于费舍尔方法(Fisher's method)的统计、秩和统计、p值或其组合中的一者或多者。3.根据权利要求1所述的方法,其进一步包括生成变体表型关联数据结构,所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。4.根据权利要求1所述的方法,其进一步包括过滤所述变体,其中过滤所述变体包括以下中的一项或多项:排除不映射到蛋白质编码基因的一个或多个变体;排除映射到基因间区的一个或多个变体;排除低于最小细胞计数的一个或多个变体;或排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。5.根据权利要求1所述的方法,其中确定所述基因水平关联评分包括:对于基因,确定与所述表型相关联的一个或多个变体;对于所述一个或多个变体中的每个变体,确定关联评分;将具有最高值的所述关联评分确定为基因水平关联评分;或将所述关联评分的平均值确定为所述基因水平关联评分。6.根据权利要求1所述的方法,其进一步包括生成基因表型评分矩阵数据结构,其中生成所述基因表型评分矩阵数据结构包括:生成逻辑表,其中所述逻辑表包括:多个逻辑行,每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符,每个所述逻辑行对应于信息的记录;多个逻辑列,所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元,每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符;并且其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。7.根据权利要求1所述的方法,其中接收所关注的基因的选择包括接收与所述所关注
的基因相关联的基因标识符,并且其中基于所述选择在所述基因表型评分矩阵中确定所关注的基因行包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。8.根据权利要求1所述的方法,其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。9.根据权利要求1所述的方法,其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括:基于所述基因表型评分矩阵生成减少的基因表型评分矩阵;对所述减少的基因表型评分矩阵进行加权;将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵;基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序;并且其中将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。10.根据权利要求1所述的方法,其中所述与所述所关注的基因相关联的基因与一个或多个生物通路相关联,其中所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。11.根据权利要求1所述的方法,其进一步包括:确定与所述所关注的基因相关联的所述基因的功能;以及进行实验以评估所述所关注的基因是否与所述功能相关联。12.根据权利要求1所述的方法,其进一步包括:确定与所述所关注的基因相关联的所述基因是治疗剂的分子靶标;以及进行实验以评估所述治疗剂是否与和所述所关注的基因相关的病状相关联。13.根据权利要求1所述的方法,其中所述所关注的基因包括生物体中的敲除靶标,其中所述方法进一步包括:确定第一生物体中不存在所述敲除靶标;确定与所述第一生物体中存在的所述所关注的基因相关联的基因的同源物;以及利用所述同源物作为所述敲除靶标。14.根据权利要求1所述的方法,其进一步包括:确定治疗剂对所述所关注的基因的调节与负效应相关联;以及进行实验以评估所述治疗剂对与所述所关注的基因相关联的所述基因的调节是否与所述负效应相关联。15.根据权利要求1所述的方法,其进一步包括:基于所述所关注的基因和与所述所关注的基因相关联的所述基因生成基因集;以及基于所述基因集进行富集分析以分析基因表达数据。16.根据权利要求1所述的方法,其进一步包括:
确定与所述所关注的基因相关联的所述基因与表型相关联;以及进行实验以评估所述所关注的基因是否与所述表型相关联。17.根据权利要求1所述的方法,其进一步包括:确定所述所关注的基因和与所述所关注的基因相关联的所述基因的多个变体;以及基于所述多个变体进行实验以评估治疗剂的功效。18.根据权利要求1所述的方法,其进一步包括:向受试者施用治疗剂,其中所述受试者已确定具有与所述所关注的基因相关联的表型,其中所述治疗剂改变与所述所关注的基因相关联的所述基因的表达,并且其中与所述所关注的基因相关联的所述基因的改变的表达向所述受试者提供治疗效果。19.根据权利要求18所述的方法,其中所述改变的表达是与所述所关注的基因相关联的所述基因的表达增加,其中表达增加提供治疗效果。20.根据权利要求18所述的方法,其中所述改变的表达是与所述所关注的基因相关联的所述基因的表达减少,其中表达减少提供治疗效果。21.一种方法,其包括:对于多个表型中的每个表型,确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分;对于所述多个基因中的每个基因,基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分;以及基于所述基因水平关联评分生成基因表型评分矩阵,其中对于所述多个基因中的每个基因,所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分。22.根据权利要求21所述的方法,其中所述关联评分指示所述至少一个变体与所述表型相关联的可能性。23.根据权利要求21所述的方法,其中所述关联评分包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。24.根据权利要求21所述的方法,其进一步包括生成变体表型关联数据结构,所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。25.根据权利要求21所述的方法,其进一步包括过滤所述变体。26.根据权利要求25所述的方法,其中过滤所述变体包括以下中的一项或多项:排除不映射到蛋白质编码基因的一个或多个变体;排除映射到基因间区的一个或多个变体;排除低于最小细胞计数的一个或多个变体;或排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。27.根据权利要求21所述的方法,其中确定所述基因水平关联评分包括:对于基因,确定与所述表型相关联的一个或多个变体;对于所述一个或多个变体中的每个变体,确定关联评分;以及基于所述关联评分确定所述基因的所述基因水平关联评分。
28.根据权利要求27所述的方法,其中基于所述关联评分确定所述基因的所述基因水平关联评分包括:将具有最高值的所述关联评分确定为基因水平关联评分;或将所述关联评分的平均值确定为所述基因水平关联评分。29.根据权利要求21所述的方法,其进一步包括生成基因表型评分矩阵数据结构。30.根据权利要求29所述的方法,其中生成所述基因表型评分矩阵数据结构包括:生成逻辑表,其中所述逻辑表包括:多个逻辑行,每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符,每个所述逻辑行对应于信息的记录;多个逻辑列,所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元,每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符;并且其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。31.根据权利要求21所述的方法,其进一步包括:接收所关注的基因的选择;基于所述选择,在所述基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分;在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因;以及将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因。32.根据权利要求31所述的方法,其中接收所关注的基因的选择包括接收与所述所关注的基因相关联的基因标识符。33.根据权利要求32所述的方法,其中基于所述选择在所述基因表型评分矩阵中确定所关注的基因行包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。34.根据权利要求31所述的方法,其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。35.根据权利要求31所述的方法,其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括:基于所述基因表型评分矩阵生成减少的基因表型评分矩阵;对所述减少的基因表型评分矩阵进行加权;将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵;以及基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序。36.根据权利要求35所述的方法,其中将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。37.根据权利要求31所述的方法,其中与所述所关注的基因相关联的所述基因与一个
或多个生物通路相关联。38.根据权利要求37所述的方法,其中所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。39.根据权利要求37所述的方法,其中可改变与所述所关注的基因相关联的所述基因的表达。40.根据权利要求31所述的方法,其进一步包括:确定与所述所关注的基因相关联的所述基因的功能;以及进行实验以评估所述所关注的基因是否与所述功能相关联。41.根据权利要求31所述的方法,其进一步包括:确定与所述所关注的基因相关联的所述基因是治疗剂的分子靶标;以及进行实验以评估所述治疗剂是否与和所述所关注的基因相关的病状相关联。42.根据权利要求31所述的方法,其中所述所关注的基因包括生物体中的敲除靶标,其中所述方法进一步包括:确定第一生物体中不存在所述敲除靶标;确定与所述第一生物体中存在的所述所关注的基因相关联的基因的同源物;以及利用所述同源物作为所述敲除靶标。43.根据权利要求31所述的方法,其进一步包括:确定治疗剂对所述所关注的基因的调节与负效应相关联;以及进行实验以评估所述治疗剂对与所述所关注的基因相关联的所述基因的调节是否与所述负效应相关联。44.根据权利要求31所述的方法,其进一步包括:基于所述所关注的基因和与所述所关注的基因相关联的所述基因生成基因集;以及基于所述基因集进行富集分析以分析基因表达数据。45.根据权利要求31所述的方法,其进一步包括:确定与所述所关注的基因相关联的所述基因与表型相关联;以及进行实验以评估所述所关注的基因是否与所述表型相关联。46.根据权利要求31所述的方法,其进一步包括:确定所述所关注的基因和与所述所关注的基因相关联的所述基因的多个变体;以及基于所述多个变体进行实验以评估治疗剂的功效。47....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。