【技术实现步骤摘要】
【国外来华专利技术】根据性能度量生成癌症检测分析组
相关申请的交叉引用
[0001]本申请要求2020年4月21日提交的第63/013,512号临时申请和2021年4月19日提交的第17/233,548号美国实用专利申请的权益,其内容通过引用结合到本文中。
[0002]本公开涉及生成疾病检测分析组(detection panel),并且更具体地,涉及使用检测能力模型生成癌症检测分析组。相关技术的描述
[0003]计算技术可用于DNA测序数据以鉴别DNA中可对应于各种类型的癌症或其它疾病的突变或变体。然而,设计有效地下拉测序数据以鉴别变体和突变的疾病检测分析组是一个具有挑战性的过程。通常,疾病检测分析组包括为该分析组选择的大量基因组区域。选择所包括的区域是因为那些区域中的变异在以前已经显示出指示疾病存在和/或疾病类型。然而,通常,所包括的区域不是以任何方式缩减的,并且所得到的分析组大而且昂贵。
技术实现思路
[0004]本文公开了一种产生用于疾病分类的简化基因分析组(reducedgenepanel)的方法。所述方法可以由计算机系统实现。首先,所述系统获得第一组基因组区域的测序数据。例如,一组50个基因组区域。该系统从所述第一组基因组区域的测序数据导出多个特征值。
[0005]然后,所述系统将分类模型应用于所述特征值。所述分类模型使用特征值来预测疾病分类。为此,分类模型产生对应于第一组基因组区域的一组模型系数。然后系统根据它们的模型系数对基因组区域进行排序。例如,首先对具有最高模型系数的基因组区域进行排序。 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种生成用于疾病分类的简化基因分析组的方法,包括:获取第一组基因组区域的测序数据;从所述第一组基因组区域的测序数据中导出多个特征值;基于所述多个特征值应用预测疾病分类的分类模型,其中所述分类模型生成与所述第一组基因组区域对应的一组模型系数;根据所述一组模型系数对所述第一组基因组区域进行排序;使用所述排序来鉴别出优化所述疾病分类的所述第一组基因组区域的第一亚组基因组区域;和生成包含所述第一亚组基因组区域的所述简化基因分析组。2.如权利要求1所述的方法,其中所述测序数据是通过对由多个患者获得的生物样本中存在的细胞游离核酸分子进行测序而获得的。3.如权利要求1至2中任一项所述的方法,其中所述第一组基因组区域包括癌症相关基因、突变热点和病毒区域中的至少一种。4.如权利要求1至3中任一项所述的方法,其中所述第一组基因组区域包括与高信号癌症或液体癌相关的基因组区域。5.如权利要求1至4中任一项所述的方法,其中所述多个特征值包括在所述第一组基因组区域中的每个基因组区域处的变体的最大等位基因频率。6.如权利要求1至5中任一项所述的方法,其中所述多个特征值代表对应于是否存在变体、平均等位基因频率、小变体的总数和真实变体的等位基因频率中的至少之一的特征。7.如权利要求5至6中任一项所述的方法,其中所述变体包括单核苷酸变体、插入和缺失中的至少一种。8.如权利要求1至7中任一项所述的方法,其中所述分类模型包括逻辑回归模型,并且所述一组模型系数包括通过用所述多个特征值来训练所述逻辑回归模型而获得的回归系数。9.如权利要求1至8中任一项所述的方法,其中鉴别出所述第一亚组基因组区域包括:在初次迭代时,训练所述分类模型以基于与第一基因组区域对应的特征值来预测疾病分类,其中所述第一基因组区域与最高排序顺序的基因组区域对应;确定在所述第一基因组区域上训练的所述分类模型的性能度量;在随后的迭代中,并入剩余的排序基因组区域来重新训练所述分类模型,并在并入每个额外的基因组区域之后评估所述性能度量,其中每个随后的迭代包括:应用贪婪算法将所述剩余的排序基因组区域中的次高排序顺序的基因组区域添加到所述分类模型中;使用与所添加的次高排序顺序的基因组区域以及在前一次迭代中先前添加的基因组区域相关联的特征值来重新训练所述分类模型;和确定所述重新训练的分类模型的性能度量;和评估每一次迭代获得的所述性能度量,以鉴别产生优化的性能度量的所述第一亚组基因组区域。10.如权利要求9所述的方法,其中所述优化的性能度量包括由所述分类模型实现的最大性能度量。
11.如权利要求1至10中任一项所述的方法,其中所述第一组基因组区域优化包括在预定特异性水平处的灵敏度水平的性能度量。12.如权利要求1至11中任一项所述的方法,其中所述疾病分类包括用于预测癌症或非癌症的双类分类和用于预测癌症类型的多类分类中的至少一种。13.如权利要求1至12中任一项所述的方法,其中用所述简化基因分析组获得的性能度量基本上与用包含完整的所述第一组基因组区域的完整的基因分析组获得的性能度量相似。14.如权利要求1至13中任一项所述的方法,其中所述第一组基因组区域包含与高信号癌症相关联的基因组区域,并且具有约2Mb的组尺寸,其中所述第一亚组基因组区域的亚组尺寸小于300kb。15.如权利要求1至14中任一项所述的方法,还包括:鉴别第二亚组基因组区域,所述第二亚组基因组区域进一步改善由所述第一亚组基因组区域实现的所述疾病分类;和生成包含所述第一亚组基因组区域和所述第二亚组基因组区域的所述简化基因分析组。16.如权利要求15所述的方法,还包括:获得第二组基因组区域的第二组测序数据;根据每个患者的体细胞突变的频率和通过编码区域长度而标准化的频率中的至少一个来对所述第二组基因组区域进行排序;和基于所述排序的第二组基因组区域来鉴别所述第二亚组基因组区域。17.如权利要求1至16中任一项所述的方法,还包括:鉴别第三亚组基因组区域,所述第三亚组基因组区域进一步改善通过所述简化基因分析组实现的疾病分类,其中所述第三亚组基因组区域优化疾病类型预测准确度;和包括在所述简化基因分析组中的所述第三亚组基因组区域。18.如权利要求17所述的方法,其中所述第三组基因组区域是癌症特异性基因和热点。19.如权利要求1至18中任一项所述的方法,其还包括将额外的热点区域添加到所述简化基因分析组中,其中所述热点区域对应于单核苷酸变体、插入或缺失。20.如权利要求1至19中任一项所述的方法,还包括将额外的病毒靶区域添加到所述简化基因分析组中,其中所述病毒靶区域对应于病毒相关的癌症。21.如权利要求1至20中任一项所述的方法,其中所述简化基因分析组包括不超过300kb的总分析组尺寸。22.一种存储一个或多个程序的非暂时性计算机可读介质,所述一个或多个程序包括指令,所述指令在由包括处理器的电子设备执行时使所述设备执行前述任何权利要求的方法。23.一种电子设备,包括:一个或多个处理器;存储器;和一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行前述任何权利要求的方法的指
令。24.一种生成癌症测定分析组的方法,包括:选择与高信号癌症基因和液体癌基因相关的第一组基因组区域;选择与癌症特异性基因和癌症特异性热点相关的第二组基因组区域;选择与针对单核苷酸变体或indel的热点相关的第三组基因组区域;选择与病毒靶标相关的第四组基因组区域;和生成包括多个探针组的癌症测定分析组,其中所述多个探针组中的每个探针组包括用于靶向所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一个基因组区域的一对探针。25.如权利要求24所述的方法,其中选择用于所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一组基因组区域的基因组区域,包括应用分类模型以评估每个基因组区域对所述癌症测定分析组的检测灵敏度的贡献。26.如权利要求24至25中任一项所述的方法,其中所述第一组基因组区域包括表1中的一个或多个基因组区域。27.如权利要求26所述的方法,进一步包括选择提高所述分析组的检测灵敏度的第五组基因组区域,其中所述第五组基因组区域包括表2中的一个或多个基因组区域。28.如权利要求24至27中任一项所述的方法,其中所述第二组基因组区域包括CASP8、IDH1、TERT1和EGFR中的一种或多种。29.如权利要求24至28中任一项所述的方法,其中所述第三组基因组区域包括表3中的一个或多个基因组区域。30.如权利要求24至29中任一项所述的方法,其中所述第三组基因组区域包括位于表4中的一个或多个基因组区域处的一个或多个位点。31.如权利要求24至30中任一项所述的方法,其中所述第三组基因组区域包括位于表5中的一个或多个基因组区域处的一个或多个位点。32.如权利要求24至31中任一项所述的方法,其中所述第三组基因组区域包括位于表6中的一个或多个基因组区域处的一个或多个位点。33.如权利要求24至32中任一项所述的方法,其中所述第四组基因组区域包括位于HPV16、HPV18、EBV和HBV中的一个或多个基因组区域处的一个或多个位点。34.如权利要求24至33中任一项所述的方法,其中所述癌症测定分析组的总分析组尺寸小于或等于300千碱基。35.通过权利要求24至34中任一项所述的方法制备的癌症测定分析组。36.一种用于评估发展疾病状态的风险、检测疾病状态和/或诊断疾病状态的方法,所述方法包括:从获自受试者的细胞游离核酸样本中检测一组基因中的至少一个基因的体细胞突变,其中所述一组基因包括来自由以下组成的第一群组中的三个或更多个基因:KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、
ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP和APC;和基于检测到的体细胞突变确定所述疾病状态。37.如权利要求36所述的方法,其中所述一组基因包括所述第一群组中的5个或更多个基因。38.如权利要求36至37中任一项所述的方法,其中所述一组基因包括所述第一群组中的10个或更多个基因。39.如权利要求36所述的方法,其中所述一组基因包括KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63和KEAP1。40.如权利要求39所述的方法,其中所述一组基因还包括CDK12、KMT2D、DICER1、TET2、LAT52、ETV5、GRIN2A、EPHA7、ASXL2和RET中的一种或多种。41.如权利要求36至40中任一项所述的方法,其中所述一组基因包括TP53、NRAS、KMT2D、TET2、KMT2C、SF3B1、LRP1B。42.如权利要求41所述的方法,其中所述一组基因进一步包括MYD88、CBL、BRAF、CREBBP和APC中的一种或多种。43.如权利要求36至42中任一项所述的方法,其中检测所述体细胞突变包括检测SNV。44.如权利要求43所述的方法,其中检测所述体细胞突变进一步包括检测indel。45.如权利要求36至44中任一项所述的方法,其中所述一组基因还包括来自与针对SNV和indel的热点相关的第二群组基因中的一个或多个基因,所述第二群组基因由以下组成:AKT1、ERBB3、IDH1、PTEN、ARAF、EZH2、IDH2、PTPRD、CD79A、FGFR3、MAP3K1、RHOA、CDKN2A、GATA3、MAPK1、RNF43、DNMT3A、GNAS、MSH2、SPTA1、EP300、HRAS、PREX2和TERT。46.如权利要求36至45中任一项所述的方法,其中所述一组基因还包括来自与病毒热点相关的第三群组基因中的一个或多个基因,所述第三群组基因由HPV16、HPV18、EBV和HBV组成。47.如权利要求36至46中任一项所述的方法,还包括:根据所述基因和在所述基因处检测到的体细胞突变进行治疗、预后或诊断。48.一种存储一个或多个程序的非暂时性计算机可读介质,所述一个或多个程序包括指令,所述指令在由包括处理器的电子设备执行时使所述设备执行前述任何权利要求的方法。49.一种电子设备,包括:一个或多个处理器;存储器;和一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行前述任何权利要求的方法的指令。50.通过权利要求36至49中任一项的方法制备的癌症测定分析组。51.一种癌症测定分析组,包括:选自与高信号癌症或液体癌相关的第一群组基因中的一个或多个基因;选自与针对单核苷酸变体(SNV)或indel的热点相关的第二群组基因中的一个或多个基因;和
选自与病毒热点相关的第三群组基因中的一个或多个基因。52.如权利要求51所述的分析组,其中所述第一群组基因由以下组成:KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP和APC。53.如权利要求51至52中任一项所述的分析组,其中所述第二群组基因包括与针对SNV的热点相关的一组基因,所述一组基因由以下组成:AKT1、CDKN2A、DNMT3A、EP300、ERBB3、FGFR3、GNAS、HRAS、IDH1、IDH2、MAP3K1、MAPK1、PREX2、PTEN、PTPRD、RHOA、SPTA1、TERT和EZH2。54.如权利要求51至53中任一项所述的分析组,其中所述第二群组基因包括与indel相关的一组基因,所述一组基因由以下组成:ARAF、CD79A、GATA3、MSH2、PTEN和RNF43。55.如权利要求51至54中任一项所述的分析组,其中所述第三群组基因由HPV16、HPV18、EBV和HBV组成。56.如权利要求51至55中任一项所述的分析组,其中所述测定分析组检测受试者中是否存在癌症。57.如权利要求51至56中任一项的分析组,其中所述测定分析组检测受试者中的癌症类型。58.一种生成用于确定患者中是否存在癌症的癌症检测分析组的方法,所述方法包括:接收生成所述检测分析组的请求,所述检测分析组包括一组基因组区域,所述请求包括所述检测分析组的集合千碱基尺寸;接收多个基因组区域,每个基因组区域与所述基因组区域的特征变异指示癌症的可能性相关,并且每个基因组区域具有千碱基尺寸;和将分类器模型应用于所述多个基因组区域以生成所述检测分析组,所述分类器模型:确定每一个所述基因组区域的灵敏度记分,所述灵敏度记分量化对所述检测分析组的检测灵敏度的贡献,所述检测灵敏度对在所述癌症检测分析组中包括的所述一组基因组区域中的特征变异指示癌症的可能性进行量化,根据所述多个基因组区域的灵敏度记分对所述多个基因组区域进行排序,和基于所述多个基因组区域的排序,选择一个或多个基因组区域作为所述检测分析组的所述一组基因组区域,所述检测分析组中的所述一组基因组区域的千碱基尺寸之和小于集合千碱基尺寸。59.如权利要求58所述的方法,进一步包括:使用所述分析组来确定患者中癌症的存在。60.如权利要求58至59中任一项所述的方法,还包括:将所述一组基因组区域发送至传送所述生成所述检测分析组的请求的客户端设备。61.如权利要求58至60中任一项所述的方法,其中所述基因组区域的特征是单核苷酸变体。62.如权利要求61所述的方法,其中指示癌症的所述特征变异是基因组区域的单核苷酸变体的最大变体等位基因频率。
63.如权利要求58至61中任一项所述的方法,其中一个或多个所述基因组区域指示与癌症相关的病毒。64.如权利要求63所述的方法,其中所述病毒是HPV16、HPV18、EBV和HBV中的任一种。65.如权利要求58至64中任一项所述的方法,其中一个或多个所述基因组区域与实体癌相关。66.如权利要求65所述的方法,其中所述基因组区域是表1或表2中的基因组区域。67.如权利要求58至66中任一项所述的方法,其中一个或多个所述基因组区域与液体癌相关。68.如权利要求67所述的方法,其中所述基因组区域是表1或表2中的基因组区域。69.如权利要求58至68中任一项所述的方法,其中一个或多个所述基因组区域指示癌症热点。70.如权利要求69所述的方法,其中所述基因组区域是表3、表4或表5中的基因组区域。71.如权利要求58至70中任一项所述的方法,其中一个或多个所述基因组区域与特定类型的癌症相关。72.如权利要求58至71中任一项所述的方法,其中所述检测分析组包括少于65、55或45个基因组区域。73.如权利要求58...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。