System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 识别引起极端基因表达水平的罕见变体的计算机实现的方法技术_技高网

识别引起极端基因表达水平的罕见变体的计算机实现的方法技术

技术编号:43310566 阅读:9 留言:0更新日期:2024-11-12 16:28
本发明专利技术所公开的技术涉及可靠地识别引起极端基因表达水平的变体。极端基因表达水平包括表达不足和表达过度。然后,这些变体可以用于训练基于人工智能的模型,从而完成多种预测任务。这些预测任务的一个示例是产生染色质序列的每碱基分辨率。染色质任务的另一个示例是产生由可靠识别的变体引起的基因表达变化。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。特别地,本专利技术所公开的技术涉及在碱基分辨率下基于人工智能的表观遗传学。相关申请的交叉引用本申请涉及同时提交的名称为“artificial intelligence-based detection ofgene conservation and expression preservation at base resolution”的美国专利申请(代理人案卷号illm 1036-1/ip-2045-prv),其以引用方式并入,即如同在本文完整示出一样,以用于所有目的。文献并入以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:2019年9月20日提交的名称为“artificial intelligence-based epigenetics”的美国专利申请号62/903,700(代理人案卷号illm 1025-1/ip-1898-prv);sundaram,l.等人,predicting the clinical impact of human mutation withdeep neural networks.nat.genet.50,1161-1170(2018);jaganathan,k.等人,predicting splicing from primary sequence with deeplearning.cell 176,535-548(2019);2017年10月16日提交的名称为“training a deep pathogenicity classifierusing large-scale benign training data”的美国专利申请号62/573,144(代理人案卷号illm 1000-1/ip-1611-prv);2017年10月16日提交的名称为“pathogenicity classifier based on deepconvolutional neural networks(cnns)”的美国专利申请号62/573,149(代理人案卷号illm 1000-2/ip-1612-prv);2017年10月16日提交的名称为“deep semi-supervised learning thatgenerates large-scale pathogenic training data”的美国专利申请号62/573,153(代理人案卷号illm 1000-3/ip-1613-prv);2017年11月7日提交的名称为“pathogenicity classification of genomicdata using deep convolutional neural networks(cnns)”的美国专利申请号62/582,898(代理人案卷号illm 1000-4/ip-1618-prv);2018年10月15日提交的名称为“deep learning-based techniques fortraining deep convolutional neural networks”的美国专利申请号16/160,903(代理人案卷号illm 1000-5/ip-1611-us);2018年10月15日提交的名称为“deep convolutional neural networks forvariant classification”的美国专利申请号16/160,986(代理人案卷号illm 1000-6/ip-1612-us);2018年10月15日提交的名称为“semi-supervised learning for training anensemble of deep convolutional neural networks”的美国专利申请号16/160,968(代理人案卷号illm 1000-7/ip-1613-us);2019年5月8日提交的名称为“deep learning-based techniques for pre-training deep convolutional neural networks”的美国专利申请号16/407,149(代理人案卷号illm 1010-1/ip-1734-us);2021年4月15日提交的名称为“deep convolutional neural networks topredict variant pathogenicity using three-dimensional(3d)protein structures”的美国专利申请号17/232,056(代理人案卷号illm 1037-2/1p-2051-us);2021年4月15日提交的名称为“multi-channel protein voxelization topredict variant pathogenicity using deep convolutional neural networks”的美国专利申请号63/175,495(代理人案卷号illm 1047-1/ip-2142-prv);2021年4月16日提交的名称为“efficient voxelization for deep learning”的美国专利申请号63/175,767(代理人案卷号illm 1048-1/ip-2143-prv);以及2021年9月7日提交的名称为“artificial intelligence-based analysis ofprotein three-dimensional(3d)structures”的美国专利申请号17/468,411(代理人案卷号illm 1037-3/ip-2051a-us)。


技术介绍

1、本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。

2、基因组学在广义上也称为功能基因组学,其目的是通过使用基因组规模的测定(诸如基因组测序、转录组谱分析和蛋白质组学)来表征生物体的每种基因组元件的功能。基因组学作为数据驱动的科学出现—其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作。基因组学的应用包括发现基因型与表型之间的关联、发现用于患者分层的生物标记、预测基因功能,以及绘制有生化活性的基因组区域和残基(诸如转录增强子和单核苷酸多态性(snp))的图表。

3、基因组学数据太大太复杂,以至于不能仅通过可视化研究成对相关来挖掘。例如,蛋白质序列可以被分类为同源蛋白质家族,其起源于祖先蛋白质并且共享类似的结构和功能。分析同源蛋白质的多序列比对(msa)提供了关于功能和结构限制的重要信息。代表本文档来自技高网...

【技术保护点】

1.一种识别引起极端基因表达水平的罕见变体的计算机实现的方法,包括:

2.根据权利要求1所述的计算机实现的方法,其中所述因果关系评分是概率值(p值)。

3.根据权利要求1所述的计算机实现的方法,其中所述p值由皮尔逊相关系数确定。

4.根据权利要求1所述的计算机实现的方法,其中所述因果关系模型是逻辑回归模型、线性回归模型、协方差分析(ANCOVA)模型和/或协方差多变量分析(MANCOVA)模型。

5.根据权利要求4所述的计算机实现的方法,其中拟合因果关系模型通过根据由特定罕见变体引起的变体驱动的基因表达水平预测特定染色体中特定基因的特定基因表达水平来确定所述因果关系。

6.根据权利要求5所述的计算机实现的方法,其中所述拟合因果关系模型测量所述变体驱动的基因表达水平作为变体效应协变量的贡献。

7.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括远端反式表达数量性状基因座(eQTL)效应。

8.根据权利要求7所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由其他染色体中的其他基因引起的反式基因表达水平预测所述特定基因表达水平来控制所述远端反式eQTL效应。

9.根据权利要求8所述的计算机实现的方法,其中所述拟合因果关系模型测量所述反式基因表达水平作为反式效应协变量的贡献。

10.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括局部顺式eQTL效应。

11.根据权利要求10所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述特定基因邻域中存在多个常见变体引起的顺式基因表达水平预测所述特定基因表达水平来控制所述局部顺式eQTL效应。

12.根据权利要求11所述的计算机实现的方法,其中所述邻域由所述特定基因中相对于转录起始位点(TSS)的偏移量来限定。

13.根据权利要求11所述的计算机实现的方法,其中所述拟合因果关系模型测量所述顺式基因表达水平作为顺式效应协变量的贡献。

14.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括群体结构和祖先效应。

15.根据权利要求14所述的计算机实现的方法,其中所述群体结构和祖先效应由一种或多种基于基因型的主成分(gPC)表示。

16.根据权利要求15所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述gPC引起的gPC基因表达水平预测所述特定基因表达水平来控制所述群体结构和祖先效应。

17.根据权利要求16所述的计算机实现的方法,其中所述拟合因果关系模型测量所述gPC基因表达水平作为群体结构和祖先效应协变量的贡献。

18.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括表达式残差(PEER)效应的概率估计。

19.根据权利要求18所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述PEER引起的PEER基因表达水平预测所述特定基因表达水平来控制所述PEER效应。

20.根据权利要求19所述的计算机实现的方法,其中所述拟合因果关系模型测量所述PEER基因表达水平作为PEER效应协变量的贡献。

21.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括环境效应。

22.根据权利要求21所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述环境效应引起的环境基因表达水平预测所述特定基因表达水平来控制所述环境效应。

23.根据权利要求22所述的计算机实现的方法,其中所述拟合因果关系模型测量所述环境基因表达水平作为环境效应协变量的贡献。

24.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括性别效应、批次效应、基因分型平台效应和文库构建方案效应。

25.根据权利要求1所述的计算机实现的方法,其中所述极端基因表达水平包括基因表达过度和基因表达不足。

26.根据权利要求24所述的计算机实现的方法,还包括确定所述罕见变体与所述基因表达过度之间的所述因果关系,同时控制所述多种混杂因素。

27.根据权利要求25所述的计算机实现的方法,还包括生成所述罕见变体的过度因果关系评分,其中所述特定罕见变体的特定过度因果关系评分指示所述特定罕见变体在其基因序列含有所述特定罕见变体的那些异常值个体中引起基因表达过度的可能性。

28.根据权利要求26所述的计算机实现的方法,其中所述过度因果关系评分是过度概率值(过度p值)。

29.根据权利要求27所述的计算机实现的方法,其中所...

【技术特征摘要】
【国外来华专利技术】

1.一种识别引起极端基因表达水平的罕见变体的计算机实现的方法,包括:

2.根据权利要求1所述的计算机实现的方法,其中所述因果关系评分是概率值(p值)。

3.根据权利要求1所述的计算机实现的方法,其中所述p值由皮尔逊相关系数确定。

4.根据权利要求1所述的计算机实现的方法,其中所述因果关系模型是逻辑回归模型、线性回归模型、协方差分析(ancova)模型和/或协方差多变量分析(mancova)模型。

5.根据权利要求4所述的计算机实现的方法,其中拟合因果关系模型通过根据由特定罕见变体引起的变体驱动的基因表达水平预测特定染色体中特定基因的特定基因表达水平来确定所述因果关系。

6.根据权利要求5所述的计算机实现的方法,其中所述拟合因果关系模型测量所述变体驱动的基因表达水平作为变体效应协变量的贡献。

7.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括远端反式表达数量性状基因座(eqtl)效应。

8.根据权利要求7所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由其他染色体中的其他基因引起的反式基因表达水平预测所述特定基因表达水平来控制所述远端反式eqtl效应。

9.根据权利要求8所述的计算机实现的方法,其中所述拟合因果关系模型测量所述反式基因表达水平作为反式效应协变量的贡献。

10.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括局部顺式eqtl效应。

11.根据权利要求10所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述特定基因邻域中存在多个常见变体引起的顺式基因表达水平预测所述特定基因表达水平来控制所述局部顺式eqtl效应。

12.根据权利要求11所述的计算机实现的方法,其中所述邻域由所述特定基因中相对于转录起始位点(tss)的偏移量来限定。

13.根据权利要求11所述的计算机实现的方法,其中所述拟合因果关系模型测量所述顺式基因表达水平作为顺式效应协变量的贡献。

14.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括群体结构和祖先效应。

15.根据权利要求14所述的计算机实现的方法,其中所述群体结构和祖先效应由一种或多种基于基因型的主成分(gpc)表示。

16.根据权利要求15所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述gpc引起的gpc基因表达水平预测所述特定基因表达水平来控制所述群体结构和祖先效应。

17.根据权利要求16所述的计算机实现的方法,其中所述拟合因果关系模型测量所述gpc基因表达水平作为群体结构和祖先效应协变量的贡献。

18.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括表达式残差(peer)效应的概率估计。

19.根据权利要求18所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述peer引起的peer基因表达水平预测所述特定基因表达水平来控制所述peer效应。

20.根据权利要求19所述的计算机实现的方法,其中所述拟合因果关系模型测量所述peer基因表达水平作为peer效应协变量的贡献。

21.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括环境效应。

22.根据权利要求21所述的计算机实现的方法,其中所述拟合因果关系模型通过根据由所述环境效应引起的环境基因表达水平预测所述特定基因表达水平来控制所述环境效应。

23.根据权利要求22所述的计算机实现的方法,其中所述拟合因果关系模型测量所述环境基因表达水平作为环境效应协变量的贡献。

24.根据权利要求1所述的计算机实现的方法,其中所述多种混杂因素包括性别效应、批次效应、基因分型平台效应和文库构建方案效应。

25.根据权利要求1所述的计算机实现的方法,其中所述极...

【专利技术属性】
技术研发人员:K·贾加纳坦D·阿加米尔扎伊S·K·帕纳吉奥托普卢KH·法尔
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1