利用卷积神经网络(CNNS)进行异常剪接检测制造技术

技术编号:23474585 阅读:32 留言:0更新日期:2020-03-06 15:20
公开的技术涉及构造用于变体分类的基于卷积神经网络的分类器。具体地,本发明专利技术涉及使用基于反向传播的梯度更新技术在训练数据上训练基于卷积神经网络的分类器,所述技术将基于卷积网络网络的分类器的输出与相应的真实值标签逐渐匹配。基于卷积神经网络的分类器包括残差块组,每个残差块组由残差块中的卷积滤波器的数量,残差块的卷积窗口大小和残差块的空洞卷积率来参数化,卷积窗口的大小在残差块组之间变化,空洞卷积率在残差块组之间变化。训练数据包括从良性变体和致病性变体产生的良性训练实例和致病性训练实例的转译序列对。

Anomaly splicing detection using convolutional neural network (CNNs)

【技术实现步骤摘要】
【国外来华专利技术】利用卷积神经网络(CNNS)进行异常剪接检测附录附录包括专利技术人撰写的论文中列出的潜在相关参考文献的书目。本文的主题涵盖在本申请要求其优先权/权益的美国临时专利申请中。这些参考资料可由法律顾问根据要求提供,也可以经由全球档案查阅。优先权申请本申请要求以下的优先权或权益:由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae于2017年10月16日提交的标题为“基于深度学习的剪接位点分类”的美国临时专利申请No.62/573,125(代理人案卷号:ILLM1001-1/IP-1610-PRV);由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae于2017年10月16日提交的标题为“基于深度学习的异常剪接检测”的美国临时专利申请No.62/573,131(代理人案卷No.ILLM1001-2/IP-1614-PRV);由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae于2017年10月16日提交的标题为“使用卷积神经网络进行异常剪接检测”的美国临时专利申请No.62/573,135(代理人案卷No.ILLM1001-3/IP-1615-PRV);以及由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae于2018年8月31日提交的标题为“利用深度学习从原始序列预测剪接”的美国临时专利申请No.62/726,158(代理人案卷No.ILLM1001-10/IP-1749-PRV)。出于所有目的,所述临时申请特此以引用的方式并入本文中。并入出于所有目的,以下内容通过引用并入本文,如同在本文中进行了完整阐述一样:由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae于2018年10月15日同时提交的标题为“基于深度学习的剪接位点分类”的PCT专利申请号PCT/US18/55915(代理案卷号ILLM1001-7/IP-1610-PCT),随后被公布为PCT公开号WO______。由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae于2018年10月15日同时提交的标题为“基于深度学习的异常剪接检测”的PCT专利申请号PCT/US18/55919(代理案卷号ILLM1001-8/IP-1614-PCT),随后被公布为PCT公开号WO______。由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae同时提交的标题为“基于深度学习的剪接位点分类”的美国非临时专利申请(代理人案卷No.ILLM1001-4/IP-1610-US)。由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae同时提交的标题为“基于深度学习的异常剪接检测”的美国非临时专利申请(代理人案卷No.ILLM1001-5/IP-1614-US)。由KishoreJaganathan、Kai-HowFarh、SofiaKyriazopoulouPanagiotopoulou和JeremyFrancisMcRae同时提交的标题为“使用卷积神经网络(CNN)的异常剪接检测”的美国非临时专利申请(代理人案卷No.ILLM1001-6/IP-1615-US)。文献1–S.Dieleman,H.Zen,K.Simonyan,O.Vinyals,A.Graves,N.Kalchbrenner,A.Senior,andK.Kavukcuoglu,“WAVENET:AGENERATIVEMODELFORRAWAUDIO,”arXiv:1609.03499,2016;文献2–S.Arik,M.Chrzanowski,A.Coates,G.Diamos,A.Gibiansky,Y.Kang,X.Li,J.Miller,A.Ng,J.Raiman,S.SenguptaandM.Shoeybi,“DEEPVOICE:REAL-TIMENEURALTEXT-TO-SPEECH,”arXiv:1702.07825,2017;文献3–F.YuandV.Koltun,“MULTI-SCALECONTEXTAGGREGATIONBYDILATEDCONVOLUTIONS,”arXiv:1511.07122,2016;文献4–K.He,X.Zhang,S.Ren,andJ.Sun,“DEEPRESIDUALLEARNINGFORIMAGERECOGNITION,”arXiv:1512.03385,2015;文献5–R.K.Srivastava,K.Greff,andJ.Schmidhuber,“HIGHWAYNETWORKS,”arXiv:1505.00387,2015;文献6–G.Huang,Z.Liu,L.vanderMaatenandK.Q.Weinberger,“DENSELYCONNECTEDCONVOLUTIONALNETWORKS,”arXiv:1608.06993,2017;文献7–C。Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,andA.Rabinovich,“GOINGDEEPERWITHCONVOLUTIONS,”arXiv:1409.4842,2014;文献8–S.IoffeandC.Szegedy,“BATCHNORMALIZATION:ACCELERATINGDEEPNETWORKTRAININGBYREDUCINGINTERNALCOVARIATESHIFT,”arXiv:1502.03167,2015;文献9–J.M.Wolterink,T.Leiner,M.A.Viergever,andI.“DILATEDCONVOLUTIONALNEURALNETWORKSFORCARDIOVASCULARMRSEGMENTATIONINCONGENITALHEARTDISEASE,”arXiv:1704.03669,2017;文献10–L.C.Piqueras,“AUTOREGRESSIVEMODELBASE本文档来自技高网...

【技术保护点】
1.一种训练剪接位点检测器的神经网络实现的方法,所述剪接位点检测器识别基因组序列中的剪接位点,所述方法包括:/n在至少50000个供体剪接位点的训练实例、至少50000个受体剪接位点的训练实例以及至少100000个非剪接位点的训练实例上训练卷积神经网络(缩写为CNN),其中每个训练实例都是具有至少一个靶核苷酸的靶核苷酸序列,所述靶核苷酸在每一侧上由至少20个核苷酸侧接;/n为了使用所述CNN评估训练实例,作为所述CNN的输入,提供进一步由至少40个上游上下文核苷酸和至少40个下游上下文核苷酸侧接的靶核苷酸序列;以及/n基于所述评估,所述CNN产生三重得分作为输出,以给出所述靶核苷酸序列中的每个核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性。/n

【技术特征摘要】
【国外来华专利技术】20171016 US 62/573125;20171016 US 62/573131;2017101.一种训练剪接位点检测器的神经网络实现的方法,所述剪接位点检测器识别基因组序列中的剪接位点,所述方法包括:
在至少50000个供体剪接位点的训练实例、至少50000个受体剪接位点的训练实例以及至少100000个非剪接位点的训练实例上训练卷积神经网络(缩写为CNN),其中每个训练实例都是具有至少一个靶核苷酸的靶核苷酸序列,所述靶核苷酸在每一侧上由至少20个核苷酸侧接;
为了使用所述CNN评估训练实例,作为所述CNN的输入,提供进一步由至少40个上游上下文核苷酸和至少40个下游上下文核苷酸侧接的靶核苷酸序列;以及
基于所述评估,所述CNN产生三重得分作为输出,以给出所述靶核苷酸序列中的每个核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性。


2.根据权利要求1所述的神经网络实现的方法,其中,所述输入包括在每一侧具有由100个核苷酸侧接的靶核苷酸的靶核苷酸序列。


3.根据权利要求1-2中任一项所述的神经网络实现的方法,其中,所述靶核苷酸序列进一步由200个上游上下文核苷酸和200个下游上下文核苷酸侧接。


4.根据权利要求1-3中任一项所述的神经网络实现的方法,还包括在150000个供体剪接位点的训练实例、150000个受体剪接位点的训练实例和1000000个非剪接位点的训练实例上训练所述CNN。


5.根据权利要求1-4中任一项所述的神经网络实现的方法,其中,所述CNN通过卷积层的数量、卷积滤波器的数量和子采样层的数量来参数化。


6.根据权利要求1-5中任一项所述的神经网络实现的方法,其中,所述CNN包括一个或多个全连接层和终端分类层。


7.根据权利要求1-6中任一项所述的神经网络实现的方法,其中,所述CNN包括维度改变层,所述维度改变层重塑先前输入的空间和特征维度。


8.根据权利要求1-7中任一项所述的神经网络实现的方法,其中,所述CNN通过残差块的数量、跳跃连接的数量和残差连接的数量来参数化。


9.根据权利要求1-8中任一项所述的神经网络实现的方法,其中,每个残差块包括至少一个批归一化层、至少一个修正线性单元(缩写为ReLU)层、至少一个维度改变层以及至少一个残差连接。


10.根据权利要求1-9中任一项所述的神经网络实现的方法,其中,每个残差块包括两个批归一化层、两个ReLU非线性层、两个维度改变层以及一个残差连接。


11.根据权利要求1-10中任一项所述的神经网络实现的方法,其中,所述CNN在一个时期期间分批评估所述训练实例。


12.根据权利要求1-11中任一项所述的神经网络实现的方法,其中,将所述训练实例随机采样成批,其中,每个批具有预定的批大小。


13.根据权利要求1-12中任一项所述的神经网络实现的方法,其中,所述CNN在10个时期内迭代所述训练实例的评估。


14.根据权利要求1-13中任一项所述的神经网络实现的方法,其中,所述输入包括具有两个相邻的靶核苷酸的靶核苷酸序列。


15.根据权利要求1-14中任一项所述的神经网络实现的方法,其中,所述两个相邻的靶核苷酸是腺嘌呤(缩写为A)和鸟嘌呤(缩写为G)。


16.根据权利要求1-15中任一项所述的神经网络实现的方法,其中,所述两个相邻的靶核苷酸是鸟嘌呤(缩写为G)和尿嘧啶(缩写为U)。


17.根据权利要求1-16中任一项所述的神经网络实现的方法,还包括对所述训练实例进行单热编码,并且提供单热编码作为输入。


18.一种训练过的剪接位点预测器,包括:
耦合至存储器的并行操作的多个处理器;
在所述多个处理器上运行的卷积神经网络(缩写为CNN),在至少50000个供体剪接位点的训练实例、至少50000个受体剪接位点的训练实例以及至少100000个非剪接位点的训练实例上进行训练;
其中在所述训练中使用的每个训练实例是核苷酸序列,所述核苷酸序列包括在每一侧上由至少400个核苷酸侧接的靶核苷酸;
CNN的输入级,在所述多个处理器中的至少一个上运行,其馈送至少801个核苷酸的输入序列,以评估在每一侧上均由至少400个核苷酸侧接的靶核苷酸;以及
CNN的输出级,在所述多个处理器中的至少一个上运行,将所述CNN的分析转换成分类得分,以给出所述靶核苷酸中的每个靶核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性。


19.根据权利要求18所述的训练过的剪接位点预测器,其中,所述CNN在150000个供体剪接位点的训练实例、150000个受体剪接位点的训练实例以及1000000个非剪接位点的训练实例上进行训练。


20.一种方法,包括:
卷积神经网络(缩写为CNN)馈送至少801个核苷酸的输入序列,以评估在每一侧上均由至少400个核苷酸侧接的靶核苷酸;
其中,在至少50000个供体剪接位点的训练实例、至少50000个受体剪接位点的训练实例以及至少100000个非剪接位点的训练实例上对所述CNN进行训练;
其中,在所述训练中使用的每个训练实例是核苷酸序列,所述核苷酸序列包括在每一侧上由至少400个核苷酸侧接的靶核苷酸;以及
将所述CNN的分析转换为分类得分,以给出所述靶核苷酸中的每个靶核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性。


21.一种训练剪接位点检测器的神经网络实现的方法,所述剪接位点检测器识别基因组序列中的剪接位点,所述方法包括:
在至少50000个供体剪接位点的训练实例、至少50000个受体剪接位点的训练实例以及至少100000个非剪接位点的训练实例上训练卷积神经网络(缩写为CNN),其中每个训练实例是具有在每一侧上由至少20个核苷酸侧接的至少一个靶核苷酸的靶核苷酸序列;
为了使用所述CNN评估训练实例,作为所述CNN的输入,提供进一步由至少40个上游上下文核苷酸和至少40个下游上下文核苷酸侧接的靶核苷酸序列;以及
基于所述评估,所述CNN产生三重得分作为输出,以给出所述靶核苷酸序列中的每个核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性。


22.一种系统,包括耦合至存储器的一个或多个处理器,所述存储器装载有计算机指令以训练用于识别基因组序列中的剪接位点的剪接位点检测器,所述指令在所述处理器上执行时,实现包括以下的动作:
在至少50000个供体剪接位点的训练实例、至少50000个受体剪接位点的训练实例以及至少100000个非剪接位点的训练实例上训练卷积神经网络(缩写为CNN),其中每个训练实例都是具有在每一侧上由至少20个核苷酸侧接的至少一个靶核苷酸的靶核苷酸序列;
为了使用所述CNN评估训练实例,作为所述CNN的输入,提供进一步由至少40个上游上下文核苷酸和至少40个下游上下文核苷酸侧接的靶核苷酸序列;以及
基于所述评估,所述CNN产生三重得分作为输出,以给出所述靶核苷酸序列中的每个核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性。


23.一种异常剪接检测器,包括:
耦合至存储器的并行操作的多个处理器;
在所述多个处理器上运行的训练过的卷积神经网络(缩写为CNN),其
对在输入序列中的靶核苷酸进行分类,并为每个靶核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性分配剪接位点得分,其中所述输入序列包含至少801个核苷酸并且每个靶核苷酸在每一侧上由至少400个核苷酸侧接;以及
在所述多个处理器中的至少一个上运行的分类器,其
通过所述CNN处理参考序列和变体序列以产生剪接位点得分,以给出所述参考序列和所述变体序列中的每个靶核苷酸是供体剪接位点、受体剪接位点或非剪接位点的可能性,其中所述参考序列和所述变体序列均具有至少101个靶核苷酸,并且每个靶核苷酸在每一侧上由至少400个核苷酸侧接,以及
根据所述参考序列和所述变体序列中所述靶核苷酸的剪接位点得分的差异,确定产生所述变体序列的变体是否引起异常剪接并因此是致病性的。


24.根据权利要求23所述的异常剪接检测器,其中,所述剪接位点得分的差异是在所述参考序列和所述变体序列中的靶核苷酸之间按位置确定的。


25.根据权利要求23-24中任一项所述的异常剪接检测器,其中,对于至少一个靶核苷酸位置,所述剪接位点得分的全局最大差异高于预定阈值,进一步被配置为将所述变体分类为引起异常剪接并且因此是致病性的。


26.根据权利要求23-25中任一项所述的异常剪接检测器,其中,对于至少一个靶核苷酸位置,所述剪接位点得分的全局最大差异低于预定阈值,进一步被配置为将所述变体分类为不引起异常剪接并且因此是良性的。


27.根据权利要求23...

【专利技术属性】
技术研发人员:K·贾加纳坦KH·法尔S·卡拉佐普罗潘吉欧托普卢J·F·麦克雷
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利