一种预测LOH区域的神经网络模型的构建方法及其应用技术

技术编号：43186773 阅读：19 留言：0更新日期：2024-11-01 20:10

本发明专利技术涉及测序领域，具体涉及一种预测LOH区域的神经网络模型的构建方法及其应用。本发明专利技术公开了一种筛选LOH区域的方法，通过临床样本历史数据及已知识别的LOH区域构建神经网络模型，并通过数据校准与阈值选择，进行最终的LOH区域的判定。本发明专利技术构建了一个识别LOH区域的神经网络模型，通过使用测序数据，能快速、准确地识别出LOH区域。将本发明专利技术整合进测序检测产品，可用于印记基因相关疾病的遗传学诊断。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及测序，具体涉及一种预测loh区域的神经网络模型的构建方法及其应用。

技术介绍

1、拷贝数变异、杂合性缺失和单亲二倍体是大型的基因组变异，可以导致许多常见的遗传性疾病。杂合性缺失(loss ofheterozygosity,loh)是指位于一对同源染色体上的相同基因座的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失，而与之配对的染色体上仍然存在的情况。1929年通过研究黑腹果蝇x射线诱发突变位点，首次解释了loh的遗传机制。loh在癌症中普遍存在，已有研究表明loh会导致抑制基因的失活，从而影响癌症的发生与进行。loh的发生机制主要有三种：染色体丢失、染色体部分缺失和基因转换，其中染色体缺失是杂合性缺失的主要形成机制。染色体存在loh时提示可能存在单亲二倍体(uniparental disomy,upd)，upd出现在特定的染色体上时，会由于遗传印记效应引起相关疾病，大量研究表明，loh区域内发生孟德尔隐性遗传病的风险明显增加。

2、现有技术检测loh区域的方法有短串联重复序列(short tandem repeats,str)，甲基化检测，染色体微阵列分析技术(chromosomal microarrayanalysis,cma)等，但str检测需要根据检测目的和基因组位置来选择高度多态性str标记，使检测方法受到一定的限制，且检测成本较高；甲基化检测检测的时间成本较高；目前最理想的检测loh的技术为染色体微阵列(cma)，但是cma作为高通量高分辨率的筛查技术，保证数据准确的前提下，得到的loh

3、近年来随着高通量测序技术不断发展，全外显子测序技术(whole-exome-sequencing,wes)广泛应用于疾病防治领域，如遗传病、罕见综合征和复杂疾病等。在临床检测过程中，由于大部分功能变异都集中于外显子序列中，且外显子测序更容易检测到罕见变异，因此大量的历史样品或信息不详的样品可以通过该技术获得高深度的功能突变数据。

4、现阶段获得wes数据后，多采用生物信息学软件plink对数据进行分析，该方法采用一个固定大小的滑窗，对每条染色体进行扫描，以寻找连续的纯合snp。plink首先计算包含某个snp的完全纯合滑窗的比例，如果该比例超过事先设定好的阈值，那么这个snp就被认为是在一段loh中。在每个滑窗中可以指定一定数量的缺失或是杂合的snp，以包含基因定型错误，失败或是稀有变异等情况。最后，如果在某个片段中连续纯合snp的数量超过一个数量或距离阈值(snp数量或是染色体的距离)，那么就可以判定这个片段是loh。该方法在在临床数据上精确度不够，存在漏检和假阳性的情况。其本质原因是所设定的阈值无法满足所有不同wes临床数据的分类。

5、因此，目前亟需一种基于测序数据准确开发loh的分析方法。本专利技术基于大量临床数据构建神经网络分类模型，通过对历史数据的回顾，实现loh区域的精确识别。

技术实现思路

1、本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本专利技术一方面提供一种预测loh区域的神经网络模型的构建方法，所述方法包括：

3、(a)获取loh标准品的测序数据，将所述测序数据与参考基因组进行比对，获取比对后的携带变异信息的比对结果，其中，所述loh标准品为已知loh区域位置信息的样本；

4、(b)在所述比对结果的每条染色体信息上设置滑动窗口，以所述滑动窗口中的滑动步长的一端为一个点，获得滑动时每一个点在所述滑动窗口中的snp信息；

5、(c)基于所述滑动窗口中的每一个点的snp信息，统计所述滑动窗口中的每一个点前1.5～3mb内的点的纯合率，基于所述纯合率信息，构建二维矩阵；

6、(d)根据步骤(c)中所述点是否在所述标准品的loh区域内，构建特征矩阵；

7、(e)根据所述特征矩阵，构建预测loh区域的循环神经网络模型，其中，所述预测loh区域的循环神经网络模型的输入层为所述二维矩阵，输出层为所述点在loh区域的概率值。

8、本专利技术构建了一个识别loh区域的神经网络模型，通过使用测序数据，能快速、准确地识别出loh区域。将本专利技术整合进测序检测产品及临床loh检测的相关产品中，可用于印记基因相关疾病的遗传学诊断，快速定位loh区域，提升解读效率，并且减少正交验证测试的周转时间和成本。

9、根据本专利技术的一些实施方案，步骤(a)中所述loh标准品中包含至少3段loh区域。

10、根据本专利技术的一些实施方案，每一段loh区域长度不小于5mb。

11、根据本专利技术的一些实施方案，所述loh标准品中包含的loh区域总长不小于15mb。

12、根据本专利技术的一些实施方案，步骤(a)中，所述loh标准品的测序数据包括全外显子测序数据、全基因组测序数据或panel测序数据中的任意之一。

13、根据本专利技术的一些实施方案，所述panel测序的深度大于30x。

14、根据本专利技术的一些实施方案，所述参考基因组包括chm13、hg19、hg38、grch37、grch38、b37、hs375d中的任意之一。

15、根据本专利技术的一些实施方案，步骤(a)中，所述比对结果利用变异检测工具获得。

16、根据本专利技术的一些实施方案，所述变异检测工具包括gatk、samtools、deepvariant中的至少之一。

17、根据本专利技术的一些实施方案，步骤(b)中，所述滑动步长为50-150kb。

18、根据本专利技术的一些实施方案，所述滑动步长为100kb。

19、根据本专利技术的一些实施方案，步骤(b)中，所述滑动窗口大小为2-5mb。

20、根据本专利技术的一些实施方案，所述滑动窗口大小为3.5mb。

21、根据本专利技术的一些实施方案，步骤(b)中，所述snp信息包括snp个数、纯合snp个数和snp密度。

22、根据本专利技术的一些实施方案，步骤(c)中，统计所述滑动窗口中的每一个点前2mb内的点的纯合率。

23、根据本专利技术的一些实施方案，所述神经网络模型包括循环神经网络模型、卷积神经网络模型、径向基神经网络模型中的任意一种。

24、根据本专利技术的一些实施方案，所述神经网络模型为循环神经网络模型，所述循环神经网络模型包括长短期记忆模型、双向长短期记忆模型、gated recurrent unit模型中的任意一种。

25、根据本专利技术的一些实施方案，所述神经网络模型不小于3个隐藏层。

26、根据本专利技术的一些实施方案，所述神经网络模型激活函数包括tanh函数、sigmoid函数、relu函数中的任意一种。

27、本专利技术另一方面提供一种预测待测样品本文档来自技高网...

【技术保护点】

1.一种预测LOH区域的神经网络模型的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，步骤(A)中，所述LOH标准品中包含至少3段LOH区域；

3.根据权利要求1所述的方法，其特征在于，步骤(B)中，所述滑动步长为50-150kb；

4.根据权利要求1所述的方法，其特征在于，步骤(C)中，统计所述滑动窗口中的每一个点前2MB内的点的纯合率。

5.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括循环神经网络模型、卷积神经网络模型、径向基神经网络模型中的任意一种；

6.一种预测待测样品中LOH区域的方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，步骤(1)中，所述测序数据包括全外显子测序数据、panel测序数据、全基因组测序数据中的任意一种；

8.根据权利要求6所述的方法，其特征在于，步骤(2)中，所述滑动步长为50-150kb；

9.根据权利要求6所述的方法，其特征在于，步骤(3)中，统计所述滑动窗口中的每一个点前2MB内的点的纯合率。

10.根据权利要求6所述的方法，其特征在于，所述方法进一步包括：建立校准模型，基于所述校准模型获得Z-score的阈值，基于所述Z-score的阈值及SNP的密度阈值对步骤(4)输出的所述待测样品的LOH区域进行筛选，以确定最终的待测样品的LOH区域。

11.根据权利要求10所述的方法，其特征在于，所述Z-score的阈值通过以下方法获得：

12.根据权利要求10所述的方法，其特征在于，所述SNP的密度阈值通过以下方法获得：

13.根据权利要求11或12所述的方法，其特征在于，所述临床样本数量不少于50例；

14.根据权利要求10-12中任一项所述的方法，其特征在于，确定最终的待测样品的LOH区域的筛选标准为：

...

【技术特征摘要】

1.一种预测loh区域的神经网络模型的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，步骤(a)中，所述loh标准品中包含至少3段loh区域；

3.根据权利要求1所述的方法，其特征在于，步骤(b)中，所述滑动步长为50-150kb；

4.根据权利要求1所述的方法，其特征在于，步骤(c)中，统计所述滑动窗口中的每一个点前2mb内的点的纯合率。

5.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括循环神经网络模型、卷积神经网络模型、径向基神经网络模型中的任意一种；

6.一种预测待测样品中loh区域的方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，步骤(1)中，所述测序数据包括全外显子测序数据、panel测序数据、全基因组测序数据中的任意一种；

8.根据权利要求6所述的方法，其特征在于，步...

【专利技术属性】
技术研发人员：唐飞，王中华，孙隽，
申请(专利权)人：天津华大医学检验所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人