System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于基因组结构变异检测,具体涉及基于等位基因感知的插入或缺失变异检测方法、系统。
技术介绍
1、结构变异(sv)占整个基因组序列变异的很大一部分,在人类基因组学和临床医学中,有着重要意义。目前主流的变异检测方法有两种,一种是基于传统聚类的变异检测方式,先通过分析测序读数的内部比对和拆分比对提取原始变异信号,然后对变异特征进行聚类并进行过滤,从而检测变异;另一种是基于等位基因感知聚类的变异检测方法,首先通过从比对数据中获取结构变异特征信息,根据信息进行聚类和细化过滤,然后获取等位基因信息,根据等位基因信息优化结构变异信息,从而对变异进行识别。
2、然而,这两种方法也存在一些局限性。首先没有充分利用人类基因组的二倍体信息,容易遗漏一些复杂杂合插入或缺失变异;其次,现有的基于对变异特征进行聚类的变异检测方法通过对变异特征的大小、位置等的相似度进行聚类,识别结果不准确,变异断点的精度仍需进一步提高。
技术实现思路
1、为解决
技术介绍
提出的问题,本专利技术以人类基因组为研究对象,研究三代测序数据的基因组插入或缺失变异检测,旨在解决基因组变异检测中,遗漏一些复杂杂合的插入或缺失变异以及变异断点不精确的问题,特别是在多等位基因位点处的插入或缺失变异和一些高度重复的复杂区域,为此,本专利技术提供基于等位基因感知的插入或缺失变异检测方法、系统。
2、本专利技术的技术方案如下:
3、本专利技术提供一种基于等位基因感知的插入或缺失变异检测方法,包括以下步骤:
4、s1:测序数据与参考基因组比对,对得到的比对数据提取变异信号,包括:非一致碱基、异常碱基覆盖深度、零覆盖深度、过多插入或缺失、过多剪切数据、过多短插入或缺失;
5、s2:基于变异信号,计算相邻两个正常区域之间的间隔大小,得到变异区域;
6、s3:对变异区域的所有读段进行两两比对,若存在交集,则提取两个读段的变异特征序列,计算变异特征匹配度,若变异特征匹配度小于预设变异特征匹配度,则将读段存储至第一集合;
7、基于第一集合,选择具有相同变异特征匹配度且数量最多的读段中的一个、具有相同变异特征匹配度且数量次多的读段中的一个,分别存储至第一聚类集合、第二聚类集合;
8、变异区域中未存储至第一聚类集合、第二聚类集合的读段,记为待分配读段,分别与第一聚类集合、第二聚类集合的读段进行比对,其中,第一聚类集合的读段记为第一代表读段,第二聚类集合的读段记为第二代表读段,
9、根据待分配读段与第一代表读段、第二代表读段存在交集的情况,计算变异特征匹配度,根据变异特征匹配度,将待分配读段存储至第一聚类集合、第二聚类集合;
10、s4:第一聚类集合、第二聚类集合中读段的变异特征序列分别经偏序比对算法或基因组组装,分别构建共识序列,记为第一共识序列、第二共识序列;
11、s5:第一共识序列、第二共识序列分别与变异区域的局部参考基因组序列经全基因组比对后,得到第一比对结果、第二比对结果;
12、基于第一比对结果、第二比对结果,提取变异特征,提取的变异特征与第一聚类集合、第二聚类集合中的所有变异进行两两比对,确定有效变异;
13、s6:基于第一共识序列、第二共识序列,进行等位基因的判断,确定有效变异的基因型。
14、所述步骤s3中,根据待分配读段与第一代表读段、第二代表读段存在交集的情况,计算变异特征匹配度,根据变异特征匹配度,将待分配读段存储至第一聚类集合、第二聚类集合,具体为:
15、若待分配读段与第一代表读段、第二代表读段均有交集,则分别计算待分配读段与第一代表读段、第二代表读段的变异特征匹配度,得到第一变异特征匹配度、第二变异特征匹配度,比较第一变异特征匹配度与第二变异特征匹配度的大小;
16、若第一变异特征匹配度与第二变异特征匹配度不相等,则将待分配读段存储至具有大值变异特征匹配度的读段的聚类集合;
17、若待分配读段仅与第一代表读段有交集,则计算待分配读段与第一代表读段的变异特征匹配度,若得到的变异特征匹配度小于1,则将待分配读段存储至第二聚类集合;若得到的变异特征匹配度不小于1,则将待分配读段存储至第一聚类集合;
18、若待分配读段仅与第二代表读段有交集,则计算待分配读段与第二代表读段的变异特征匹配度,若得到的变异特征匹配度小于1,则将待分配读段存储至第一聚类集合;若得到的变异特征匹配度不小于1,则将待分配读段存储至第二聚类集合。
19、所述步骤s5中,基于第一比对结果、第二比对结果,提取变异特征,提取的变异特征与第一聚类集合、第二聚类集合中的所有变异进行两两比对,确定有效变异,具体为:
20、基于第一比对结果,提取变异特征,提取的变异特征与第一聚类集合中的所有变异进行两两比对,若满足第一匹配条件,则记为匹配;若记录的匹配数目不小于预设读段数量,则将该变异特征记为有效变异;
21、基于第二比对结果,提取变异特征,提取的变异特征与第二聚类集合中的所有变异进行两两比对,若满足第一匹配条件,则记为匹配;若记录的匹配数目不小于预设读段数量,则将该变异特征记为有效变异。
22、所述步骤s6中,基于第一共识序列、第二共识序列,进行等位基因的判断,确定有效变异的基因型,具体为:
23、分别来自第一共识序列、第二共识序列的两个有效变异,若在变异位置分别向两侧扩展预设长度后,能够相互交叠,则两个有效变异为等位基因,判断变异类型;
24、若两个有效变异均为插入变异,且序列一致性不小于序列一致性阈值,则将两个有效变异合并,基因型记为纯合变异;
25、若两个有效变异均为插入变异,且序列一致性小于序列一致性阈值,则将两个有效变异的基因型记为杂合变异;
26、若两个有效变异均为缺失变异,且变异长度比不小于变异长度比阈值,则将两个有效变异合并,基因型记为纯合变异;
27、若两个有效变异均为缺失变异,且变异大小比小于变异大小比阈值,则将两个有效变异的基因型记为杂合变异;
28、若两个有效变异类型不同,则将两个有效变异的基因型记为杂合变异。
29、所述步骤s3中,提取两个读段的变异特征序列,计算变异特征匹配度,具体为:
30、提取两个读段的变异特征序列,根据第二匹配条件,计算匹配得分,构造变异特征比对矩阵;
31、根据变异特征比对矩阵,比对两个读段的变异特征序列,得到匹配向量,根据匹配向量,计算变异特征匹配度。
32、所述第二匹配条件,为变异类型相同、变异长度比不小于预设变异长度比、参考距离不大于参考距离阈值、插入变异的序列一致性不小于预设序列一致性。
33、所述根据匹配向量,计算变异特征匹配度,具体为,
34、根据公式:,计算变异特征匹配度;
35、式中,为变异特征匹配度;的取值为1或0,表示匹配或不匹配,其中;为本文档来自技高网...
【技术保护点】
1.一种基于等位基因感知的插入或缺失变异检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤S3中,根据待分配读段与第一代表读段、第二代表读段存在交集的情况,计算变异特征匹配度,根据变异特征匹配度,将待分配读段存储至第一聚类集合、第二聚类集合,具体为:
3.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤S5中,基于第一比对结果、第二比对结果,提取变异特征,提取的变异特征与第一聚类集合、第二聚类集合中的所有变异进行两两比对,确定有效变异,具体为:
4.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤S6中,基于第一共识序列、第二共识序列,进行等位基因的判断,确定有效变异的基因型,具体为:
5.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤S3中,提取两个读段的变异特征序列,计算变异特征匹配度,具体为:
6.根据权利要求5所述的基于等位基因感知的插入
7.根据权利要求5所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述根据匹配向量,计算变异特征匹配度,具体为,
8.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤S5中,第一匹配条件,为变异类型相同、变异大小不小于预设变异长度、变异长度比不小于预设变异长度比、参考距离不大于预设参考距离、插入变异的序列一致性不小于预设序列一致性。
9.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤S4中,第一聚类集合、第二聚类集合中读段的变异特征序列分别经偏序比对算法或基因组组装前,包括对第一聚类集合、第二聚类集合中读段进行平滑,具体为:
10.一种基于等位基因感知的插入或缺失变异检测系统,其特征在于,包括:
...【技术特征摘要】
1.一种基于等位基因感知的插入或缺失变异检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤s3中,根据待分配读段与第一代表读段、第二代表读段存在交集的情况,计算变异特征匹配度,根据变异特征匹配度,将待分配读段存储至第一聚类集合、第二聚类集合,具体为:
3.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤s5中,基于第一比对结果、第二比对结果,提取变异特征,提取的变异特征与第一聚类集合、第二聚类集合中的所有变异进行两两比对,确定有效变异,具体为:
4.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤s6中,基于第一共识序列、第二共识序列,进行等位基因的判断,确定有效变异的基因型,具体为:
5.根据权利要求1所述的基于等位基因感知的插入或缺失变异检测方法,其特征在于,所述步骤s3中,提取两个读段的变异特征序列,计算变异特征匹配度,具体为:
...
【专利技术属性】
技术研发人员:朱晓,马元骏,穆培政,韩天宇,刘昊祥,权威,
申请(专利权)人:烟台大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。