使用家系WES数据识别UPD的方法、装置及电子设备制造方法及图纸

技术编号:27414903 阅读:29 留言:0更新日期:2021-02-21 14:31
本发明专利技术提供的使用家系WES数据识别UPD的方法、装置及电子设备,涉及生物学与精准医学全基因组变异检测领域,一方面创新性的提出了利用家系WES数据检测ROH,并利用CNV检测区分LOH和iUPD的方法;具体过程为:利用家系WES数据中特定的基因型组合,相较于个体WES数据识别出更加可靠的ROH区间,利用家系WES数据对CNV检测的结果与ROH区间进行对照,识别ROH中的iUPD;另一方面创新性的提出了利用家系WES数据检测hUPD,采用只能在家系WES数据中识别出的有效位点,判别hUPD染色体,并通过染色体分割法,进一步检测hUPD的真实区间。进一步检测hUPD的真实区间。进一步检测hUPD的真实区间。

【技术实现步骤摘要】
使用家系WES数据识别UPD的方法、装置及电子设备


[0001]本专利技术涉及生物学与精准医学全基因组变异检测领域,具体涉及一种使用家系WES数据识别UPD的方法。

技术介绍

[0002]目前在使用家系全外显子测序(WES)数据对临床个体(通常为家系中的孩子)进行单亲二倍体(UPD,包含单亲同二体iUPD和单亲异二体hUPD两种)判别时,需要根据家系中父亲、母亲和孩子的基因组单核苷酸突变(SNP)检测结果,利用符合特定基因型组合的SNP来进行分析,目前常见的分析流程如下:首先,家系WES测序完成后,获得每个家系成员基因组的短片段序列信息;其次,对家系WES测序数据进行分析,获得家系SNP检测结果,家系SNP检测流程如下:将每个家系成员的测序数据与参考基因组进行序列比对,定位每一条短序列的基因组坐标;对比对的结果进行基因组坐标排序,去重,重排以及碱基质量矫正,获得矫正后的比对结果;对每个家系成员矫正后的比对结果进行初步SNP检测,获得每个成员的gVCF文件;将所有家系成员的gVCF进行联合变异检测,获得家系VCF;统计家系VCF中与正常遗传规则相悖的异常纯合位点(例如父亲基因型为AA,母亲基因型为BB,而孩子基因型为AA);通过对异常纯合位点的整理分析,推断出孩子基因组中可能存在的纯合性序列(ROH),ROH可能对应着UPD中的单亲同二体(iUPD)。
[0003]目前使用的ROH检测流程无法完全满足临床诊断中判别UPD的需求,具体原因在于:ROH包含了多种情况,iUPD只是其中的一种,ROH也有可能是杂合性缺失(LOH)导致的;单纯的ROH检测只能检出iUPD并且无法区分iUPD和LOH。ROH不包含hUPD,因此基于ROH检测的方法无法检测hUPD。并且目前的检测方法主要局限于利用个体样本的WES数据进行ROH检测,检测效果差。

技术实现思路

[0004]本专利技术目的在于提供一种使用家系WES数据识别UPD的方法,该方法能够有效的区分iUPD和hUPD,解决了目前ROH检测方法中无法有效区分ROH区间中iUPD以及无法检测hUPD的问题,为临床诊断提供证据。
[0005]为达成上述目的,本专利技术提出如下技术方案:一种使用家系WES数据识别UPD的方法,采用基因数据处理软件根据家系WES数据SNP位点的检测结果判断先证者基因组中的纯合性序列,结合家系WES数据的拷贝数变异CNV检测结果排除纯合性序列中的缺失突变导致的杂合性丢失变异,得到单亲同二体iUPD区间;并通过寻找非双亲遗传的位点,根据家系成员的基因型信息获取先证者存在单亲异二体hUPD的染色体,利用染色体分割法确定单亲异二体hUPD区间。
[0006]进一步的,所述单亲同二体iUPD区间获取过程包括如下步骤:2.1)获取家系WES样本的fastq文件,家系WES样本包括先证者及其父母;
2.2)对家系WES样本的fastq文件进行单核苷酸变异SNP和拷贝数变异CNV检测,获得家系WES样本的VCF文件和CNV分析结果;2.3)以家系WES样本的VCF文件作为输入,采用基因数据处理软件检测先证者的所有ROH区间,先对SNP位点进行测序深度过滤,再对所有ROH区间按照区间大小和所在染色体位置分别过滤,通过过滤条件的所有ROH区间构成第一ROH区间组,第一ROH区间组中任一ROH区间记为第一ROH区间;2.4)根据非双亲遗传模式统计第一ROH区间组内每个第一ROH区间上有效位点数量和该第一ROH区间的ROH有效位点比例,并按照ROH有效位点比例过滤第一ROH区间组中第一ROH区间,所述过滤后的第一ROH区间组记为第二ROH区间组,第二ROH区间组中任一ROH区间记为第二ROH区间;所述有效位点为能够判断为单亲二倍体UPD遗传模式的位点,所述ROH有效位点比例为第一ROH区间上有效位点数量占第一ROH区间内SNP位点总数的比例;2.5)对家系WES样本的VCF文件,过滤去除VCF文件中变异质量值小于50且SNP位点测序深度小于70的SNP位点,同时过滤去除VCF文件中indel位点,获得筛选过滤后的VCF文件;2.6)对筛选过滤后的VCF文件,统计先证者每条染色体上有效位点数量,并对所有染色体上有效位点数量进行差异分析,获得显著异常染色体;2.7)获取第二ROH区间组和显著异常染色体中共同检测出的所有第二ROH区间,构成第三ROH区间组,第三ROH区间组中任一ROH区间记为第三ROH区间;2.8)从第三ROH区间组中过滤其与CNV分析结果共同检测出的缺失变异Deletion,过滤缺失变异Deletion后的第三ROH区间组中任一ROH区间即为单亲同二体iUPD区间。
[0007]进一步的,所述单亲异二体hUPD区间获取过程包括如下步骤:3.1)获取家系WES样本的fastq文件,家系WES样本包括先证者及其父母;3.2)对家系WES样本的fastq文件进行单核苷酸变异SNP检测,获得家系WES样本的VCF文件;3.3)对家系WES样本的VCF文件,过滤去除VCF文件中变异质量值小于50且SNP位点测序深度小于70的SNP位点,同时过滤去除VCF文件中indel位点,获得筛选过滤后的VCF文件;3.4)对筛选过滤后的VCF文件,统计先证者每条染色体上有效位点数量,并对所有染色体上有效位点数量进行差异分析,获得显著异常染色体;所述有效位点为能够判断为单亲二倍体UPD遗传模式的位点;3.5)采用已知样本数量的hUPD阳性样本和iUPD阳性样本作为测试样本,统计所有测试样本区间的H值,H值为测试样本区间内单亲同二体iUPD遗传模式位点数量与单亲二倍体UPD遗传模式位点数量的比值,获取hUPD阳性样本的H值范围、iUPD阳性样本的H值范围;3.6)对任一测试样本采用染色体分割法统计单位区间内的H值,验证hUPD阳性样本的H值区间、iUPD阳性样本的H值区间的可靠性,并根据验证结果确定hUPD阳性样本区间的H值范围;3.7)采用染色体分割法将显著异常染色体分割为若干等大小的单位区间,统计每个单位区间内的有效位点数量,分别计算每个单位区间对应的H值;3.8)若单位区间对应的H值位于hUPD阳性样本区间的H值范围内,则该单位区间为hUPD区间,并且当相邻单位区间的H值均位于hUPD阳性样本区间的H值范围内时,合并相邻单位区间并构成新的hUPD区间。
[0008]进一步的,所述步骤2.3)中对SNP位点进行测序深度过滤的过滤条件为去除测序深度小于70的SNP位点;对所有ROH区间按照区间大小和所在染色体位置分别过滤的过滤条件为去除先证者所有ROH区间中位于性染色体、着丝粒区、端粒区上的ROH区间,再去除区间长度小于3Mb的ROH区间。
[0009]进一步的,所述步骤2.4)中第一ROH区间组过滤去除ROH有效位点比例小于50%的ROH区间。
[0010]进一步的,所述单亲异二体hUPD区间获取过程还包括过滤区间长度小于3Mb的hUPD区间。
[0011]进一步的,所述步骤3.7)单位区间的大小为1Mb。
[0012]本专利技术还提供一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种使用家系WES数据识别UPD的方法,其特征在于,采用基因数据处理软件根据家系WES数据SNP位点的检测结果判断先证者基因组中的纯合性序列,结合家系WES数据的拷贝数变异CNV检测结果排除纯合性序列中的缺失突变导致的杂合性丢失变异,得到单亲同二体iUPD区间;并通过寻找非双亲遗传的位点,根据家系成员的基因型信息获取先证者存在单亲异二体hUPD的染色体,利用染色体分割法确定单亲异二体hUPD区间。2.根据权利要求1所述的使用家系WES数据识别UPD的方法,其特征在于,所述单亲同二体iUPD区间获取过程包括如下步骤:2.1)获取家系WES样本的fastq文件,家系WES样本包括先证者及其父母;2.2)对家系WES样本的fastq文件进行单核苷酸变异SNP和拷贝数变异CNV检测,获得家系WES样本的VCF文件和CNV分析结果;2.3)以家系WES样本的VCF文件作为输入,采用基因数据处理软件检测先证者的所有ROH区间,先对SNP位点进行测序深度过滤,再对所有ROH区间按照区间大小和所在染色体位置分别过滤,通过过滤条件的所有ROH区间构成第一ROH区间组,第一ROH区间组中任一ROH区间记为第一ROH区间;2.4)根据非双亲遗传模式统计第一ROH区间组内每个第一ROH区间上有效位点数量和该第一ROH区间的ROH有效位点比例,并按照ROH有效位点比例过滤第一ROH区间组中第一ROH区间,所述过滤后的第一ROH区间组记为第二ROH区间组,第二ROH区间组中任一ROH区间记为第二ROH区间;所述有效位点为能够判断为单亲二倍体UPD遗传模式的位点,所述ROH有效位点比例为第一ROH区间上有效位点数量占第一ROH区间内SNP位点总数的比例;2.5)对家系WES样本的VCF文件,过滤去除VCF文件中变异质量值小于50且SNP位点测序深度小于70的SNP位点,同时过滤去除VCF文件中indel位点,获得筛选过滤后的VCF文件;2.6)对筛选过滤后的VCF文件,统计先证者每条染色体上有效位点数量,并对所有染色体上有效位点数量进行差异分析,获得显著异常染色体;2.7)获取第二ROH区间组和显著异常染色体中共同检测出的所有第二ROH区间,构成第三ROH区间组,第三ROH区间组中任一ROH区间记为第三ROH区间;2.8)从第三ROH区间组中过滤其与CNV分析结果共同检测出的缺失变异Deletion,过滤缺失变异Deletion后的第三ROH区间组中任一ROH区间即为单亲同二体iUPD区间。3.根据权利要求1所述的使用家系WES数据识别UPD的方法,其特征在于,所述单亲异二体hUPD区间获取过程包括如下步骤:3.1)获取家系WES样本的fastq文件,家系WES样本包括先证者及其父母;3.2)对家系WES样本的fastq文件进行单核苷酸变异SNP检测,获得家系WES样本的VCF文件;3.3)对家系WES样本的VCF文件,过滤去除VCF文件中变异质量值小于50且SNP位点测序深度小于70的SNP位点,同时过滤去除VCF文件中indel位点,获得筛选过滤后的VCF文件;3.4)对筛选过滤后的VCF文件,统计先证者每条染色体上有效位点数量,并对所有染色体上有效位点数量进行差异分析,获得显著异常染色体;所述有效位点为能够判断为单亲二倍体UPD遗传模式的位点;3.5)采用已知样本数量的hUPD阳性样本和iUPD阳性样本作为测试样本,统计所有测试样本区间的H值,H值为测试样本区间内单亲同二体iUPD遗传模式位点数量与单亲二倍体
UPD遗传模式位点数量的比值,获取hUPD阳性样本的H值范围、iUPD阳性样本的H值范围;3.6)对任一测试样本采用染色体分割法统计单位区间内的H值,验证hUPD阳性样本的H值区间、iUPD阳性样本的H值区间的可靠性,并根据验证结果确定hUPD阳性样本区间的H值范围;3.7)采用染色体分割法将显著异常染色体分割为若干等大小的单位区间,统计每个单位区间内的有效位点数量,分别计算每个单位区间对应的H值;3.8)若单位区间对应的H值位于hUPD阳性样本区间的H值范围内,则该单位区间为hUPD区间,并且当相邻单位区间的H值均位于hUPD阳性样本区间的H值范围内时,合并相邻单位区间并构成新的hUPD区间。4.根据权利要求2所述的使用家系WES数据识别UPD的方法,其特征在于,所述步骤2.3)中对SNP位点进行测序深度过滤的过滤条件为去除测序深度小于70的SNP位点;对所有ROH区间按照区间大小和所在染色体位置分别过滤的过滤条件为去除先证者所有ROH区间中位于性染色体、着丝粒区、端粒区上的ROH区间,再去除区间长度小于3Mb的ROH区间。5.根据权利要求2所述的使用家系WES数据识别UPD的方法,其特征在于,所述步骤2.4)中第一ROH区...

【专利技术属性】
技术研发人员:鲍远亮余伟师梁萌萌姜玥
申请(专利权)人:苏州赛美科基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1