System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统及方法技术方案_技高网

基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统及方法技术方案

技术编号:44919318 阅读:6 留言:0更新日期:2025-04-08 19:00
本发明专利技术涉及一种基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统及方法;本发明专利技术通过构建区分位点集,生成排序并建立索引的比对文件,得到CYP21A2与CYP21A1p的单倍型序列,获得各单倍型在所述区分位点集上的变异信息,对获得的区分位点集中的区分位点在CYP21A1p单倍型中的出现频率进行统计,作为每个区分位点的权重,计算每个区分位点的累计分值Score<subgt;i</subgt;;根据Score<subgt;i</subgt;随区分位点顺序变化的曲线趋势,判断是否存在融合以及融合类型;本发明专利技术在可检测基因融合复杂变异的同时,精确定位断点并区分融合方向,提升了检测的准确度和分辨率。

【技术实现步骤摘要】

本专利技术涉及生物信息学分析及基因组学,具体涉及一种基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统及方法。


技术介绍

1、先天性肾上腺皮质增生症(cah)是一种常染色体隐性遗传病,其最常见的致病基因为cyp21a2。cyp21a2基因与其假基因cyp21a1p在染色体6p21.3区域紧密排列,二者序列高度同源,常发生不等交换、基因转换、部分缺失或融合等重组事件,从而导致21-羟化酶活性下降或丧失。该类重组或融合变异在cah患者中有一定发生率,且与疾病的发生与表型严重程度密切相关。

2、目前,针对cyp21a2/cyp21a1p区域的基因检测主要依赖于sanger测序、arms-pcr、mlpa等传统技术。这些方法虽在单点或特定位点突变检测方面具有一定优势,但由于cyp21a2与cyp21a1p之间的高同源性以及此区域结构的复杂性,当出现大型结构重排或融合变异时,往往存在以下不足:a.检测灵敏度有限:可能遗漏大片段变异或融合位点;b.特异性难以保证:高同源序列导致结果易出现假阳性或误判;c.分辨率不足:无法明确断裂(重组)位置及具体融合模式。

3、与传统技术相比,pacbio等第三代测序平台因其读长优势,可在单条长读长序列内跨越大片重复区域或高同源区,从而更准确地反映cyp21a2/cyp21a1p基因组结构。若再结合针对长读长数据所优化的生物信息分析流程,例如对重复区段的精确比对、基因融合检测算法等,可以更好地定位重组断点并判断是否发生基因融合。

4、因此,亟需一种基于生物信息学分析方法,对来自长读长测序数据(pacbio或其他平台)的cyp21a2与cyp21a1p区域进行精确组装、比对和变异识别,从而实现对可能存在的基因融合事件的准确判别。


技术实现思路

1、针对上述现有技术的不足,本专利技术旨在提供一种基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统及方法,以实现对cyp21a2与cyp21a1p基因融合判断。

2、为了解决上述问题,本专利技术采用了如下的技术方案:

3、一方面,本专利技术提供一种基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统,包括区分位点集构建模块、测序数据比对模块、单倍型组装模块、单倍型变异识别模块、区分位点权重计算模块和基因融合判断模块;

4、所述区分位点集构建模块用于获取cyp21a1p参考序列,使用长序列比对软件对其比对至cyp21a2参考序列,识别cyp21a1p相对于cyp21a2的变异位点,得到cyp21a2与cyp21a1p的区分位点集;

5、所述测序数据比对模块用于将待测样本的经pacbio测序获得的高保真序列,比对至人类参考基因组,生成排序并建立索引的比对文件;

6、所述单倍型组装模块用于基于所述比对文件,利用同源基因单倍型组装软件对cyp21a2与cyp21a1p区域进行单倍型组装,得到cyp21a2与cyp21a1p的单倍型序列;

7、所述单倍型变异识别模块用于对获得的每条cyp21a2与cyp21a1p单倍型序列分别进行变异检测,获得各单倍型在所述区分位点集上的变异信息;

8、所述区分位点权重计算模块用于利用正常人对照样本集的同源基因组装结果,对获得的区分位点集中的区分位点在cyp21a1p单倍型中的出现频率进行统计,作为每个区分位点的权重;

9、所述基因融合判断模块用于对待测样本中所有单倍型在区分位点集的变异情况进行累加打分,计算每个区分位点的累计分值scorei;根据scorei随区分位点顺序变化的曲线趋势,在区分位点集中端或两端出现的极值类型判断cyp21a2与cyp21a1p是否存在融合以及融合类型。

10、作为一种可实施方式,在所述区分位点集构建模块中,采用minimap2软件进行序列比对,并根据cyp21a1p相对于cyp21a2产生的snp、插入和/或缺失来构建所述区分位点集。

11、作为一种可实施方式,在所述测序数据比对模块中,使用minimap2以map-hifi模式对测序读段与人类参考基因组进行比对;

12、采用samtools将生成的sam文件转换为bam格式并对bam文件进行排序与索引;

13、通过测序深度统计和覆盖率分析对比对质量进行评估,过滤低质量比对结果,生成比对文件。

14、作为一种可实施方式,在所述单倍型组装模块中,利用同源基因单倍型组装软件paraphase对cyp21a2与cyp21a1p区域的reads进行分簇并迭代组装,输出对应的若干条单倍型序列。

15、作为一种可实施方式,在所述单倍型变异识别模块中,采用deepvariant变异检测软件对cyp21a2与cyp21a1p的每条单倍型序列进行snp与indel检测,并在所述区分位点集上记录变异存在与否。

16、作为一种可实施方式,在所述区分位点权重计算模块中,将多个正常人对照样本生成排序并建立索引的比对文件、cyp21a2与cyp21a1p的单倍型序列和各单倍型在区分位点集上的变异信息,统计每个区分位点在所有cyp21a1p单倍型上出现或保持一致突变的比例,将该比例定义为区分位点的权重。

17、作为一种可实施方式,在所述基因融合判断模块中,所述累计分值的计算公式为:

18、

19、其中,为区分位点集中第i个区分位点的累计分值;a为区分位点是否存在的判断值,若存在a则为1,若不存在a则为-1;为第i个区分位点的权重。

20、作为一种可实施方式,在所述基因融合判断模块中,所述判断cyp21a2与cyp21a1p是否存在融合以及融合类型包括:

21、当所述随i增大而总体呈递减趋势,极值位于区分位点集两端时,判断为完整cyp21a2基因;

22、当所述随i增大而总体呈递增趋势,极值位于区分位点集两端时,判断为完整cyp21a1p基因;

23、当所述在前半段随i增大而降低、后半段随i增大而升高,并在区分位点集的中间出现最小值时,判断为cyp21a2-cyp21a1p融合;

24、当所述在前半段随i增大而升高、后半段随i增大而降低,并在区分位点集的中间出现最大值时,判断为cyp21a1p-cyp21a2融合。

25、另一方面,本专利技术提供一种基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断方法,包括:

26、获取cyp21a1p参考序列,使用长序列比对软件对其比对至cyp21a2参考序列,识别cyp21a1p相对于cyp21a2的变异位点,得到cyp21a2与cyp21a1p的区分位点集;

27、将待测样本的经pacbio测序获得的高保真序列,比对至人类参考基因组,生成排序并建立索引的比对文件;

28、基于所述比对文件,利用同源基因单倍型组装本文档来自技高网...

【技术保护点】

1.一种基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,包括区分位点集构建模块、测序数据比对模块、单倍型组装模块、单倍型变异识别模块、区分位点权重计算模块和基因融合判断模块;

2.根据权利要求1所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述区分位点集构建模块中,采用minimap2软件进行序列比对,并根据CYP21A1p相对于CYP21A2产生的SNP、插入和/或缺失来构建所述区分位点集。

3.根据权利要求1所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述测序数据比对模块中,使用minimap2以map-hifi模式对测序读段与人类参考基因组进行比对;

4.根据权利要求1所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述单倍型组装模块中,利用同源基因单倍型组装软件Paraphase对CYP21A2与CYP21A1p区域的reads进行分簇并迭代组装,输出对应的若干条单倍型序列。

5.根据权利要求1所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述单倍型变异识别模块中,采用DeepVariant变异检测软件对CYP21A2与CYP21A1p的每条单倍型序列进行SNP与InDel检测,并在所述区分位点集上记录变异存在与否。

6.根据权利要求1所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述区分位点权重计算模块中,将多个正常人对照样本生成排序并建立索引的比对文件、CYP21A2与CYP21A1p的单倍型序列和各单倍型在区分位点集上的变异信息,统计每个区分位点在所有CYP21A1p单倍型上出现或保持一致突变的比例,将该比例定义为区分位点的权重。

7.根据权利要求6所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述基因融合判断模块中,所述累计分值的计算公式为:

8.根据权利要求7所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断系统,其特征在于,在所述基因融合判断模块中,所述判断CYP21A2与CYP21A1p是否存在融合以及融合类型包括:

9.一种基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断方法,其特征在于,包括:

10.根据权利要求9所述的基于Pacbio测序数据的CYP21A2与CYP21A1p基因融合判断方法,其特征在于,所述得到CYP21A2与CYP21A1p的区分位点集包括采用minimap2软件进行序列比对,并根据CYP21A1p相对于CYP21A2产生的SNP、插入和/或缺失来构建所述区分位点集。

...

【技术特征摘要】

1.一种基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统,其特征在于,包括区分位点集构建模块、测序数据比对模块、单倍型组装模块、单倍型变异识别模块、区分位点权重计算模块和基因融合判断模块;

2.根据权利要求1所述的基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统,其特征在于,在所述区分位点集构建模块中,采用minimap2软件进行序列比对,并根据cyp21a1p相对于cyp21a2产生的snp、插入和/或缺失来构建所述区分位点集。

3.根据权利要求1所述的基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统,其特征在于,在所述测序数据比对模块中,使用minimap2以map-hifi模式对测序读段与人类参考基因组进行比对;

4.根据权利要求1所述的基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统,其特征在于,在所述单倍型组装模块中,利用同源基因单倍型组装软件paraphase对cyp21a2与cyp21a1p区域的reads进行分簇并迭代组装,输出对应的若干条单倍型序列。

5.根据权利要求1所述的基于pacbio测序数据的cyp21a2与cyp21a1p基因融合判断系统,其特征在于,在所述单倍型变异识别模块中,采用deepvariant变异检测软件对cyp21a2与cyp21a1p的每条单倍型序列进行snp与...

【专利技术属性】
技术研发人员:张小飞韩路刘娜赵洁姬晓雯伍建
申请(专利权)人:北京迈基诺基因科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1