System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于孤立森林算法的CNV检测方法、介质及设备技术_技高网

一种基于孤立森林算法的CNV检测方法、介质及设备技术

技术编号:41786566 阅读:7 留言:0更新日期:2024-06-24 20:14
本发明专利技术涉及基因测序技术领域,具体涉及一种基于孤立森林算法的CNV检测方法、介质及设备。方法包括从单细胞DNA测序的Bam文件中获取在参考基因组中引入CNV事件的基因组测序数据,采用可变窗口策略对参考基因组进行窗口划分,并通过一致的reads数量调整窗口得到分割位点信息文件,根据分割位点信息文件和基因组测序数据计算每个窗口内的RD信号值,并提取PEM信号得到PEM信号值,基于孤立森林算法对RD信号值和PEM信号值进行多特征计算分析,并根据分析结果对每个窗口进行CNV事件识别。本发明专利技术能够有效地识别单细胞DNA测序数据中的CNV事件,不仅克服了传统方法在单细胞DNA测序数据中的局限性,还提高了CNV事件检测的准确性和可靠性。

【技术实现步骤摘要】

本专利技术涉及基因测序,特别是一种基于孤立森林算法的cnv检测方法、介质及设备。


技术介绍

1、随着现代生物学和医学的飞速发展,科研人员逐渐从分子层面深入认知癌症的发病机制和治疗手段。其中,肿瘤内异质性(intra-tumor heterogeneity,ith)作为癌症的一种普遍现象,成为近年来研究的热点。ith指的是一个肿瘤中包含着多个具有不同突变组的亚克隆,这些亚克隆的存在不仅增加了癌症治疗的难度,也是导致治疗失败和耐药性现象的关键因素。

2、在ith的研究中,如何准确识别每个克隆的突变情况成为了一个重要的科学问题。传统的脱氧核糖核酸(deoxyribonucleic acid,dna)批量测序虽然能够提供大量的基因组信息,但由于其将多个细胞的dna含量均匀化,往往导致单个或少数个体的基因组信号被掩盖,难以准确反映ith的实际情况。因此,单细胞dna测序技术应运而生,它能够在单细胞水平上询问dna,从而更准确地揭示每个细胞的突变情况。

3、在单细胞dna测序数据中,突变是一个重要的分子层面信息,包括单核苷酸变异(single nucleotide variation,snv)、插入/缺失变异(insertion-deletion,indel)和结构变异(structural variant,sv)等。其中,拷贝数变异(copy number variation,cnv)作为sv的一种重要形式,其在人类基因组中的广泛分布以及与多种癌症的关联性已经得到了广泛的研究。然而,目前在单细胞dna测序数据中,基于cnv的推断相比于基于snv的推断仍然面临着较大的挑战。

4、目前,cnv的检测方法主要包括基于拆分读段方法、基于双末端比对方法、从头组装方法和基于测序深度方法等。其中,基于测序深度(read depth,rd)的方法是目前检测cnv的主流方法。然而,在单细胞dna测序数据中,由于测序深度较小,rd信号往往受到噪声的干扰,限制了其在ith研究中的应用。


技术实现思路

1、本专利技术实施例要解决的技术问题在于,提供一种基于孤立森林算法的cnv检测方法、介质及设备,以解决现有技术中无法准确识别单细胞dna测序数据中cnv的问题。

2、本专利技术公开了一种基于孤立森林算法的cnv检测方法,包括:

3、从单细胞dna测序的bam文件中获取在参考基因组中引入cnv事件的基因组测序数据;

4、采用可变窗口策略对所述参考基因组进行窗口划分,并通过一致的reads数量调整所述窗口得到分割位点信息文件;

5、根据所述分割位点信息文件和所述基因组测序数据计算每个所述窗口内的rd信号值;

6、从所述bam文件中提取pem信号,并将所述pem信号比对到所述rd信号值对应所述窗口的所述分割位点信息文件上得到pem信号值;

7、基于孤立森林算法对所述rd信号值和所述pem信号值进行多特征计算分析,并根据分析结果对每个所述窗口进行cnv事件识别。

8、可选地,还包括生成所述单细胞dna测序的bam文件的方法:

9、设置人类参考基因组;

10、采用测序工具对所述参考基因组进行测序并得到所述参考基因组的测序结果,将所述参考基因组的测序结果设定为一条正常dna单链的测序结果;

11、在所述参考基因组上引入cnv事件得到变异基因组,采用测序工具对所述变异基因组进行测序得到存在所述cnv事件的测序结果,并将存在所述cnv事件的测序结果设定为一条变异dna单链的测序结果;

12、将正常dna单链的测序结果和变异dna单链的测序结果整合得到fastq原始文件,将所述fastq原始文件比对回所述参考基因组得到所述单细胞dna测序的bam文件。

13、可选地,所述根据所述分割位点信息文件和所述基因组测序数据计算每个所述窗口内的rd信号值的方法包括:

14、将所述分割位点信息文件和所述基因组测序数据作为bedtools工具的输入数据,利用bedtools工具统计每个所述窗口内的测序深度信息,并对统计的所述测序深度信息计算得到每个所述窗口内的rd信号值,所述rd信号值包含所述窗口内的起点、终点以及经过gc矫正后的测序深度。

15、可选地,所述采用可变窗口策略对所述参考基因组进行窗口划分,并通过一致的reads数量调整所述窗口得到分割位点信息文件的方法包括:

16、预设所述窗口内的reads数量,并设定每个所述窗口内的reads数量一致;

17、采用可变窗口策略对所述参考基因组进行窗口划分,通过对所述窗口内的所述基因组测序数据进行比对获取每个所述窗口内的比对reads数量;

18、根据所述比对reads数量与预设reads数量的比较调整对应所述窗口的大小,直至所述窗口内的所述比对reads数量达到所述预设reads数量;

19、根据达到所述预设reads数量的所述窗口,在所述窗口的起点和终点分别记录划分位点,直至记录的所述划分位点覆盖整个所述参考基因组;

20、将记录的所述划分位点整合得到包含每个所述窗口区域坐标信息的所述分割位点信息文件。

21、可选地,所述从所述bam文件中提取pem信号,并将所述pem信号比对到所述rd信号值对应所述窗口的所述分割位点信息文件上得到pem信号值的方法包括:

22、从所述bam文件中提取所述单细胞dna双链测序整合结果中匹配的两条reads的插入片段大小;

23、根据所述插入片段在所述单细胞dna上覆盖的区段,将每个所述插入片段覆盖的区段视为一个新的pem信号;

24、根据所述pem信号在所述单细胞dna上的位点信息,若pem信号超过其本身的一半被包含在某个所述rd信号值对应的所述窗口内时,将所述pem信号比对到所述rd信号值对应所述窗口的所述分割位点信息文件上并得到pem信号值。

25、可选地,所述若pem信号超过其本身的一半被包含在某个所述rd信号值对应的所述窗口内时,将所述pem信号比对到所述rd信号值对应所述窗口的所述分割位点信息文件上并得到pem信号值的方法包括:

26、在所述分割位点信息文件中提取所述pem信号在所述单细胞dna上的位点信息,设定所述pem信号的起始位点为xi,终止位点为yi,同时,设定所述分割位点信息文件中第j个所述窗口的起始位点为mj,终止位点为nj;

27、根据所述pem信号和所述窗口的设定参数,对所述pem信号进行匹配,所述匹配方式为:

28、若mj<xi<yi<nj,则在第j个所述窗口中计入数量加一,所述pem信号值加yi-xi;

29、若所述pem信号不满足mj<xi<yi<nj时,寻找max(xi)<mj,并重新设定xi=max(xi);

30、根据所述pem信号起始位点的重新本文档来自技高网...

【技术保护点】

1.一种基于孤立森林算法的CNV检测方法,其特征在于,所述CNV检测方法包括:

2.根据权利要求1所述的基于孤立森林算法的CNV检测方法,其特征在于,还包括生成所述单细胞DNA测序的Bam文件的方法:

3.根据权利要求1所述的基于孤立森林算法的CNV检测方法,其特征在于,所述采用可变窗口策略对所述参考基因组进行窗口划分,并通过一致的reads数量调整所述窗口得到分割位点信息文件的方法包括:

4.根据权利要求3所述的基于孤立森林算法的CNV检测方法,其特征在于,所述根据所述分割位点信息文件和所述基因组测序数据计算每个所述窗口内的RD信号值的方法包括:

5.根据权利要求4所述的基于孤立森林算法的CNV检测方法,其特征在于,所述从所述Bam文件中提取PEM信号,并将所述PEM信号比对到所述RD信号值对应所述窗口的所述分割位点信息文件上得到PEM信号值的方法包括:

6.根据权利要求5所述的基于孤立森林算法的CNV检测方法,其特征在于,所述若PEM信号超过其本身的一半被包含在某个所述RD信号值对应的所述窗口内时,将所述PEM信号比对到所述RD信号值对应所述窗口的所述分割位点信息文件上并得到PEM信号值的方法包括:

7.根据权利要求6任意一项所述的基于孤立森林算法的CNV检测方法,其特征在于,所述基于孤立森林算法对所述RD信号值和所述PEM信号值进行多特征计算分析,并根据分析结果对每个所述窗口进行CNV事件识别的方法包括:

8.根据权利要求7任意一项所述的基于孤立森林算法的CNV检测方法,其特征在于,还包括基于孤立森林算法对每个所述窗口进行CNV事件识别后进行细胞聚类的方法:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的基于孤立森林算法的CNV检测方法的步骤。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任意一项所述的基于孤立森林算法的CNV检测方法的步骤。

...

【技术特征摘要】

1.一种基于孤立森林算法的cnv检测方法,其特征在于,所述cnv检测方法包括:

2.根据权利要求1所述的基于孤立森林算法的cnv检测方法,其特征在于,还包括生成所述单细胞dna测序的bam文件的方法:

3.根据权利要求1所述的基于孤立森林算法的cnv检测方法,其特征在于,所述采用可变窗口策略对所述参考基因组进行窗口划分,并通过一致的reads数量调整所述窗口得到分割位点信息文件的方法包括:

4.根据权利要求3所述的基于孤立森林算法的cnv检测方法,其特征在于,所述根据所述分割位点信息文件和所述基因组测序数据计算每个所述窗口内的rd信号值的方法包括:

5.根据权利要求4所述的基于孤立森林算法的cnv检测方法,其特征在于,所述从所述bam文件中提取pem信号,并将所述pem信号比对到所述rd信号值对应所述窗口的所述分割位点信息文件上得到pem信号值的方法包括:

6.根据权利要求5所述的基于孤立森林算法的cnv检测方法,其特征在于,所述若pem信号超过其本身的一半被...

【专利技术属性】
技术研发人员:段君博李婕赵心瑞刘陈
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1