System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 混样浓度比例的计算方法、装置以及应用制造方法及图纸_技高网

混样浓度比例的计算方法、装置以及应用制造方法及图纸

技术编号:41344166 阅读:5 留言:0更新日期:2024-05-20 10:00
本发明专利技术提供了一种混样浓度比例的计算方法、装置以及应用。该计算方法包括a)获取待测样本的测序BAM文件,待测样本为来源于没有亲缘关系的人血浆混合样本;b)根据测序BAM文件,构建计算混样浓度比例的基因型联合概率分布模型;基因型联合概率分布模型中包括杂合位点频率、人群等位基因频率、近交系数或测序错误率中的一种或多种因素;c)构建杂合位点校正频率数据库,获得校正后的杂合位点频率;d)将包括校正后的杂合位点频率的多个因素的值代入基因型联合概率分布模型中,并对基因型联合概率分布模型进行求解,计算获得混样浓度比例。能够解决现有技术中没有能够通过数据分析的手段计算混样浓度方法的问题,适用于生物检测技术领域。

【技术实现步骤摘要】

本专利技术涉及生物检测,具体而言,涉及一种混样浓度比例的计算方法、装置以及应用


技术介绍

1、人类妊娠中自然流产的发生率为50%~60%,且大多都发生在孕早期。引起自然流产的因素众多,如遗传、免疫、血型、感染、解剖、内分泌、环境等,所以准确找到流产原因并有针对性的进行临床指导就显得尤为重要。而这其中,超过一半的孕早期流产都是由遗传缺陷所导致的,其中胚胎染色体数目异常和结构异常是最主要的两个原因数目异常有三体、三倍体及x单体等;结构异常有染色体断裂、倒置、缺失和易位。染色体异常的胚胎多数结局为流产,极少数可能继续发育成胎儿,但出生后也会发生某些功能异常或合并畸形。若已流产,妊娠产物有时仅为一空孕囊或已退化的胚胎。因此,对流产组织进行基因检测,从而判断流产儿是否存在遗传缺陷,为父母提供医学建议非常重要。

2、目前,第二代测序技术由于其价格便宜、检测周期短等特点,被越来越多地应用到流产物拷贝数变异检测中来。为了验证检测方法的性能,查看检测流程在检测样本中阳性样本不同占比时的检出率,经常需要通过实验混样的手段,将阳性患者和健康人的白细胞样本按照不同的比例进行混合,从而确定检测方法的性能。然而,实验混样的比例经常不够准确,在此不准确的基础上,难以计算出正确的混样比例,会导致检测结果不可信,因此,迫切需要一个独立于实验、可以通过数据分析的手段计算混样浓度的方法。但是目前,缺少可以计算来自2个没有亲缘关系样本的全基因组低深度测序数据混合比例的方法。


技术实现思路

1、本专利技术的主要目的在于提供一种混样浓度比例的计算方法、装置以及应用,以解决现有技术中没有能够通过数据分析的手段计算混样浓度方法的问题。

2、为了实现上述目的,根据本专利技术的第一个方面,提供了一种混样浓度比例的计算方法,该计算方法包括:a)获取待测样本的测序bam文件,待测样本为来源于第一样本和第二样本的混合样本,其中,第一样本和第二样本为没有亲缘关系的人血浆样本;b)根据测序bam文件,构建计算混样浓度比例的基因型联合概率分布模型;基因型联合概率分布模型中包括多个因素,多个因素包括杂合位点频率、人群等位基因频率、近交系数或测序错误率中的一种或多种;c)构建杂合位点校正频率数据库,获得校正后的杂合位点频率;d)将包括校正后的杂合位点频率的多个因素的值代入基因型联合概率分布模型中,并对基因型联合概率分布模型进行求解,计算获得混样浓度比例。

3、进一步地,a)包括,提取待测样本的dna进行测序,获得待测样本的全基因组测序数据;将待测样本的测序基因序列进行过滤和去重,获得待测样本的测序bam文件;优选地,过滤包括:将待测样本的测序基因序列中的接头序列、序列中显示为n的碱基和测序质量小于15的序列过滤,获得待测样本过滤测序数据;优选地,去重包括:将待测样本过滤测序数据与参考基因组序列进行比对,获得比对文件;利用去重复序列软件对比对文件中的重复序列去除,获得待测样本的测序bam文件。

4、进一步地,通过如下公式表示b)的基因型联合概率分布模型:

5、

6、其中,n1n2列表示的是第一样本的基因型和第二样本的基因型;a和b表示同一个单核苷酸变异位点上的两种等位基因;其中,a表示变异位点上的主等位基因;b表示变异位点上的次等位基因;prob列表示的是第一样本的基因型和第二样本的基因型的联合概率;x表示人群等位基因频率;近交系数包括f1和f2,其中,f1表示第一样本近交系数,f2表示第二样本近交系数;杂合位点频率包括w(a)和w(b),其中,w(a)表示a的校正后的杂合位点频率,w(b)表示b的校正后的杂合位点频率;e表示测序错误率;fa列表示待测样本的全基因组测序数据中的主等位基因a的基因频率,fb列表示待测样本的全基因组测序数据中次等位基因b的基因频率;h表示混样浓度比例。

7、进一步地,c)包括:校正后的杂合位点频率包括主等位基因校正后的杂合位点频率和次等位基因校正后的杂合位点频率;主等位基因校正后的杂合位点频率为杂合位点校正频率数据库中记载的特定位点为杂合位点的所有样本的主等位基因的平均突变频率;次等位基因校正后的杂合位点频率为杂合位点校正频率数据库中记载的特定位点为杂合位点的所有样本的次等位基因的平均突变频率;c1)对不少于20个来源于不同个体的样本进行测序获得建库样本的全基因组测序数据;c2)将建库样本的全基因组测序数据与人类参考基因组比对,进行去重处理后,获得去重比对文件,统计去重比对文件中每个位点的主等位基因和次等位基因的覆盖读段数,获得样本的变异位点集合;c3)将样本变异位点集合分别进行筛选,筛选出次等位基因读段覆盖条数大于等于4条的位点,记为杂合位点;c4)遍历每个变异位点,统计在特定位点为杂合位点的样本记为杂合样本,统计杂合样本的建库样本中对特定位点的主等位基因和次等位基因的突变频率,分别计算主等位基因和次等位基因的突变频率平均值,分别作为主等位基因经过校正后的杂合位点频率记为w(a),次等位基因经过校正后的杂合位点频率记为w(b)。

8、进一步地,近交系数的计算包括:通过与基因数据库比对,统计第一样本的全基因组测序数据中的所有杂合位点,获得第一杂合位点集合,计算第一杂合位点集合中每个杂合位点的第一样本观察值,利用极大似然法计算第一样本近交系数;通过与基因数据库比对,统计第二样本的全基因组测序数据中的所有杂合位点,获得第二杂合位点集合,计算第二杂合位点集合中每个杂合位点的第二样本观察值,利用极大似然法计算第二样本近交系数;近交系数的计算包括:通过如下公式表示基因型概率模型:

9、 基因型 基因型概率 fa fb aa <![cdata[x<sup>2</sup>+x×(1-x)×f1]]> 1-e e ab 2(x×(1-x)-f1) w(a) w(b) bb (1-x)+x×(1-x)×f1 e 1-e

10、第一样本观察值或第二样本观察值为第一样本的全基因组测序数据中或第二样本的全基因组测序数据中,单个杂合位点i的测序结果为主等位基因a的读段数和次等位基因b的读段数,记为g本文档来自技高网...

【技术保护点】

1.一种混样浓度比例的计算方法,其特征在于,所述计算方法包括:

2.根据权利要求1所述的计算方法,其特征在于,所述a)包括,提取所述待测样本的DNA进行测序,获得所述待测样本的全基因组测序数据;将所述待测样本的测序基因序列进行过滤和去重,获得所述待测样本的测序BAM文件;

3.根据权利要求1所述的计算方法,其特征在于,通过如下公式表示b)所述的基因型联合概率分布模型:

4.根据权利要求1所述的计算方法,其特征在于,所述c)包括:

5.根据权利要求3所述的计算方法,其特征在于,所述近交系数的计算包括:通过与基因数据库比对,统计所述第一样本的全基因组测序数据中的所有杂合位点,获得第一杂合位点集合,计算所述第一杂合位点集合中每个杂合位点的第一样本观察值,利用极大似然法计算所述第一样本近交系数;

6.根据权利要求3所述的计算方法,其特征在于,所述混样浓度的比例的计算包括:通过与基因组数据库比对,统计所述待测样本的全基因组测序数据中的所有杂合位点,获得待测样本杂合位点集合,计算所述待测样本杂合位点集合中每个杂合位点的待测样本观察值,利用极大似然法计算所述混样浓度的比例;

7.根据权利要求3所述的计算方法,其特征在于,所述测序错误率通过对所述待测样本的测序BAM文件进行统计获得。

8.根据权利要求3所述的计算方法,其特征在于,所述人群等位基因频率获取的方法包括:

9.一种混样浓度比例计算的电子装置,其特征在于,所述电子装置包括待测样本的测序BAM文件获取单元、基因型联合概率分布模型构建单元、杂合位点校正频率数据库构建单元和混样浓度比例计算单元;

10.权利要求9所述的电子装置,其特征在于,所述测序BAM文件获取单元包括待测样本DNA提取单元、测序单元、过滤单元和去重处理单元;

11.根据权利要求9所述的电子装置,其特征在于,所述基因型联合概率分布模型通过如下公式表示:

12.根据权利要求9所述的电子装置,其特征在于,所述杂合位点校正频率数据库构建单元包括建库单元、比对单元、去重单元、统计单元、杂合位点筛选单元和基因频率计算单元;

13.根据权利要求9所述的电子装置,其特征在于,所述计算单元包括近交系数计算单元、测序错误率获取单元、等位基因频率获取单元、校正后的杂合位点频率获取单元和混样浓度比例计算单元;

14.权利要求1-8中任一项所述的混样浓度比例的计算方法或权利要求9-13中任一项所述的混样浓度比例计算的电子装置在根据测序结果计算所得样本中各样本浓度中的应用;

15.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时,控制所述存储介质所在设备执行权利要求1-8中任一项所述的混样浓度比例的计算方法。

16.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-8中任一项所述的混样浓度比例的计算方法。

...

【技术特征摘要】

1.一种混样浓度比例的计算方法,其特征在于,所述计算方法包括:

2.根据权利要求1所述的计算方法,其特征在于,所述a)包括,提取所述待测样本的dna进行测序,获得所述待测样本的全基因组测序数据;将所述待测样本的测序基因序列进行过滤和去重,获得所述待测样本的测序bam文件;

3.根据权利要求1所述的计算方法,其特征在于,通过如下公式表示b)所述的基因型联合概率分布模型:

4.根据权利要求1所述的计算方法,其特征在于,所述c)包括:

5.根据权利要求3所述的计算方法,其特征在于,所述近交系数的计算包括:通过与基因数据库比对,统计所述第一样本的全基因组测序数据中的所有杂合位点,获得第一杂合位点集合,计算所述第一杂合位点集合中每个杂合位点的第一样本观察值,利用极大似然法计算所述第一样本近交系数;

6.根据权利要求3所述的计算方法,其特征在于,所述混样浓度的比例的计算包括:通过与基因组数据库比对,统计所述待测样本的全基因组测序数据中的所有杂合位点,获得待测样本杂合位点集合,计算所述待测样本杂合位点集合中每个杂合位点的待测样本观察值,利用极大似然法计算所述混样浓度的比例;

7.根据权利要求3所述的计算方法,其特征在于,所述测序错误率通过对所述待测样本的测序bam文件进行统计获得。

8.根据权利要求3所述的计算方法,其特征在于,所述人群等位基因频率获取的方法包括:

9.一种混样浓度比例计...

【专利技术属性】
技术研发人员:单光宇高司航姬晓勇伍启熹赵汗青王建伟
申请(专利权)人:北京优迅医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1