一种基于滤波降噪的基因组结构变异检测方法技术

技术编号:30170054 阅读:19 留言:0更新日期:2021-09-25 15:27
本发明专利技术提出了在一种基于滤波降噪的基因组拷贝数变异检测方法,该方法考虑了染色体序列本身的特性以及序列中碱基GC含量对读深的影响,在更好的对数据进行预处理的基础上,将读深数据与高斯核函数进行卷积运算得到尺度空间图像函数,并对尺度空间图像进行边缘检测及基准检测,确定候选拷贝数区域,及检测拷贝数变异类型和位置,提高了拷贝数变异检测的精度。度。度。

【技术实现步骤摘要】
一种基于滤波降噪的基因组结构变异检测方法


[0001]本专利技术涉及生物信息学领域,具体涉及一种基于滤波降噪的基因组拷贝数变异检测方法。

技术介绍

[0002]新一代测序(New generation sequencing,NGS)技术的发展越来越成熟,各测序平台层出不穷,基因序列的测序成本大幅度地下降,测序的速度越来越高,这使得测序产生的DNA序列数据非常庞大,数据处理的准确程度成为当务之急。
[0003]小波变换是信号处理当中去除数据噪声的有利利器,而尺度空间滤波是形象直观的描述信号的重要手段。生物信息学领域的测序数据,由于生物序列本身的高重复性以及测序过程中不可避免的误差,往往在对数据建模的时候,需要考虑噪声对模型带来的影响。在拷贝数变异的检测中,由于人类染色体序列的重复序列片段的存在会导致测序发生不可避免的错误,为了用合适的尺度描述拷贝数变异,采用了多尺度的尺度空间滤波,找出读深信号中的零交叉点,最终确定拷贝数变异区域。
[0004]另外,伴随着人类基因组计划及1000genomes project的实施与发展,蛋白质、DNA、RNA的序列数据的规模日趋增加,仅仅依靠生物实验来研究生物基因变异及疾病产生早已不能满足现实需要,因此必须借助计算机、数学等学科的理论及思想方法从海量数据中来研究和阐明生物学问题。拷贝数变异检测是生物信息学中研究生物基因结构改变的有效方法之一。
[0005]目前应用于拷贝数变异检测的技术主要有:
[0006]1.比较基因组杂交(CGH):该技术发展至今,已与芯片技术(Microarray)结合后衍生为芯片比较基因组杂交技术(Array

CGH)。该技术可以在全部染色体或染色体亚带水平上,对不同基因组之间DNA序列的拷贝数进行检测,从而发现拷贝数变异。然而该技术分辨率在Mb水平,更小片段的拷贝数片段则不易检出。同时该技术操作繁琐,通量低、耗时长且成本昂贵,需要较为大量的模板DNA,不利于大范围的推广。
[0007]2.MLPA:全称为多重连接探针扩增技术,是2002年发展起来的一种拷贝数检测方法。目前已有相应的试剂盒检测如SMA、唐氏综合征等疾病。该技术具有较准确的相对定量功能。但是该方法探针制备较为复杂,同时操作步骤繁琐,耗时长。并且采用毛细管电泳作为分析手段,通量较低、成本较高且属于开放式操作,易于造成PCR产物的污染。

技术实现思路

[0008]在本专利技术中,提出了一种基于滤波降噪的基因组拷贝数变异检测方法,该方法考虑了染色体序列本身的特性以及序列中碱基GC含量对读深的影响,在更好的对数据进行预处理的基础上,将读深数据与高斯核函数进行卷积运算得到尺度空间图像函数,并对尺度空间图像进行边缘检测及基准检测,确定候选拷贝数区域,及检测拷贝数变异类型和位置,提高了拷贝数变异检测的精度。
[0009]具体包括如下步骤:
[0010]S1.数据预处理;
[0011]利用SAMtools工具从bam文件中提取出读深信号,读深信号由以下两部分信号组成的:R
m
=r
m
+E
m
,R
m
代表观察到的读深信号的实际值,r
m
代表在染色体序列期望得到的读深信号,E
m
代表噪声信号;
[0012]采用haar函数进行噪声的去除:
[0013][0014][0015]采用GC校正去除碱基GC含量对读深信号的影响;
[0016]S2.获得尺度空间图像;
[0017]将读深数据r[i

j]与高斯核函数K(x,y)进行卷积运算得到尺度空间图像函数I
SS
[i,l]:
[0018][0019]其中,
[0020]σ
l
代表第l层的尺度参数,m代表高斯核函数K(i,j)的窗口值大小;
[0021]S3.尺度空间图像边缘检测;
[0022]将尺度空间图像函数I
SS
[i,l]在不同的尺度x,y下求得其分量,分量为和在每一尺度下,求每个像素点的模值MI
SS
[i,l]和相角AI
SS
[i,l]:
[0023][0024][0025]MI
SS
[i,l]在相角AI
SS
[i,l]上取得极大值的点对应着尺度空间图像的突变点,由MI
SS
[i,l和AI
SS
[i,l]可以求得极值点,从而对尺度空间图像进行边缘检测;
[0026]S4.尺度空间图像基准检测;
[0027]设置三个基准标准m
t
(l)、m
t
(l)+λδ
t
(l)和m
t
(l)

λδ
t
(l),其中m
t
(l)和δ
t
(l)是尺度空间图像函数y
SS
[i,l]在有两个非零的零交叉点函数Z
SS
[i,l]在第l层的均值和标准差,λ是基准校验系数,尺度空间值的正常范围为m(k)
±
2δ(k),在所述正常范围之外的尺度空间函数值将被滤除;
[0028]S5.确定候选拷贝数区域;
[0029]若Z
SS
[s
m,l
,l]·
Z
SS
[e
m,l
,l]<0,第l层中间区{is
m,l
≤i≤e
m,l
}中所有的点满足Z
SS
[i,l]=0,且区间{i|s
m,l
≤i≤e
m,l
}上尺度空间图像函数I
SS
[i,l]的均值在m
t
(l)+λδ
t
(l)和m
t
(l)

λδ
t
(l)之间,则[s
m,l
,e
m,l
]是一个候选拷贝数变异的区域;其中i在零交叉点函数Z
SS
[i,l]在第l层上的对应位置区间内;
[0030]S6.拷贝数变异类型和位置检测;
[0031]尺度空间图像函数均值在m
t
(l)+λδ
t
(l)之上,则拷贝数变异增加;尺度空间图像函数均值在m
t
(l)

λδ
t
(l)下,则拷贝数变异缺失。
[0032]进一步地,步骤S1中,噪声信号E
m
的数学期望为E(X
K
)=μ,(k=1,2,
……
),方差为D(X
K
)=σ2≠0,(k=1,2,
……
);其中μ是随机变量的期望值,σ2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于滤波降噪的基因组拷贝数变异检测方法,其特征在于,包括如下步骤:S1.数据预处理;利用SAMtools工具从bam文件中提取出读深信号,读深信号由以下两部分信号组成的:R
m
=r
m
+E
m
,R
m
代表观察到的读深信号的实际值,r
m
代表在染色体序列期望得到的读深信号,E
m
代表噪声信号;采用haar函数进行噪声的去除:进行噪声的去除:采用GC校正去除碱基GC含量对读深信号的影响;S2.获得尺度空间图像;将读深数据r[i

j]与高斯核函数K(i,j)进行卷积运算得到尺度空间图像函数I
SS
[i,l]:其中,σ
l
代表第l层的尺度参数,m代表高斯核函数K(i,j)的窗口值大小;S3.尺度空间图像边缘检测;将尺度空间图像函数I
SS
[i,l]在不同的尺度x,y下求得其分量,分量为和在每一尺度下,求每个像素点的模值MI
SS
[i,l]和相角AI
SS
[i,l]:[i,l]:MI
SS
[i,l]在相角AI
SS
[i,l]上取得极大值的点对应着尺度空间图像的突变点,由MI
SS
[i,l]和AI
SS
[i,l]可以求得极值点,从而对尺度空间图像进行边缘检测;S4.尺度空间图形基准检测;设置三个基准标准m
t
(l)、m
t
(l)+λδ
t
(l)和m
t
(l)

λδ
t
(l),其中m
t
(l)和δ
t
(l)是尺度空间图像函数I
SS
[i,l]在有两个非零的零交叉点函数Z
SS
[i,l]在第l层的均值和标准差,λ是基准校验系数,尺度空间函数值的正常范围为m(k)
±
2δ(k),在所述正常范围之外的尺度空间函数值将被滤除;S5.确定候选拷贝数区域;若Z
SS
[s
m,l
,l]
·
Z
SS
[e
m,l
,l]<0,第l层中间区{i|s
m,l
≤i≤e
m,l
}中所有的点满足Z
SS
[i,l]=0,且区间{i|s

【专利技术属性】
技术研发人员:刘志岩刘珍王海宁姜玥
申请(专利权)人:哈尔滨因极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1