【技术实现步骤摘要】
一种基于滤波降噪的基因组结构变异检测方法
[0001]本专利技术涉及生物信息学领域,具体涉及一种基于滤波降噪的基因组拷贝数变异检测方法。
技术介绍
[0002]新一代测序(New generation sequencing,NGS)技术的发展越来越成熟,各测序平台层出不穷,基因序列的测序成本大幅度地下降,测序的速度越来越高,这使得测序产生的DNA序列数据非常庞大,数据处理的准确程度成为当务之急。
[0003]小波变换是信号处理当中去除数据噪声的有利利器,而尺度空间滤波是形象直观的描述信号的重要手段。生物信息学领域的测序数据,由于生物序列本身的高重复性以及测序过程中不可避免的误差,往往在对数据建模的时候,需要考虑噪声对模型带来的影响。在拷贝数变异的检测中,由于人类染色体序列的重复序列片段的存在会导致测序发生不可避免的错误,为了用合适的尺度描述拷贝数变异,采用了多尺度的尺度空间滤波,找出读深信号中的零交叉点,最终确定拷贝数变异区域。
[0004]另外,伴随着人类基因组计划及1000genomes project的实施与发展,蛋白质、DNA、RNA的序列数据的规模日趋增加,仅仅依靠生物实验来研究生物基因变异及疾病产生早已不能满足现实需要,因此必须借助计算机、数学等学科的理论及思想方法从海量数据中来研究和阐明生物学问题。拷贝数变异检测是生物信息学中研究生物基因结构改变的有效方法之一。
[0005]目前应用于拷贝数变异检测的技术主要有:
[0006]1.比较基因组杂交(CGH):该技术发展至今, ...
【技术保护点】
【技术特征摘要】
1.一种基于滤波降噪的基因组拷贝数变异检测方法,其特征在于,包括如下步骤:S1.数据预处理;利用SAMtools工具从bam文件中提取出读深信号,读深信号由以下两部分信号组成的:R
m
=r
m
+E
m
,R
m
代表观察到的读深信号的实际值,r
m
代表在染色体序列期望得到的读深信号,E
m
代表噪声信号;采用haar函数进行噪声的去除:进行噪声的去除:采用GC校正去除碱基GC含量对读深信号的影响;S2.获得尺度空间图像;将读深数据r[i
‑
j]与高斯核函数K(i,j)进行卷积运算得到尺度空间图像函数I
SS
[i,l]:其中,σ
l
代表第l层的尺度参数,m代表高斯核函数K(i,j)的窗口值大小;S3.尺度空间图像边缘检测;将尺度空间图像函数I
SS
[i,l]在不同的尺度x,y下求得其分量,分量为和在每一尺度下,求每个像素点的模值MI
SS
[i,l]和相角AI
SS
[i,l]:[i,l]:MI
SS
[i,l]在相角AI
SS
[i,l]上取得极大值的点对应着尺度空间图像的突变点,由MI
SS
[i,l]和AI
SS
[i,l]可以求得极值点,从而对尺度空间图像进行边缘检测;S4.尺度空间图形基准检测;设置三个基准标准m
t
(l)、m
t
(l)+λδ
t
(l)和m
t
(l)
‑
λδ
t
(l),其中m
t
(l)和δ
t
(l)是尺度空间图像函数I
SS
[i,l]在有两个非零的零交叉点函数Z
SS
[i,l]在第l层的均值和标准差,λ是基准校验系数,尺度空间函数值的正常范围为m(k)
±
2δ(k),在所述正常范围之外的尺度空间函数值将被滤除;S5.确定候选拷贝数区域;若Z
SS
[s
m,l
,l]
·
Z
SS
[e
m,l
,l]<0,第l层中间区{i|s
m,l
≤i≤e
m,l
}中所有的点满足Z
SS
[i,l]=0,且区间{i|s
【专利技术属性】
技术研发人员:刘志岩,刘珍,王海宁,姜玥,
申请(专利权)人:哈尔滨因极科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。