联合归一化和差异检测方法技术

技术编号:22503400 阅读:16 留言:0更新日期:2019-11-09 02:58
本发明专利技术公开了一种联合归一化和差异检测方法,基于高通量染色质相互作用数据集进行差异比较预处理和可视化处理;基于已进行差异比较预处理的高通量染色质相互作用数据集进行联合归一化;基于完成联合归一化的高通量染色质相互作用数据集进行差异检测与分析。优点:本发明专利技术开创性提出了差异比较预处理和可视化处理,填补了目前对于多个数据集的归一化和差异检测方法的空白;能够实现多个高通量染色体相互作用数据集的高效准确归一化和差异检测;另外该技术方法相对高效且快速,且可视化程度高。

Joint normalization and difference detection method

The invention discloses a joint normalization and difference detection method, which performs difference comparison preprocessing and visualization based on the high-throughput chromatin interaction data set; performs joint normalization based on the high-throughput chromatin interaction data set that has undergone difference comparison preprocessing; performs difference detection and visualization based on the high-throughput chromatin interaction data set that has completed joint normalization Analysis. Advantages: the invention creatively puts forward the difference comparison preprocessing and visualization processing, fills in the blank of normalization and difference detection methods for multiple data sets at present; can realize efficient and accurate normalization and difference detection for multiple high-throughput chromosome interaction data sets; in addition, the technical method is relatively efficient and fast, and has a high degree of visualization.

【技术实现步骤摘要】
联合归一化和差异检测方法
本专利技术涉及一种联合归一化和差异检测方法,属于生物信息学

技术介绍
基因组的3D染色体结构中染色质相互作用频率IF(InteractionFrequency)是一组具有重要意义的数据。它不仅决定了细胞类型和特异性基因表达,也决定了癌症中肿瘤基因和肿瘤抑制因子的错误调节。因此研究染色质相互作用是理解基因组调控不可或缺的重要一步。现代生物学的发展使传统的染色质构象捕获(3C)技术演变为Hi-C测序技术,这使我们可以检测整个基因组中的长距离染色质相互作用,也使我们对染色质相互作用的影响因素有了更明确的认识,主要分为技术特异性偏差和DNA序列造成的偏差。这些偏差的存在使我们在进一步对整个数据集进行研究对比之前,必须对数据集进行归一化。目前的生物学信息领域中,对于数据集的归一化方法主要集中在对单一数据集的归一化,缺少对于多个数据集的高效的归一化方法。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种联合归一化和差异检测方法。为解决上述技术问题,本专利技术提供一种联合归一化和差异检测方法,基于高通量染色质相互作用数据集进行差异比较预处理和可视化处理;基于已进行差异比较预处理的高通量染色质相互作用数据集进行联合归一化;基于完成联合归一化的高通量染色质相互作用数据集进行差异检测与分析。进一步的,所述差异比较预处理和可视化处理,具体为:利用高通量染色质相互作用数据集建立可供比较的数据集;基于可供比较的数据集建立单位距离D和染色质相互作用频率差M的连接,构建差异比较数据表;基于单位距离D和染色质相互作用频率差M的连接,将待比较的数据集以散点的形式进行可视化,创建横轴为M,纵轴为D的散点图,即MD图。为了进一步的,所述利用高通量染色质相互作用数据集建立可供比较的数据集,具体为:利用GEO数据库中公开的高通量染色质相互作用数据集建立可供比较的BEDPE格式的数据集。进一步的,所述联合归一化,具体为:对完成差异比较预处理的数据集进行非参数化方法构建回归模型;基于所述回归模型对数据集进行归一化,对在制备数据时使用不同的切割酶所带来的生物技术偏差进行消除。进一步的,所述构建回归模型采用loess局部加权线性回归的方法对完成差异比较预处理的数据集进行非参数化方法构建。进一步的,所述差异检测与分析,具体为:在联合归一化后的数据集中引入受控变化值,根据TPR、FPR和MCC指标对平均相互作用值设置阈值;通过Z分数模型,得到数据集样本的显著性水平p值,确定差异样本;结合所述可视化处理,根据p值对数据散点进行染色处理,进一步对差异检测结果进行可视化表达。进一步的,还包括:基于差异检测与分析得到的相关结论,结合模拟Hi-C数据的方法,对得到的相关结论进行进一步的评价与鉴定。进一步的,所述相关结论为:(1)通过预处理和联合归一化处理的Hi-C数据集,能够消除原始数据集中由于全局统计学范畴所带来的局部偏差以及在制备数据时用不同的切割酶所带来的实验室偏差。(2)通过引入受控变化值、阈值设置和Z分数模型的方法,可对数据集进行差异检测。具有适用于各种Hi-C数据集的差异检测与比较的优点.本专利技术所达到的有益效果:本专利技术开创性提出了差异比较预处理和可视化处理,填补了目前对于多个数据集的归一化和差异检测方法的空白;能够实现多个高通量染色体相互作用数据集的高效准确归一化和差异检测;另外该技术方法相对高效且快速,且可视化程度高。附图说明图1是本专利技术的流程示意图;图2是loess联合归一化方法的差异检测MD图。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。如图1所示,一种联合归一化和差异检测方法,包括以下步骤:步骤1):基于高通量染色质相互作用数据集的差异比较预处理和可视化过程;步骤2):基于已进行差异比较预处理的高通量染色质相互作用数据集的联合归一化过程;步骤3):基于完成联合归一化的高通量染色质相互作用数据集的差异检测与分析过程。所述步骤1)具体是指:1A)利用高通量染色质相互作用数据集建立可供比较的BEDPE格式的数据,将拷贝数变异(CNV)所造成的的误差消除。1B)基于BEDPE格式的数据集建立单位距离D和染色质相互作用频率差M的连接,构建差异比较数据表。1C)基于单位距离D和染色质相互作用频率差M的连接,将待比较的数据集以散点的形式进行可视化,创建横轴为M,纵轴为D的散点图,即MD图。所述步骤2)具体是指:2A)利用loess局部加权线性回归的方法对完成差异比较预处理的数据集进行非参数化方法构建回归模型。2B)基于得到回归模型对数据集进行归一化,消除全局统计学范畴所带来的局部偏差。2C)结合loess方法对由于在制备数据时用不同的切割酶所带来的生物技术偏差进行消除。所述步骤3)具体是指:3A)基于在数据集中引入受控的变化值,根据TPR(真阳性率)、FPR(假阳性率)和MCC(马修斯相关系数)指标对平均相互作用值设置合适的阈值,消除过低的相互作用值对差异检测造成的误差,平均相互作用值A,定义为IF1和IF2的均值,其中IF1和IF2为分别来自两数据集中的一对相互作用频率。平均相互作用值即为实验中两组高通量染色质相互作用数据集中某一对数据的均值。A的值越高,表示实验得到的IF读数越高,测序的覆盖面更大,准确程度越高。此步骤是利用数据评价指标,对平均相互作用值设置阈值,目的是将准确程度较低的多组数据对排除在最后用于差异检测的数据集之外。3B)并在此基础上,通过Z分数模型,得到数据集样本的显著性水平p值,确定差异样本,所述Z分数模型是基于对于染色质相互作用频率差M值的正态分布假设。M转换为Z分数的公式如下:其中是所有染色体片段M值的平均值,σM是所有染色体片段M值的标准差,Mi是第i个染色质相互作用对。在Z分数的基础上使用标准正态分布将其转换为p值,对p值设置门限标准,可得到符合分布模型的数据,完成差异检测。3C)结合MD图,根据p值对数据散点进行染色处理,进一步对差异检测结果进行可视化表达。步骤(4):基于上述实验步骤和相关结论,结合模拟Hi-C数据的方法,对方法进行进一步的评价与鉴定。该部分计算分析通过结合实验验证环节来开展(见图2),从而使得实验与计算部分的结论具有较高的可信度和可重复性,同时能够在试验和计算可控范围内,大大提升高通量染色质相互作用的差异检测精度。该实验使用了分辨率为1MB的GM12878细胞测序组学信息的第11号染色体数据,它们分别由MboI和DpnII两种不同的切割酶生成,得到两数据集。由于两数据集来自同一细胞系的同一染色体片段,其差异应该趋近于0。如果某方法检测出的差异个数最小,可以认为该方法的差异检测准确率更高。图2为loess联合归一化方法的差异检测MD图,差异数为37,从归一化结果来看,数据散点集中分布在M=0左右。从差异检测结果来看,差异数较小。本专利技术基于高通量染色质相互作用数据集,提出了多个数据集间的联合归一化和差异检测方法。相关的分析对象可以采用开源的高通量染色体测序数据,因此具有较大的适用范围和市场前景。本专利技术提供的基于高通量染色质相互作用的联合归一化和差异检测方法,选取高通量染色本文档来自技高网...

【技术保护点】
1.一种联合归一化和差异检测方法,其特征在于,基于高通量染色质相互作用数据集进行差异比较预处理和可视化处理;基于已进行差异比较预处理的高通量染色质相互作用数据集进行联合归一化;基于完成联合归一化的高通量染色质相互作用数据集进行差异检测与分析。

【技术特征摘要】
1.一种联合归一化和差异检测方法,其特征在于,基于高通量染色质相互作用数据集进行差异比较预处理和可视化处理;基于已进行差异比较预处理的高通量染色质相互作用数据集进行联合归一化;基于完成联合归一化的高通量染色质相互作用数据集进行差异检测与分析。2.根据权利要求1所述的联合归一化和差异检测方法,其特征在于,所述差异比较预处理和可视化处理,具体为:利用高通量染色质相互作用数据集建立可供比较的数据集;基于可供比较的数据集建立单位距离D和染色质相互作用频率差M的连接,构建差异比较数据表;基于单位距离D和染色质相互作用频率差M的连接,将待比较的数据集以散点的形式进行可视化,创建横轴为M,纵轴为D的散点图,即MD图。3.根据权利要求2所述的联合归一化和差异检测方法,其特征在于,所述利用高通量染色质相互作用数据集建立可供比较的数据集,具体为:利用GEO数据库中公开的高通量染色质相互作用数据集建立可供比较的BEDPE格式的数据集。4.根据权利要求1所述的联合归一化和差异检测方法,其特征在于,所述联合归一化,具体为:对完成差异比较预处理的数据集进行非参数化方法构建回归模型;基于所述回归模型对数据集...

【专利技术属性】
技术研发人员:汤斌华王宇琦
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1