System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于社区发现的多层次染色质拓扑结构域识别方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>山东大学专利>正文

基于社区发现的多层次染色质拓扑结构域识别方法及系统技术方案

技术编号:41355824 阅读:3 留言:0更新日期:2024-05-20 10:07
本公开提供了基于社区发现的多层次染色质拓扑结构域识别方法及系统,涉及生物基因识别技术领域,包括:获取染色体测序的原始Hi‑C接触矩阵,对所述Hi‑C接触矩阵预处理后,得到无向加权子网络;利用社群发现算法将无向加权子网络划分为相互独立的社区,搜索所有社区中的候选双边界并组成集合;提取候选双边界的边界局部特征表示,并将所述边界局部特征表示输入至MLP模型中,得到每个候选双边界的预测得分;根据所述预测得分,筛选出需要保留的候选双边界,被保留下的候选双边界组成可靠边界集;对所述可靠边界集中的候选双边界进行搜索,识别形成多层级的染色体拓扑结构域TAD。

【技术实现步骤摘要】

本公开涉及生物基因识别,具体涉及基于社区发现的多层次染色质拓扑结构域识别方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。

2、真核生物细胞核中的基因组是以三维的、高度折叠的方式组织的。染色质构象技术(hi-c)因其在全基因组范围内分析染色质相互作用的能力而被广泛用于研究细胞核内基因组的空间组织。它产生多达数十亿对末端读取(reads),这些末端读取可以被分类到一个接触矩阵中,这个接触矩阵中的元素反映了对应的基因组位点对之间的相互作用频率,具体表现为二维的对称矩阵。hi-c技术的应用使得研究者发现人类、小鼠和果蝇基因组被线性划分为尺度在数百万碱基的具有较强的内部连通性但与其他域相互作用有限的区域,这种区域被称为拓扑结构域(tad)。研究表明tad在物种之间广泛保守,并且与组蛋白修饰、远程基因调控和表观遗传密切相关,同时特定tad错误的折叠会导致不同程度的遗传疾病。因此,研究tad有助于更好地理解三维染色质组织与表观遗传之间的关系。

3、目前,有很多计算方法被设计用来识别hi-c矩阵中的tad结构。根据它们识别的tad的类型,这些算法可以分为两类:第一类是可以识别非嵌套tad的算法,即它们识别的tad两两之间没有交集;第二类是可以识别嵌套tad的算法,即它们识别的tad可以存在交集且存在包含关系。

4、但是,专利技术人发现,现有的tad预测算法还存在如下缺点:

5、1.使用单一算法的局限性:目前这些算法仅基于一种统计学或者组合优化算法。然而单一算法的使用必定存在一定的系统误差,从而降低了tad预测的准确性;

6、2. 对tad边界特征的把握不足:tad边界的预测与tad的预测密切相关,但是目前的tad算法不关注或者关注tad边界特征不多,影响tad预测的准确性;

7、3. 对精细tad结构预测的局限性:目前研究表明tad内部仍然包含着tad结构,这种嵌套的tad一般被成为嵌套tad或子tad,但是目前tad预测算法大部分只能预测非嵌套的tad结构,即tad线性且不相交地分布在基因组中,这些算法不能预测这种更加精细的子tad;

8、4. 对不同测序深度的数据的鲁棒性不佳:hi-c技术存在一定的系统误差,而且不同的测序深度将会很大程度上影响hi-c数据的质量,进而影响tad预测算法的准确性,然而目前算法对于hi-c测序深度的鲁棒性普遍不佳。


技术实现思路

1、本公开为了解决上述问题,提出了基于社区发现的多层次染色质拓扑结构域识别方法及系统,提出了binder(boundary-anchored infomap and neural network-basedtad identifier)方法,将tad识别问题转化为网络中的社区识别问题,有效且合理地整合传统的社区发现算法infomap和神经网络方法,优势互补,能够更加准确地预测tad。

2、根据一些实施例,本公开采用如下技术方案:

3、基于社区发现的多层次染色质拓扑结构域识别方法,包括:

4、获取染色体测序的原始hi-c接触矩阵,对所述hi-c接触矩阵预处理后,得到无向加权子网络;

5、利用社群发现算法将无向加权子网络划分为相互独立的社区,搜索所有社区中的候选双边界并组成集合;

6、提取候选双边界的边界局部特征表示,并将所述边界局部特征表示输入至mlp 模型中,得到每个候选双边界的预测得分;根据所述预测得分,筛选出需要保留的候选双边界,被保留下的候选双边界组成可靠边界集;

7、对所述可靠边界集中的候选双边界进行搜索,识别形成多层级的染色体拓扑结构域tad。

8、根据一些实施例,本公开采用如下技术方案:

9、基于社区发现的多层次染色质拓扑结构域识别系统,包括:

10、数据获取模块,用于获取染色体测序的原始hi-c接触矩阵,对所述hi-c接触矩阵预处理后,得到无向加权子网络;

11、边界搜索模块,用于利用社群发现算法将无向加权子网络划分为相互独立的社区,搜索所有社区中的候选双边界并组成集合;

12、边界特征提取与预测模块,用于提取候选双边界的边界局部特征表示,并将所述边界局部特征表示输入至mlp 模型中,得到每个候选双边界的预测得分;根据所述预测得分,筛选出需要保留的候选双边界,被保留下的候选双边界组成可靠边界集;

13、多层级tad生成模块,用于对所述可靠边界集中的候选双边界进行搜索,识别形成多层级的染色体拓扑结构域tad。

14、与现有技术相比,本公开的有益效果为:

15、本公开的一种基于社区发现的多层次染色质拓扑结构域识别方法,1)将tad识别问题转化为了网络中的社区识别问题,有效且合理地整合了传统的社区发现算法infomap和神经网络方法,优势互补,能够更加准确地预测tad;

16、2)本公开假设tad边界的锚定对tad的形成起决定作用,因此,通过对tad边界特征的把握,定义了三种描述tad边界在hi-c矩阵中的边界特征,使得算法更加准确识别tad边界;

17、3)本公开可以预测更加精细的多层级tad结构,包括嵌套tad(子tad)和部分重叠tad,并且定义了tad相应的层级,方便后续的研究;

18、4)本公开设计的预测tad的模型能够在不同测序深度的hi-c数据下保持稳定且准确的输出,具有优秀的鲁棒性。

本文档来自技高网...

【技术保护点】

1.基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,包括:

2.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,预处理为:对Hi-C接触矩阵进行全局归一化,将Hi-C接触矩阵概念化为加权无向网络,并沿Hi-C接触矩阵对角线的滑动窗口捕捉固定大小的子矩阵,将所述子矩阵视为无向加权子网络。

3.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,利用网络上随机行走的概率流来模拟系统内的信息流,并通过压缩这些概率流的描述将加权无向网络分解成社区,对于任何子网络,利用社群发现算法将其划分为相互独立的社区。

4.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,从相互独立的社区中,提取候选双边界包括:每个社区为单调递增的bin序列,判断每个bin序列中的点是全部平衡点或者部分平衡点,若是个bin序列中的点都是平衡点,则该bin序列为平衡序列,否则为部分平衡序列,若是bin序列为平衡序列,则该bin序列中得到两个双边界。

5.如权利要求4所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,当bin序列为部分平衡序列时,则包含右平衡bin集合和左平衡bin集合,然后在部分平衡序列里提取双边界集合,最后将由所有子矩阵中搜索出来的双边界组成候选双边界集合。

6.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,候选双边界的边界局部特征包括:利用完全从Hi-C接触矩阵中得出的三个边界局部特征,包括局部交互密度、方向性指数和Wilcoxon 秩和检验的p值,所述局部交互密度为衡量双边界在Hi-C接触矩阵中的局部相互作用频率,方向性指数为量化给定分区的上游或下游偏差程度。

7.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,将候选双边界的边界局部特征最后表示为多维特征向量,设计 MLP 神经网络模型对TAD双边界的特征进行学习,所述MLP神经网络模型由6层组成,其中第一层由多个神经元组成,用于接受多维特征向量,4个隐藏层分别包含 512、128、32 和4个神经元,最后一层由一个神经元组成,表示双边界的可靠性分数。

8.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,筛选被保留的候选双边界的方法包括:将集合中所有候选双边界划分为五部分区域,并对所述五部分区域设置相应的保留阈值,将所述预测得分与保留阈值相比较,当预测得分大于保留阈值时,该预测得分对应的候选双边界将被保留,被保留下的候选双边界组成可靠边界集。

9.如权利要求8所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,将集合中所有候选双边界根据社群发现算法支持的计数划分为五部分区域,然后,为这五部分区域分别设置5个保留阈值,满足设定条件的候选双边界将被保留。

10.基于社区发现的多层次染色质拓扑结构域识别系统,其特征在于,包括:

...

【技术特征摘要】

1.基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,包括:

2.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,预处理为:对hi-c接触矩阵进行全局归一化,将hi-c接触矩阵概念化为加权无向网络,并沿hi-c接触矩阵对角线的滑动窗口捕捉固定大小的子矩阵,将所述子矩阵视为无向加权子网络。

3.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,利用网络上随机行走的概率流来模拟系统内的信息流,并通过压缩这些概率流的描述将加权无向网络分解成社区,对于任何子网络,利用社群发现算法将其划分为相互独立的社区。

4.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,从相互独立的社区中,提取候选双边界包括:每个社区为单调递增的bin序列,判断每个bin序列中的点是全部平衡点或者部分平衡点,若是个bin序列中的点都是平衡点,则该bin序列为平衡序列,否则为部分平衡序列,若是bin序列为平衡序列,则该bin序列中得到两个双边界。

5.如权利要求4所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,当bin序列为部分平衡序列时,则包含右平衡bin集合和左平衡bin集合,然后在部分平衡序列里提取双边界集合,最后将由所有子矩阵中搜索出来的双边界组成候选双边界集合。

6.如权利要求1所述的基于社区发现的多层次染色质拓扑结构域识别方法,其特征在于,候选双...

【专利技术属性】
技术研发人员:柳军涛刘洋洋
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1