癌症基因组Hi-C数据仿真方法、装置和电子设备制造方法及图纸

技术编号:25525595 阅读:26 留言:0更新日期:2020-09-04 17:14
本申请实施例提供了一种癌症基因组Hi‑C数据仿真方法、装置和电子设备,涉及基因组学技术领域。该方法可通过指定的变异方式,模拟癌症基因组的染色体结构变异,以交互频率矩阵和参考酶切片段的基因信息作为模板,结合所述染色体结构变异特征得到所述癌症基因组的仿真Hi‑C数据,支持模拟染色体多种变异情况,可反映癌症基因组不同位置的互作特征,从而提高了对癌症基因组Hi‑C数据进行仿真的准确性。

【技术实现步骤摘要】
癌症基因组Hi-C数据仿真方法、装置和电子设备
本申请涉及基因组学
,具体而言,涉及一种癌症基因组Hi-C数据仿真方法、装置和电子设备。
技术介绍
高通量染色体构象捕获技术(High-throughputchromosomeconformationcapture,Hi-C)是利用高通量测序技术,结合生物信息学分析方法,研究全基因组范围内整个染色质脱氧核糖核酸(DeoxyriboNucleicAcid,DNA)在空间位置上的关系,构建染色体跨度单体型,同时捕获不同基因座位之间的空间交互信息,获得高分辨率的染色质三维结构信息,并能开发调控基因的DNA元件的技术。基于Hi-C技术得到的Hi-C测序数据表示了所有酶切片段间的互作频率图谱,后续可转化为交互矩阵等形式,以用于三维基因组学分析。癌症细胞系的基因组存在着复杂的染色体结构变异,染色体结构的变异改变了不同染色体区间的测序可及性(测序深度)及原有的三维结构,因此其Hi-C数据也会产生相应的变化。目前,一般通过基于染色体互作频率随基因组距离增加而下降的平均衰退曲线模拟癌症基因组的Hi-C数据,但是这种方法不能反映不同基因组位置的特异性互作特征,同时,可模拟的结构变异情形有限,不能支持模拟染色体倒转或者多个易位染色体连续连接等复杂情形。
技术实现思路
有鉴于此,本申请提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备,以解决上述问题。本申请的实施例可以这样实现:第一方面,本申请实施例提供一种癌症基因组Hi-C数据仿真方法,应用于电子设备,所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵,所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系,所述方法包括:响应操作指令,对所述参考基因组进行染色体结构变异,得到癌症基因组和所述癌症基因组的染色体结构变异特征;响应酶切指令,对所述癌症基因组进行切割,得到多个癌症酶切片段;获取所述多个参考酶切片段的基因信息;根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据。在可选的实施方式中,所述多个参考酶切片段和所述交互频率矩阵是按照以下方式进行建立的:获取参考基因组、所述参考基因组对应的多个酶切片段及非癌症细胞系的Hi-C数据;将所述非癌症细胞系的Hi-C数据与所述参考基因组进行序列比对,得到多个参考测序片段,其中,每个所述参考测序片段均包括两个连接的酶切片段;根据每个所述参考测序片段中包括的两个酶切片段的互作关系,建立所述交互频率矩阵;将所有酶切片段中未在任意一个参考测序片段中出现的酶切片段去除,得到多个所述参考酶切片段。在可选的实施方式中,所述根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据的步骤包括:根据所述交互频率矩阵和所述染色体结构变异特征,计算每个所述癌症酶切片段的概率分布;基于每个所述癌症酶切片段的概率分布,对每个所述癌症酶切片段进行模拟测序,得到多个癌症测序片段,其中,每个所述癌症测序片段均包括两个连接的癌症酶切片段;根据每个所述癌症测序片段中包括的两个癌症酶切片段,得到每个所述癌症酶切片段之间的互作关系;获取所述多个参考酶切片段的基因信息;根据所述基因信息以及所述多个癌症酶切片段之间的互作关系,得到所述癌症基因组的仿真Hi-C数据。在可选的实施方式中,所述概率分布包括第一概率分布和第二概率分布;所述根据所述交互频率矩阵和所述染色体结构变异特征,计算每个癌症酶切片段的概率分布的步骤包括:根据所述染色体结构变异特征,确定每个所述癌症酶切片段与每个所述参考酶切片段之间的对应关系以及每个所述癌症酶切片段的拷贝数;根据所述交互频率矩阵,计算每个所述参考酶切片段的初始概率分布;根据所述对应关系,将每个所述参考酶切片段的初始概率分布作为对应的每个所述癌症酶切片段的初始概率分布;将每个所述癌症酶切片段的初始概率分布与所述拷贝数的乘积,作为每个所述癌症酶切片段的中间采样频率;对所有所述中间采样频率进行归一化处理,得到每个所述癌症酶切片段的第一概率分布;在所述交互频率矩阵中,查找每个所述癌症酶切片段所在的列;查找该列中对应的第一概率分布,并利用每个所述癌症酶切片段所在列的列向量除以该第一概率分布,得到每个所述癌症酶切片段的第二概率分布。在可选的实施方式中,所述基于所述概率分布,对所述癌症酶切片段进行模拟测序,得到多个癌症测序片段的步骤包括:基于所述第一概率分布,按照蒙特卡洛采样法对所述癌症基因组包括的所有癌症酶切片段进行采样,得到每个所述癌症测序片段的第一端的第一癌症酶切片段;当确定存在与任意一个参考酶切片段一致的第一癌症酶切片段时,基于所述第二概率分布,按照蒙特卡洛采样法对所述癌症基因组包括的所有癌症酶切片段进行采样,得到每个所述癌症测序片段的第二端的第二癌症酶切片段;当确定不存在与任意一个参考酶切片段一致的第一癌症酶切片段时,基于所述染色体结构变异特征,查找所述交互频率矩阵,得到每个所述癌症测序片段的第二端的第二癌症酶切片段;对每个所述第一癌症酶切片段和每个所述第二癌症酶切片段进行拼接,得到多个癌症测序片段。在可选的实施方式中,所述染色体结构变异特征包括拷贝数变异、删除、易位和倒转中的至少一种。在可选的实施方式中,所述基因信息包括每个参考酶切片段的正链信息、负链信息及每个参考酶切片段与酶切位点之间的距离信息。第二方面,本申请实施例还提供了一种癌症基因组Hi-C数据仿真装置,应用于电子设备,所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵,所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系,所述装置包括:第一响应模块,用于响应操作指令,对所述参考基因组进行染色体结构变异,得到癌症基因组和所述癌症基因组的染色体结构变异特征。第二响应模块,用于响应酶切指令,对所述癌症基因组进行切割,得到多个癌症酶切片段。获取模块,用于获取所述多个参考酶切片段的基因信息。仿真模块,用于根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据。第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述的癌症基因组Hi-C数据仿真方法的步骤。第四方面,本申请实施例还提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,计算机程序被执行时实现上述的癌症基因组Hi-C数据仿真方法。本申请实施例提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备,该方本文档来自技高网...

【技术保护点】
1.一种癌症基因组Hi-C数据仿真方法,其特征在于,应用于电子设备,所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵,所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系,所述方法包括:/n响应操作指令,对所述参考基因组进行染色体结构变异,得到癌症基因组和所述癌症基因组的染色体结构变异特征;/n响应酶切指令,对所述癌症基因组进行切割,得到多个癌症酶切片段;/n获取所述多个参考酶切片段的基因信息;/n根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据。/n

【技术特征摘要】
1.一种癌症基因组Hi-C数据仿真方法,其特征在于,应用于电子设备,所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵,所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系,所述方法包括:
响应操作指令,对所述参考基因组进行染色体结构变异,得到癌症基因组和所述癌症基因组的染色体结构变异特征;
响应酶切指令,对所述癌症基因组进行切割,得到多个癌症酶切片段;
获取所述多个参考酶切片段的基因信息;
根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据。


2.根据权利要求1所述的癌症基因组Hi-C数据仿真方法,其特征在于,所述多个参考酶切片段和所述交互频率矩阵是按照以下方式进行建立的:
获取参考基因组、所述参考基因组对应的多个酶切片段及非癌症细胞系的Hi-C数据;
将所述非癌症细胞系的Hi-C数据与所述参考基因组进行序列比对,得到多个参考测序片段,其中,每个所述参考测序片段均包括两个连接的酶切片段;
根据每个所述参考测序片段中包括的两个酶切片段的互作关系,建立所述交互频率矩阵;
将所有酶切片段中未在任意一个参考测序片段中出现的酶切片段去除,得到多个所述参考酶切片段。


3.根据权利要求1所述的癌症基因组Hi-C数据仿真方法,其特征在于,所述根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据的步骤包括:
根据所述交互频率矩阵和所述染色体结构变异特征,计算每个所述癌症酶切片段的概率分布;
基于每个所述癌症酶切片段的概率分布,对每个所述癌症酶切片段进行模拟测序,得到多个癌症测序片段,其中,每个所述癌症测序片段均包括两个连接的癌症酶切片段;
根据每个所述癌症测序片段中包括的两个癌症酶切片段,得到每个所述癌症酶切片段之间的互作关系;
获取所述多个参考酶切片段的基因信息;
根据所述基因信息以及所述多个癌症酶切片段之间的互作关系,得到所述癌症基因组的仿真Hi-C数据。


4.根据权利要求3所述的癌症基因组Hi-C数据仿真方法,其特征在于,所述概率分布包括第一概率分布和第二概率分布;
所述根据所述交互频率矩阵和所述染色体结构变异特征,计算每个癌症酶切片段的概率分布的步骤包括:
根据所述染色体结构变异特征,确定每个所述癌症酶切片段与每个所述参考酶切片段之间的对应关系以及每个所述癌症酶切片段的拷贝数;
根据所述交互频率矩阵,计算每个所述参考酶切片段的初始概率分布;
根据所述对应关系,将每个所述参考酶切片段的初始概率分布作为对应的每个所述癌症酶切片段的初始概率分布;
将每个所述癌症酶切片段的初始概率分布与所述拷贝数的乘积,作为每个所述癌症酶切片段的中间采样频率;
对所有所述中间采样频率进行归一化处理...

【专利技术属性】
技术研发人员:陈河兵洪浩李昊江帅杜桂芳陶欢孙昱王军婷许康伯晓晨
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1