【技术实现步骤摘要】
癌症基因组Hi-C数据仿真方法、装置和电子设备
本申请涉及基因组学
,具体而言,涉及一种癌症基因组Hi-C数据仿真方法、装置和电子设备。
技术介绍
高通量染色体构象捕获技术(High-throughputchromosomeconformationcapture,Hi-C)是利用高通量测序技术,结合生物信息学分析方法,研究全基因组范围内整个染色质脱氧核糖核酸(DeoxyriboNucleicAcid,DNA)在空间位置上的关系,构建染色体跨度单体型,同时捕获不同基因座位之间的空间交互信息,获得高分辨率的染色质三维结构信息,并能开发调控基因的DNA元件的技术。基于Hi-C技术得到的Hi-C测序数据表示了所有酶切片段间的互作频率图谱,后续可转化为交互矩阵等形式,以用于三维基因组学分析。癌症细胞系的基因组存在着复杂的染色体结构变异,染色体结构的变异改变了不同染色体区间的测序可及性(测序深度)及原有的三维结构,因此其Hi-C数据也会产生相应的变化。目前,一般通过基于染色体互作频率随基因组距离增加而下降的平均衰退曲线模拟癌症基因组的Hi-C数据,但是这种方法不能反映不同基因组位置的特异性互作特征,同时,可模拟的结构变异情形有限,不能支持模拟染色体倒转或者多个易位染色体连续连接等复杂情形。
技术实现思路
有鉴于此,本申请提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备,以解决上述问题。本申请的实施例可以这样实现:第一方面,本申请实施例提供一种癌症基因组Hi-C数据 ...
【技术保护点】
1.一种癌症基因组Hi-C数据仿真方法,其特征在于,应用于电子设备,所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵,所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系,所述方法包括:/n响应操作指令,对所述参考基因组进行染色体结构变异,得到癌症基因组和所述癌症基因组的染色体结构变异特征;/n响应酶切指令,对所述癌症基因组进行切割,得到多个癌症酶切片段;/n获取所述多个参考酶切片段的基因信息;/n根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据。/n
【技术特征摘要】
1.一种癌症基因组Hi-C数据仿真方法,其特征在于,应用于电子设备,所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵,所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系,所述方法包括:
响应操作指令,对所述参考基因组进行染色体结构变异,得到癌症基因组和所述癌症基因组的染色体结构变异特征;
响应酶切指令,对所述癌症基因组进行切割,得到多个癌症酶切片段;
获取所述多个参考酶切片段的基因信息;
根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据。
2.根据权利要求1所述的癌症基因组Hi-C数据仿真方法,其特征在于,所述多个参考酶切片段和所述交互频率矩阵是按照以下方式进行建立的:
获取参考基因组、所述参考基因组对应的多个酶切片段及非癌症细胞系的Hi-C数据;
将所述非癌症细胞系的Hi-C数据与所述参考基因组进行序列比对,得到多个参考测序片段,其中,每个所述参考测序片段均包括两个连接的酶切片段;
根据每个所述参考测序片段中包括的两个酶切片段的互作关系,建立所述交互频率矩阵;
将所有酶切片段中未在任意一个参考测序片段中出现的酶切片段去除,得到多个所述参考酶切片段。
3.根据权利要求1所述的癌症基因组Hi-C数据仿真方法,其特征在于,所述根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息,得到所述癌症基因组的仿真Hi-C数据的步骤包括:
根据所述交互频率矩阵和所述染色体结构变异特征,计算每个所述癌症酶切片段的概率分布;
基于每个所述癌症酶切片段的概率分布,对每个所述癌症酶切片段进行模拟测序,得到多个癌症测序片段,其中,每个所述癌症测序片段均包括两个连接的癌症酶切片段;
根据每个所述癌症测序片段中包括的两个癌症酶切片段,得到每个所述癌症酶切片段之间的互作关系;
获取所述多个参考酶切片段的基因信息;
根据所述基因信息以及所述多个癌症酶切片段之间的互作关系,得到所述癌症基因组的仿真Hi-C数据。
4.根据权利要求3所述的癌症基因组Hi-C数据仿真方法,其特征在于,所述概率分布包括第一概率分布和第二概率分布;
所述根据所述交互频率矩阵和所述染色体结构变异特征,计算每个癌症酶切片段的概率分布的步骤包括:
根据所述染色体结构变异特征,确定每个所述癌症酶切片段与每个所述参考酶切片段之间的对应关系以及每个所述癌症酶切片段的拷贝数;
根据所述交互频率矩阵,计算每个所述参考酶切片段的初始概率分布;
根据所述对应关系,将每个所述参考酶切片段的初始概率分布作为对应的每个所述癌症酶切片段的初始概率分布;
将每个所述癌症酶切片段的初始概率分布与所述拷贝数的乘积,作为每个所述癌症酶切片段的中间采样频率;
对所有所述中间采样频率进行归一化处理...
【专利技术属性】
技术研发人员:陈河兵,洪浩,李昊,江帅,杜桂芳,陶欢,孙昱,王军婷,许康,伯晓晨,
申请(专利权)人:中国人民解放军军事科学院军事医学研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。