System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于遗传变异分析,具体涉及一种基于深度学习模型的遗传变异致病性预测方法及系统。
技术介绍
1、在生物学中,“生物上下文”通常指的是生物体所处的环境、条件或情境,这些环境、条件或情境对生物体的生存、繁衍和功能发挥具有重要影响。“错义变体”指的是在蛋白质编码基因中发生的能够改变蛋白质氨基酸序列的遗传变体。在计算机科学和人工智能领域,“非局部交互”通常指的是在数据处理或模型构建过程中,考虑数据或特征之间的远程依赖关系,即不局限于局部邻域内的交互。基于上述学科基础,在遗传学和基因组学领域中,准确地预测遗传变异的致病性对于疾病的诊断、治疗和个性化医疗有着重大的意义。较为传统的预测主要依赖于序列比对、生物信息学分析和功能实验,这些方法往往耗时较长且成本高昂。随着深度学习技术的发展,基于图像处理和机器学习的新方法逐渐成为遗传变异预测的主流。
2、现有方法中,主要有mutationseq、primateai和clinpred这几种深度学习模型被开发应用于预测遗传变异的致病性。现有方法通常基于序列数据直接构建模型,再通过学习变异周围的核苷酸序列模式来预测遗传变异的致病性。例如,mutationseq使用支持单行向量机算法来分类变异,而primateai则依赖于深度神经网络来评估变异在灵长类动物中的保守性。至于clinpred,则结合了多个数据库中的信息,使用机器学习方法来预测变异的致病性。依赖于上述深度学习模型整体的技术方案大同小异,具体步骤为:(1)数据预处理,将序列数据转换为适合对应深度学习模型的格式;(2)模型训练,使
3、尽管上述方法在遗传变异致病性预测方面取得了进展,但他们均存在一些局限性。首先,大多数现有技术主要关注序列本身的特征,而忽略了变异背后更复杂的生物上下文和非局部交互。其次,这些方法在处理大规模遗传数据时往往需要占用大量的计算资源和时间,这限制了它们在临床和实质研究中的实用性。最后,对于体细胞变异特别是癌症相关的变异预测,上述现有方法的准确度和泛化能力还有待提高。
技术实现思路
1、针对现有技术的不足,本专利技术提供一种基于深度学习模型的遗传变异致病性预测方法及系统,用于解决现有技术中存在的问题。
2、第一方面,为实现上述目的,本专利技术提供一种基于深度学习模型的遗传变异致病性预测方法,其包括:
3、s1:将每个错义变体的参考序列、变异序列及致病性预测分数进行编码,分别得到对应rgb像素图像中r、g和b三个通道的编码图像;
4、s2:将r、g和b通道的编码图像置入deepvarpred深度模型中训练,输出致病性概率分数;
5、其中,deepvarpred深度模型包括:
6、第一最大池化层,用于对r、g和b三个通道的编码图像进行空间特征提取,得到多个待卷积图像;
7、连续卷积层,用于对多个待卷积图像进行卷积,得到多个待池化图像;
8、第二最大池化层,用于对待池化图像进行空间特征提取,得到多个待整合图像;
9、全连接层,用于对多个待整合图像进行整合,得到致病性概率分数。
10、通过上述技术方案,参考序列、变异序列及致病性预测分数能够部分解释变异的生物上下文。变异序列展示了基因多样性,但需要其他数据来全面理解其功能。致病性预测分数评估变异的潜在影响,但全面理解非局部交互仍需更多实验数据和复杂分析。基于此,本专利技术通过独创的deepvarpred深度模型对r、g和b三个通道的编码图像进行深度训练,最终得到致病性概率分数,从而实现遗传变异致病性的预测。相较于现有技术,deepvarpred引入了一种基于图像的深度学习框架,将遗传变异和其相关的多种生物信息编码转换为rgb图像,再利用深度卷积神经网络进行分析,这种方法不仅能够捕捉到序列数据的局部特征,还能通过图像形式反映变异的复杂生物学背景和全局信息,从而在考虑生物上下文和非局部交互的基础上,提高了预测的准确性和效率。
11、优选的,r、g和b通道对应的三个编码图像的像素尺寸均为n×n;待卷积图像共有8个,每个待卷积图像的像素尺寸为m×m;待池化图像共有12个,每个待池化图像的像素尺寸为a×a;待整合图像共有12张,像素尺寸为
12、其中,每个编码图像的像素对应一个参考序列的子位置;3n>m>2n,n≥128,a≥48。
13、通过上述技术方案,deepvarpred针对遗传和体细胞变异其模型架构的层级尺寸和通道数可以根据实际情况改变,从而进一步优化了对不同类型变异致病性预测的性能。
14、优选的,将每个错义变体的参考序列进行编码,得到rgb像素图像中r通道的编码图像包括:
15、将排序后的参考序列评分数组作为r通道评分单行数组;
16、将r通道评分单行数组转换为n×n矩阵,作为r通道的编码图像;
17、其中,r通道评分单行数组内各数值的数据类型为double型,其取值范围为0-1,0表示良性,1表示致病。
18、优选的,将每个错义变体的变异序列进行编码,得到rgb像素图像中g通道的编码图像包括:
19、将排序后的变异序列评分数组作为g通道评分单行数组;
20、将g通道评分单行数组转换为n×n矩阵,作为g通道的编码图像;
21、其中,g通道评分单行数组内各数值的数据类型为double型,其取值范围为0-1,0表示良性,1表示致病。
22、优选的,将每个错义变体的致病性预测分数进行编码,得到对应rgb像素图像中b的编码图像包括:
23、将排序后的致病性预测分数数组作为b通道评分单行数组;
24、将b通道评分单行数组转换为n×n矩阵,作为b通道的编码图像;
25、其中,b通道评分单行数组内各数值的数据类型为double型,其取值范围为0-1,0表示良性,1表示致病。
26、优选的,致病性预测分数采用sift、polyphen2、vest4、metasvm、gerp、revel、mvp、primateai、deogen2或cadd方法获得。
27、优选的,在步骤s1之后,本专利技术方法还包括:
28、将r、g和b三个通道的编码图像进行混叠,得到rgb图形。
29、优选的,在将每个错义变体的参考序列、变异序列及致病性预测分数进行编码之后,本专利技术方法还包括:
30、对每个错义变体的参考序列、变异序列及致病性预测分数编码后的数据进行清洗和标准化处理。
31、第二方面,为实现上述目的,本专利技术还提供了一种基于深度学习模型的遗传变异致病性预测系统,该系统包括:
32、错义变体编码模块,用于将每个错义变体的参考序列、变异序列及致病性预测分数进行编码,分别得到对应rgb像素图像中r、g和b三个通道的编码图像;
...
【技术保护点】
1.一种基于深度学习模型的遗传变异致病性预测方法,其特征在于,包括:
2.根据权利要求1的基于深度学习模型的遗传变异致病性预测方法,其特征在于,R、G和B通道对应的三个编码图像的像素尺寸均为n×n;待卷积图像共有8个,每个待卷积图像的像素尺寸为m×m;所述待池化图像共有12个,每个待池化图像的像素尺寸为a×a;所述待整合图像共有12张,像素尺寸为
3.根据权利要求2所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,所述步骤S1中将每个错义变体的参考序列进行编码,得到RGB像素图像中R通道的编码图像包括:
4.根据权利要求2所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,所述步骤S1中将每个错义变体的变异序列进行编码,得到RGB像素图像中G通道的编码图像包括:
5.根据权利要求3或4所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,所述步骤S1中将每个错义变体的致病性预测分数进行编码,得到对应RGB像素图像中B的编码图像包括:
6.根据权利要求1所述的基于深度学习模型的遗传变异致病性预测方法
7.根据权利要求1所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,在所述步骤S1之后,所述方法还包括:
8.根据权利要求1所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,在所述将每个错义变体的参考序列、变异序列及致病性预测分数进行编码之后,本专利技术方法还包括:
9.一种基于深度学习模型的遗传变异致病性预测系统,其特征在于,包括:
...【技术特征摘要】
1.一种基于深度学习模型的遗传变异致病性预测方法,其特征在于,包括:
2.根据权利要求1的基于深度学习模型的遗传变异致病性预测方法,其特征在于,r、g和b通道对应的三个编码图像的像素尺寸均为n×n;待卷积图像共有8个,每个待卷积图像的像素尺寸为m×m;所述待池化图像共有12个,每个待池化图像的像素尺寸为a×a;所述待整合图像共有12张,像素尺寸为
3.根据权利要求2所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,所述步骤s1中将每个错义变体的参考序列进行编码,得到rgb像素图像中r通道的编码图像包括:
4.根据权利要求2所述的基于深度学习模型的遗传变异致病性预测方法,其特征在于,所述步骤s1中将每个错义变体的变异序列进行编码,得到rgb像素图像中g通道的编码图像包括:
5.根据权利要求3或4所述的基于深度学习模型...
【专利技术属性】
技术研发人员:方阳,张琳琳,许红恩,时倩倩,丁杨楠,高金爽,郭亚清,张凯,马军,
申请(专利权)人:郑州大学第三附属医院河南省妇幼保健院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。