【技术实现步骤摘要】
基于生物信息的单核苷酸变异致病性分类方法及系统
[0001]本专利技术涉及生物信息计算
,具体为基于生物信息的单核苷酸变异致病性分类方法及系统
。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术
。
[0003]随着基因测序技术的发展,产生了大量的基因序列数据,例如多重序列比对
(Multiple Sequence Alignment
;
MSA)
,其中单核苷酸变异
(Single Nucleotide Variants
,
SNV)
会导致囊胞性纤维症
、
马方综合征
、
早老性痴呆
、
癌症等超过
6000
种疾病,单核苷酸变异对个体的遗传特征和疾病风险具有重要影响,通过传统的生物实验方法确定单核苷酸变异对个体影响时,需要依赖细胞培养与转染,表达分析与功能鉴定等复杂的实验过程,导致成本高且耗时长
。
[0004]而采用机器学习的方式时,以监督学习方法为例,需要大量带有标签的数据作为训练数据集,标签的质量以及数目对机器学习的效果有重要影响,而单核苷酸变异的致病性标签需要进行生物实验验证或人工标注,需要消耗大量的时间
、
资源和人力
。
[0005]其次,人体的基因组中大约有
300
万个单核苷酸变异,但目前确定的致病性标签数目不过几千条,对于大多 ...
【技术保护点】
【技术特征摘要】
1.
基于生物信息的单核苷酸变异致病性分类方法,其特征在于,包括以下步骤:获取每个
DNA
的多重序列比对,经预处理获得每个核苷酸的位置及每条核苷酸序列的重要性,将得到的重要性作为权重分配到对应的核苷酸序列上,形成输入矩阵;根据得到的输入矩阵对
DNA
序列采样,基于带有自注意力机制的变分自回归模型器,学习
DNA
序列的概率分布;根据得到的概率分布计算每个单核苷酸变异序列的进化指数,进化指数为单核苷酸变异序列与野生型序列的对数似然差异;将得到的进化指数拟合成为多个簇,分别对应单核苷酸变异序列的致病性概率,将单核苷酸变异序列的致病性概率划分为良性
、
可能良性
、
可能致病
、
致病和不确定意义五个类别
。2.
如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,获取每个
DNA
的多重序列比对,经预处理获得每个核苷酸位置及每条核苷酸序列的重要性;具体为:获取每个
DNA
的多重序列比对文件,对序列进行独热编码,编码中至少包含序列长度和核苷酸种类数,并进行转置处理;基于通道注意力机制并行处理,获取每个核苷酸位置及每条核苷酸序列的重要性
。3.
如权利要求2所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,基于通道注意力机制并行处理,获取每个核苷酸位置及每条核苷酸序列的重要性,将得到的重要性作为权重分配到对应的核苷酸序列上,形成输入矩阵;具体为:基于全局平均池化将压缩每个通道的维度至一维;基于稀疏
Softmax
编码,得到一维矩阵的相对重要性;将得到的相对重要性作为权重,分配到对应的序列及核苷酸列上,得到经预处理后的数据作为输入矩阵
。4.
如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,基于带有自注意力机制的变分自回归模型器包括参数对应的编码器和解码器;编码器根据给定的多重序列比对
S
中,每条序列
S
i
都服从一个后验分布,基于自注意力机制与线性层拟合后验分布的均值和标准差,实现编码;解码器使用自回归模型将输入的隐变量重构为近似序列
s
i
'
,并输出
DNA
序列的近似概率分布
。5.
如权利要求4所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,编码器实现编码的具体过程为:将线性层学到的序列分布式特征表示通过跨通道信息整合和一维卷积映射到查询矩阵
、
键矩阵和值矩阵;对查询矩阵和键矩阵执行矩阵乘法计算二者的相关性;归一化处理得到注意力概率分布;将注意力概率分布作为值矩阵的权重系数与原始特征进行加权求和,得到注意力模块的输出;通过线性层获取均值
μ
和标准差
σ
,采用重参数化技巧采样得到隐变量
z
=
μ
+rnv
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。