基于生物信息的单核苷酸变异致病性分类方法及系统技术方案

技术编号:39860734 阅读:23 留言:0更新日期:2023-12-30 12:55
本发明专利技术涉及基于生物信息的单核苷酸变异致病性分类方法及系统,包括以下步骤:获取每个

【技术实现步骤摘要】
基于生物信息的单核苷酸变异致病性分类方法及系统


[0001]本专利技术涉及生物信息计算
,具体为基于生物信息的单核苷酸变异致病性分类方法及系统


技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术

[0003]随着基因测序技术的发展,产生了大量的基因序列数据,例如多重序列比对
(Multiple Sequence Alignment

MSA)
,其中单核苷酸变异
(Single Nucleotide Variants

SNV)
会导致囊胞性纤维症

马方综合征

早老性痴呆

癌症等超过
6000
种疾病,单核苷酸变异对个体的遗传特征和疾病风险具有重要影响,通过传统的生物实验方法确定单核苷酸变异对个体影响时,需要依赖细胞培养与转染,表达分析与功能鉴定等复杂的实验过程,导致成本高且耗时长

[0004]而采用机器学习的方式时,以监督学习方法为例,需要大量带有标签的数据作为训练数据集,标签的质量以及数目对机器学习的效果有重要影响,而单核苷酸变异的致病性标签需要进行生物实验验证或人工标注,需要消耗大量的时间

资源和人力

[0005]其次,人体的基因组中大约有
300
万个单核苷酸变异,但目前确定的致病性标签数目不过几千条,对于大多数单核苷酸变异,尤其是罕见的变异,则缺乏准确的致病性标签,这会使得标签稀疏并且不平衡,使得训练得到的模型对少数类别
(
例如致病性
)
的学习效果不足,容易出现误差

[0006]再次,生物实验方法的选择和可行性也可能对标签的准确性产生影响

某些实验方法可能无法完全模拟单核苷酸变异在真实生物环境中的作用,从而导致标签的偏差

与此同时,由于不同患者之间的遗传背景

环境因素和疾病特征的差异,对于相同的单核苷酸变异可能存在不一致的临床表现和致病性评估,这种异质性可能导致标签出现噪声和偏差,影响模型的学习效果


技术实现思路

[0007]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供基于生物信息的单核苷酸变异致病性分类方法及系统,使用通道注意力机制对数据进行预处理,之后使用改进的变分自回归
(Variational Auto Regressive

VAR)
模型学习
DNA
的序列分布,并学习出该
DNA
每个单核苷酸变异的进化指数,使用高斯混合模型对进化指数进行聚类,最终得到每个单核苷酸变异致病性的细化分类

[0008]为了实现上述目的,本专利技术采用如下技术方案:
[0009]本专利技术的第一个方面提供基于生物信息的单核苷酸变异致病性分类方法,包括以下步骤:
[0010]获取每个
DNA
的多重序列比对,经预处理获得每个核苷酸的位置及每条核苷酸序
列的重要性,将得到的重要性作为权重分配到对应的核苷酸序列上,形成输入矩阵;
[0011]根据得到的输入矩阵对
DNA
序列采样,基于带有自注意力机制的变分自回归模型器,学习
DNA
序列的概率分布;
[0012]根据得到的概率分布计算每个单核苷酸变异序列的进化指数,进化指数为单核苷酸变异序列与野生型序列的对数似然差异;
[0013]将得到的进化指数拟合成为多个簇,分别对应单核苷酸变异序列的致病性概率,将单核苷酸变异序列的致病性概率划分为良性

可能良性

可能致病

致病和不确定意义五个类别

[0014]获取每个
DNA
的多重序列比对,经预处理获得每个核苷酸位置及每条核苷酸序列的重要性;具体为:
[0015]获取每个
DNA
的多重序列比对文件,对序列进行独热编码,编码中至少包含序列长度和核苷酸种类数,并进行转置处理;
[0016]基于通道注意力机制并行处理,获取每个核苷酸位置及每条核苷酸序列的重要性

[0017]基于通道注意力机制并行处理,获取每个核苷酸位置及每条核苷酸序列的重要性,将得到的重要性作为权重分配到对应的核苷酸序列上,形成输入矩阵;具体为:
[0018]基于全局平均池化将压缩每个通道的维度至一维;
[0019]基于稀疏
Softmax
编码,得到一维矩阵的相对重要性;
[0020]将得到的相对重要性作为权重,分配到对应的序列及核苷酸列上,得到经预处理后的数据作为输入矩阵

[0021]基于带有自注意力机制的变分自回归模型器包括参数对应的编码器和解码器;
[0022]编码器根据给定的多重序列比对
S
中,每条序列
S
i
都服从一个后验分布,基于自注意力机制与线性层拟合后验分布的均值和标准差,实现编码;
[0023]解码器使用自回归模型将输入的隐变量重构为近似序列
s
i
'
,并输出
DNA
序列的近似概率分布

[0024]编码器的具体过程为:
[0025]将线性层学到的序列分布式特征表示通过跨通道信息整合和一维卷积映射到查询矩阵

键矩阵和值矩阵;
[0026]对查询矩阵和键矩阵执行矩阵乘法计算二者的相关性;
[0027]归一化处理得到注意力概率分布;
[0028]将注意力概率分布作为值矩阵的权重系数与原始特征进行加权求和,得到注意力模块的输出;
[0029]通过线性层获取均值
μ
和标准差
σ
,采用重参数化技巧采样得到隐变量
z

μ
+rnv
·
σ
,其中
rnv
为从标准正态分布
N(0,1)
中采样得到的随机变量

[0030]解码器的具体过程为:
[0031]将隐变量
z
与输入序列进行拼接,对拼接后的增强输入进行嵌入,将其转化为一个固定维度的向量表示,对嵌入向量进行位置编码,保留隐变量和序列的相对位置;
[0032]经过编码器对序列中不同位置间的关系进行建模,并进一步处理序列的表示;
[0033]经过解码器中的掩码多注意力机制

自注意力机制和前馈神经网络的迭代,逐步
生成
DNA
的近似序列;
[0034]通过输出层对每个位置上的核苷酸进行概率建模
。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于生物信息的单核苷酸变异致病性分类方法,其特征在于,包括以下步骤:获取每个
DNA
的多重序列比对,经预处理获得每个核苷酸的位置及每条核苷酸序列的重要性,将得到的重要性作为权重分配到对应的核苷酸序列上,形成输入矩阵;根据得到的输入矩阵对
DNA
序列采样,基于带有自注意力机制的变分自回归模型器,学习
DNA
序列的概率分布;根据得到的概率分布计算每个单核苷酸变异序列的进化指数,进化指数为单核苷酸变异序列与野生型序列的对数似然差异;将得到的进化指数拟合成为多个簇,分别对应单核苷酸变异序列的致病性概率,将单核苷酸变异序列的致病性概率划分为良性

可能良性

可能致病

致病和不确定意义五个类别
。2.
如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,获取每个
DNA
的多重序列比对,经预处理获得每个核苷酸位置及每条核苷酸序列的重要性;具体为:获取每个
DNA
的多重序列比对文件,对序列进行独热编码,编码中至少包含序列长度和核苷酸种类数,并进行转置处理;基于通道注意力机制并行处理,获取每个核苷酸位置及每条核苷酸序列的重要性
。3.
如权利要求2所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,基于通道注意力机制并行处理,获取每个核苷酸位置及每条核苷酸序列的重要性,将得到的重要性作为权重分配到对应的核苷酸序列上,形成输入矩阵;具体为:基于全局平均池化将压缩每个通道的维度至一维;基于稀疏
Softmax
编码,得到一维矩阵的相对重要性;将得到的相对重要性作为权重,分配到对应的序列及核苷酸列上,得到经预处理后的数据作为输入矩阵
。4.
如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,基于带有自注意力机制的变分自回归模型器包括参数对应的编码器和解码器;编码器根据给定的多重序列比对
S
中,每条序列
S
i
都服从一个后验分布,基于自注意力机制与线性层拟合后验分布的均值和标准差,实现编码;解码器使用自回归模型将输入的隐变量重构为近似序列
s
i
'
,并输出
DNA
序列的近似概率分布
。5.
如权利要求4所述的基于生物信息的单核苷酸变异致病性分类方法,其特征在于,编码器实现编码的具体过程为:将线性层学到的序列分布式特征表示通过跨通道信息整合和一维卷积映射到查询矩阵

键矩阵和值矩阵;对查询矩阵和键矩阵执行矩阵乘法计算二者的相关性;归一化处理得到注意力概率分布;将注意力概率分布作为值矩阵的权重系数与原始特征进行加权求和,得到注意力模块的输出;通过线性层获取均值
μ
和标准差
σ
,采用重参数化技巧采样得到隐变量
z

μ
+rnv
...

【专利技术属性】
技术研发人员:郝凡昌柏苛
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1